清华大学张武生:让数字孪生成为科研用户的智能代理与助手
清华大学,作为中国高层次人才培养和科学技术研究的重要基地,其数字化水平在业界也是遥遥领先。
记得2023年初,当大模型应用刚刚开始的时候,清华大学就率先开源了基于 GLM 架构研发的基座模型:ChatGLM-6B、GLM-130B,特殊业界为数不多站在大模型风口的应用,当时甚至与文心一言相提并论。不过作为一家高校,清华大学所希望的并不仅仅是应用的商业化,而是如何从技术上、从应用层面实现领先,而清华自身的应用研究也是五花八门。在日前数字中国万里行走进中国农业大学的主题研讨会上,来自清华大学高性能计算中心的高级工程师张武生就分享了清华大学算力平台的数字孪生建设情况。
数字孪生本身也是当下数字化应用中的热门内容。对于清华大学来说,由于算力平台众多、校区分布广泛,因此如何实现对于算力平台的有效管理一直就是运维技术人员头疼的问题。而如今通过数字孪生技术,运维人员可以清楚的看到各个平台的运行状态、算力分布情况等信息,这样就可以对科研应用进行全方位的统筹安排,更好的推动清华大学的科研技术工具分配,也有利于科研水平的提升。
清华大学高性能计算中心高级工程师 张武生
“数字孪生是我们近年来的一个新想法。我们希望在这些机器运行时,能有一个直观的环境来展示机器的运行状态,也希望通过这个环境简化一些工作量。我们的目标是在机器运行过程中,构建一个全景的三维表现,包括其环境和运行状态”,张武生介绍说。这其实也与高校算力平台的应用情况吻合。在数字中国万里行探访过的诸多高校中,运维人员不足是一个普遍存在的问题,这很大程度上也反映出了近些年算力需求的激增,各大高校都在努力升级最新的算力设备,从而出现了人力管理不足、需要快速借助数字化手段辅助的情况。而清华大学选择的数字孪生,则对于这种行业现状提供了全新的思路,也实现了实时的、可视化的统一管理与便捷运维等多重优势。
数字孪生首先要实现的就是全局规划。这里需要考虑的问题很多,比如数据中心的面积、空间等环境布局,还有服务器、网络等设备的建设等等。虽然这一步看起来非常繁琐,需要规划不同的设备,但正所谓“磨刀不误砍柴工”,优秀的早期规划可以很好的帮助管理者预估容量、性能甚至成本,也能够为后续的实施提供指导,做到心中有数。随后,管理者还需要将设备放入系统,了解适配的相关信息,这样就可以在界面上实现统一规划。
“机器到位后,根据前期规划进行上架。我们有一个程序自动完成系统安装。在整个机房空间里,我们放置管理节点和建立网络连接,这样机器就能动态地寻找计算节点,并将它们加入系统。”根据前期的准备,当服务器、网络等设备到位之后,系统就可以实现自动的配置与上架,“让数字成为现实”。这也通过这样的方式,张武生也就实现了数字孪生的初步物理布局,接下来要做的就是实现可应用的可视化界面。现场,他也展示了每层网络中的设备运行过程以及矩阵变化的可视化,这可以帮助管理者更好的实现基础管理。
除此之外,张武生及其团队也开发出了一款名为“YY game”的日常管理工具。它可以将用户的所有接口,无论是图形界面、命令行还是外部交互界面全部集成到浏览器中;此外还有一款名为“胶囊”的窗口容器也集成在浏览器中,可以兼容各种商业软件。虽然对于清华师生来说,命令行操作已经非常习惯,但该软件一经推出依然大受欢迎,谁能拒绝一款可视化界面的软件呢?
类似这样的工作张武生还进行了很多,比如可以组合多个应用的“Super APP”、比如可以应用在私有场景下的AI Store、HPC Store、Data Store桌面管理应用,再比如可以根据自己的研究方向和兴趣选择的APP store,这都大大方便了师生们的日常操作。“我们还开发了一个统计计费系统,并已经梳理了包括性能、使用效率、成本和投资收益等100多个参数在内的多维度指标。我们正在编写程序来实现这些统计工作,未来还将进行更复杂的统计分析”,在谈到数字孪生带来的优势时,张武生如数家珍。
除了优化管理之外,在如何提升科研效率方面,张武生及其团队也有了不小的贡献。如今的科研项目都是以团队进行的,而不同的研究团队对于数据的需求也不一致,但往往收集与下载数据本身就是一个漫长的过程。看到这一痛点,张武生开发出了一个“Data Store”,通过收集公开的数据集,可以让有兴趣的科研团队直接在后台直接挂载目录,这样就能大大降低数据应用的难度;搭配上同步开发的AI Store,师生可以在其中选择适配的AI工具,从而大大提升科研效率。
时至今日,在张武生及其团队的共同努力下,已经有越来越多的师生开始享受到数字孪生、智能应用带来的便捷。当然谈到这个话题的时候,张武生还是非常谦虚,相比过去的成绩他更喜欢谈愿景——我们认为,要成功开发一个图形界面入口,必须将图形界面的直观性和命令行的效率结合起来,这也是团队未来的目标。