中国人民大学鲁蔚征:打造国家治理大数据与人工智能创新平台
“在最近一次的双一流评估中,中国人民大学有十几个优秀学科,包括计算机科学技术和统计学已经进入了A类序列。证明我们的理工科规模虽小,却也取得了一定的成就。”
说这话的是来自中国人民大学的鲁蔚征老师,他是中国人民大学校级计算平台的负责人。其实一提到中国人民大学这个名字,许多人都会将其与“文科院校”联系起来,特别是马克思主义哲学、经济学、法学等传统文科都是其强势专业。但随着数字化应用、人工智能等技术的发展,中国人民大学对于这些计算科学的科研能力也在不断提升,特别是在今年提出了“国家治理大数据人工智能创新平台”的概念(以下简称“创新平台”),也意味着计算应用将会受到更多的关注。
中国人民大学校级计算平台主任 鲁蔚征
创新平台的出现也让中国人民大学重新调整了算力平台布局。据鲁蔚征老师介绍,目前学校的学科设置可以分为“数字科学”和“物质科学”两部分,其中“数字科学”就覆盖了数据统计、人工智能、量子计算等诸多当下的热门概念,而创新平台的布局中,也包括了基础算力中心、数据资源、算法模型等团队,这都是计算机相关的内容,也属于IT建设的范畴。“总体来说,这个体制机制整合了工程团队和模型算法来支持平台,其中算力和数据的重要性不言而喻”。
结合自身文科师生应用较多的特性,创新平台需要对外提供更直观、操作更简单的图形化界面,这其实也是当下高校平台服务的一大特征。通过调研我们发现,其实类似做法的学校很多,包括以“理工男”著称的清华大学也同样在提供图形化的界面,这样有助于师生交互。目前,中国人民大学已经基于交互式界面提供了丰富的案例库和数据集,同时也有SSH界面,这样无论是文科生还是理科生都可以轻松进行数据分析和交互。
在算力应用层面,中国人民大学也投入了上千万元对现有平台进行升级和改造,目前的CPU算力达到了335T,GPU算力达到1.3T,并全部采用了高速IB网络,解决了让人头疼的延迟与卡顿问题,性能达到了行业一流。数据平台的打造则基于目前主流的Kubernetes技术,并支持多种存储方式,比如Lustre并行文件系统和基于x86的分布式文件系统。与算力平台相通,用户也可以通过图形化界面上的案例库和数据集进行数据分析和交互。
为了促进跨学科合作,中国人民大学还定期组织了名为“数智工作坊”的系列活动,每1~2个月举办一次,专注于大数据与人工智能。这些工作坊促进了各学科间的交流和思想碰撞,比如文学语言和商学管理学等领域的合作。比如,某商科老师进行了一项关于中国专利的分析,但受限于对Python代码的优化缺乏经验,利用效率不高。为此,平台运营团队帮助他进行了优化,同时优化了神经网络Bert模型。最终借助于transformer的方案,将原本需要500多个小时的任务缩短至20个小时,科研效率大幅度提升。
针对当下热门的大模型应用,中国人民大学也利用上百张GPU加速卡、8个月的时间开发出了自己的预训练大模型“玉兰10B”,并携手高瓴人工智能学院进行不断的调优。虽然遇到了不少挑战,诸如MPI IO要求过高、卡间互联不够、数据清洗难度增加等等,但团队成员信心满满,通过尝试多种技术解决问题,也推动了大模型研究的发展。
数据处理与交互是许多高校都遇到的难题,中国人民大学也不例外。“我们发现,执行AI任务时,存储系统和网络是不可或缺的,缺少这些系统将导致GPU利用率低下。早期我们使用的是HDD磁盘阵列和Lustre文件系统,但现在我们使用了更多种类的存储系统,包括全闪存和HDD的组合”。同时,鲁蔚征也表示鼓励师生共享科学数据,为此还采用了激励机制,其目的就是促进多学科的协同发展,推动科研成果的产生。
在数字中国万里行走访过的诸多高校中,多为理工类大学,这些学校对计算机、对算力应用较为迫切,师生应用也较为熟练。相比之下,中国人民大学这样的文科高校其实更需要关注到数字化创新的应用,因为这更能补全综合性大学的技术“短板”。这一次中国人民大学提出的“国家治理大数据人工智能创新平台”就是算力应用的很好载体,也能够从学校层面提供优秀的平台支持,推动学科间的交流与合作,进一步强化高校科研水平与人才培养。