算存互连:Chiplet 与 CXL
最近,业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版,我们将对报告内容开启连载模式。
结合算力经济时代的算力基础设施发展,第三章主要探讨了以下话题:
☞ 算存互连:Chiplet 与 CXL
☞ 向上堆叠,翻越内存墙
☞ HBM 崛起:从 GPU 到 CPU
☞ 向下发展:基础层加持
☞ 标准化:Chiplet 与 UCIe
☞ UCIe 与异构算力
☞ Chiplet 的中国力量
“东数西存”是“东数西算”的基础、前奏还是子集?这牵涉到数据、存储与计算之间的关系。
数据在人口密集的东部产生,在地广人稀的西部存储,主要的难点是如何较低成本的完成数据传输。
计算需要频繁的访问数据,在跨地域的情况下,网络的带宽和时延就成为难以逾越的障碍。
与数据的传输和计算相比,存储不算耗能,但很占地。核心区域永远是稀缺资源,就像核心城市的核心地段不会用来建设超大规模数据中心,CPU 的核心区能留给存储器的硅片面积也是相当有限。
“东数西算”并非一日之功,超大规模数据中心与核心城市也是渐行渐远,而且不是越远越好。同理,围绕CPU 早已构筑了一套分层的存储体系,虽然从Cache到内存都是易失性的存储器 (Memory) ,但往往越是那些处于中间状态的数据,对访问时延的要求越高,也就需要离核心更近——如果真是需要长期保存的数据,距离远一些反倒无妨,访问频率很低的还可以“西存”嘛。
距离CPU核心最近的存储器,非基于SRAM的各级Cache(缓存)莫属。不过,既然都分级了,那还是有远近之分。在现代CPU中,L1和L2 Cache 已经属于核心的一部分,需要为占地面积发愁的,主要是L3 Cache。
SRAM的面积律
在IEDM 2019上,台积电展示了其引入EUV的5nm制程成果。当时业界便留意到一个问题:芯片的逻辑密度提高了1.84 倍,而SRAM 密度仅提高了 1.35倍。在ISSCC2020中,关于5nm SRAM的论文还展示了2011~2019 年SRAM面积的演进过程。在下图中可以很明显看出:
2017年之前,SRAM的面积缩减基本上与制程改进同步;
之后,SRAM面积的缩减近乎停滞,即使应用了EUV 技术,改善也不明显。
现在是2023年,制造工艺正在向3nm迈进。台积电公布其N3制程的SRAM单元面积为 0.0199 平方微米,相比N5制程的面积为 0.021平方微米,只缩小了5%。更要命的是,由于良率和成本问题,预计N3并不是台积电的主力工艺,客户们更关注第二代 3nm工艺N3E。而N3E的SRAM单元面积为0.021平方微米,和N5工艺完全相同。至于成本方面,据传N3 一片晶圆是2万美元,N5报价是1.6万美元,意味着N3的SRAM比N5贵 25%。
作为参考,Intel7制程(10nm) 的SRAM面积为0.0312平方微米,Intel 4 制程(7nm)的SRAM面积为0.024平方毫米,和台积电的N5、N3E工艺差不多。
半导体制造商们的报价是商业机密,但SRAM 越来越贵,密度也难再提高,终究是事实。于是,将SRAM 单独制造再次变为合理,且可以配合先进封装实现高带宽、低时延。(未完待续)