华侨网 科技教育 “大模型算力需求超过半导体增长曲线,Chiplet是满足需求关键”

“大模型算力需求超过半导体增长曲线,Chiplet是满足需求关键”

奇异摩尔产品及解决方案副总裁祝俊东在2023国际集成电路展览会暨研讨会(IIC Shanghai)上。

·“从AI发展整个历史曲线来看,过去的算力需求是以倍数增加,现在是以指数的倍数增加,大模型本身就有10倍的跃迁,接下来还会继续保持这个速度增长,这超过了半导体能够提供的增长曲线。”

·“Chiplet正是满足当下对算力需求的关键技术,一方面,将更多算力单元高密度、高效率、低功耗地连接在一起,从而实现超大规模计算。另一方面,极大提高异构核之间的传输速率,降低数据访问功耗,从而实现高速预处理和数据调度。同时,降低存储访问功耗,满足大模型参数需求。”

奇异摩尔产品及解决方案副总裁祝俊东在2023国际集成电路展览会暨研讨会(IIC Shanghai)上。

“大模型所需要的参数和训练数据量和Deep Learning(深度学习)时期相比,有了数量级的提升。以GPT-3为例,1750亿的模型参数,45TB的训练数据集,是之前的10倍以上。大模型的训练,需要更大规模互联的计算平台,和更大规模的片上存储。”3月30日,奇异摩尔产品及解决方案副总裁祝俊东在接受澎湃科技(www.thepaper.cn)专访时表示。

在2023国际集成电路展览会暨研讨会(IIC Shanghai)上,祝俊东谈到,对于大模型而言,一个很大的挑战在工程方面——怎么样用更少的人工干预、更少的算力去实现,尤其是怎样获得足够高质量、足够大规模的算力。“GPT-3.5需要一万个CPU做级联,更不要说GPT-4、GPT-5,虽然我们在大力发展算力网络,但仍然很难达到。”

高性能计算三大挑战

祝俊东表示:“从AI发展整个历史曲线来看,过去的算力需求是以倍数增加,现在是以指数的倍数增加,大模型本身就有10倍的跃迁,接下来还会继续保持这个速度增长,这超过了半导体能够提供的增长曲线。”

同时,目前在高性能计算领域(与大模型密切相关),更大的挑战来自于其他三个方面。第一,在保持算力增加的同时,怎么样能提高算力功耗比?过去算力功耗比的提升落后于算力的提升,“那么五年之后,当算力中心变成zeta级(十万亿亿字节)的时候,需要的能量则会是0.5个原子弹的单量。” 祝俊东说。

其次,同样的问题发生在存储,存储访问所占的功耗比越来越高,整个互联效率也成为更大的瓶颈。特别是计算规模越来越大,不再可能用单一的芯片满足这个需求,所以大量的能量会浪费在互联的部分。

“ 因此,基于同构和板级互联的数据中心架构难以满足大模型的需求。” 祝俊东对澎湃科技表示,从顶层到软件到芯片都需要适应这样的变化,以一种新的方式满足未来的需求。

国际巨头的思路

在结束不久的2023 GTC大会上,英伟达创始人黄仁勋着重讲了两件事,第一是超大规模计算的超大规模集群。首先是用H100、A100芯片,通过NVLINK3.0把8个H100连在一起后就成为超大规模的引擎,可以以单颗满足训练需求。

“它的提升并不局限于提高了3倍单芯片的算力,以整个系统来看,因为更高速的极联,所以整个效率达到了过去的九倍。” 祝俊东向澎湃科技解释,通过这种方式,进一步用InfiniBand(高速、低延迟的计算机网络通信总线)组成超大规模的集群,可以把上万个DGX(超级计算机)连接在一起,通过这种方式满足未来越来越快的需求,按照目前的计算要满足800G(数据速率)的门槛。

另外一件事情就是异构计算,把CPU和GPU更有效组合在一起。用这样的异构架构处理数据集、推荐系统和大型语言模型的AI。

英特尔也在做同样的事情。英特尔于去年年底发布了第一款3D GPGPU,在一颗芯片里集成了47颗芯粒,有5种制程,以此获得比上一代高出三倍性能的提升。英特尔也做了8颗可以超高速互联的网络,通过这种方式能使其变成更大规模的计算集群。

同时,英特尔计划在2025年发布更快更小的3D芯片新技术,以三维空间(3D)方式堆叠“瓦片”或“小芯片”,而不是用二维空间将芯片全部打包来计算。可以是CPU+GPU,也可以是一个超大规模的GPU集群,通过这种方式提供更好的极联和互联性能,在不同的领域可以用最合适的方法去解决相关问题。

AMD在这个方向走在了更前面,已经发布了第一个数据中心APU(Accelerated Processing Unit,加速处理器)产品MI300,“其在下面集中了10颗或11颗芯片,其中6颗是CPU,2到3颗是GPU,它是业界第一颗3D的APU产品,同时也有自己的互联架构,甚至显卡GPU也有类似的产品。” 祝俊东介绍说,由此可以发现,超大规模集群已经成为未来的发展方向,而且异构也是一个非常重要的方向,Chiplet(芯粒)会是它的核心关键。

Chiplet怎么满足大模型的算力需求?

Chiplet通常被翻译为“芯粒”或“小芯片”,通过将原来集成于同一系统单晶片中的各个元件分拆,独立为多个具特定功能的Chiplet,分开制造后再通过先进封装技术将彼此互联,最终集成封装为一系统晶片组。也就是说,其能在不改变制程的前提下提升算力,降低成本,并保证芯片制造良品率。

Chiplet正是满足当下对算力需求的关键技术,祝俊东对澎湃科技解释道,一方面,通过Die2Die连接(Die是从晶圆上切割出来的一块具有完整功能的芯片)和Fabric互联网络,能够将更多算力单元高密度、高效率、低功耗地连接在一起,从而实现超大规模计算。

另一方面,通过将CPU和GPU、NPU高速连接在同一个chiplet中,实现芯片级异构系统,极大提高异构核之间的传输速率,降低数据访问功耗,从而实现高速预处理和数据调度。同时,其采用非先进制程构建Cache(位于CPU与内存之间的临时存储器),提高片上Cache的容量和性价比,并通过3D近存技术,降低存储访问功耗,从而满足大模型参数需求。

然而,转向支持基于Chiplet的集成系统是一个系统工程,不同公司必须开始相互共享芯片IP,这是一个很大的障碍。

在被问及打造开放Chiplet生态圈有哪些思路时,祝俊东说,Chiplet正从1.0阶段,即Fabless全自研,走向2.0阶段,产业链分工合作,因此互联互通和芯粒生态正变得越来越重要。具体的思路有三个方面:

第一是推动互联标准的建立和普及,无论是国际的UCIe(Intel、AMD等公司提出新的Chiplet标准),还是国内的小芯片标准。

第二, 提供丰富的产品和方案,不同封装形态下的Die2Die接口,应用于不同行业的高速互联芯粒,加速chiplet产品落地。

第三,加强上下游的深度合作。

免责声明:本文仅代表作者个人观点,与华侨网无关联。其原创性及文中陈诉内容未经本网证实,对本文内容、文字的完整、真实性,以及时效性本网部作任何承诺,请读者自行核实相关内容。如发现稿件侵权,或作者无意愿在华侨网发布文章,请版权拥有者通知华侨网处理。

公卫研究者王伟炳谈传染病数据监测:到环境中去,到动物中去


联系我们

联系我们

514-3979969

邮箱: cpress@chinesepress.com

工作时间:周一至周五 10:00-16:00,节假日休息
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部