【文/本报 陈思佳】
5月25日,在2026国际电路与系统研讨会上,华为公司董事、半导体业务部总裁何庭波发布“韬(τ)定律”,这是中国企业在全球半导体领域首次提出引领产业发展的新原则。
近年来,摩尔定律面临物理极限和经济效益的挑战,晶体管尺寸缩小带来的红利逐渐消退。在这一背景下,韬定律提出以时间缩微替代几何缩微,以系统性降低时间常数τ为目标,通过逻辑折叠等创新技术持续压缩信号传播时延,进一步提升晶体管密度,提高芯片的性能。
5月25日,华为何庭波发表“半导体新路径探索与实践”主旨演讲 华为
韬定律和逻辑折叠等技术相较于传统的设计方法有什么样的优势?华为提出的新路径可能对半导体行业的发展产生什么样的影响?推广的过程中又可能面临什么样的挑战?本报与资深芯片研究专家、《芯片简史》作者汪波进行了对话。
本报:我们应当如何理解韬定律的含义和作用?
汪波:长期以来,业界一直通过几何缩微来提高芯片的性能,这带来两种相反的趋势:一方面,晶体管的尺寸不断缩小,开关速度越来越快;另一方面,晶体管之间的连线变得越来越细,时间延迟反而变得越来越长。
在早期,时间延迟的问题并不严重。但根据摩尔定律,集成电路上可容纳的晶体管数目每两年增加一倍,所以随着晶体管的尺寸变小,处理速度变得更快,计算能力变得更强,影响数据读写速度的互连却变得越来越慢。由于计算机是一个整体,有计算也有存储,瓶颈从早期的计算速度转移到现在的时间延迟。
韬定律提出的背景,就是摩尔定律正在放缓,在尺寸缩微产生的效益越来越微弱的情况下,华为寻求直接解决时间延迟的问题。通过降低芯片、电路乃至系统层面上的时间延迟,降低计算、存储和通信之间的延迟,更根本地解决这个问题。
何庭波在中国科学院科技论文预发布平台上发表的论文
时间和空间其实是一体两面的,并非彼此对立,而是相互关联的。比如说,我们通过缩小尺寸让晶体管速度更快,实际上也是达到了时间缩微的效果。华为通过逻辑折叠缩短有效的连线,从而直接减少时间延迟,同样是实现时间缩微的目的。两者的效果是相同的。
所以,韬定律和摩尔定律并不是彼此矛盾的,两者是相互兼容的关系。我认为,韬定律更贴近芯片计算的本质,芯片就是要处理信息,用户更关注处理信息所需的时间,而不是使用了多少个晶体管或者晶体管的尺寸有多大。韬定律开辟了一条不依靠尺寸缩微的新设计路径,可以在没有最先进光刻机的情况下制造出综合性能相当的芯片。
本报:为实现τ缩微,华为在论文中提出了逻辑折叠(LogicFolding)的设计方法,不再采用传统的平面设计,而是将关键路径上的门电路分布到两个、未来甚至更多个垂直堆叠的有源层中。这与行业已经在推动的3D堆叠封装技术有哪些差别?与传统设计方式相比,逻辑折叠具有什么样的优势?
汪波:表面上看,华为提出的逻辑折叠和业界已经大规模使用的3D堆叠有很多相似之处,但实质还是有很大的区别。已经得到采用的3D堆叠,采用的设计方法还是先在二维平面上进行平面的设计,完成一层的设计后再设计一层,然后堆叠成三维。
逻辑折叠则是从最初就把功能统筹分布在一个三维空间上,进行更灵活、更高自由度的布局设计。一个功能或者某一个模块,一开始就分在两层上,形成上下垂直的关联,相互之间的距离更短,关键路径会更短,时间延迟也会更少。
逻辑折叠并不是针对封装或制造方面的创新,而是为了贯彻韬定律、减少时间延迟提出的一个新路径。所以,它具体采用的某些技术,可能与学术界和产业界研究的技术存在重合,甚至直接采用现有的一些技术。
此外,华为提出的逻辑折叠不仅限于芯片层面,向上提出了系统层级的逻辑折叠,向下还有电路层级的逻辑折叠。在系统层,主要是更加抽象的时间折叠,通过减少电路板之间的传输延迟,实现更紧凑、更高速的逻辑运算。
在更小的电路层,一颗芯片上的电路模块也分布在上下两层,然后互连起来,减少关键路径长度。芯片层的逻辑堆叠只需要在特定接口上引出一些线来进行上下层的互连,连接线并不多,连接线之间的间距也比较长,大约在40-50微米左右。与之相比,电路层级的逻辑堆叠需要非常多的互连线,间距可能需要缩短到2微米甚至1微米,对于工艺和设计都是非常大的挑战。
总体来看,逻辑堆叠的目的就是要在不缩小晶体管尺寸的情况下,降低芯片和电路的延迟,让τ在韬定律的指导下缩小。
本报:随着人工智能(AI)技术的高速发展,对于算力的需求节节攀升,如何提高AI系统的性能成为业界关注的焦点。针对AI系统,华为提出以统一总线(Unified Bus)+高密度光互连节点引擎(HiONE)+3D折叠协同实现τ缩微。与现有的AI系统设计相比,这些技术可以从哪些方面减少数据传输延迟,从而实现性能提升?
汪波:华为发布的预印本论文中指出,在大型AI集群中,超过80%的能量被消耗在数据移动上。这个数据搬移的过程,有很大的时间延迟。华为针对AI数据中心提出的三方面技术,就是为了减少这些延迟,在系统层级而非芯片层级上缩小时间延迟。
第一点就是统一总线,简称UB。传统芯片之间可能采用很多不同的协议,数据穿过多层协议的过程中,每一次协议转换都会增加延迟。统一总线就是要用单一协议取而代之,缩短转换带来的延迟,目前可以实现延迟降低500倍,从数十微秒下降到0.1微秒左右。
第二点是高密度光互连节点引擎Hi-ONE,用光纤取代传统的铜缆。机架之间互连传统上采用铜缆,但铜缆速度比较慢,需要消耗很多的电力,而且也很笨重。改用光互连可以减少时间延迟和功耗,并且显著提高带宽,每个模块能够提供8Tb/s的传输速率。
最后一点就是3D折叠技术。传统的2.5D折叠中,CPU或GPU位于中心,各种存储器排布在四周,通过总线互连起来。如果GPU的边长增加到原来的两倍,它的面积将增加到原来的四倍,计算能力也变成四倍,但排布在边缘的存储器都只能增加到两倍。这就形成了平方增长曲线与线性增长曲线之间的差距,GPU增大的越多,差距就越大。
5月10日,杭州一AI展馆展示的华为昇腾910系列AI芯片的AI训练计算卡 IC photo
3D折叠则是把存储器堆叠到GPU上方,使它们占用相同的面积,GPU面积扩大多少倍,存储也同样扩大多少倍。这样就可以使计算和存储按照同等的速率增加,减少存储方面的瓶颈。
总体上来说,对于AI系统,华为提出的技术可以实现减少整个系统的延迟、提高带宽和提高处理速度。
本报:根据论文给出的指标,逻辑折叠可以有效提高晶体管密度和减少信号延迟,从而实现降低τ的目标。但另一方面,这也可能带来芯片功耗、散热、良率等方面的挑战,如何让业界接受新的叙事和设计方法也并非易事。您认为,韬定律在短期和长期面临的最主要挑战是什么?
汪波:目前大家达成的一个共识是,逻辑折叠是全新的设计方法学,不再是在平面上进行设计或是在平面设计完之后再堆叠起来,而是从一开始就要在三维空间内设计,考虑每一部分电路是适合放在上层还是下层。这将带来全新的设计理念,学校里教授的设计方法也都面临很大的变化。
另一个巨大挑战,就是EDA(电子设计自动化)工具的适配问题。涵盖概念设计、详细设计、版图设计和验证的全流程设计工具,可能还有待开发。现有的传统EDA工具是经过了几十年的发展,才逐渐形成了一套全流程工具,根据韬定律的设计方法也需要一定时间才能完成EDA工具的适配。
第三个挑战是良率、散热等问题。良率取决于很多方面,例如,上下层之间的海量互连要求间距必须缩到非常小,只有1-2微米,甚至小于1微米,这就要求连接线对齐,误差非常小。散热也需要做好热管理,进行降低热阻等专门的研究。我相信,华为肯定已在这些方面做了很多的探索。


