何庭波署名論文發(fā)布,詳解刷屏的華為“芯”技術(shù)
來(lái)源:芯觀點(diǎn)
在今天于上海舉行的芯一場(chǎng)行業(yè)大會(huì)上,華為公司董事、何庭華半導(dǎo)體業(yè)務(wù)部總裁何庭波在題為《半導(dǎo)體新路徑探索與實(shí)踐》的波署布詳投票代投靠譜嗎主旨演講中,正式發(fā)表“韜(τ)定律”。名論這是解刷技術(shù)中國(guó)在全球半導(dǎo)體領(lǐng)域首次提出指導(dǎo)產(chǎn)業(yè)發(fā)展的新原則。基于該定律,芯華為過(guò)去六年已成功設(shè)計(jì)并量產(chǎn)了381款芯片。何庭華今年秋季,波署布詳華為將發(fā)布新的名論麒麟手機(jī)芯片,完整采用邏輯折疊技術(shù),解刷技術(shù)大幅提升相關(guān)性能。芯
隨后,何庭華華為發(fā)布了一篇署名為何庭波的波署布詳論文,詳細(xì)介紹了這些新技術(shù)和進(jìn)展。名論
摘要
六十年來(lái),解刷技術(shù)摩爾定律的幾何縮放推動(dòng)了半導(dǎo)體技術(shù)的進(jìn)步。然而,這一行業(yè)共識(shí)已不再適用:純粹尺寸縮小帶來(lái)的收益已趨于平緩,尖端芯片的設(shè)計(jì)預(yù)算超過(guò)十億美元,而最先進(jìn)節(jié)點(diǎn)的晶體管成本也不再下降。本文提出了一種新的縮放原則——τ縮放。該原則以時(shí)間本身而非晶體管面積作為衡量進(jìn)步的主要指標(biāo),并采用單一的特征時(shí)間常數(shù)τ作為統(tǒng)一的優(yōu)化目標(biāo),涵蓋從開(kāi)關(guān)晶體管到數(shù)據(jù)中心工作負(fù)載的十二個(gè)數(shù)量級(jí)。本文展示了兩個(gè)量產(chǎn)規(guī)模的演示案例。在移動(dòng)SoC上,LogicFolding(一種將數(shù)字、模擬和存儲(chǔ)電路劃分到垂直堆疊的有源層的方法)在固定器件節(jié)點(diǎn)上實(shí)現(xiàn)了晶體管密度55%的階梯式提升和41%的能效提升。在人工智能系統(tǒng)方面,由內(nèi)存語(yǔ)義統(tǒng)一總線架構(gòu)、近封裝Hi-ONE光I/O和邊緣到表面3D折疊技術(shù)組成的協(xié)同設(shè)計(jì)堆棧,預(yù)計(jì)到2035年硬件集成度將增長(zhǎng)100倍以上。更深層次的論斷是方法論上的:τ擴(kuò)展是自Dennard以來(lái)第一個(gè)在整個(gè)計(jì)算堆棧中建立共享優(yōu)化目標(biāo)的擴(kuò)展原則。
引言
自20世紀(jì)60年代中期以來(lái),半導(dǎo)體行業(yè)一直以納米為單位衡量發(fā)展。每隔18個(gè)月,晶體管尺寸縮小,頻率提升,每個(gè)邏輯門(mén)的成本下降。摩爾定律既是一項(xiàng)經(jīng)驗(yàn)觀察,也幫助建立了一個(gè)行業(yè)契約,整個(gè)計(jì)算體系都建立在這個(gè)契約之上。然而,這個(gè)行業(yè)契約如今已不再適用。在7納米節(jié)點(diǎn)之后,
幾何級(jí)數(shù)縮放不再像過(guò)去那樣帶來(lái)顯著效益。光刻工具正接近圖形化的物理極限,極紫外光刻 (EUV) 折舊占據(jù)了晶圓成本的大部分,而且每個(gè)晶體管的價(jià)格曲線已經(jīng)趨于平緩——在某些情況下甚至出現(xiàn)逆轉(zhuǎn)。對(duì)于那些難以獲得最先進(jìn)光刻技術(shù)的企業(yè)而言,這種限制來(lái)得更早,影響也更加嚴(yán)重。
因此,投票代投靠譜嗎行業(yè)的核心問(wèn)題已經(jīng)發(fā)生了變化。不再是“晶體管還能縮小多少?”,而是“應(yīng)該縮放什么,以及縮放的目標(biāo)是什么?”過(guò)去六年,華為半導(dǎo)體團(tuán)隊(duì)在移動(dòng)SoC、AI加速器、系統(tǒng)架構(gòu)和封裝等領(lǐng)域,對(duì)這個(gè)問(wèn)題進(jìn)行了深入研究。
最終結(jié)論是,答案并非在于采用新的制程節(jié)點(diǎn)或晶體管架構(gòu),而在于改變主要的優(yōu)化目標(biāo)本身。這一觀點(diǎn)認(rèn)為,未來(lái)十年電子系統(tǒng)的發(fā)展方向不應(yīng)是幾何縮放,而應(yīng)是時(shí)間縮放——即系統(tǒng)性地降低堆疊每一層中單一特征時(shí)間常數(shù)τ,從皮秒級(jí)晶體管開(kāi)關(guān)到秒級(jí)數(shù)據(jù)中心工作負(fù)載響應(yīng)。下文將結(jié)合2020年5月至2026年5月期間381款量產(chǎn)芯片的經(jīng)驗(yàn),從科學(xué)方法和產(chǎn)業(yè)路線圖兩個(gè)方面闡述τ縮放的必要性。
幾何時(shí)代的終結(jié)
在半導(dǎo)體行業(yè)的大部分歷史中,其主要任務(wù)只有一個(gè):縮小晶體管的尺寸。戈登·摩爾 (Gordon Moore) 于1965年觀察到晶體管密度大約每?jī)赡攴环旰螅_伯特·丹納德 (Robert Dennard) 的縮放理論對(duì)此進(jìn)行了補(bǔ)充。該理論指出,電壓和尺寸的成比例縮小可以保持電場(chǎng)強(qiáng)度恒定。幾何縮放和丹納德縮放共同作用,在近五十年的時(shí)間里,實(shí)現(xiàn)了每瓦性能和每美元性能的指數(shù)級(jí)提升。
這種局面分兩個(gè)階段瓦解。大約在2005年,丹納德縮放率先失效:電壓不再與特征尺寸成比例縮放,暗硅時(shí)代由此開(kāi)啟。幾何縮放則持續(xù)了更長(zhǎng)時(shí)間,這得益于 FinFET 以及后來(lái)的環(huán)柵 (GAA) 器件架構(gòu)。然而,在7納米之后,純粹依靠尺寸縮放帶來(lái)的收益已經(jīng)趨于平緩。其原因現(xiàn)在已得到充分論證:速度飽和將固有延遲對(duì)溝道長(zhǎng)度的依賴(lài)性從二次方降低到線性;局部互連的寄生電阻和電容日益占據(jù)標(biāo)準(zhǔn)單元延遲預(yù)算的大部分;掩模成本、EUV折舊以及設(shè)計(jì)規(guī)則的復(fù)雜性,使得2納米節(jié)點(diǎn)的尖端芯片設(shè)計(jì)預(yù)算超過(guò)了每片芯片10億美元。
由此帶來(lái)的經(jīng)濟(jì)后果同樣不容忽視。在先進(jìn)節(jié)點(diǎn),晶體管成本增長(zhǎng)趨于平緩,而在尖端節(jié)點(diǎn),晶體管成本卻在不斷上升。過(guò)去五十年支撐著整個(gè)行業(yè)的“每代都以更低的成本生產(chǎn)更多晶體管”的理念已不再適用。對(duì)于華為半導(dǎo)體而言,這一轉(zhuǎn)變還帶來(lái)了一個(gè)額外的限制:獲取最先進(jìn)光刻工具的渠道受限。指望下一個(gè)節(jié)點(diǎn)就能解決這個(gè)問(wèn)題已不再可行。六年前,這種幾何級(jí)數(shù)增長(zhǎng)的趨勢(shì)已經(jīng)停滯不前,迫使人們面對(duì)一個(gè)更為根本的問(wèn)題——一個(gè)事后看來(lái)整個(gè)行業(yè)最終都必須面對(duì)的問(wèn)題。
時(shí)間而非空間:摩爾時(shí)代的真正貨幣
摩爾定律本質(zhì)上并非幾何形狀,而是對(duì)最終用戶(hù)影響最大的技術(shù)。更小的晶體管之所以能提升系統(tǒng)性能,是因?yàn)樗鼈兦袚Q速度更快。更密集的互連線之所以能提升性能,是因?yàn)樾盘?hào)傳輸距離更短。更高的集成度之所以能提升性能,是因?yàn)閿?shù)據(jù)跨越的邊界更少。每一代技術(shù)帶來(lái)的本質(zhì)上都是時(shí)間的縮短——器件層面從皮秒到納秒,芯片層面從納秒到微秒,系統(tǒng)層面從微秒到秒。空間縮放僅僅是壓縮時(shí)間的工具。
一旦認(rèn)識(shí)到這一點(diǎn),一個(gè)顯而易見(jiàn)的重新定義便浮現(xiàn)出來(lái)。時(shí)間本身應(yīng)該被用作主要衡量標(biāo)準(zhǔn)。可以在堆疊的每一層——晶體管、電路、芯片和系統(tǒng)——定義一個(gè)特征時(shí)間常數(shù) τ,并將其降低作為統(tǒng)一的優(yōu)化目標(biāo)。幾何縮放就成為眾多降低 τ 的技術(shù)之一,而非唯一的方法。
這一原理被稱(chēng)為τ標(biāo)度律,本文將其作為幾何摩爾標(biāo)度律的繼任者,作為半導(dǎo)體演化的指導(dǎo)原則。形式上,τ被視為一個(gè)分層結(jié)構(gòu),可以分解為:
其中:
分別代表晶體管層、電路層、芯片層和系統(tǒng)層的時(shí)間常數(shù)。每一層的 τ 由其下層的時(shí)間常數(shù)以及該層引入的組織和通信開(kāi)銷(xiāo)組成。 τ 的工作空間在時(shí)間上跨越約十二個(gè)數(shù)量級(jí)(從皮秒到秒),在空間上也跨越相當(dāng)?shù)姆秶◤募{米到千米)。在每一層,都有不同的機(jī)制可用于降低 τ:
? 晶體管:固有開(kāi)關(guān)延遲,可通過(guò)提高遷移率、應(yīng)變工程、高介電常數(shù)/金屬柵極和 GAA 架構(gòu)來(lái)解決,并且越來(lái)越多地通過(guò)降低局部互連的寄生電阻和電容來(lái)解決,這些寄生電阻和電容目前已超過(guò)固有渡越時(shí)間數(shù)倍。
? 電路:沿信號(hào)路徑的 RC 傳播延遲,可通過(guò)低電阻導(dǎo)體、低介電常數(shù)材料來(lái)解決,以及——最重要的是——通過(guò)垂直集成縮短導(dǎo)線長(zhǎng)度來(lái)解決。
? 芯片:計(jì)算和內(nèi)存訪問(wèn)延遲,可通過(guò)架構(gòu)選擇、流水線深度、內(nèi)存層次結(jié)構(gòu)和片上互連結(jié)構(gòu)來(lái)解決。
? 系統(tǒng):端到端消息傳遞和同步時(shí)間,可通過(guò)互連拓?fù)浣Y(jié)構(gòu)、協(xié)議棧和互連結(jié)構(gòu)設(shè)計(jì)來(lái)解決。
從這種分層式的表述中可以得出一條有用的世代規(guī)律:
其中,縮放因子 α 是特定于應(yīng)用的,而非通用的。迄今為止的生產(chǎn)經(jīng)驗(yàn)表明,對(duì)于功耗受限的移動(dòng)設(shè)備,α ≈ 每年1.3倍;對(duì)于安全至關(guān)重要的自主系統(tǒng),α ≈ 每年1.5倍;而對(duì)于 AI 工作負(fù)載,α 可達(dá)每年10倍,因?yàn)橥掏铝恐苯愚D(zhuǎn)化為經(jīng)濟(jì)價(jià)值。
τ 之所以成為一個(gè)有用的主要指標(biāo),而不是對(duì)現(xiàn)有指標(biāo)的重新命名,是因?yàn)樗谡麄€(gè)技術(shù)棧中都是同一個(gè)指標(biāo)。頻率、延遲、帶寬和吞吐量在其各自的層級(jí)都由 τ 控制。工藝技術(shù)專(zhuān)家、電路設(shè)計(jì)師和系統(tǒng)架構(gòu)師可以用相同的單位討論同一個(gè)量。τ 是實(shí)現(xiàn)端到端技術(shù)棧協(xié)同優(yōu)化的語(yǔ)言——而每層獨(dú)立優(yōu)化、時(shí)序成為次要因素的時(shí)代已經(jīng)結(jié)束。
邏輯折疊:移動(dòng)SoC的驗(yàn)證案例
τ縮放的首次量產(chǎn)規(guī)模測(cè)試在移動(dòng)設(shè)備領(lǐng)域展開(kāi)。智能手機(jī)SoC的特殊之處在于,單個(gè)芯片構(gòu)成了整個(gè)系統(tǒng)。多插槽并行架構(gòu)無(wú)法實(shí)現(xiàn);即使擁有上千個(gè)節(jié)點(diǎn),也無(wú)法彌補(bǔ)鏈路速度慢的問(wèn)題。所有交付給用戶(hù)的性能都源自單個(gè)芯片,功耗僅為幾瓦,并且受到手持設(shè)備外形尺寸限制帶來(lái)的散熱限制。
2020年之后,隨著先進(jìn)制程節(jié)點(diǎn)的獲取受到限制,關(guān)鍵問(wèn)題變成了:在制程節(jié)點(diǎn)固定的情況下,如何在單個(gè)芯片上持續(xù)實(shí)現(xiàn)代際性能提升?
最終的答案就是邏輯折疊(LogicFolding)。
定義:邏輯折疊是一種設(shè)計(jì)方法,它將數(shù)字電路、模擬電路和存儲(chǔ)電路劃分到垂直堆疊的有源層中,遵循時(shí)間縮放原則,從而在性能、功耗和面積之間實(shí)現(xiàn)協(xié)同優(yōu)化。
數(shù)字電路分為組合邏輯(寄存器之間的布爾網(wǎng)絡(luò))和時(shí)序邏輯(用于保持狀態(tài)的觸發(fā)器)。數(shù)字系統(tǒng)的性能上限取決于相鄰觸發(fā)器級(jí)之間的關(guān)鍵路徑延遲,而關(guān)鍵路徑延遲又主要取決于互連RC值和沿該路徑的門(mén)數(shù)。傳統(tǒng)的優(yōu)化方法是將門(mén)電路放置在一個(gè)平面上,并將導(dǎo)線穿過(guò)上方的金屬堆疊層;導(dǎo)線越長(zhǎng),寄生RC值越大,關(guān)鍵路徑延遲就越長(zhǎng)。
LogicFolding 摒棄了平面布局的假設(shè)。關(guān)鍵路徑上的門(mén)電路分布在兩個(gè)(最終可能更多)垂直堆疊的有源層上,并通過(guò)超細(xì)間距混合鍵合連接。從電路設(shè)計(jì)者的角度來(lái)看,這兩個(gè)層就像一個(gè)連續(xù)的整體,單元分布在晶圓邊界上,如同額外的金屬層。信號(hào)線顯著縮短,寄生RC值急劇下降,時(shí)鐘偏移減小,芯片在相同的器件節(jié)點(diǎn)上以更高的時(shí)鐘頻率運(yùn)行。
為了幫助 LogicFolding 實(shí)現(xiàn)這些優(yōu)勢(shì),保持混合鍵合間距與頂層金屬間距之間的齒輪比相對(duì)較低(實(shí)際應(yīng)用中通常低于3,齒輪比越低越好)是有利的。目前頂層金屬間距約為720 nm,這意味著混合鍵合間距應(yīng)低于2 μm,理想情況下齒輪比約為1,此時(shí)鍵合界面處的鳥(niǎo)籠式布線(bird-cage routing)開(kāi)銷(xiāo)將基本消失。實(shí)現(xiàn)這一間距,以及所需的套刻精度(<0.5 μm)、TSV 尺寸縮小(CD 和 KOZ 小于1.5 μm,間距小于6 μm)和良率(采用智能冗余時(shí)接近100%),需要供應(yīng)商和合作伙伴生態(tài)系統(tǒng)進(jìn)行多年的工藝開(kāi)發(fā)。
在麒麟2026芯片上測(cè)得的結(jié)果非常具體:
? 晶體管密度在一代芯片內(nèi)從155 MTr/mm2逐步提升至238 MTr/mm2(晶體管密度使用以下公式計(jì)算):
麒麟SoC設(shè)計(jì)的面積利用率達(dá)到68%)——這種提升幅度以前需要三年幾何級(jí)數(shù)擴(kuò)展才能實(shí)現(xiàn)。
? SoC 性能核心能效提升41%,最大時(shí)鐘頻率提升近13%。
? 構(gòu)建于上下兩層的高速全局片上網(wǎng)絡(luò)數(shù)據(jù)通路,使數(shù)據(jù)通路占用空間減少55%,并提升了供電穩(wěn)定性。
? 芯片后時(shí)鐘偏移調(diào)整方案獨(dú)立提升了5% 以上的 SoC 性能。
? 在 SRAM 中——訪問(wèn)速度、每比特能耗和面積均高度依賴(lài)于位線和字線長(zhǎng)度——LogicFolding 技術(shù)縮短了關(guān)鍵路徑,降低了每比特能耗,并將工作頻率提升了40% 以上。
? 在一個(gè)典型的處理核心上,雙層折疊架構(gòu)使時(shí)鐘緩沖器數(shù)量減少了50% 以上,時(shí)鐘偏移減少了25%,線路長(zhǎng)度減少了約30%。
這些性能提升是在固定的器件節(jié)點(diǎn)上實(shí)現(xiàn)的,并非通過(guò)新的光刻工藝,而是通過(guò)對(duì)三維邏輯空間分布進(jìn)行拓?fù)渲亟M來(lái)實(shí)現(xiàn)的。
Kirin 2026芯片中采用的LogicFolding技術(shù)刻意保持保守。混合鍵合間距達(dá)到1.5微米;TSV(硅通孔)的著陸層僅比頂層金屬低一級(jí);折疊技術(shù)僅沿關(guān)鍵路徑選擇性地應(yīng)用,而非覆蓋整個(gè)設(shè)計(jì)。即便如此,今年的CPU核心頻率仍回升至3.1GHz。
未來(lái)十年,LogicFolding 有望從局部關(guān)鍵路徑折疊發(fā)展到全規(guī)模多層折疊——每個(gè)封裝三層、四層甚至更多層——這得益于低溫混合鍵合技術(shù)(降低各層之間的熱預(yù)算)以及 TSV 接地從頂層金屬向下遷移至 M6層,從而釋放超過(guò)30% 的高級(jí)布線資源。從2026年到2035年,晶體管密度預(yù)計(jì)將提升至400 MTr/mm2 甚至更高。同時(shí),LogicFolding 使麒麟芯片能夠大幅提升 CPU 核心頻率,并為實(shí)現(xiàn)4 GHz 及更高頻率鋪平道路(表1)。該路線圖切實(shí)可行,且在成本方面具有經(jīng)濟(jì)效益。
表1.麒麟 CPU 性能核心運(yùn)行頻率趨勢(shì)。
側(cè)邊欄 A — LogicFolding 概覽
? 混合鍵合間距:小于2 μm(麒麟2026為1.5 μm;目標(biāo)gear ratio ≈ 1)
? 套刻精度:小于0.5 μm
? TSV CD/KOZ:小于1.5 μm;間距小于6 μm;故障率 <100 ppm;修復(fù)率99.9%
? 良率:采用智能冗余時(shí)接近100%
? 晶體管密度:?jiǎn)尾綄?shí)現(xiàn)155 → 238 MTr/mm2
? 功耗效率/頻率增益(SoC P 核):+41% / +13%
? SRAM 工作頻率:+40% 以上
? 典型核心的時(shí)鐘緩沖器數(shù)量/時(shí)鐘偏移/線長(zhǎng):-50% / -25% / -30%
從皮秒到微秒:人工智能數(shù)據(jù)中心的 τ 擴(kuò)展
一個(gè)自然而然的問(wèn)題是,在毫瓦級(jí)智能手機(jī)領(lǐng)域發(fā)展起來(lái)的原則,能否推廣到吉瓦級(jí)的人工智能訓(xùn)練和推理領(lǐng)域。人工智能工作負(fù)載處于 τ 擴(kuò)展譜的另一端:它并非單個(gè)芯片,而是成百上千個(gè)芯片協(xié)同工作,構(gòu)成一臺(tái)機(jī)器,其總計(jì)算能力在過(guò)去十年中增長(zhǎng)了約六個(gè)數(shù)量級(jí)。答案是肯定的——前提是將 τ 視為系統(tǒng)級(jí)目標(biāo),并應(yīng)用于整個(gè)計(jì)算鏈,而不是單個(gè)加速器。
關(guān)于 τ 擴(kuò)展的人工智能論點(diǎn),有兩個(gè)事實(shí)。首先,人工智能系統(tǒng)持續(xù)增長(zhǎng)——從單個(gè)芯片,到幾十個(gè),到幾百個(gè),再到數(shù)萬(wàn)個(gè)。其次,現(xiàn)代人工智能系統(tǒng)的能源預(yù)算和材料預(yù)算主要由數(shù)據(jù)而非計(jì)算決定。大型人工智能集群中超過(guò)80% 的能源消耗于數(shù)據(jù)傳輸;超過(guò)70% 的系統(tǒng)成本分配給了數(shù)據(jù)存儲(chǔ)。這意味著:減少數(shù)據(jù)傳輸時(shí)間(芯片間、機(jī)架間以及封裝內(nèi)部)至少與減少計(jì)算本身的計(jì)算時(shí)間同等重要。
τ 擴(kuò)展在人工智能規(guī)模上通過(guò)三個(gè)協(xié)調(diào)的層來(lái)實(shí)現(xiàn):系統(tǒng)架構(gòu)(統(tǒng)一總線)、近封裝光學(xué)引擎(Hi-ONE:near-packaged optical engine)以及封裝本身的拓?fù)渲亟M(3D 折疊)。
統(tǒng)一總線——τ優(yōu)先系統(tǒng)架構(gòu)
傳統(tǒng)的多節(jié)點(diǎn)、多加速器架構(gòu)通過(guò)多個(gè)堆疊協(xié)議傳輸數(shù)據(jù):PCIe 到主機(jī),機(jī)箱內(nèi)部使用 NVLink 或?qū)S屑軜?gòu),機(jī)箱之間使用以太網(wǎng)或 InfiniBand,以及最上層的軟件棧遠(yuǎn)程內(nèi)存訪問(wèn)。每一層都需要協(xié)議轉(zhuǎn)換、額外的序列化、額外的 DMA 緩沖區(qū)和額外的握手。每次轉(zhuǎn)換都會(huì)增加延遲、降低可靠性并產(chǎn)生額外成本。
統(tǒng)一總線 (UB) 用一個(gè)在機(jī)箱內(nèi)部和機(jī)箱之間運(yùn)行的單一協(xié)議取代了這種協(xié)議棧——一個(gè)完全對(duì)等的架構(gòu),它在整個(gè)系統(tǒng)中原生地暴露內(nèi)存語(yǔ)義。數(shù)據(jù)傳輸簡(jiǎn)化為在內(nèi)存語(yǔ)義層進(jìn)行無(wú)轉(zhuǎn)換的對(duì)等傳輸,并使用硬件管理的一致性來(lái)代替軟件棧消息傳遞。經(jīng)測(cè)量,性能提升約為兩個(gè)數(shù)量級(jí):端到端遠(yuǎn)程訪問(wèn)延遲從 TCP/IP 級(jí)協(xié)議棧典型的幾十微秒降至約100納秒——沿主要通信軸線的系統(tǒng) τ 降低了約500倍。在機(jī)架規(guī)模上,這使得系統(tǒng)性能漸近地接近于一臺(tái)單一的、結(jié)構(gòu)一致的機(jī)器——內(nèi)部稱(chēng)之為“系統(tǒng)即芯片”(System-as-One-Chip)。
Hi-ONE——Optical I/O at the Package
通信延遲降低后,下一個(gè)瓶頸隨之而來(lái)。提高單個(gè)機(jī)架內(nèi)芯片的密度,會(huì)將功率密度和可靠性推向極限,同時(shí)也會(huì)推高電控SerDes的性能。對(duì)于每個(gè)AI芯片400 Gb/s的帶寬,銅纜布線仍然成熟可靠。但對(duì)于每個(gè)芯片數(shù)Tb/s的帶寬,銅纜布線在物理上變得不切實(shí)際:SerDes的產(chǎn)能達(dá)到合同上限,布線體積過(guò)大,面板安裝變得不可行,散熱和供電裕量也捉襟見(jiàn)肘。
華為半導(dǎo)體開(kāi)發(fā)的方案是高密度光互連節(jié)點(diǎn)引擎Hi-ONE——一種近封裝的光引擎,每個(gè)模塊可提供8 Tb/s的帶寬,與單個(gè)光鏈路上AI芯片的UB帶寬相匹配。它將所需的SerDes傳輸距離從約100厘米縮短至約5厘米,無(wú)需笨重的線纜,并將傳輸距離從不足1米擴(kuò)展至100米,從而使分布式千兆級(jí)數(shù)據(jù)中心的高密度互連成為現(xiàn)實(shí)。
Hi-ONE的設(shè)計(jì)理念本身就是一種τ擴(kuò)展論證。Hi-ONE沒(méi)有采用用于實(shí)現(xiàn)高信號(hào)保真度的大型DSP,而是采用了一種線性方法——模擬均衡增強(qiáng)的驅(qū)動(dòng)器和跨阻放大器——并允許UB協(xié)議容忍略微放寬的誤碼率。這種協(xié)議層和物理層之間的跨層權(quán)衡降低了功耗、成本和集成復(fù)雜性,并體現(xiàn)了τ優(yōu)先方法論所推崇的跨層權(quán)衡。
N2 與 N 的兩難困境,以及3D 折疊的必然性
人工智能加速器不會(huì)止步于2.5D 扇出的最深層原因在于幾何學(xué),這一點(diǎn)值得明確闡述,因?yàn)樗鼪Q定了2030年以后的發(fā)展路線圖。
在傳統(tǒng)的2.5D 人工智能芯片中,邏輯芯片位于封裝中心,HBM 堆疊和 SerDes 排列在其邊緣,電壓調(diào)節(jié)器環(huán)繞封裝。每個(gè)內(nèi)存信號(hào)、每個(gè)互連信號(hào)以及每一安培的供電電流都必須沿著芯片邊緣傳輸才能到達(dá)內(nèi)部的計(jì)算資源。如果芯片的邊長(zhǎng)為 N,那么:
? 計(jì)算能力與 N2(面積)成正比,
? 但內(nèi)存帶寬、互連和供電——所有這些都由沿邊緣的2.5D 扇出承載——僅與 N(周長(zhǎng))成正比。
這些二次曲線和線性曲線之間日益擴(kuò)大的差異構(gòu)成了扇出困境,也解釋了為何無(wú)論底層邏輯節(jié)點(diǎn)多么激進(jìn),2.5D 擴(kuò)展都無(wú)法實(shí)現(xiàn)。任何晶體管級(jí)的改進(jìn)都無(wú)法彌補(bǔ)拓?fù)淙毕荨?/p>
3D 折疊技術(shù)通過(guò)將邊緣資源轉(zhuǎn)移到表面上解決了這一困境。電源(通過(guò)背面電源和集成電壓調(diào)節(jié)器)、高速存儲(chǔ)器(通過(guò)與邏輯混合鍵合)以及光 I/O(通過(guò)近封裝 Hi-ONE)都從周邊遷移到垂直表面——一旦位于表面上,它們就可以以 N2 的速度擴(kuò)展,與計(jì)算速度的平方相匹配。封裝不再是一個(gè)被周邊存儲(chǔ)器和 SerDes 包圍的邏輯芯片;它變成了一個(gè)垂直集成的堆疊結(jié)構(gòu),其中存儲(chǔ)器、互連結(jié)構(gòu)、電源和邏輯都同步擴(kuò)展。
路線圖為這一演進(jìn)設(shè)定了明確的時(shí)間表。到2030年左右,AI加速器(升騰SuperPoD系列——2025年的升騰910C、2026年的升騰950以及后續(xù)的升騰990)將依賴(lài)于一系列成熟技術(shù)的組合:芯片組、2.5D扇出以及通過(guò)微凸點(diǎn)和標(biāo)準(zhǔn)間距混合鍵合實(shí)現(xiàn)的3D堆疊。大約在2030年,升騰990將把LogicFolding引入AI加速器領(lǐng)域,此后,3D Folding將成為2035年之前實(shí)現(xiàn)α性能提升的主要載體。在此過(guò)程中,預(yù)計(jì)到2035年硬件集成度將提升100倍以上,τ性能的提升將分布在堆疊的每一層,而不是集中在器件層面。
側(cè)邊欄 B — AI 系統(tǒng)規(guī)模下的 τ
? UB 遠(yuǎn)程訪問(wèn)延遲:~10微秒 → ~100納秒(τ 降低約500倍)
? HiONE 單模塊帶寬:8 Tb/s(與單芯片 UB 帶寬匹配)
? HiONE SerDes 傳輸距離:~100厘米 → ~5厘米;面板間傳輸距離:<1米 → 100米
? 扇出難題:計(jì)算量 ∝ N2,周長(zhǎng)限制下的帶寬/I/O/功耗 ∝ N
? 3D 折疊:將帶寬、光 I/O 和電源從邊緣轉(zhuǎn)移到表面,恢復(fù) N2 奇偶性
? 2026年到2035年預(yù)計(jì)硬件集成增長(zhǎng):>100倍
邏輯與內(nèi)存:從解耦到融合
τ 縮放的一個(gè)影響值得單獨(dú)探討,因?yàn)樗汝P(guān)乎產(chǎn)業(yè)也關(guān)乎技術(shù)。
在8086時(shí)代,業(yè)界通過(guò)標(biāo)準(zhǔn)化的內(nèi)存總線有意地將處理器和內(nèi)存解耦。這種解耦使得兩個(gè)行業(yè)能夠獨(dú)立發(fā)展:處理器性能沿著摩爾曲線快速提升,而內(nèi)存供應(yīng)商則與之并行發(fā)展出一個(gè)龐大的獨(dú)立市場(chǎng)。
人工智能時(shí)代正在逆轉(zhuǎn)這種解耦。計(jì)算密度的持續(xù)增長(zhǎng)正將內(nèi)存帶寬、延遲、功耗和封裝推向極限。HBM、混合鍵合和3D 堆疊 SRAM 都體現(xiàn)了一個(gè)根本事實(shí):對(duì)于現(xiàn)代人工智能工作負(fù)載而言,數(shù)據(jù)傳輸與計(jì)算本身同樣重要,邏輯和內(nèi)存再次被推向緊密的物理集成。隨著它們的融合,供應(yīng)鏈中的影響力平衡正在向內(nèi)存和封裝供應(yīng)商傾斜。
技術(shù)方向已然明確,但經(jīng)濟(jì)解決方案尚未確定。在人工智能硬件時(shí)代,能夠?qū)⑦壿嫼陀洃浖夹g(shù)融合,并建立經(jīng)濟(jì)伙伴關(guān)系,使這兩個(gè)行業(yè)長(zhǎng)期共享融合成果的企業(yè),才能獲得持久的成功。這不僅僅是一個(gè)研究問(wèn)題,更是未來(lái)十年整個(gè)行業(yè)必須解決的結(jié)構(gòu)性問(wèn)題。τ 擴(kuò)展通過(guò)揭示每次分離的跨層成本,確保了這個(gè)問(wèn)題無(wú)法被推遲解決。
未解決的挑戰(zhàn)
將 τ 擴(kuò)展視為一個(gè)完整的系統(tǒng)是不恰當(dāng)?shù)摹D壳叭源嬖谝恍?shí)質(zhì)性問(wèn)題,在此列出這些問(wèn)題旨在突出正在進(jìn)行的工作并邀請(qǐng)各方合作。
工具鏈和方法論:當(dāng)今的 EDA 開(kāi)發(fā)于一個(gè)以面積、時(shí)序和功耗三個(gè)獨(dú)立維度進(jìn)行優(yōu)化的時(shí)代,系統(tǒng) τ 只是一個(gè)剩余部分。全尺寸邏輯折疊要求工具鏈將多個(gè)堆疊芯片視為一個(gè)連續(xù)的設(shè)計(jì)實(shí)體——以單元粒度而非塊粒度劃分邏輯,在統(tǒng)一的成本函數(shù)下將邏輯放置在整個(gè)體積內(nèi),并在芯片間路徑上執(zhí)行時(shí)序收斂,因?yàn)榇怪被ミB寄生效應(yīng)、KOZ 排除項(xiàng)和晶圓間工藝偏差等因素相互作用,而傳統(tǒng)的二維訓(xùn)練工具無(wú)法充分解決這些問(wèn)題。我們已經(jīng)開(kāi)發(fā)出初步的內(nèi)部工具,這些工具能夠產(chǎn)生有用的結(jié)果,方法論細(xì)節(jié)將在未來(lái)幾個(gè)月內(nèi)公布。一個(gè) τ 原生工具鏈——開(kāi)放的、多物理場(chǎng)的、3D 原生的——是未來(lái)十年最重要的賦能投資。
晶圓間工藝偏差:LogicFolding 將來(lái)自不同批次(有時(shí)甚至是不同節(jié)點(diǎn))的晶圓進(jìn)行鍵合。晶圓間閾值電壓 (Vth)、驅(qū)動(dòng)電流和互連 RC 的偏差遠(yuǎn)大于晶圓內(nèi)偏差,并且對(duì)時(shí)鐘分布和保持時(shí)間裕量的影響最大。智能冗余、自適應(yīng)補(bǔ)償和考慮 τ 的簽核流程是應(yīng)對(duì)這些偏差的必要組成部分。
垂直互連開(kāi)銷(xiāo):每個(gè)混合鍵合和每個(gè)TSV都會(huì)產(chǎn)生有限的電阻和電容開(kāi)銷(xiāo),并且TSV KOZ會(huì)取代標(biāo)準(zhǔn)單元。因此,邏輯折疊必須通過(guò)簡(jiǎn)單的不等式逐層進(jìn)行合理化。
對(duì)于移動(dòng)關(guān)鍵路徑和內(nèi)存而言,這一閾值已被突破;該閾值取決于工作負(fù)載,并且隨著鍵合間距的縮小,該邊界也會(huì)隨之移動(dòng)。
能耗:τ 是時(shí)間定律,而非焦耳定律。一個(gè)運(yùn)行速度提升10倍但功耗也增加10倍的超級(jí)節(jié)點(diǎn),并未違反任何擴(kuò)展性原則,卻超出了電網(wǎng)容量。因此,τ 擴(kuò)展需要能量方面的配合:消除堆棧開(kāi)銷(xiāo)的內(nèi)存語(yǔ)義架構(gòu)、將每比特皮焦耳功耗降低幾個(gè)數(shù)量級(jí)的近封裝/共封裝光學(xué)器件、背面供電、內(nèi)存內(nèi)/內(nèi)存內(nèi)計(jì)算,以及將 τ 擴(kuò)展空間轉(zhuǎn)化為能量的合理做法(數(shù)據(jù)中心規(guī)模的動(dòng)態(tài)電壓頻率調(diào)節(jié)——智能手機(jī)電池長(zhǎng)壽命的保障機(jī)制)。
重要的是,當(dāng) τ 擴(kuò)展空間用于能量時(shí),它本身也能提供能量擴(kuò)展空間。基準(zhǔn)測(cè)試。業(yè)界當(dāng)前的性能基準(zhǔn)測(cè)試——Linpack、MLPerf、SPEC——是為每個(gè)工作負(fù)載只需一個(gè)標(biāo)量就足夠了的時(shí)代設(shè)計(jì)的。 τ 擴(kuò)展型行業(yè)需要 τ 剖面基準(zhǔn)——這些向量揭示了系統(tǒng)每一層的主導(dǎo) τ 值以及該層剩余的擴(kuò)展空間。主導(dǎo) τ 值所在的層,顧名思義,就是下一個(gè)投資重點(diǎn)。
六年展望,十年展望
從2020年5月到2026年5月,華為半導(dǎo)體設(shè)計(jì)并量產(chǎn)了381款芯片,服務(wù)于移動(dòng)、人工智能、汽車(chē)、工業(yè)和基礎(chǔ)設(shè)施市場(chǎng)。在這些產(chǎn)品組合中,τ 擴(kuò)展理論得到了驗(yàn)證:
? 在器件和電路層,晶體管密度已從155提升至2031年的400+MTr/mm2。
? 在芯片層,LogicFolding 技術(shù)已在領(lǐng)先的移動(dòng) SoC 上證明,在固定的器件節(jié)點(diǎn)上,關(guān)鍵路徑頻率、能效和密度可以持續(xù)提升。
? 在系統(tǒng)層,Unified Bus 和 Hi-ONE 技術(shù)已證明,數(shù)百微秒的通信時(shí)間 τ 可以壓縮至數(shù)百納秒,并且多機(jī)架人工智能集群可以像一臺(tái)獨(dú)立的機(jī)器一樣運(yùn)行。
展望未來(lái),CPU核心頻率預(yù)計(jì)到2029年將達(dá)到4GHz及以上,麒麟SoC的能效預(yù)計(jì)在三到五年內(nèi)典型使用情況下將提升一倍以上,而人工智能硬件集成度預(yù)計(jì)到2035年將增長(zhǎng)100倍以上。
更深層次的論斷,超越任何單一產(chǎn)品,在于方法論層面。τ擴(kuò)展是自Dennard以來(lái)首個(gè)為整個(gè)堆棧提供共享優(yōu)化目標(biāo)的擴(kuò)展原則。它向工藝技術(shù)專(zhuān)家、電路設(shè)計(jì)師、架構(gòu)師、系統(tǒng)工程師和軟件團(tuán)隊(duì)表明,這些群體現(xiàn)在正在以相同的單位優(yōu)化相同的量,并且任何單層的改進(jìn)都必須傳播到系統(tǒng)τ才能產(chǎn)生影響。它還向行業(yè)戰(zhàn)略家和資本配置者表明,下一個(gè)資金應(yīng)該流向τ,而不是節(jié)點(diǎn)——競(jìng)爭(zhēng)性性能不再需要始終處于光刻技術(shù)的前沿,封裝、內(nèi)存帶寬和架構(gòu)設(shè)計(jì)現(xiàn)在擁有了以往僅由前沿邏輯節(jié)點(diǎn)占據(jù)的戰(zhàn)略地位。
對(duì)于一代從小接受“摩爾定律”等同于“進(jìn)步”的工程師來(lái)說(shuō),這是一個(gè)艱難的轉(zhuǎn)變。事實(shí)上,幾何時(shí)代已經(jīng)結(jié)束;否認(rèn)這一事實(shí)并非明智之舉。通過(guò)小型化實(shí)現(xiàn)加速的時(shí)代正在讓位于通過(guò)多層電子系統(tǒng)中的τ優(yōu)化實(shí)現(xiàn)加速的時(shí)代——未來(lái)六到十年內(nèi),那些將τ作為首要目標(biāo)的公司、研究團(tuán)隊(duì)和生態(tài)系統(tǒng),將決定未來(lái)十年計(jì)算領(lǐng)域的格局。
未來(lái)十年的工作規(guī)劃已經(jīng)完成。許多懸而未決的問(wèn)題依然存在,沒(méi)有任何一個(gè)組織能夠獨(dú)自解決——工具鏈、標(biāo)準(zhǔn)、基準(zhǔn)測(cè)試、器件物理以及經(jīng)濟(jì)模型都需要來(lái)自不同企業(yè)的共同貢獻(xiàn)。因此,本文既是一份來(lái)自實(shí)踐的報(bào)告,也是一份邀請(qǐng)。
未來(lái)的發(fā)展路線圖充滿挑戰(zhàn),但方向明確。
作者簡(jiǎn)介:
何庭波領(lǐng)導(dǎo)華為半導(dǎo)體業(yè)務(wù)。她領(lǐng)導(dǎo)的團(tuán)隊(duì)在2020年至2026年間設(shè)計(jì)并量產(chǎn)了381款芯片,涵蓋移動(dòng)、人工智能、汽車(chē)和基礎(chǔ)設(shè)施市場(chǎng),并且是τ縮放方法以及本文中提到的LogicFolding、UnifiedBus和Hi-ONE技術(shù)的源頭。