首頁(yè) 綜合正文

何庭波署名論文發(fā)布，詳解刷屏的華為“芯”技術(shù)

新聞資訊網(wǎng) 綜合 2026-06-14 04:14:15

來(lái)源：芯觀點(diǎn)

在今天于上海舉行的芯一場(chǎng)行業(yè)大會(huì)上，華為公司董事、何庭華半導(dǎo)體業(yè)務(wù)部總裁何庭波在題為《半導(dǎo)體新路徑探索與實(shí)踐》的波署布詳投票代投靠譜嗎主旨演講中，正式發(fā)表“韜（τ）定律”。名論這是解刷技術(shù)中國(guó)在全球半導(dǎo)體領(lǐng)域首次提出指導(dǎo)產(chǎn)業(yè)發(fā)展的新原則。基于該定律，芯華為過(guò)去六年已成功設(shè)計(jì)并量產(chǎn)了381款芯片。何庭華今年秋季，波署布詳華為將發(fā)布新的名論麒麟手機(jī)芯片，完整采用邏輯折疊技術(shù)，解刷技術(shù)大幅提升相關(guān)性能。芯

隨后，何庭華華為發(fā)布了一篇署名為何庭波的波署布詳論文，詳細(xì)介紹了這些新技術(shù)和進(jìn)展。名論

摘要

六十年來(lái)，解刷技術(shù)摩爾定律的幾何縮放推動(dòng)了半導(dǎo)體技術(shù)的進(jìn)步。然而，這一行業(yè)共識(shí)已不再適用：純粹尺寸縮小帶來(lái)的收益已趨于平緩，尖端芯片的設(shè)計(jì)預(yù)算超過(guò)十億美元，而最先進(jìn)節(jié)點(diǎn)的晶體管成本也不再下降。本文提出了一種新的縮放原則——τ縮放。該原則以時(shí)間本身而非晶體管面積作為衡量進(jìn)步的主要指標(biāo)，并采用單一的特征時(shí)間常數(shù)τ作為統(tǒng)一的優(yōu)化目標(biāo)，涵蓋從開(kāi)關(guān)晶體管到數(shù)據(jù)中心工作負(fù)載的十二個(gè)數(shù)量級(jí)。本文展示了兩個(gè)量產(chǎn)規(guī)模的演示案例。在移動(dòng)SoC上，LogicFolding（一種將數(shù)字、模擬和存儲(chǔ)電路劃分到垂直堆疊的有源層的方法）在固定器件節(jié)點(diǎn)上實(shí)現(xiàn)了晶體管密度55%的階梯式提升和41%的能效提升。在人工智能系統(tǒng)方面，由內(nèi)存語(yǔ)義統(tǒng)一總線架構(gòu)、近封裝Hi-ONE光I/O和邊緣到表面3D折疊技術(shù)組成的協(xié)同設(shè)計(jì)堆棧，預(yù)計(jì)到2035年硬件集成度將增長(zhǎng)100倍以上。更深層次的論斷是方法論上的：τ擴(kuò)展是自Dennard以來(lái)第一個(gè)在整個(gè)計(jì)算堆棧中建立共享優(yōu)化目標(biāo)的擴(kuò)展原則。

引言

自20世紀(jì)60年代中期以來(lái)，半導(dǎo)體行業(yè)一直以納米為單位衡量發(fā)展。每隔18個(gè)月，晶體管尺寸縮小，頻率提升，每個(gè)邏輯門(mén)的成本下降。摩爾定律既是一項(xiàng)經(jīng)驗(yàn)觀察，也幫助建立了一個(gè)行業(yè)契約，整個(gè)計(jì)算體系都建立在這個(gè)契約之上。然而，這個(gè)行業(yè)契約如今已不再適用。在7納米節(jié)點(diǎn)之后，

幾何級(jí)數(shù)縮放不再像過(guò)去那樣帶來(lái)顯著效益。光刻工具正接近圖形化的物理極限，極紫外光刻 (EUV) 折舊占據(jù)了晶圓成本的大部分，而且每個(gè)晶體管的價(jià)格曲線已經(jīng)趨于平緩——在某些情況下甚至出現(xiàn)逆轉(zhuǎn)。對(duì)于那些難以獲得最先進(jìn)光刻技術(shù)的企業(yè)而言，這種限制來(lái)得更早，影響也更加嚴(yán)重。

因此，投票代投靠譜嗎行業(yè)的核心問(wèn)題已經(jīng)發(fā)生了變化。不再是“晶體管還能縮小多少？”，而是“應(yīng)該縮放什么，以及縮放的目標(biāo)是什么？”過(guò)去六年，華為半導(dǎo)體團(tuán)隊(duì)在移動(dòng)SoC、AI加速器、系統(tǒng)架構(gòu)和封裝等領(lǐng)域，對(duì)這個(gè)問(wèn)題進(jìn)行了深入研究。

最終結(jié)論是，答案并非在于采用新的制程節(jié)點(diǎn)或晶體管架構(gòu)，而在于改變主要的優(yōu)化目標(biāo)本身。這一觀點(diǎn)認(rèn)為，未來(lái)十年電子系統(tǒng)的發(fā)展方向不應(yīng)是幾何縮放，而應(yīng)是時(shí)間縮放——即系統(tǒng)性地降低堆疊每一層中單一特征時(shí)間常數(shù)τ，從皮秒級(jí)晶體管開(kāi)關(guān)到秒級(jí)數(shù)據(jù)中心工作負(fù)載響應(yīng)。下文將結(jié)合2020年5月至2026年5月期間381款量產(chǎn)芯片的經(jīng)驗(yàn)，從科學(xué)方法和產(chǎn)業(yè)路線圖兩個(gè)方面闡述τ縮放的必要性。

幾何時(shí)代的終結(jié)

在半導(dǎo)體行業(yè)的大部分歷史中，其主要任務(wù)只有一個(gè)：縮小晶體管的尺寸。戈登·摩爾 (Gordon Moore) 于1965年觀察到晶體管密度大約每?jī)赡攴环旰螅_伯特·丹納德 (Robert Dennard) 的縮放理論對(duì)此進(jìn)行了補(bǔ)充。該理論指出，電壓和尺寸的成比例縮小可以保持電場(chǎng)強(qiáng)度恒定。幾何縮放和丹納德縮放共同作用，在近五十年的時(shí)間里，實(shí)現(xiàn)了每瓦性能和每美元性能的指數(shù)級(jí)提升。

這種局面分兩個(gè)階段瓦解。大約在2005年，丹納德縮放率先失效：電壓不再與特征尺寸成比例縮放，暗硅時(shí)代由此開(kāi)啟。幾何縮放則持續(xù)了更長(zhǎng)時(shí)間，這得益于 FinFET 以及后來(lái)的環(huán)柵 (GAA) 器件架構(gòu)。然而，在7納米之后，純粹依靠尺寸縮放帶來(lái)的收益已經(jīng)趨于平緩。其原因現(xiàn)在已得到充分論證：速度飽和將固有延遲對(duì)溝道長(zhǎng)度的依賴(lài)性從二次方降低到線性；局部互連的寄生電阻和電容日益占據(jù)標(biāo)準(zhǔn)單元延遲預(yù)算的大部分；掩模成本、EUV折舊以及設(shè)計(jì)規(guī)則的復(fù)雜性，使得2納米節(jié)點(diǎn)的尖端芯片設(shè)計(jì)預(yù)算超過(guò)了每片芯片10億美元。

由此帶來(lái)的經(jīng)濟(jì)后果同樣不容忽視。在先進(jìn)節(jié)點(diǎn)，晶體管成本增長(zhǎng)趨于平緩，而在尖端節(jié)點(diǎn)，晶體管成本卻在不斷上升。過(guò)去五十年支撐著整個(gè)行業(yè)的“每代都以更低的成本生產(chǎn)更多晶體管”的理念已不再適用。對(duì)于華為半導(dǎo)體而言，這一轉(zhuǎn)變還帶來(lái)了一個(gè)額外的限制：獲取最先進(jìn)光刻工具的渠道受限。指望下一個(gè)節(jié)點(diǎn)就能解決這個(gè)問(wèn)題已不再可行。六年前，這種幾何級(jí)數(shù)增長(zhǎng)的趨勢(shì)已經(jīng)停滯不前，迫使人們面對(duì)一個(gè)更為根本的問(wèn)題——一個(gè)事后看來(lái)整個(gè)行業(yè)最終都必須面對(duì)的問(wèn)題。

時(shí)間而非空間：摩爾時(shí)代的真正貨幣

摩爾定律本質(zhì)上并非幾何形狀，而是對(duì)最終用戶(hù)影響最大的技術(shù)。更小的晶體管之所以能提升系統(tǒng)性能，是因?yàn)樗鼈兦袚Q速度更快。更密集的互連線之所以能提升性能，是因?yàn)樾盘?hào)傳輸距離更短。更高的集成度之所以能提升性能，是因?yàn)閿?shù)據(jù)跨越的邊界更少。每一代技術(shù)帶來(lái)的本質(zhì)上都是時(shí)間的縮短——器件層面從皮秒到納秒，芯片層面從納秒到微秒，系統(tǒng)層面從微秒到秒。空間縮放僅僅是壓縮時(shí)間的工具。

一旦認(rèn)識(shí)到這一點(diǎn)，一個(gè)顯而易見(jiàn)的重新定義便浮現(xiàn)出來(lái)。時(shí)間本身應(yīng)該被用作主要衡量標(biāo)準(zhǔn)。可以在堆疊的每一層——晶體管、電路、芯片和系統(tǒng)——定義一個(gè)特征時(shí)間常數(shù) τ，并將其降低作為統(tǒng)一的優(yōu)化目標(biāo)。幾何縮放就成為眾多降低 τ 的技術(shù)之一，而非唯一的方法。

這一原理被稱(chēng)為τ標(biāo)度律，本文將其作為幾何摩爾標(biāo)度律的繼任者，作為半導(dǎo)體演化的指導(dǎo)原則。形式上，τ被視為一個(gè)分層結(jié)構(gòu)，可以分解為：

其中：

分別代表晶體管層、電路層、芯片層和系統(tǒng)層的時(shí)間常數(shù)。每一層的 τ 由其下層的時(shí)間常數(shù)以及該層引入的組織和通信開(kāi)銷(xiāo)組成。 τ 的工作空間在時(shí)間上跨越約十二個(gè)數(shù)量級(jí)（從皮秒到秒），在空間上也跨越相當(dāng)?shù)姆秶◤募{米到千米）。在每一層，都有不同的機(jī)制可用于降低 τ：

? 晶體管：固有開(kāi)關(guān)延遲，可通過(guò)提高遷移率、應(yīng)變工程、高介電常數(shù)/金屬柵極和 GAA 架構(gòu)來(lái)解決，并且越來(lái)越多地通過(guò)降低局部互連的寄生電阻和電容來(lái)解決，這些寄生電阻和電容目前已超過(guò)固有渡越時(shí)間數(shù)倍。

? 電路：沿信號(hào)路徑的 RC 傳播延遲，可通過(guò)低電阻導(dǎo)體、低介電常數(shù)材料來(lái)解決，以及——最重要的是——通過(guò)垂直集成縮短導(dǎo)線長(zhǎng)度來(lái)解決。

? 芯片：計(jì)算和內(nèi)存訪問(wèn)延遲，可通過(guò)架構(gòu)選擇、流水線深度、內(nèi)存層次結(jié)構(gòu)和片上互連結(jié)構(gòu)來(lái)解決。

? 系統(tǒng)：端到端消息傳遞和同步時(shí)間，可通過(guò)互連拓?fù)浣Y(jié)構(gòu)、協(xié)議棧和互連結(jié)構(gòu)設(shè)計(jì)來(lái)解決。

從這種分層式的表述中可以得出一條有用的世代規(guī)律：

其中，縮放因子 α 是特定于應(yīng)用的，而非通用的。迄今為止的生產(chǎn)經(jīng)驗(yàn)表明，對(duì)于功耗受限的移動(dòng)設(shè)備，α ≈ 每年1.3倍；對(duì)于安全至關(guān)重要的自主系統(tǒng)，α ≈ 每年1.5倍；而對(duì)于 AI 工作負(fù)載，α 可達(dá)每年10倍，因?yàn)橥掏铝恐苯愚D(zhuǎn)化為經(jīng)濟(jì)價(jià)值。

τ 之所以成為一個(gè)有用的主要指標(biāo)，而不是對(duì)現(xiàn)有指標(biāo)的重新命名，是因?yàn)樗谡麄€(gè)技術(shù)棧中都是同一個(gè)指標(biāo)。頻率、延遲、帶寬和吞吐量在其各自的層級(jí)都由 τ 控制。工藝技術(shù)專(zhuān)家、電路設(shè)計(jì)師和系統(tǒng)架構(gòu)師可以用相同的單位討論同一個(gè)量。τ 是實(shí)現(xiàn)端到端技術(shù)棧協(xié)同優(yōu)化的語(yǔ)言——而每層獨(dú)立優(yōu)化、時(shí)序成為次要因素的時(shí)代已經(jīng)結(jié)束。

邏輯折疊：移動(dòng)SoC的驗(yàn)證案例

τ縮放的首次量產(chǎn)規(guī)模測(cè)試在移動(dòng)設(shè)備領(lǐng)域展開(kāi)。智能手機(jī)SoC的特殊之處在于，單個(gè)芯片構(gòu)成了整個(gè)系統(tǒng)。多插槽并行架構(gòu)無(wú)法實(shí)現(xiàn)；即使擁有上千個(gè)節(jié)點(diǎn)，也無(wú)法彌補(bǔ)鏈路速度慢的問(wèn)題。所有交付給用戶(hù)的性能都源自單個(gè)芯片，功耗僅為幾瓦，并且受到手持設(shè)備外形尺寸限制帶來(lái)的散熱限制。

2020年之后，隨著先進(jìn)制程節(jié)點(diǎn)的獲取受到限制，關(guān)鍵問(wèn)題變成了：在制程節(jié)點(diǎn)固定的情況下，如何在單個(gè)芯片上持續(xù)實(shí)現(xiàn)代際性能提升？

最終的答案就是邏輯折疊（LogicFolding）。

定義：邏輯折疊是一種設(shè)計(jì)方法，它將數(shù)字電路、模擬電路和存儲(chǔ)電路劃分到垂直堆疊的有源層中，遵循時(shí)間縮放原則，從而在性能、功耗和面積之間實(shí)現(xiàn)協(xié)同優(yōu)化。

數(shù)字電路分為組合邏輯（寄存器之間的布爾網(wǎng)絡(luò)）和時(shí)序邏輯（用于保持狀態(tài)的觸發(fā)器）。數(shù)字系統(tǒng)的性能上限取決于相鄰觸發(fā)器級(jí)之間的關(guān)鍵路徑延遲，而關(guān)鍵路徑延遲又主要取決于互連RC值和沿該路徑的門(mén)數(shù)。傳統(tǒng)的優(yōu)化方法是將門(mén)電路放置在一個(gè)平面上，并將導(dǎo)線穿過(guò)上方的金屬堆疊層；導(dǎo)線越長(zhǎng)，寄生RC值越大，關(guān)鍵路徑延遲就越長(zhǎng)。

LogicFolding 摒棄了平面布局的假設(shè)。關(guān)鍵路徑上的門(mén)電路分布在兩個(gè)（最終可能更多）垂直堆疊的有源層上，并通過(guò)超細(xì)間距混合鍵合連接。從電路設(shè)計(jì)者的角度來(lái)看，這兩個(gè)層就像一個(gè)連續(xù)的整體，單元分布在晶圓邊界上，如同額外的金屬層。信號(hào)線顯著縮短，寄生RC值急劇下降，時(shí)鐘偏移減小，芯片在相同的器件節(jié)點(diǎn)上以更高的時(shí)鐘頻率運(yùn)行。

為了幫助 LogicFolding 實(shí)現(xiàn)這些優(yōu)勢(shì)，保持混合鍵合間距與頂層金屬間距之間的齒輪比相對(duì)較低（實(shí)際應(yīng)用中通常低于3，齒輪比越低越好）是有利的。目前頂層金屬間距約為720 nm，這意味著混合鍵合間距應(yīng)低于2 μm，理想情況下齒輪比約為1，此時(shí)鍵合界面處的鳥(niǎo)籠式布線（bird-cage routing）開(kāi)銷(xiāo)將基本消失。實(shí)現(xiàn)這一間距，以及所需的套刻精度（<0.5 μm）、TSV 尺寸縮小（CD 和 KOZ 小于1.5 μm，間距小于6 μm）和良率（采用智能冗余時(shí)接近100%），需要供應(yīng)商和合作伙伴生態(tài)系統(tǒng)進(jìn)行多年的工藝開(kāi)發(fā)。

在麒麟2026芯片上測(cè)得的結(jié)果非常具體：

? 晶體管密度在一代芯片內(nèi)從155 MTr/mm2逐步提升至238 MTr/mm2（晶體管密度使用以下公式計(jì)算）：

麒麟SoC設(shè)計(jì)的面積利用率達(dá)到68%）——這種提升幅度以前需要三年幾何級(jí)數(shù)擴(kuò)展才能實(shí)現(xiàn)。

? SoC 性能核心能效提升41%，最大時(shí)鐘頻率提升近13%。

? 構(gòu)建于上下兩層的高速全局片上網(wǎng)絡(luò)數(shù)據(jù)通路，使數(shù)據(jù)通路占用空間減少55%，并提升了供電穩(wěn)定性。

? 芯片后時(shí)鐘偏移調(diào)整方案獨(dú)立提升了5% 以上的 SoC 性能。

? 在 SRAM 中——訪問(wèn)速度、每比特能耗和面積均高度依賴(lài)于位線和字線長(zhǎng)度——LogicFolding 技術(shù)縮短了關(guān)鍵路徑，降低了每比特能耗，并將工作頻率提升了40% 以上。

? 在一個(gè)典型的處理核心上，雙層折疊架構(gòu)使時(shí)鐘緩沖器數(shù)量減少了50% 以上，時(shí)鐘偏移減少了25%，線路長(zhǎng)度減少了約30%。

這些性能提升是在固定的器件節(jié)點(diǎn)上實(shí)現(xiàn)的，并非通過(guò)新的光刻工藝，而是通過(guò)對(duì)三維邏輯空間分布進(jìn)行拓?fù)渲亟M來(lái)實(shí)現(xiàn)的。

Kirin 2026芯片中采用的LogicFolding技術(shù)刻意保持保守。混合鍵合間距達(dá)到1.5微米；TSV（硅通孔）的著陸層僅比頂層金屬低一級(jí)；折疊技術(shù)僅沿關(guān)鍵路徑選擇性地應(yīng)用，而非覆蓋整個(gè)設(shè)計(jì)。即便如此，今年的CPU核心頻率仍回升至3.1GHz。

未來(lái)十年，LogicFolding 有望從局部關(guān)鍵路徑折疊發(fā)展到全規(guī)模多層折疊——每個(gè)封裝三層、四層甚至更多層——這得益于低溫混合鍵合技術(shù)（降低各層之間的熱預(yù)算）以及 TSV 接地從頂層金屬向下遷移至 M6層，從而釋放超過(guò)30% 的高級(jí)布線資源。從2026年到2035年，晶體管密度預(yù)計(jì)將提升至400 MTr/mm2 甚至更高。同時(shí)，LogicFolding 使麒麟芯片能夠大幅提升 CPU 核心頻率，并為實(shí)現(xiàn)4 GHz 及更高頻率鋪平道路（表1）。該路線圖切實(shí)可行，且在成本方面具有經(jīng)濟(jì)效益。

表1.麒麟 CPU 性能核心運(yùn)行頻率趨勢(shì)。

側(cè)邊欄 A — LogicFolding 概覽

? 混合鍵合間距：小于2 μm（麒麟2026為1.5 μm；目標(biāo)gear ratio ≈ 1）

? 套刻精度：小于0.5 μm

? TSV CD/KOZ：小于1.5 μm；間距小于6 μm；故障率 <100 ppm；修復(fù)率99.9%

? 良率：采用智能冗余時(shí)接近100%

? 晶體管密度：?jiǎn)尾綄?shí)現(xiàn)155 → 238 MTr/mm2

? 功耗效率/頻率增益（SoC P 核）：+41% / +13%

? SRAM 工作頻率：+40% 以上

? 典型核心的時(shí)鐘緩沖器數(shù)量/時(shí)鐘偏移/線長(zhǎng)：-50% / -25% / -30%

從皮秒到微秒：人工智能數(shù)據(jù)中心的 τ 擴(kuò)展

一個(gè)自然而然的問(wèn)題是，在毫瓦級(jí)智能手機(jī)領(lǐng)域發(fā)展起來(lái)的原則，能否推廣到吉瓦級(jí)的人工智能訓(xùn)練和推理領(lǐng)域。人工智能工作負(fù)載處于 τ 擴(kuò)展譜的另一端：它并非單個(gè)芯片，而是成百上千個(gè)芯片協(xié)同工作，構(gòu)成一臺(tái)機(jī)器，其總計(jì)算能力在過(guò)去十年中增長(zhǎng)了約六個(gè)數(shù)量級(jí)。答案是肯定的——前提是將 τ 視為系統(tǒng)級(jí)目標(biāo)，并應(yīng)用于整個(gè)計(jì)算鏈，而不是單個(gè)加速器。

關(guān)于 τ 擴(kuò)展的人工智能論點(diǎn)，有兩個(gè)事實(shí)。首先，人工智能系統(tǒng)持續(xù)增長(zhǎng)——從單個(gè)芯片，到幾十個(gè)，到幾百個(gè)，再到數(shù)萬(wàn)個(gè)。其次，現(xiàn)代人工智能系統(tǒng)的能源預(yù)算和材料預(yù)算主要由數(shù)據(jù)而非計(jì)算決定。大型人工智能集群中超過(guò)80% 的能源消耗于數(shù)據(jù)傳輸；超過(guò)70% 的系統(tǒng)成本分配給了數(shù)據(jù)存儲(chǔ)。這意味著：減少數(shù)據(jù)傳輸時(shí)間（芯片間、機(jī)架間以及封裝內(nèi)部）至少與減少計(jì)算本身的計(jì)算時(shí)間同等重要。

τ 擴(kuò)展在人工智能規(guī)模上通過(guò)三個(gè)協(xié)調(diào)的層來(lái)實(shí)現(xiàn)：系統(tǒng)架構(gòu)（統(tǒng)一總線）、近封裝光學(xué)引擎（Hi-ONE：near-packaged optical engine）以及封裝本身的拓?fù)渲亟M（3D 折疊）。

統(tǒng)一總線——τ優(yōu)先系統(tǒng)架構(gòu)

傳統(tǒng)的多節(jié)點(diǎn)、多加速器架構(gòu)通過(guò)多個(gè)堆疊協(xié)議傳輸數(shù)據(jù)：PCIe 到主機(jī)，機(jī)箱內(nèi)部使用 NVLink 或?qū)Ｓ屑軜?gòu)，機(jī)箱之間使用以太網(wǎng)或 InfiniBand，以及最上層的軟件棧遠(yuǎn)程內(nèi)存訪問(wèn)。每一層都需要協(xié)議轉(zhuǎn)換、額外的序列化、額外的 DMA 緩沖區(qū)和額外的握手。每次轉(zhuǎn)換都會(huì)增加延遲、降低可靠性并產(chǎn)生額外成本。

統(tǒng)一總線 (UB) 用一個(gè)在機(jī)箱內(nèi)部和機(jī)箱之間運(yùn)行的單一協(xié)議取代了這種協(xié)議棧——一個(gè)完全對(duì)等的架構(gòu)，它在整個(gè)系統(tǒng)中原生地暴露內(nèi)存語(yǔ)義。數(shù)據(jù)傳輸簡(jiǎn)化為在內(nèi)存語(yǔ)義層進(jìn)行無(wú)轉(zhuǎn)換的對(duì)等傳輸，并使用硬件管理的一致性來(lái)代替軟件棧消息傳遞。經(jīng)測(cè)量，性能提升約為兩個(gè)數(shù)量級(jí)：端到端遠(yuǎn)程訪問(wèn)延遲從 TCP/IP 級(jí)協(xié)議棧典型的幾十微秒降至約100納秒——沿主要通信軸線的系統(tǒng) τ 降低了約500倍。在機(jī)架規(guī)模上，這使得系統(tǒng)性能漸近地接近于一臺(tái)單一的、結(jié)構(gòu)一致的機(jī)器——內(nèi)部稱(chēng)之為“系統(tǒng)即芯片”（System-as-One-Chip）。

Hi-ONE——Optical I/O at the Package

通信延遲降低后，下一個(gè)瓶頸隨之而來(lái)。提高單個(gè)機(jī)架內(nèi)芯片的密度，會(huì)將功率密度和可靠性推向極限，同時(shí)也會(huì)推高電控SerDes的性能。對(duì)于每個(gè)AI芯片400 Gb/s的帶寬，銅纜布線仍然成熟可靠。但對(duì)于每個(gè)芯片數(shù)Tb/s的帶寬，銅纜布線在物理上變得不切實(shí)際：SerDes的產(chǎn)能達(dá)到合同上限，布線體積過(guò)大，面板安裝變得不可行，散熱和供電裕量也捉襟見(jiàn)肘。

華為半導(dǎo)體開(kāi)發(fā)的方案是高密度光互連節(jié)點(diǎn)引擎Hi-ONE——一種近封裝的光引擎，每個(gè)模塊可提供8 Tb/s的帶寬，與單個(gè)光鏈路上AI芯片的UB帶寬相匹配。它將所需的SerDes傳輸距離從約100厘米縮短至約5厘米，無(wú)需笨重的線纜，并將傳輸距離從不足1米擴(kuò)展至100米，從而使分布式千兆級(jí)數(shù)據(jù)中心的高密度互連成為現(xiàn)實(shí)。

Hi-ONE的設(shè)計(jì)理念本身就是一種τ擴(kuò)展論證。Hi-ONE沒(méi)有采用用于實(shí)現(xiàn)高信號(hào)保真度的大型DSP，而是采用了一種線性方法——模擬均衡增強(qiáng)的驅(qū)動(dòng)器和跨阻放大器——并允許UB協(xié)議容忍略微放寬的誤碼率。這種協(xié)議層和物理層之間的跨層權(quán)衡降低了功耗、成本和集成復(fù)雜性，并體現(xiàn)了τ優(yōu)先方法論所推崇的跨層權(quán)衡。

N2 與 N 的兩難困境，以及3D 折疊的必然性

人工智能加速器不會(huì)止步于2.5D 扇出的最深層原因在于幾何學(xué)，這一點(diǎn)值得明確闡述，因?yàn)樗鼪Q定了2030年以后的發(fā)展路線圖。

在傳統(tǒng)的2.5D 人工智能芯片中，邏輯芯片位于封裝中心，HBM 堆疊和 SerDes 排列在其邊緣，電壓調(diào)節(jié)器環(huán)繞封裝。每個(gè)內(nèi)存信號(hào)、每個(gè)互連信號(hào)以及每一安培的供電電流都必須沿著芯片邊緣傳輸才能到達(dá)內(nèi)部的計(jì)算資源。如果芯片的邊長(zhǎng)為 N，那么：

? 計(jì)算能力與 N2（面積）成正比，

? 但內(nèi)存帶寬、互連和供電——所有這些都由沿邊緣的2.5D 扇出承載——僅與 N（周長(zhǎng)）成正比。

這些二次曲線和線性曲線之間日益擴(kuò)大的差異構(gòu)成了扇出困境，也解釋了為何無(wú)論底層邏輯節(jié)點(diǎn)多么激進(jìn)，2.5D 擴(kuò)展都無(wú)法實(shí)現(xiàn)。任何晶體管級(jí)的改進(jìn)都無(wú)法彌補(bǔ)拓?fù)淙毕荨?/p>

3D 折疊技術(shù)通過(guò)將邊緣資源轉(zhuǎn)移到表面上解決了這一困境。電源（通過(guò)背面電源和集成電壓調(diào)節(jié)器）、高速存儲(chǔ)器（通過(guò)與邏輯混合鍵合）以及光 I/O（通過(guò)近封裝 Hi-ONE）都從周邊遷移到垂直表面——一旦位于表面上，它們就可以以 N2 的速度擴(kuò)展，與計(jì)算速度的平方相匹配。封裝不再是一個(gè)被周邊存儲(chǔ)器和 SerDes 包圍的邏輯芯片；它變成了一個(gè)垂直集成的堆疊結(jié)構(gòu)，其中存儲(chǔ)器、互連結(jié)構(gòu)、電源和邏輯都同步擴(kuò)展。

路線圖為這一演進(jìn)設(shè)定了明確的時(shí)間表。到2030年左右，AI加速器（升騰SuperPoD系列——2025年的升騰910C、2026年的升騰950以及后續(xù)的升騰990）將依賴(lài)于一系列成熟技術(shù)的組合：芯片組、2.5D扇出以及通過(guò)微凸點(diǎn)和標(biāo)準(zhǔn)間距混合鍵合實(shí)現(xiàn)的3D堆疊。大約在2030年，升騰990將把LogicFolding引入AI加速器領(lǐng)域，此后，3D Folding將成為2035年之前實(shí)現(xiàn)α性能提升的主要載體。在此過(guò)程中，預(yù)計(jì)到2035年硬件集成度將提升100倍以上，τ性能的提升將分布在堆疊的每一層，而不是集中在器件層面。

側(cè)邊欄 B — AI 系統(tǒng)規(guī)模下的 τ

? UB 遠(yuǎn)程訪問(wèn)延遲：~10微秒 → ~100納秒（τ 降低約500倍）

? HiONE 單模塊帶寬：8 Tb/s（與單芯片 UB 帶寬匹配）

? HiONE SerDes 傳輸距離：~100厘米 → ~5厘米；面板間傳輸距離：<1米 → 100米

? 扇出難題：計(jì)算量 ∝ N2，周長(zhǎng)限制下的帶寬/I/O/功耗 ∝ N

? 3D 折疊：將帶寬、光 I/O 和電源從邊緣轉(zhuǎn)移到表面，恢復(fù) N2 奇偶性

? 2026年到2035年預(yù)計(jì)硬件集成增長(zhǎng)：>100倍

邏輯與內(nèi)存：從解耦到融合

τ 縮放的一個(gè)影響值得單獨(dú)探討，因?yàn)樗汝P(guān)乎產(chǎn)業(yè)也關(guān)乎技術(shù)。

在8086時(shí)代，業(yè)界通過(guò)標(biāo)準(zhǔn)化的內(nèi)存總線有意地將處理器和內(nèi)存解耦。這種解耦使得兩個(gè)行業(yè)能夠獨(dú)立發(fā)展：處理器性能沿著摩爾曲線快速提升，而內(nèi)存供應(yīng)商則與之并行發(fā)展出一個(gè)龐大的獨(dú)立市場(chǎng)。

人工智能時(shí)代正在逆轉(zhuǎn)這種解耦。計(jì)算密度的持續(xù)增長(zhǎng)正將內(nèi)存帶寬、延遲、功耗和封裝推向極限。HBM、混合鍵合和3D 堆疊 SRAM 都體現(xiàn)了一個(gè)根本事實(shí)：對(duì)于現(xiàn)代人工智能工作負(fù)載而言，數(shù)據(jù)傳輸與計(jì)算本身同樣重要，邏輯和內(nèi)存再次被推向緊密的物理集成。隨著它們的融合，供應(yīng)鏈中的影響力平衡正在向內(nèi)存和封裝供應(yīng)商傾斜。

技術(shù)方向已然明確，但經(jīng)濟(jì)解決方案尚未確定。在人工智能硬件時(shí)代，能夠?qū)⑦壿嫼陀洃浖夹g(shù)融合，并建立經(jīng)濟(jì)伙伴關(guān)系，使這兩個(gè)行業(yè)長(zhǎng)期共享融合成果的企業(yè)，才能獲得持久的成功。這不僅僅是一個(gè)研究問(wèn)題，更是未來(lái)十年整個(gè)行業(yè)必須解決的結(jié)構(gòu)性問(wèn)題。τ 擴(kuò)展通過(guò)揭示每次分離的跨層成本，確保了這個(gè)問(wèn)題無(wú)法被推遲解決。

未解決的挑戰(zhàn)

將 τ 擴(kuò)展視為一個(gè)完整的系統(tǒng)是不恰當(dāng)?shù)摹Ｄ壳叭源嬖谝恍?shí)質(zhì)性問(wèn)題，在此列出這些問(wèn)題旨在突出正在進(jìn)行的工作并邀請(qǐng)各方合作。

工具鏈和方法論：當(dāng)今的 EDA 開(kāi)發(fā)于一個(gè)以面積、時(shí)序和功耗三個(gè)獨(dú)立維度進(jìn)行優(yōu)化的時(shí)代，系統(tǒng) τ 只是一個(gè)剩余部分。全尺寸邏輯折疊要求工具鏈將多個(gè)堆疊芯片視為一個(gè)連續(xù)的設(shè)計(jì)實(shí)體——以單元粒度而非塊粒度劃分邏輯，在統(tǒng)一的成本函數(shù)下將邏輯放置在整個(gè)體積內(nèi)，并在芯片間路徑上執(zhí)行時(shí)序收斂，因?yàn)榇怪被ミB寄生效應(yīng)、KOZ 排除項(xiàng)和晶圓間工藝偏差等因素相互作用，而傳統(tǒng)的二維訓(xùn)練工具無(wú)法充分解決這些問(wèn)題。我們已經(jīng)開(kāi)發(fā)出初步的內(nèi)部工具，這些工具能夠產(chǎn)生有用的結(jié)果，方法論細(xì)節(jié)將在未來(lái)幾個(gè)月內(nèi)公布。一個(gè) τ 原生工具鏈——開(kāi)放的、多物理場(chǎng)的、3D 原生的——是未來(lái)十年最重要的賦能投資。

晶圓間工藝偏差：LogicFolding 將來(lái)自不同批次（有時(shí)甚至是不同節(jié)點(diǎn)）的晶圓進(jìn)行鍵合。晶圓間閾值電壓 (Vth)、驅(qū)動(dòng)電流和互連 RC 的偏差遠(yuǎn)大于晶圓內(nèi)偏差，并且對(duì)時(shí)鐘分布和保持時(shí)間裕量的影響最大。智能冗余、自適應(yīng)補(bǔ)償和考慮 τ 的簽核流程是應(yīng)對(duì)這些偏差的必要組成部分。

垂直互連開(kāi)銷(xiāo)：每個(gè)混合鍵合和每個(gè)TSV都會(huì)產(chǎn)生有限的電阻和電容開(kāi)銷(xiāo)，并且TSV KOZ會(huì)取代標(biāo)準(zhǔn)單元。因此，邏輯折疊必須通過(guò)簡(jiǎn)單的不等式逐層進(jìn)行合理化。

對(duì)于移動(dòng)關(guān)鍵路徑和內(nèi)存而言，這一閾值已被突破；該閾值取決于工作負(fù)載，并且隨著鍵合間距的縮小，該邊界也會(huì)隨之移動(dòng)。

能耗：τ 是時(shí)間定律，而非焦耳定律。一個(gè)運(yùn)行速度提升10倍但功耗也增加10倍的超級(jí)節(jié)點(diǎn)，并未違反任何擴(kuò)展性原則，卻超出了電網(wǎng)容量。因此，τ 擴(kuò)展需要能量方面的配合：消除堆棧開(kāi)銷(xiāo)的內(nèi)存語(yǔ)義架構(gòu)、將每比特皮焦耳功耗降低幾個(gè)數(shù)量級(jí)的近封裝/共封裝光學(xué)器件、背面供電、內(nèi)存內(nèi)/內(nèi)存內(nèi)計(jì)算，以及將 τ 擴(kuò)展空間轉(zhuǎn)化為能量的合理做法（數(shù)據(jù)中心規(guī)模的動(dòng)態(tài)電壓頻率調(diào)節(jié)——智能手機(jī)電池長(zhǎng)壽命的保障機(jī)制）。

重要的是，當(dāng) τ 擴(kuò)展空間用于能量時(shí)，它本身也能提供能量擴(kuò)展空間。基準(zhǔn)測(cè)試。業(yè)界當(dāng)前的性能基準(zhǔn)測(cè)試——Linpack、MLPerf、SPEC——是為每個(gè)工作負(fù)載只需一個(gè)標(biāo)量就足夠了的時(shí)代設(shè)計(jì)的。 τ 擴(kuò)展型行業(yè)需要 τ 剖面基準(zhǔn)——這些向量揭示了系統(tǒng)每一層的主導(dǎo) τ 值以及該層剩余的擴(kuò)展空間。主導(dǎo) τ 值所在的層，顧名思義，就是下一個(gè)投資重點(diǎn)。

六年展望，十年展望

從2020年5月到2026年5月，華為半導(dǎo)體設(shè)計(jì)并量產(chǎn)了381款芯片，服務(wù)于移動(dòng)、人工智能、汽車(chē)、工業(yè)和基礎(chǔ)設(shè)施市場(chǎng)。在這些產(chǎn)品組合中，τ 擴(kuò)展理論得到了驗(yàn)證：

? 在器件和電路層，晶體管密度已從155提升至2031年的400+MTr/mm2。

? 在芯片層，LogicFolding 技術(shù)已在領(lǐng)先的移動(dòng) SoC 上證明，在固定的器件節(jié)點(diǎn)上，關(guān)鍵路徑頻率、能效和密度可以持續(xù)提升。

? 在系統(tǒng)層，Unified Bus 和 Hi-ONE 技術(shù)已證明，數(shù)百微秒的通信時(shí)間 τ 可以壓縮至數(shù)百納秒，并且多機(jī)架人工智能集群可以像一臺(tái)獨(dú)立的機(jī)器一樣運(yùn)行。

展望未來(lái)，CPU核心頻率預(yù)計(jì)到2029年將達(dá)到4GHz及以上，麒麟SoC的能效預(yù)計(jì)在三到五年內(nèi)典型使用情況下將提升一倍以上，而人工智能硬件集成度預(yù)計(jì)到2035年將增長(zhǎng)100倍以上。

更深層次的論斷，超越任何單一產(chǎn)品，在于方法論層面。τ擴(kuò)展是自Dennard以來(lái)首個(gè)為整個(gè)堆棧提供共享優(yōu)化目標(biāo)的擴(kuò)展原則。它向工藝技術(shù)專(zhuān)家、電路設(shè)計(jì)師、架構(gòu)師、系統(tǒng)工程師和軟件團(tuán)隊(duì)表明，這些群體現(xiàn)在正在以相同的單位優(yōu)化相同的量，并且任何單層的改進(jìn)都必須傳播到系統(tǒng)τ才能產(chǎn)生影響。它還向行業(yè)戰(zhàn)略家和資本配置者表明，下一個(gè)資金應(yīng)該流向τ，而不是節(jié)點(diǎn)——競(jìng)爭(zhēng)性性能不再需要始終處于光刻技術(shù)的前沿，封裝、內(nèi)存帶寬和架構(gòu)設(shè)計(jì)現(xiàn)在擁有了以往僅由前沿邏輯節(jié)點(diǎn)占據(jù)的戰(zhàn)略地位。

對(duì)于一代從小接受“摩爾定律”等同于“進(jìn)步”的工程師來(lái)說(shuō)，這是一個(gè)艱難的轉(zhuǎn)變。事實(shí)上，幾何時(shí)代已經(jīng)結(jié)束；否認(rèn)這一事實(shí)并非明智之舉。通過(guò)小型化實(shí)現(xiàn)加速的時(shí)代正在讓位于通過(guò)多層電子系統(tǒng)中的τ優(yōu)化實(shí)現(xiàn)加速的時(shí)代——未來(lái)六到十年內(nèi)，那些將τ作為首要目標(biāo)的公司、研究團(tuán)隊(duì)和生態(tài)系統(tǒng)，將決定未來(lái)十年計(jì)算領(lǐng)域的格局。

未來(lái)十年的工作規(guī)劃已經(jīng)完成。許多懸而未決的問(wèn)題依然存在，沒(méi)有任何一個(gè)組織能夠獨(dú)自解決——工具鏈、標(biāo)準(zhǔn)、基準(zhǔn)測(cè)試、器件物理以及經(jīng)濟(jì)模型都需要來(lái)自不同企業(yè)的共同貢獻(xiàn)。因此，本文既是一份來(lái)自實(shí)踐的報(bào)告，也是一份邀請(qǐng)。

未來(lái)的發(fā)展路線圖充滿挑戰(zhàn)，但方向明確。

作者簡(jiǎn)介：

何庭波領(lǐng)導(dǎo)華為半導(dǎo)體業(yè)務(wù)。她領(lǐng)導(dǎo)的團(tuán)隊(duì)在2020年至2026年間設(shè)計(jì)并量產(chǎn)了381款芯片，涵蓋移動(dòng)、人工智能、汽車(chē)和基礎(chǔ)設(shè)施市場(chǎng)，并且是τ縮放方法以及本文中提到的LogicFolding、UnifiedBus和Hi-ONE技術(shù)的源頭。

国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

新聞資訊網(wǎng)

何庭波署名論文發(fā)布，詳解刷屏的華為“芯”技術(shù)

商務(wù)部：美濫用出口管制沖擊全球半導(dǎo)體產(chǎn)供鏈穩(wěn)定

加密貨幣，全線拉升

商務(wù)部：美濫用出口管制沖擊全球半導(dǎo)體產(chǎn)供鏈穩(wěn)定

加密貨幣，全線拉升

友情鏈接