北極雄芯馬愷聲:全國產Chiplet封裝鏈路跑通,Chiplet架構正在重塑大算力晶片丨GACS 2023

2023-09-28     芯東西

原標題:北極雄芯馬愷聲:全國產Chiplet封裝鏈路跑通,Chiplet架構正在重塑大算力晶片丨GACS 2023

芯東西(公眾號:aichip001)

編輯 | GACS

芯東西9月28日報道,9月14日~15日,2023全球AI晶片峰會(GACS 2023)在深圳南山圓滿舉行。在首日開幕式上,清華大學交叉信息研究院助理教授、北極雄芯創始人馬愷聲分享了主題為《Chiplet架構在AI晶片中的商業價值》的主題演講。

今年2月,北極雄芯發布了國內首款基於異構Chiplet集成的智能處理晶片「啟明930」。該晶片由11塊Chiplets通過高速接口拼接而成,採用12nm工藝、2.5D封裝、全國產基板材料,可獨立用於AI加速卡,亦可通過D2D擴展多種功能型Side Die進行集成。

Chiplet是後摩爾時代提升晶片性能的有效路徑,能將多異構集成的模塊拆分用不同製程製造。

以下為馬愷聲的演講實錄:

各位領導、各位專家、各位嘉賓:大家中午好!

我來自清華大學,也是北極雄芯的創始人,跟各位彙報一下我們這幾年的一些工作和想法。我的題目是《Chiplet架構在AI晶片中的商業價值》,我會講一些技術部分以及Chiplet的好處,包含四個部分:從歷史到價值,再到願景和我們的想法實踐。

一、摩爾定律走向黃昏,同構互連、異構拆分成解法?

說起Chiplet,早在1969年摩爾老先生的論文里就提到過。2018年我注意到這句話,然後去論文中扒下這句話:It may prove to be more economical to build large systems out of smaller functions,which are separately packaged and interconnected(用較小的功能構建大型系統可能更經濟,這些功能是單獨封裝和互聯的)。這是論文里某一段的第一句。

進入到商業層面,我們很早就意識到一個問題,光刻機的尺寸為26mm×33mm,更先進的光刻機尺寸更小。摩爾定律到了盡頭之後,我們沒有辦法做小晶片,只能把面積撐大,但光照的面積就這麼大,所有良率只能這樣。第一個解決方法,就是整個同構互聯起來,這是為了解決光照最大尺寸的問題,二是解決省錢,異構的拆分通過復用可以更好地解決這件事情。

其中Wafer to Wafer(晶圓至晶圓)、Chip to Wafer(晶片對晶圓)的集成等工程問題,通過在座各位封裝專家的努力就可以實現。

這裡面真正有挑戰的是散熱,把多個晶圓堆到一起,中間的那片晶圓的熱量導不出來。一旦熱導不出來就會降頻,需要控制它散熱防止溫度越來越高。所以解決散熱最簡單的方案,就是做架構拆分,比如這一塊是熱的,下一塊晶圓就不應該讓它熱,這樣交叉起來,但這個事情非常考驗架構設計人的能力。

還有野路子,我們可以通過打更多的TSV把熱導出來。但這個路子的問題在於,因為TSV是在矽上面穿孔,這會導致孔打多的話,熱應力係數不一樣,使得很脆的矽一不小心就會爆掉。

還有可能的方案是把微流道進晶片。

二、助推大晶片、先進位程發展,實現低成本、高良率、高能效比……

Chiplet真正帶來的好處,我前面已經稍微提到了。

從1965年開始到2005年一直在提升晶片頻率,可以看圖中綠色的線(如圖),到2005年頻率提升不上去了。很快,2000年初,我上學的時候第一款手機是聯發科的八核手機,當時還不理解手機為什麼要上八核。

到2005年起,核的數量越來越多,2020年之後,摩爾定律基本上發展到黃昏。我們發現另外一些問題,摩爾定律即將走到盡頭我們面臨的問題是什麼?

5nm、3nm、1nm只有二十幾個原子,但晶圓代工廠給出的報價很高,其中,量產的價格5nm一片晶圓要2萬多美金左右,12nm差不多六七千美金,價格翻了一倍,性能只漲了百分之幾十。所以這件事情不划算。

另外還有一些問題,大晶片有大晶片的問題,大晶片面積大了之後良率很糟糕,因為上面只要落一個點,這塊晶片就要扔掉,所以良率自然很糟。

另外還有一個問題,晶片是方的,晶圓是圓的,所以邊上會浪費一圈。但晶片小的話,浪費這部分相對就少很多,所以小晶片有天然的優勢。

因此,我們就在想,什麼樣的形式能做這件事情?有一個大約的參考值,這些值都是相對比較準的。如果600平方毫米是33%良率,100平方毫米良率在80%左右,那麼這是一個巨大的差異。並且國內晶圓代工廠的水平還有差距,所以將33%的良率提到80%,成本變成原來的一半以下,這件事情有非常大的好處,所以我們希望把整個東西拆散。

另外Chiplet還有一些好處,我們以前都是找晶圓代工廠、自己做庫、買IP,最後把東西堆出來。如果市場上有一些東西,我們是不是可以從供應商ABC處採購一些半成品,比如億鑄科技的ReRAM,然後集成上去得到很好的能效比,類似這樣的方式其實可以做很多異構的集成。

此外,I/O真的有必要上3nm嗎?為什麼不用7nm、14nm搞定?因為模擬電路在這部分能取得的性能非常有限,甚至漏電更差。

還有一些訴求,CPU每年疊代嗎?但性能提升僅在10%-15%之間,NPU也每年疊代,這樣的話,我們每一次疊代都要把所有東西全部重做的壓力很大,所以,為什麼不能把NPU獨立出來?然後將其每年疊代,但其它I/O的部分就不動了。

Chiplet還有一個非常大的好處,就是Scalability(可擴展性)特別好,通過增減HUB的數量就可以做出不同系列的產品,以前這件事情需要做高中低檔次多塊晶片來實現。

當然,Chiplet的好處主要還是集中在大晶片、先進位程方面,(如下圖)橫坐標左邊第一個是SoC、MCM、InFO、2.5D,縱向看是5nm、7nm、14nm,上方橫坐標是兩個Chiplet、三個Chiplet、五個Chiplet。你會看到,越往右下角,先進封裝的東西對比最左邊的條,能省的錢越來越多,最右下角能省到50%。

但這裡面也要看晶片的面積,先不說100平方毫米,但三四百平方毫米之後越大越划算。做一個小耳機的產品,從錢的角度來講可能不划算,但它如果有體積小等其他的訴求就可以適用。

三、始於為清華交叉院做晶片,要降低行業專用計算投入

我在清華交叉院,我的院長是姚期智先生,「姚班」是國內AI研究的高地,也是AI理論、量子、AI+的高地。

從2018年開始,我在做的事情就是給院裡的老師做晶片。我進來第一件事就發現,清華交叉院有30個老師,基本上每個老師把持一個方向。所以我就在想,如果三年做一塊晶片,我現在30歲出頭,我發現我的人生路線很清晰。

所以我一直在琢磨,怎麼能快速地給這些老師做晶片?能收斂出來的東西就是:我能不能把它抽象成異構的集成形式,把一些共用的部分(C)放中間,然後把不同的東西(X、Y)每換一個行業就單獨做一小塊,再結合起來(如下圖)。

用這種形式,不管是IP、掩膜還是人力的投入都可以得到巨量的節省。這是我的一篇文章,這裡面把到底能省多少錢的帳算得清清楚楚,大家可以去搜索瀏覽。

另外我們自己開發接口,此前我想的很簡單,市場有很多Die to Die的接口,可以根據需求購買。但我後來發現,有一個問題是,沒有一個接口適用所有的封裝,2D或2.5D封裝的產業鏈都差異巨大。所以我們自己做接口,然後將兩個連起來,這解決的是面積問題。

但我們真正感興趣的是右邊這種形式(如圖),我們希望中間的I/O或者HUB的形式是通用的,能滿足大家基礎需求。比如AI、隱私計算、製藥等應用,企業可以自己做一部分,然後我們提供整套解決方案或者接口、封裝,大家可以自己選擇。

我們的整體目標就是希望降低整個行業在做專用計算時候的投入和需求。我們自己把它做出來,這個接口已經做得很完備。中間的圖是FF corner,我們所有corner全部都做,真正做溫箱從-40度拉到125度,因為產品的應用在汽車上。

接口整個採用高通道高速SerDes的方案,12nm工藝、大約面積為2.8平方毫米、支持2D和2.5D封裝,並且整個封裝採用全國產的產業鏈。

然後我就請姚期智先生一起,將這個接口以聯盟和團標的形式發布出來。值得注意的是,這個產業聯盟(中國Chiplet產業聯盟)在2020年9月成立,2022年3月,UCIe成立Chiplet這件事情變火,所以我們其實早於它。

我們意識到這件事情之後,就把整個芯粒互聯的接口標準以及車規的互聯標準都開放出來,然後和制車廠一起把這些東西跑通。

我的目標就是創造高性能計算的新範式

四、全國產供應鏈跑通,已為最終客戶送樣

北極雄芯在這裡面偏商業化一點,我們從2018年開始一點點做,直到2020年9月,我們和封裝廠耦合了一段時間後才把整個東西搞清楚,2021年成立公司。現在,我們有量產的產品、能實現收入、把930發布出來,這就是整個公司發展的簡單回顧。

真正的架構長這樣(如下圖),我們稱作通用型HUB Chiplet、Functional Chiplet方案。

在HUB裡面,我們放了大家能想到的高端通用IP,如PCIe 5.0、LPDDR5這樣的IP,我的目標是HUB使用時長能達到五年。

除了HUB,我們還限定了功能模塊面積不超過100平方毫米,因為我們發現面積超過100平方毫米,良率會往下掉得非常嚴重。大家算一算,如果一個HUB差不多一兩百平方毫米,Functional Die拼四個,實際上能拼8到16個,比如拼8個加起來有800平方毫米,甚至1000平方毫米,其算力實際上很大。

用這種形式,我們就可以把專用和通用拆分出來,客戶有訴求可以選我們的接口,也可以選其它接口,然後將其連起來。還有其他客戶的東西,我們也可以幫忙導入。

所以從解決方案到接口到封裝,我們可以提供全套的解決方案,也可以根據大家的需求來做,所以我們能真正把這款晶片做出來。

這是我第一次在公開場合把這張圖(如下圖)拋出來,它非常複雜,由11塊Chiplet拼在一起,採用2.5D封裝,純國產工藝

這件事情我做了三年,從2019年開始一直在和封裝廠耦合。不瞞大家說,國內的封裝在一些基板技術上有差距,中國台灣的技術能做到30層基板,國內能量產的水平差不多在8到10層。

這是為什麼?因為其是一層膜,做完一層鋪一層膜,一層良率99%的話,做30層就是0.99的30次冪。因此,我們選擇自己做,將11塊拼在一起,左右可以是NPU,上下可以自己定義,用這種形式可以將其做起來。北極雄芯真正的Know-How就是用更複雜的接口換取了對更差封裝的容忍。

給大家舉個例子,底下藍色的叫基板,如果有30層布線隨便布,但我們現在僅有6到8層基板,扣去兩層電源和ID就剩4到6層,所以沒有足夠的位置布足夠的線。

所以我們只能把提升單根線的速度,這就遇到另外一個問題,單根線的速度上來之後,一個接口只有38根線,一共380根線,對比蘋果10萬根線是巨大的數量級的差距。

單根線的速度頻率比較高,但這個解決方案的問題是什麼?用高速串口,可以想像成射頻領域,射頻對基板的要求很高,需要防止毛刺、差損、回損對接口產生影響。

因為普通的並口200兆只需要連接就可以,高頻率就會對封裝有要求。所以我們真正做的事情就是跟國內所有封裝廠做封裝,把參數提取出來,再看國內團隊有沒有能力把這個接口做完去適應這套封裝,把其中的差距補回來。

當然這套方案也存在問題,例如高速串口的帶寬可以支撐,但串口的延遲相比於並口延遲會更大。

這種方案好處在於:首先,其基本上能用國產的供應鏈,採用CoWos先進封裝僅20%-30%的成本,做出同樣性能的晶片。

二是這些東西要跑通,還要看最後的系統利用率,如Die to Die能拉多少?算力可拓展嗎?以及將整個供應鏈都跑通後真正給最終用戶送樣。

北極雄芯的主要客戶很多是主機廠和板卡供應商,所以這些網絡都是他們提出來的。我們真正將廠商的軟體棧跑齊、驗證後發現整個利潤率差不多在60%左右。

我們有一套軟體工具,這套工具跟前面大廠提的看起來好像一樣,但實際上有50%的東西是完全不同的。

它們不一樣的地方在於,我們的方案中間是一個HUB,邊上掛了10個Chiplet。這樣就有一個問題,從硬體封裝的角度來說好像只要連接上就可以,但如果從軟體或者算法的角度看,假設每一個小的東西裡面都是一個Mesh,比如每個都是小的計算單元NPU,從上往下看就是一個巨大的Mesh,但是在畫虛線的地方是Dieto Die的接口,這裡面的傳輸功耗相對比較小,一旦越過Dieto Die,就會有延遲,且有功耗代價。

因此,我們發現它會把這件事情切得很小,原來我想得很簡單,以這個為例(如下圖),這是一個ResNet 18的網絡,我將其一層層擺下來後發現這種形式不行,因為它越過這層線功耗就會變大,比SoC糟糕3倍。所以我就意識到第二個問題,能不能「之字型」繞起來,這也是一種解決方案,但我後來發現這個方法也不行。

實際上現在北極雄芯內部,真正的另外一個Know-How就是在編譯層面,這個策略有AI的方法,也有暴力的辦法。

我舉一個例子,以這張4×4的圖為例(如下圖),我想在裡面儘可能做到復用,排出來的最好形式就是第二張圖,第三張圖是機器搜出來的最好方式,這個東西剛開始我無法理解。其中,第0層、第1層等是散的。當我們回頭測算時發現,用這種形式其網絡內部復用是最好的,沒有跨Die或者跨Die的數量搬運很少,用這種形式基本上能跟SoC的功耗拉齊。

因為這裡面有很多事情要做,比如鑑定這塊復用、如何做數據交換、這個角的數據最好不要跟那個角的數據交換等,用這種形式我們就可以把整個功耗壓到相當低。Chiplet帶來的芯粒稅問題,包括接口帶來的問題,用編譯的角度能將其影響降到最低。

北極雄芯正在做的就是把整個東西打散,按照不同的模塊再規划起來,重新梳理數據流,採用國產供應鏈全部封裝起來,做成板卡把晶片跑起來,給最終的客戶送樣,並且能在晶片上把多個網絡實時並行跑通,這件事情是過去北極雄芯在過去四年做的事情。

我的演講就到這裡,謝謝大家!

以上是馬愷聲演講內容的完整整理。

文章來源: https://twgreatdaily.com/zh/82ebefc4b8ee41e1f2d3e9387e171686.html