集微網消息,以「智聯世界 生成未來」為主題的2023世界人工智慧大會,即將在本周(7月6日)拉開帷幕。
從今年的大會主題不難看出,生成式人工智慧(AIGC),正是當下人工智慧學術界、產業界的最大熱點,可以想見,大會期間,各家廠商的自研大模型將上演一場名副其實的「百模大戰」。
回顧AIGC走紅的過程,2018年谷歌發布Transformer模型無疑是一個關鍵里程碑。由於捨棄了NLP領域自回歸計算範式的LSTM/GRU傳統算法,從CV領域借用已較為成熟的注意力機制,以位置信息取代時序信息,Transformer得以充分利用GPU等SIMD架構處理器硬體的並行處理能力,實現了令人驚艷的工程效果,並使大型語言模型(LLM)成為其後迅速走向主流的研究路徑,工程實踐與能力湧現的良性循環,最終為ChatGPT、Midjourney等產品的現象級傳播奠定了基礎。
當下這場無人甘於錯失的AI淘金熱中,大算力AI晶片,順理成章成為衡量各家AIGC業務能力的最重要標尺之一,得到了空前關注。不過在公眾輿論場中,這一極具解析價值的議題似乎被簡單粗暴地等同於「囤積了多少塊英偉達A100/H100」。
有鑒於此,集微網特意對國內外開發大算力AI晶片的科技公司概況進行了整理,以期為讀者提供一幅AI「大晶片」全景圖譜。
01 通用還是定製,AI晶片體系結構「天問」
1991年,當黃仁勛還未創立英偉達之時,深度學習「三巨頭」之一的楊立昆(Yann LeCun),就已經在貝爾實驗室開發了卷積神經網絡專用訓練晶片ANNA,初步驗證了為AI訓練、推理任務開發的領域專用架構在算力、能效上的優越性。
2015年前後,在AlexNet、AlphaGO的震撼下,大批企業湧入AI晶片市場,掀起了這一細分賽道的第一波創投熱潮。
作為AI晶片中最為高端的品類之一,面向數據中心市場的AI大算力晶片也吸引了眾多新老玩家。集微網所梳理的主要廠商,彼時普遍押注於兩大技術路線,即英偉達為代表的GPGPU路線,和谷歌TPU為代表的定製ASIC路線。
數年後的今天,英偉達GPGPU無疑依然占據著市場主導地位。
根據集微諮詢(JW Insights)統計,AI類晶片在2022年352億美元的市場規模中,GPGPU占比接近60%,TrendForce則預測,2023年AI伺服器(包含搭載GPU、FPGA、ASIC定製晶片)出貨量近120萬台,其中英偉達GPU市占率約60-70%,雲計算巨頭自研AI晶片占比約20%。
在英偉達高端產品一卡難求的同時,不少曾經的AI晶片獨角獸則已悄然退場,連續收購Habana、Nervana、Movidius等AI晶片明星創企的英特爾,近期也傳出加速計算產品線被大幅削減的消息。
定製大算力AI晶片的「骨感」現實,一方面源於AI模型、算法、用例本身極為快速的疊代,使針對特定模型的硬體優化往往面臨問世即過時的可能,通用晶片與軟體優化的組合有其內在合理性,並且谷歌及一眾初創企業實踐的ASIC路線依靠乘加器脈動陣列來訓練神經網絡,往往面臨流水線頭尾開銷大,計算資源利用率不足的問題。
更重要的是,對需求端的AI開發者而言,英偉達不僅意味著一個加速卡硬體品牌,更是完整AI開發平台的代名詞。從楊立昆、辛頓(Geoffrey Hinton)等人的開創性工作開始,英偉達CUDA並行計算框架,已經成為事實上的AI學術界、工業界通用標準,在AI開發者社區形成了明顯的網絡效應,恰如英特爾在CPU領域的統治力來源於IBM PC機所培育的終端用戶生態。
當然,ASIC路線暴露出的不足,也刺激了進一步的技術、架構探索,自FPGA起源的可重構計算,近年來又向由數據流驅動的空間計算(Spatial computing)演進,湧現出Tenstorrent、特斯拉、Cerebras等新秀。
AIGC空前熱潮下,英偉達之外的新老玩家在大算力AI晶片領域技術與產品布局正在加速。
以全球三大雲計算廠商為例,亞馬遜近期主動對外表態,對AMD為數據中心AI負載開發的新一代MI300 APU表示了明確興趣;全球第二大廠微軟,也在近期被曝出代號Athena的自研AI晶片項目,據稱已有部分樣品供微軟和OpenAI員工試用,第三朵「大雲」谷歌,剛剛公開了TPUv4號稱「登月工程」的Pods架構設計。
定製大算力AI晶片,緣何「風雲再起」?
02 舊瓶新酒,定製AI晶片擁抱Chiplet
要理解供給端的技術與產品潮流變化,首先應當在需求端尋找線索。
生成式人工智慧的基本特徵之一,無疑是對計算、存儲、IO帶寬能力堪稱永無止境的需求。
為了命中市場需求新的「甜蜜點」,各大廠商也展開了堪稱八仙過海的多元探索,而這樣的探索,顯然不會是上一輪AI晶片競爭的簡單重複。
在英偉達、谷歌等廠商致力於挖掘集群Pod\Rack層面系統工程潛力的同時,更多AI晶片開發者在性能「軍備競賽」中,將目光投向了Chiplet(芯粒)工程方法,將之作為構建大規模、可擴展、高能效異構算力集群的基石,為了滿足AI雲端訓練、推理任務對計算性能和內存帶寬的需求,CPU/GPU/FPGA/ASIC通過Chiplet實現異構集成的實踐已不斷湧現。
如老牌巨頭AMD推出的MI300系列APU,集成電晶體數量近1500億顆,通過三種Chiplet芯粒(Base layer、GPU GCDS、CPU CCDs)與不同規格HBM靈活搭配,可以形成豐富的產品組合,覆蓋客戶差異化需求,研發成本和量產成本都極具優勢。
再如近期被諸多巨頭追捧的AI大晶片初創企業Tenstorrent,就明確以Chiplet作為產品疊代方向,並已經與LG電子達成具體產品合作意向。
大體而言,業界當前對Chiplet的技術與商業價值已形成廣泛共識。
在計算性能上,芯粒的立體堆疊能夠突破光刻掩膜尺寸極限,大幅提高集成電晶體密度並降低數據傳輸資源開銷,不同體系結構的計算核可靈活組合,形成高內聚、低耦合、可配置、可伸縮的「超級晶片」,適應各類AIGC算法優化需求,實現從System on Chip到System of Chips的轉變,在算力集群的系統層面繼續推進摩爾定律。而在商業上,Chiplet更有望大幅減少開發量產成本及周期,進一步降低AI算力硬體開發、製造門檻。
此外,如果說海外用戶還可以坐觀各家差異化方案成敗,那麼在中國這一全球最二大AI支出市場,大算力AI晶片「另闢蹊徑」,更可以說是「Must be」的緊迫要求。未來海外高端GPU/APU即便還可繼續「特供」,在互連帶寬等關鍵參數限制下,也將實質性失去處理更大規模模型的能力。
從產業視角看,Die-to-Die(D2D)互連,則堪稱Chiplet走向商業應用的最關鍵環節,同樣已成為Chiplet產業鏈創新創業的熱點。
Tenstorrent公司CEO、晶片設計大師Jim Keller就曾談到,當前Chiplet加速成熟,一個重要因素就是封裝技術已能夠提供較為理想的D2D信號鏈路,滿足芯粒互連的帶寬、功耗需求。
在這一產業環節,除了傳統互連IP供應商延申拓展其布局,目前國內外也已湧現出Blue Cheetah、奇異摩爾(Kiwimoore)、Eliyan等新銳廠商,並呈現出十分旺盛的創新活力。
國內代表性廠商奇異摩爾成立於2021年初,是全球首批基於 Chiplet 架構,提供「通用互聯芯粒產品及系統級解決方案」的公司。核心產品涵蓋高速互聯IO Die、高性能互聯底座Base Die兩類芯粒,以及一系列 Die2Die IP 和 Chiplet 軟體設計平台等全鏈路軟硬體產品。公司面向由 AIGC 驅動的數據中心、自動駕駛、個人計算平台等高性能計算市場,通過提供以互聯芯粒為核心的 chiplet 系統級解決方案,助力客戶更快、更容易的做出複雜高算力晶片。
Blue Cheetah,則是海外目前風頭最盛的D2D互連技術供應商之一,在BOW和UCIe聯盟均十分活躍,其BlueLynx D2D互連IP已經在多代工藝節點完成矽驗證,並已經被DreamBig、Apex等企業應用於其數據中心網絡晶片產品。
某種意義上看,這些企業在新賽道上的競爭,也將會決定其所在區域Chiplet產業生態的發展水平。
03 Chiplet,大規模異構算力集群基石
新一代人工智慧技術中,無論是NLP領域的大模型(LLM\DM),還是搜廣推領域興起的DLRM模型,各種更新換代的AI工作負載已經明顯超出單卡存、算極限,因此在單個晶片規格不斷進步的同時,也勢必需要由大量異構計算核心組合成算力集群進行處理,以高效完成AI模型訓練、推理、疊代等各類生產流程。
AIGC對硬體算力越來越高的要求,使用戶日益關注作為一個整體的計算集群能效、費效表現,由大量異構計算核心組成的算力集群,無疑已成為AIGC產業的重要競爭維度。
正如上文所述,AIGC模型參數、數據集的超大規模,使得批處理過程中數據吞吐量極高,為了提升訪存帶寬,片內封裝HBM幾乎成為所有AI大算力晶片的必選項,而Tenstorrent等新銳企業的空間計算範式創新,同樣內嵌著異構眾核的先進封裝需求,正因如此,Chiplet已被廣泛視為構建大規模、可擴展、高能效異構算力集群的基石。
有鑒於此,集微網也聯繫到奇異摩爾這一本土Chiplet產業代表廠商,邀請其分享了來自行業前沿的觀察。
奇異摩爾聯合創始人兼產品及解決方案副總裁祝俊東表示,當前超大規模計算集群的發展有著三大驅動因素:
第一,從單晶片本身的維度來看,對其性能依然有非常高的要求,各家廠商無不在繼續致力於提升單片性能規格,不過傳統的SoC方式已經逼近極限,怎樣做一顆更大的晶片就成為挑戰;
第二,從AI角度著眼,不同類型的AI應用其實對於運算元/算力的要求千差萬別,既要兼顧在不同情況下的通用性,也要滿足適度的專用性,例如對於Transformer的優化;
第三,數據驅動的生成式人工智慧,在運用中涉及大量預處理/前處理工作,已不適合純用GPU處理,需要用到異構計算架構去處理。
算力集群的持續擴展和異構集成,也帶來多重技術挑戰,互連是其中尤為關鍵的瓶頸,在祝俊東看來,超大規模異構如果在板卡級或者集群級實現,互連帶寬勢必會成為瓶頸,尤其是東西向帶寬隨著節點規模擴大,在總帶寬難以提升的情況下,更成為瓶頸,這也是業界推崇在晶片級異構Chiplet的原因所在,片內異構集成在帶寬、延時、功耗上能夠帶來更為優越的表現。
算力投資熱潮下,Chiplet產業也已經步入加速普及階段,根據研究機構Yole預測,狹義口徑的Chiplet(2.5D/3D封裝晶片)產品,正在迎來出貨量與市場規模的躍遷,2023、2024、2024年產品產值預計將分別達到70億、480億、990億美元。
如此驚人的跳躍式增長,既受益於需求端AI/HPC大晶片等熱門應用的「拉力」,也有供應端先進位程技術演進帶來的「壓力」。
半導體行業權威性的IRDS 2022版光刻技術路線圖中就明確警告,如果高NA EUV在2025年成功實用化,將導致當前的EUV光刻機最大單次曝光面積進一步縮小一半,掩模尺寸必須更小,因此當高NA設備被引入時,monolithic晶片的「解耦」(disaggregation)幾乎不可避免,Chiplet勢必將從可選項向必選項轉變。
綜上所述,Chiplet在數據中心市場的加速滲透普及已經是一個不可逆扭轉的趨勢,各個巨頭的中高端產品里已經普遍使用Chiplet工程方法。
04 跨越鴻溝,Chiplet產業生態嬗變
如同二十年前的SoC技術,「小荷才露尖尖角」的Chiplet,產業鏈仍然處於發育的早期階段,目前在高端處理器領域的代表性產品,依然多為晶片與系統大廠內部自研。
對於當下想要試水Chiplet的其他晶片開發團隊,依然面臨著多方面的技術與商業挑戰:
第一,在前端設計上原有SoC/ASIC方法學及EDA工具鏈面臨重構,以適應基於D2D互連的Chiplet架構;
第二,Chiplet產品總體性能並不簡單等同於芯粒的堆疊規模,需要一套有效的D2D互聯架構及算法以實現高帶寬、低延時、低功耗,解決物理分離LLC的NUMA(非統一內存訪問),更進一步看,D2D互聯還需要形成行業標準,以實現不同廠商芯粒的互連互通;
第三,異構乃至異質芯粒封裝引入新的約束,後端設計面臨熱、力、電磁仿真及可測試性的全新挑戰;
第四,目前能夠提供可靠良率的成熟Chiplet工藝方案依然有限,台積電CoWoS/InFO近乎居於壟斷地位,其他擁有先進封裝工藝能力的廠商,往往在PDK工藝庫與EDA設計工具的結合上依然滯後,導致Chiplet晶片設計與製造能力無法有效對接。
對此,祝俊東也向集微網感言,傳統晶片公司對於封裝環節工藝細節普遍缺乏掌握,封裝廠則需要客戶提供其對先進封裝工藝的需求,同樣不了解相關技術如何在產品中發揮作用,因此產業環節對接還有很大的鴻溝,確實是一個有待解決的挑戰。
基於上述原因,對國內外大部分公司而言,想要儘早布局新興賽道,就必須藉助於第三方廠商的服務,而與SoC產業鏈上的IP/設計服務廠商相比,Chiplet服務商覆蓋的產業鏈條不但更長,其在整合產業生態上的作用也更為關鍵。
以在北美市場極為活躍的Palo Alto Electron為例,該公司可為客戶完成基板和系統設計、CHIPLET設計與驗證、原型和PDK開發,結合生態合作夥伴的芯粒庫和代工服務,形成了工程服務的「閉環」。
國內企業中,奇異摩爾也是這一新興產業環節的代表,除了完善的芯粒庫,該公司還可提供軟體設計平台,可快速完成Chiplet 系統設計、驗證、仿真等工作。
國內Chiplet產業發展同樣堪稱有聲有色,在產品層面,華為公司早在2019年前後就已經完成五大基礎Chiplet設計,包括CPU-Compute Die、AI-ComputeDie、Compute-lO Die、NIC-IO Die和Wireless-ACC Die,基礎Chiplet之間共享公共聯接,並遵循共同物理設計規則,可基於不同的Chiplet搭配組合出伺服器CPU、AI加速期、Smart-NIC等多種數據中心大晶片產品,而在供應鏈上,設計服務、代工製造環節本土企業也正在加速崛起,以奇異摩爾為例,該公司目前除了完善的芯粒庫、軟體設計平台外,還與本土IC供應鏈巨頭潤欣科技達成合作,可望進一步形成turnkey式的完整解決方案交付能力。
從英特爾、AMD到PAe、奇異摩爾,大小公司、新老勢力的活躍身影,共同勾勒出Chiplet當下在大算力AI晶片領域掀起的變革浪潮,令人猶如置身千禧年之初SoC大興的年代,對於半導體產業人而言,能夠在一場重大「範式轉移」的現場親眼見證,無疑是一種幸運。
正如SoC大潮成就了以高通為代表的眾多Fabless企業,深刻改變了全球半導體產業生態,Chiplet的興起,同樣已經預示了大算力晶片市場的重大機遇。
憑藉著毫不遜色于海外廠商的本土Chiplet產業生態,在這一寶貴的機遇窗口,大算力AI晶片產業鏈的自主創新將會湧現更多、更大的突破,也必將更有力支撐我國生成式人工智慧全產業鏈發展。有理由期待,即將開幕的世界人工智慧大會,將為我們帶來一系列驚喜。