集微網報道(文/林美炳)2023年6月2日,以「聚焦應用,集智創芯」為主題的集微通用晶片行業應用峰會在廈門舉行。峰會上,奇異摩爾聯合創始人兼產品及解決方案副總裁祝俊東發表了《大模型驅動的全新算力形態,基於Chiplet的超大規模異構計算平台》的主題演講,本篇文章回顧擷取自以上活動。
以下為演講內容實錄:
大模型的爆發,帶來了巨量的算力需求,也給晶片帶來了極大的挑戰。因能有效提升算力和互聯密度,異構計算和Chiplet兩大技術成為備受關注的方向。那麼,要如何利用Chiplet 構建一個超大規模的異構計算平台?
大模型驅動高性能計算進化加速
挑戰1:硬體和系統規模持續提升
如今,摩爾定律已經無法滿足晶片面積和晶片級聯提升的需求,進而引發了硬體和系統的規模過載。業界迫切需要構建更大規模的整合計算系統,以應對持續增長的算力需求。
挑戰2:算力應用場景多元化
隨著晶片工藝技術的不斷演進,算力場景應用的增加,針對不同應用場景升級疊代晶片,將面臨巨大的資金挑戰。同時,通用處理器(CPU)已無法滿足晶片對效率的需求,地位逐漸被GPU取代。異構計算和Chiplet技術,可以把CPU和GPU二者拼搭成一整個晶片,更好的實現晶片的通用性與性能的平衡。
挑戰3:互聯效率瓶頸
隨著計算機系統的規模擴大,存儲、計算規模也越發龐大,互聯效率成為晶片設計的重大的瓶頸。急需基於分布式、以存儲為中心的計算架構解決互聯效率的問題。
晶片巨頭比拼超大規模異構計算平台
如今,全球主要晶片巨頭如AMD、Intel、Nvidia都在構建超大規模異構計算平台。以NVIDIA為例,其最新一代Hopper H100針對大型模型提供9倍AI訓練速度。
祝俊東指出,Nvidia能實現如此高幅度的性能提升,關鍵在於系統級的互聯。從BlueField-3到Spectrum-4,Nvidia把構建了一個從底層到頂層的全鏈路網際網路架構體系,使互聯性能提升了數十倍。在此基礎上,Nvidia把GPGPU、異構計算、超高速網際網路組合在一起,創建了一個ETOPS級的超大規模計算集群:DGX GH200。
AMD、英特爾也都在進行超大規模異構計算平台的研發。2022年,英特爾發布了3D GPGPU Intel Ponte Vecchio,通過Intel的X link網絡把47個不同的芯粒組合在一起,構建了一個高性能的集群。
AMD作為Chiplet路線的開拓者,一直將異構、Chiplet、網際網路作為其主要研發路線。AMD將6顆GPU和3顆CPU拼在一顆晶片上形成了其3D APU MI300,並將Infinity Fabric互聯架構升級至第三代,以實現全方位的多處理器性能和可擴展性的優化。
汽車領域晶片架構變化
自動駕駛領域,晶片巨頭也紛紛布局大算力計算平台。英偉達在年初發布了NVIDIA Thor超級晶片計劃,作為一顆多域合一的晶片,它集合了多種功能,擁有最高達2000T算力。
最近,在Nvidia與MediaTek的車用晶片共同開發計劃中,聯發科將通過Chiplet設計方式將英偉達的GPU集成在下一代Snapdragon產品中,通過雙SoC與雙NPU的組合打造更強的大算力晶片,並通過不同產品組適配高中低端應用和不同場景。
構建大規模異構計算平台需五大關鍵技術
祝俊東認為,要構建超大規模異構計算平台,至少需要五大軟硬體關鍵技術。
第一:適用於超大規模異構的計算架構,以實現軟、硬體的結合,以及單個計算單元性能的最大化;
第二:統一的編程模型以及協議的庫堆棧,以提高軟體的應用性;
第三:從CPU到GPU、NPU,不同的類型計算單元的的芯粒支持;
第四:超大規模的傳輸網絡以及網際網路,把不同的計算單元、存儲、連接等單元高效地連接在一起;
第五:先進封裝技術,讓不同的芯粒用接近SoC的互聯密度連接,像一顆晶片一樣工作。
其中,最後三大技術都與Chiplet相關。如今,Chiplet已成為構建超大規模異構計算平台的關鍵因素,也是行業巨頭競逐的方向。
系統級視角看Chiplet:
祝俊東認為,從系統級的視角來看,Chiplet是一種新的系統級架構與dielet組合的方式。基於 SoC 架構進行拆分重組,將主要功能單元 (IP) 轉變成獨立芯粒 (Dielet),並通過先進封裝和 Die-to-Die接口,將其連接到 Chiplet 網際網路 (OCI) 中,組成系統級宏晶片 (MSoC)。這也是全鏈路的chiplet的重組以及拆分的過程。
Chiplet的核心挑戰:高效互聯
在晶片拆分後,需要高效的互聯。Chiplet互聯涉及多個層次:
Physical:先進封裝是Chiplet的物理支撐,客戶需要根據產品需求,選擇substrate、2.5D、3D等不同形式;
Electrical:為高效連接信號,需要Die-to-Die interface和高帶寬、低延時、低功耗以及統一的協議;
Interconnection:在die-to-die互聯基礎上,大量節點需要通過一套統一的連接網絡以及對應的算法進行連接;
Network:把不同的芯粒通過更複雜的網絡結構高速互聯起來,實現不同節點間的全連通。
祝俊東表示,以上五個層次構成了一個完整的Chiplet互聯體系,互聯對於Chiplet至關重要,也是Chiplet所面臨的核心挑戰所在。他所在的公司奇異摩爾,作為國內第一批專注於2.5D和3D Chiplet研發的企業,就此提出了一整套完整的解決方案,以解決超大規模互聯問題。
奇異摩爾:推出基於Chiplet 的大規模異構計算平台
奇異摩爾是一家基於Chiplet架構,為客戶提供核心通用互聯芯粒及系統級解決方案的服務商,以數據存儲和傳輸為核心,通過自研的Kiwi Fabric互聯體系高效連接不同類型的功能單元,目標是成為超大規模分布式異構計算平台的基石。
奇異摩爾互聯方案兩大核心:Die-to-Die接口和互聯芯粒
據祝俊東介紹,奇異摩爾的產品線分為兩大部分,其一是2.5D、3D芯粒系列,其二是Die-to-Die IP系列。奇異摩爾基於UCIe標準,提供覆蓋各種不同類型、綜合能力強、具高帶寬、低延時、低功耗的Die2Die IP,支持 2.x/2.5/3D 等多種封裝形態。
2.5D IO Die:在Die-to-Die的基礎上,IO Die作為奇異摩爾的核心自研產品,是一個高速數據存儲及調度核心,集成了Die-to-Die接口和其他多種高速接口,能把各個節點通過Kiwi Fabric網絡互連起來,再通過一套自定義算法來實現數據流、信息流的分發調度。
3D Base Die:在IO Die的基礎上,奇異摩爾研發了全球首款的通用的3D Base Die。通過芯粒3D堆疊,能進一步提升晶片算力密度。同時,通過集成die-to-die 3D接口,Cache、IVR等模塊以實現更高效的垂直互聯,最大程度的減少存儲本身帶來的延遲和功耗。
祝俊東介紹,奇異摩爾為客戶提供基於IO Die和Base Die的完整解決方案,基於核心互聯芯粒,客戶只需要設計少量功能單元,即可搭建產品系列平台,能極大地降低研發及量產的成本。奇異摩爾的解決方案覆蓋數據中心、自動駕駛、邊緣AI、5G、6G移動通信等需要大算力晶片的領域。客戶可以最高提升晶片的系統性能至1.5倍,並實現研發成本(80%)和量產時間(60%)的下降。
演講最後,祝俊東表示,奇異摩爾作為一家創新的Chiplet產品及解決方案公司,其願景是「為了更簡單的計算「貢獻力量,並呼籲各位客戶及合作夥伴共同發力,構建未來智能計算的新範式。