億鑄科技熊大鵬:大模型時代,AI大算力晶片急需破除「存儲牆」丨GACS 2023

2023-10-24     芯東西

原標題:億鑄科技熊大鵬:大模型時代,AI大算力晶片急需破除「存儲牆」丨GACS 2023

芯東西(公眾號:aichip001)

編輯 | GACS

9月14日~15日,2023全球AI晶片峰會(GACS 2023)在深圳南山圓滿舉行。在首日開幕式上,億鑄科技創始人、董事長兼CEO熊大鵬分享了題為《存算一體超異構AI大算力晶片破局大模型時代「芯」挑戰》的主題演講。

熊大鵬提出,大模型時代下的「芯」挑戰,比起算力如何增長,更大的問題在於數據搬運能力的剪刀差越來越大。數據顯示,計算能力與數據搬運之間的鴻溝,大概以每年50%的速率擴大。大模型出現後,數據訪存在整個計算周期里的占比,達到了95%以上甚至更高。

億鑄科技認為,隨著AI應用進入到2.0時代,要解決AI計算晶片面臨的諸多挑戰,關鍵在於回歸阿姆達爾定律並成功破除「存儲牆」。據悉,億鑄科技原型技術驗證(POC)晶片已回片,並成功點亮。該POC是首顆基於ReRAM的面向數據中心、雲計算、自動駕駛等場景的存算一體矩陣POC,能效比超過預期表現,進一步驗證了公司的技術實力和市場潛力。

以下為熊大鵬的演講實錄:

大家好!我去年也參加了AI晶片峰會,但今年情況不一樣,因為今年大模型的火爆給人工智慧晶片等各方面都帶來了巨大的變化。下面我將介紹億鑄科技存算一體超異構AI大算力晶片怎麼去應對大模型時代的「芯」挑戰。

一、數據搬運,大模型時代的「芯」挑戰

大模型的參數規模,像GPT-3目前是1750億,未來可能將會迎來幾倍、幾十倍、上百倍的增長。這樣的增長帶來的好處是,大模型的容量、智能等各方面將會超過人的大腦。

但與此同時,大模型時代也對我們提出了很多挑戰跟需求。第一,算力如何提升。目前來說,人們針對大模型的晶片製造工藝或是其他各方面投入基本都已經到了極限。第二,大模型對計算能耗的需求非常大。AMD CEO蘇姿豐說過,如果沒有新的技術出現,按照目前的計算效率,12年以後,也就是2035年,每一台Zetta級別的超級計算機所需要的能耗將會相當於半個核電站

從算力的角度來說,支撐底層算力的摩爾定律現在幾近終結。但是我們的模型越來越大,算法越來越複雜,對算力的要求也越來越高,這將是一個很大的挑戰。AI晶片,或者說大算力AI晶片,將來的路該怎麼走?

除了算力以外還有一個更大的問題——數據搬運能力的剪刀差越來越大。

基於摩爾定律,算力每年大概以60%-70%的速率提升。但是對於數據搬運,無論是從外部的存儲器搬運到晶片內部,還是晶片內部的數據總線,其物理線速度的提升基本是每年10%以內。這就導致計算能力與數據搬運之間的鴻溝,大概以每年50%的速率擴大。

在過去十年,單位計算力所需要和所能獲取的數據搬運帶寬,差距擴大了3倍。對大模型來說,其實問題的根源就在於,怎麼把數據不被堵塞地從外部搬到內部。

下圖這個模型,我已經在很多地方講過。這裡的F值,指的是數據訪存在整個計算周期里的占比

在過去存算分離的馮·諾伊曼架構下,做AI晶片或是跟AI晶片相關的應用時,F值就已經達到80%-90%。這意味著大量的能耗是卡在數據搬運訪存上的,造成了性能瓶頸。在大模型的時代背景下,F值更是能達到95%

這意味著如果數據搬運的速度不提升,即使我們將來用更好的工藝去獲取更高的算力,對實際性能提升的百分比其實非常有限,可能只有10%-20%。這也是為什麼到今天,更多的公司開始把注意力集中在解決數據搬運的問題上,比方說大量地採用HBM、 3D RAM封裝技術等等。這些解決方案會帶來更好的片間互連、板間互連,能夠比較有效地去解決數據搬運問題,從而非常有效地提升實際性能。

二、數據搬運的根本解決方案在於存算一體

這些傳統的解決方案的確有效。我們看F值就知道,如果把數據搬運效率提升1倍,不需要用5納米、3納米、1納米工藝,實際計算性能也能提升1倍。

但是要真正解決這個問題,我們認為根本的解決方案是存算一體。存算一體相當於在存儲單元的基礎上,把計算的部分加上去,模型的參數搬運環節基本上就免掉了

比方說1750億參數的GPT-3模型,每一次推理計算的時候都要把350Gbyte的數據搬到晶片上,才能做一次推理、算一次Token。如果是訓練,這個數據量會更大。但如果這個數據不需要搬運,就意味著數據搬運的瓶頸根本不存在,計算的效率會高很多。

存算一體的技術現在也慢慢被大廠所接受,比如AMD已經宣布他們將會以存算一體作為核心,結合異構的方式,實現既兼顧通用性,又能夠有非常強的計算能力的晶片。

還例如特斯拉,最近宣布其基於近存儲計算的超級計算機Dojo1已經準備好了,業界對此評價非常高。摩根史坦利說,光是晶片就有可能給特斯拉帶來5000億美元市值的增量。

三星也宣布將基於DRAM做存算一體,他們認為在不久的將來,存儲器在AI伺服器中的重要性將超過英偉達GPU的重要性。三星預計到2028年發布以存儲器為中心的超級計算機。言下之意就是要做基於存算一體的超級計算機。

億鑄科技近期成功點亮大模型時代存算一體AI大算力原型技術驗證晶片(POC)。該POC晶片基於成熟工藝製程,在100W以內,單卡算力可以突破P級,也就是1000T。另外,該POC晶片的能效比已經遠超英偉達5納米工藝製程的H100系列4T/W左右的能效比

面對ChatGPT等大模型帶來的AI算力挑戰,億鑄科技在年初提出「存算一體超異構」,以存算一體(CIM)AI加速計算單元為核心,以統一ISA指令集和架構將不同的計算單元進行異構集成和系統優化,既能實現更大的AI算力以及更高的能效比,還可以提供更好的可編程性和更為通用的應用生態。

通過前面講到的CMOS工藝、新型存儲器、存算一體的架構、Chiplet、先進封裝,我們能夠將晶片有效算力做到更大,參數能放置更多,支持更大規模的模型,能效比更高,軟體的兼容性和可編程性更好。另外很關鍵的一點,就是晶片的發展空間非常大。目前該POC晶片採用了傳統工藝製程,未來,不管是容量還是性能,比較保守地說,至少擁有幾倍或者十倍以上的成長空間,這是可以預期的。

三、AI應用進入2.0時代,存算一體成為AI大模型算力發展「靈丹妙藥」

在強AI的大模型時代,一定範圍內,大模型會替代傳統的小模型。由於大模型突出的泛化性,將會低成本地催生新的AI應用場景,並且在各個垂直領域能夠快速地落地和推廣。另外,我們認為大模型將來有可能會以IAAS(Intelligence As A Service,智能即服務)的產品形式賦能各個行業

此外,極高的AI研發投入帶來的副作用,是「通用智能寡頭」的格局。但出於大模型的泛化性,在具體的垂直行業、垂直領域反而有利於通用人工智慧落地。將來在各個領域,我們認為會出現「百花齊放」的格局。

總的來說,AI應用已經進入到了新的2.0時代。目前最突出的問題,就是大模型導致的巨量數據搬運問題,這個問題的根源來自於存儲牆。

現在性能最好的H100晶片,如果用在參數總量為350Gbyte的GPT-3模型上做推理計算,數據搬運每秒只能搬6次左右。這就意味著用H100,1秒大概只能算6個或10個Token。

但從計算能力上來說,這樣的數據搬運其實只占用H100計算能力中很少的百分比,大部分算力是空餘的。如果把這個存儲牆問題解決,H100的實際效能可能至少提升10倍以上。

我們認為在大模型時代,AI大算力晶片的競爭核心會逐步轉向破除「存儲牆」。這部分誰解決得好,誰就會在未來AI晶片競爭格局裡占優勢,Amdahl Law阿姆達爾定律早已揭示了這點。

在大模型時代,數據搬運已經占據整個計算周期90%以上。這意味著算力本身對於實際算力來說,重要性反而不是那麼高,更重要的是解決數據的搬運。

由此出發,我們認為存算一體超異構的AI晶片架構,天然地適合AI的並行計算。換句話說,存算一體是為AI大模型而生的計算架構,它的核心就是解決存儲牆,從而解決能耗跟實際算力瓶頸的問題。今天就介紹這些,謝謝大家!

以上是熊大鵬演講內容的完整整理。

文章來源: https://twgreatdaily.com/zh-hk/33ee08e40fa54178e6e375d979186b9c.html