九天睿芯袁野:存內計算適配AIGC晶片需求,高速互聯接口打通「搬運牆」丨GACS 2023

2023-11-01     芯東西

原標題:九天睿芯袁野:存內計算適配AIGC晶片需求,高速互聯接口打通「搬運牆」丨GACS 2023

芯東西(公眾號:aichip001)

編輯 | GACS

芯東西10月7日報道,9月14日~15日,2023全球AI晶片峰會(GACS 2023)在深圳南山圓滿舉行。在次日高效能AI晶片晶片專場上,九天睿芯副總裁袁野分享了主題為《基於6T SRAM的混合存內計算架構處理器加速多樣化應用落地》的主題演講。

袁野在演講中介紹了AIGC和存內計算與高速互聯的技術。對於AIGC,他強調了它是人類的助手而不是取代工作,指出了基於ChatGPT的應用領域和未來的發展趨勢。同時,他講到存內計算技術,包括模式混合架構和純數字架構各自的優勢。

袁野還介紹了九天睿芯開發的ADA系列晶片,針對傳感器側、SoC側大算力需求的定位。並且列舉了一些應用機會,如星光級夜視和個人智能終端。

以下為袁野的演講實錄:

非常高興能來參加這次活動,大概給大家講一下我們現在的一些情況,也給大家分享一下我們所暢想的一些未來。分成四個部分,第一個講講AIGC,第二個講講我們存內計算與高速互聯的技術。因為在突破大算力瓶頸上,除了本身的存內計算技術是最底層的解決互聯問題以外,中間相互之間的互聯也是非常重要的一個板塊。

第一個板塊是AIGC。ChatGPT剛出來的時候,很多人在說基於這個生態可能會取代很多工作,但是在我看來AIGC一直是人類的助手,所以不要太過於把它看成一個猛虎,而是要把它看成一個夥伴,一個絕對非常好用的輔助工具跟助手。

我一直在用ChatGPT,在使用過程中發現它有自身的缺陷,包括它本身是一個逐字推理的模型,所以效率肯定不會特別高。第二,它腦洞確實比較小,因為受本身內部邏輯的限制。還有它在時空域的聯想會比較差,如果前天問了它一個問題今天再去問,同一個人對它問的問題,但是得出來的結果是不一樣的。

ChatGPT是一個通用大模型,當它真正做到個人模型後就可以解決相關的問題,所以真正的通用大模型未來到垂直落地場景、到個人大模型,我覺得是大趨勢。

大模型可以應用的點,像教育、客服、助手、NPC這些都非常多。我是一個遊戲愛好者,也是一個小說愛好者,所以網絡上腦洞大開的寫遊戲的虛擬小說,我覺得寫得非常好。通過ChatGPT和現在大算力的發展,包括存內計算的發展,那種遊戲的落地在未來已經不遠了。這對我個人來說是一件非常值得興奮的事情,在我有生之年能夠完善這樣的遊戲我就圓滿了。

一、基於純數字架構SRAM存內計算,ADA系列晶片能效、面效雙提升

基於我們本身的存內計算給大家講一講。初期我們是做模式混合架構存內計算的晶片,後面同步延展了基於純數字架構SRAM的存內計算的晶片。現在第二代ADA200晶片能效跟面效比已經非常明顯了,能效比做到20TOPS/W,面效是做到10TOPS/平方,比現有純數字架構的MPU有非常大的優勢。

另外,基於數字板塊架構的SRAM存內計算也在設計當中。

為什麼還去做一個純數字的?因為模式混合的架構在支持INT8、INT4、INT2這樣有效精度計算時候是非常好的,但是在做更高精度的比如16甚至32精度計算的時候表現就沒有那麼好。所以做了純數字架構SRAM的東西以後,純數字的可以做更高精度的計算,模式混合的可以做低精度的計算。整個晶片做好融合以後,在推理跟訓練的時候都可以用到,這就類似於GPU的核心功能。

這是我們一個完整的實現方式,數字的就是數位訊號+加法樹+無精度損失,好處是無精度損失。模式混合的架構的好處是在面效跟能效上表現上會更高,但是會有一定精度損失。現在我們自己測試下來,精度損失差不多在百萬分之二,在大模型或者大量AI運算上基本是可以忽略不計的損失。

另外一種方式是CIMA,用純模擬的架構做,它更好的支持類似於INT4、INT2更低精度的運算。在未來大模型量化過後,CIMA也是很好的方向。我們跟很多做AIGC的大廠、做大模型大廠溝通的時候,他們現在還是基於INT8、INT16級別在做。往更低層次的量化,他們有在研究但是還沒有做。

我們也得到了其它的消息,現在AIGC算法或者大模型的算法未來會往什麼方向走還是不定性的,而且國內的牌照未來可能還會重新洗牌,到底哪些廠商有資格去做大模型現在還沒有定論。

所以在做這個晶片的時候,無論是選擇CIMD還是CIMX架構,我們更多思考的是怎麼把底層對Transformer一些運算元的支持、把互聯做好,而不是現在就去做一顆SoC。如果現階段就去做SoC,可能在某個階段等真真正正大模型定下來以後到底適不適用,還是一個非常大的問題。現在更多的精力是跟很多的大廠做溝通或者基於存內計算定製開發的合作。這裡講了CIMD、CIMX的優勢。

我們定位的幾個事情:第一,針對傳感器側,已經量產的ADA100晶片系列是完全針對傳感器側AI的運算。AI的東西應該是無處不在的,從最初的傳感器端開始就可以帶一定的AI處理,幫助壓縮傳到後端的數據量或者是更準確的數據傳到後端的核心功能,所以第一代晶片中非常小算力的部分主要是針對邊緣側傳感器的AI。

ADA200系列差不多4T左右,而且4T-20T範圍內的AI晶片就是針對SoC側的算力補充。SoC側的算力想覆蓋所有應用是非常難的,現在很多產品對AI需求會越來越大,但是SoC要重新設計或者做更大的NPU難度是非常大的。我們就去做了這樣的NPU來幫助做算力支撐,算是SoC側的一個協處理器。ADA300更多是針對更大算力需求,比如100T-1000T範圍的算力支撐,我們也是針對算力支撐而沒有做完整的SoC。

為什麼做這樣的東西,或者ADA300為什麼做呢?跟國內做筆電、手機大廠溝通的時候發現,他們想把AIGC直接落地在平板、電腦上,形成個人的AI智能終端。這樣的AI智能終端對算力的需求很大,而且對功耗方面的要求很高,所以存內計算在這個階段可以發揮非常好的作用,這是我們為什麼要做這個產品的原因,待會兒有具體的應用跟大家分享。

二、高速互聯接口,打通CPU、算力、存儲的次級搬運牆

我們公司2018年成立,中間有做了兩代、三代存內計算,今年開始做互聯。為什麼做互聯?存內計算所形成的算力晶片並不大,單個存內計算晶片算力基本上是堆到4T,再往上走是通過互聯通過疊加的形式實現更大算力的模式,所以互聯在整個AI或者存內計算中起到的作用是非常核心的,這是我們為什麼做互聯的原因。

在晶片內部或者晶片外部,互聯技術已經非常多了,基本上是把整個行業做了一個串聯,從最初傳感器到端側的SoC,通過低速接口做連接。

SoC內部CPU、GPU之間的互相通信也是有自己的通信技術。存儲跟CPU之間的通信不用說,SATA是最早的,但是現在PCIe的東西越來越多,特別是伺服器級類似這樣的晶片越來越多。存儲又跟傳輸中心、算力中心互連,中間有非常多的互連技術。典型代表,現在比較火的類似於英特爾提的CXL,基於PCIe5、PCIe6、NVlink這樣一些互連技術,包括上面總線內部的互聯就是我們現在所做的核心,一切是為了實現大算力做準備。

我們自定義的技術就不詳細講了。一個是片內的,一個是片間的。這兩塊互聯技術本身是圍繞未來大算力需求或者是中算力需求而去做準備的。

三、算法+系統+底層硬體支持,AI技術升級加速應用落地

最後我想說的是迎接智能時代。

英偉達不用說了,它本身的生態搭建得很完整。新一代應對於推理側的晶片也出來了,而且它跟很多行業內大廠已經開始向做下一代個人智能終端設備的趨勢走了。他們最早也是做協處理器,英偉達最早是做遊戲顯卡起家,但是到下一代智能PC階段,基本上超過英特爾成為主控了,英特爾CPU反而可以說是一個協處理器、控制器的概念。我們還是很看好AI的未來,希望順著這條路走出國內的發展。

我列舉了一些應用的機會,現在可以看到無論是手機、PC還是智能終端的設備,有越來越多AI升級的機會,所以最終會帶來新的終端設備、新的行業設備、新的晶片架構包括整個新的生態邏輯,是非常龐大的一個新的市場。在座的各位如果還有心思,可以仔細想一想在中間能夠找到什麼樣的機會。

這邊列舉了一些應用。第一個,星光級夜視。這是我朋友公司做的技術,他們可以在只有0.001lux的前提下做到真彩成像,這是非常牛的一個技術。它的算力是不高,但參數量非常大,怎麼樣把它量化、跑起來是非常難的事情,所以現在用傳統的SoC跑延時就非常嚴重,而且成像效果並不佳。他的想法是基於存內可不可以把這個東西做得更好?這是存內的應用點,類似這樣的算法在未來會越來越多。怎麼支持這樣的算法把AI落地得更好?這是我們要做的事情。

第二個,個人智能終端,這是暢想型的東西。所有ChatGPT或者AIGC的東西越來越成熟後,我們想把這些AI算力布置到各個終端上,包括手持式終端、可攜式終端,最終形成的是真正的自動化助手。其中的生意機會也非常多。

總的來說,我們公司是提供支撐算力平台的公司,我們想把它從傳感器側、到SOC側、到未來個人平台側一些算力做更好的支撐,感謝大家!

以上是袁野演講內容的完整整理。

文章來源: https://twgreatdaily.com/zh-hk/cef97a8c4556e5b95d2ab06364b5cbef.html