緩解AI推理算力焦慮,高帶寬GDDR6成殺手鐧?

2023-05-22     芯東西

原標題:緩解AI推理算力焦慮,高帶寬GDDR6成殺手鐧?

芯東西(公眾號:aichip001)

作者 | ZeR0

編輯 | 漠影

芯東西5月22日報道,生成式AI的日益火爆,正對數據中心內存性能提出更加苛刻的要求。無論是雲端AI訓練還是向網絡邊緣轉移的AI推理,都需要高帶寬、低時延的內存。邁向高性能GDDR6內存接口已是大勢所趨。

近日,推出業界領先24Gb/s GDDR6 PHY的美國半導體IP和晶片供應商Rambus,其兩位高管與芯東西等媒體進行線上交流,分享了Rambus在GDDR6領域的技術創新及行業發展趨勢。

Rambus成立於20世紀90年代,現擁有約750名全球員工、3000多項技術專利,在中國大陸和中國台灣都設有相應的分支機構,由本地化的團隊專門服務於中國市場。2022年,Rambus的經營現金流達到2.3億美元。

「ChatGPT等AIGC應用與我們公司的產品組合是非常契合的。」Rambus大中華區總經理蘇雷說,Rambus China立足於中國市場,願意更多、更緊密地支持中國公司在ChatGPT產業的發展,為他們保駕護航,「Rambus面對中國客戶的需求,有最好的技術、最快的響應和最好的技術支持來服務中國市場。」

據Rambus IP核產品營銷高級總監Frank Ferro分享,AI推理應用對帶寬的需求通常在200到500Gb/s的範圍之間波動,每一個GDDR6設備的帶寬都可以達到96Gb/s,因此通過將4-5個GDDR6設備組合在一起,就能輕鬆滿足500Gb/s及以下的帶寬需求。

他談道,如果用到一個HBM3設備,基本上會把這個帶寬需求的數字翻倍,能夠達到接近800Gb/s的帶寬,而這超過了AI推理本身所需要的400到500Gb/s帶寬,會使成本增加3~4倍。在這種條件下,HBM並非一個經濟高效的選擇,GDDR6則是一個更好的替代。

他建議按需選擇HBM或是GDDR6內存,對於對高帶寬和低延遲有很高要求的AI訓練場景,HBM可能是更好的選擇;對於需要更大容量、更高帶寬的AI推理場景,GDDR6會是更合適的選擇。

一、高性能內存和互連方案,支持下一代數據中心發展

Rambus大中華區總經理蘇雷談道,Rambus主要業務包含基礎專利授權、晶片IP授權和內存接口晶片。其中晶片IP又主要分為接口IP和安全IP。其技術和產品面向數據密集型市場,包括數據中心、5G、物聯網IoT、汽車等細分市場,後續還將推出CXL家族各產品組合晶片。

面向數據中心,Rambus非常注重產品和方案的易用性,通過一站式的解決方案以及完善的服務機制,使產品方案變得更易在客戶端集成使用。Rambus陸續推出了各內存子系統、接口子系統,提供業界領先、可靠的數據傳輸。其GDDR6接口子系統率先實現高達24Gb/s的內存接口數據速率,並能為每個GDDR6內存設備提供最高達到96Gb/s的帶寬。

Rambus的內存接口晶片產品不斷提高數據中心內存模塊的速度和容量,同時它擁有非常豐富而全面的安全IP產品線,對用於靜態數據以及動態數據安全保護都有著專門安全的產品方案。

總體來說,Rambus通過領先的高性能內存和互聯解決方案以及硬體級安全,支持下一代數據中心的發展。其產品應用領域聚焦於伺服器主內存、人工智慧和網絡加速器、智能網卡、網絡存儲、網絡交換機以及內存擴展和池化等。

二、內存是未來AI性能的關鍵

Rambus IP核產品營銷高級總監Frank Ferro著重分享了迄今市場推動高性能需求的主要驅動力,以及未來如何更好滿足AI性能需求。

數據需求依舊呈現上漲趨勢。ChatGPT等AI相關應用快速發展,對內存帶寬需求旺盛,因此市面上越來越多公司開始專注於開發自己個性化、定製化的處理器產品,以更好地滿足神經網絡以及專屬應用的需求。

Frank Ferro強調說,儘管算力增長非常顯著,但帶寬的進步與之並不匹配,即現有高算力的基礎之上,很多的GPU資源其實並沒有得到充分的占用和利用,這造成了現在的困境。

AI訓練環節需要錄入大量數據進行分析,需要消耗大量算力。AI推理環節對算力的需求會大幅下降,但對成本和功耗更加敏感。Frank Ferro談道,一個重要趨勢是AI推理越來越多地向邊緣設備上進行集成和轉移。在這個變化過程中,擁有更高帶寬、更低時延特性的GDDR6方案,能夠幫助邊緣端更好地處理數據。

對帶寬需求進一步的增加,驅動了像Rambus這樣的公司不斷地在去打造更加新一代的產品,不斷地提高內存帶寬以及接口帶寬的相關速度。

三、GDDR6能夠提供AI推理所需的內存性能

Rambus有著豐富的接口IP產品組合,同時也提供像DDR、LPDDR以及HBM等產品,並非常關注SerDes產品的開發,主要聚焦於PCIe和CXL接口,會開發配套的PHY及控制器。Rambus的HBM產品擁有領先的市占率,同時其HBM3產品已經能夠提供高達8.4Gbps/s的數據傳輸速率。

其全新GDDR6 PHY及控制器的配套產品已達到業界領先的24Gb/s的數據傳輸速率,可為AI推理等應用場景帶來巨大性能優勢和收益。此外,該產品在功耗管理方面優勢明顯,並實現了PHY以及控制器的完整集成,即客戶收到產品後,可以直接對其子系統進行定製化應用。

如圖是GDDR6內存接口系統,Rambus提供的是中間標藍的兩個重要環節,也就是完整的子系統。Rambus會根據客戶具體應用場景和實際的訴求對子系統來進行優化,並將其作為完整的子系統來交付給客戶。

clamshell模式指每個信道可支持兩個GDDR6的設備。換句話說,在clamshell模式之下,整個容量是直接翻倍乘以2的。值得一提的是,GDDR6現已支持先進的FinFET工藝節點環境。

此外,Rambus也會針對PCB以及封裝提供相關的參考設計,同時內部有信號完整度和邊緣完整性方面的專家,來幫助客戶完成整個設計工作。

市面上很多GPU加速器都已經用到GDDR6。由於在成本和性能之間達到不錯的平衡,GDDR6成為在AI應用場景下比較合理的產品和選擇。而Rambus擁有領先的SI/PI專業知識,可以進行早期的協同設計和開發,確保GDDR6產品的性能表現,也能更好地去縮短產品的上市時間。

結語:在帶寬、成本、方案複雜性之間實現平衡

隨著AI應用趨於盛行,蘇雷談道,下游廠商首先關注高帶寬,並開始關注方案的成本和複雜性,「GDDR技術是在帶寬、成本和方案複雜性的各因素之間提供了一個非常完美的折中技術方案。」他預計到2025年或2026年市場上會出現使用GDDR6 IP的晶片。

進入全新的GDDR6時代,相關產品已開始採用16位的雙讀寫通道。雙讀寫通道加起來是32位的數據寬度,而GDDR6內存有8個雙讀寫通道,總共可實現256位的數據傳輸寬度,所以能夠顯著提高數據傳輸的速度和效率,系統層效率和功耗管理也能得到進一步的優化。

除了適用於AI推理場景外,Frank Ferro說,GDDR6也會在圖形領域和一些網絡應用場景中起到重要作用,能夠大幅降低網絡邊緣設備對DDR數量的需求。

文章來源: https://twgreatdaily.com/zh-cn/a46f6a97f1dfa0832094627f55478136.html