AMD最強生成式AI核彈發布!跑大模型性能超H100,預告下一代AI PC處理器

2023-12-07     芯東西

原標題:AMD最強生成式AI核彈發布!跑大模型性能超H100,預告下一代AI PC處理器

芯東西(公眾號:aichip001)

作者 | ZeR0

編輯 | 漠影

芯東西12月6日聖何塞報道,北京時間12月7日凌晨,晶片巨頭AMD的年終AI盛會Advancing AI活動正式舉行。在AI晶片賽道愈戰愈勇的AMD今天會放出怎樣的大招,著實令人期待,為此芯東西早早來到會場,翹首等待被粉絲們親切稱作「蘇媽」的AMD CEO蘇姿豐發表主題演講。

今天加州的陽光依然燦爛,當地時間10點一到,大會正式開場,蘇媽健步如飛地走上台,笑容滿面地分享對人工智慧(AI)計算的觀察思考,將AI評價為「過去50年來最具變革性的技術」,稱生成式AI是「最剛需的數據中心工作負載」。

會上,AMD宣布推出旗艦數據中心AI晶片AMD Instinct MI300X GPU,並在多項硬體規格及大模型訓推測試上與英偉達正面交鋒。

AI峰值性能、內存密度、內存帶寬,這些關鍵硬體規格通通秒掉英偉達旗艦AI晶片H100 GPU!也就是說,相比英偉達H100,MI300X能跑更大參數規模的大模型。

這是一場AMD全面展示其AI戰略雄心的盛會,除了MI300X外,AMD還宣布推出結合最新AMD CDNA 3架構和「Zen 4」CPU的MI300A加速處理單元(APU),以及讓筆記本電腦能夠更輕鬆添加AI功能的Ryzen 8040系列移動處理器

此外,AMD劇透了Ryzen AI路線圖,代號為「Strix Point」的下一代Ryzen AI CPU將在2024年出貨,採用XDNA 2架構。XDNA 2架構的生成式AI NPU性能將提高到上一代的3倍以上。

軟體方面,AMD發布了最新版本的ROCm 6開放軟體堆棧,該堆棧針對生成式AI(尤其是大語言模型)進行了優化。相較MI250搭ROCm 5,MI300X與ROCm 6雙強組合在Llama 2上生成文本的總體延遲性能提高了約8倍

與Ryzen 8040系列處理器同時登場的Ryzen AI 1.0軟體棧,使開發者能夠輕鬆部署使用預訓練模型為Windows應用程式添加AI功能。

一、MI300X:內存容量帶寬超H100更快暢跑千億參數大模型

蘇姿豐說,一年前,AMD預估全球數據中心AI晶片/GPU的TAM將從2023年的300億美元增長到2027年的1500億美元,未來4年CAGR增速將超過50%。但顯然需求增長得更快,現在AMD將其預估修正為數據中心加速器未來四年每年增長70%以上,到2027年將超過4000億美元。

她分享道,AMD的AI戰略圍繞三大重點:1)提供高性能、高能效的GPU、CPU和用於AI訓練及推理的自適應計算解決方案的廣泛組合;2)擴展開放的、經驗證的、對開發人員友好的軟體平台;3)擴大深度協同創新的AI生態系統。

為了解決GPU硬體可用性問題,AMD推出Instinct MI300X加速器。

蘇姿豐稱MI300X加速器是AMD迄今製造過的最先進的產品、「業界最先進的AI加速器」,擁有1530億顆電晶體、192GB HBM3內存容量、5.3TB/s峰值內存帶寬、896GB/s Infinity Fabric互連帶寬,能支撐大模型訓練和推理。

大模型拼算力,關鍵就是看內存容量和帶寬,所以相比英偉達H100的96GB內存、3.2TB/s帶寬,MI300X在硬體配置上很有吸引力。

MI300X把4個SoC Die都用來放GPU,8個HBM3升級到24GB,形成了一個由8顆CDNA 3架構Accelerator Complex Die(XCD)、4個I/O Die(IOD)、8個HBM內存堆棧組成的共有12顆5nm Chiplet的集成系統。Chiplet的好處是提高良率和降低成本,因此MI300X可能會在定價上比H100/H200更具性價比。

通過這種「拼晶片樂高」的方式,MI300X實現了計算核數、帶寬及內容容量的顯著增加。其採用的CDNA 3架構對性能和能效進行了優化,結合了一個新的計算引擎,支持稀疏性和TF32、FP8等新數據格式,為關鍵數據類型(如FP16/BF16)提供的性能達到上一代的3.4倍。

相比上一代MI250X,MI300X增加了近40%的計算單元、1.5倍的內存容量、1.7倍的峰值理論內存帶寬,並支持FP8和稀疏性等新數值格式。

微軟CTO凱文·斯科特來到現場介紹微軟與AMD的合作進展。MI300X晶片將為針對AI工作負載進行優化的全新Azure ND MI300x v5虛擬機系列提供動力。

多個GPU互連性能需要線性提高,因此可擴展性至關重要。蘇姿豐說,MI300X平台是世界上最強大的生成式AI系統。

AMD Instinct MI300X平台是一個內置8個MI300X的OCP標準整機形態,BF16/FP16峰值算力可達到10.4PFLOPS,總共可提供1.5TB的HBM3內存容量,這兩個規格都高於英偉達H100 HGX。

在跑不同Kernel的Flash Attention 2、Llama 2 70B大模型時,MI300X均表示出優於H100的性能。

8卡AMD Instinct MI300X平台在BLOOM 176B大語言模型上跑推理的吞吐量達到英偉達H100 HGX的1.6倍。

在訓練擁有300億參數的MPT模型時,MI300X平台與H100 HGX的吞吐量持平。

同等性能的單個系統跑大語言模型時,無論是訓練還是推理,MI300X平台的性能都超過H100 HGX。

Oracle雲基礎設施計劃將基於MI300X的裸機實例添加到該公司為AI的高性能加速計算實例中,基於MI300X的實例計劃通過超高速RDMA網絡支持OCI超級集群。其即將到來的生成式AI服務中也將包含MI300X。

惠普、戴爾、聯想、超微、技嘉、鴻佰、英業達、雲達、緯創、緯穎等都是MI300X晶片的OEM和解決方案合作夥伴。

二、MI300A:APU四大優勢加持,高性能計算能效比超GH200

AMD Instinct MI300A APU是世界上第一個用於HPC和AI的數據中心APU,採用3D封裝和第4代AMD Infinity架構。

該加速器結合了6個CDNA 3架構Accelerator Complex Die(XCD)、3個CPU Complex Die(CCD,共24個x86「Zen 4」核心)、4個I/O Die(IOD)、8個HBM內存堆棧、128GB新一代HBM3內存。

MI300A同樣遵循Chiplet設計思路,並實現了CPU與GPU共享統一內存。

與MI250X相比,MI300A在FP32 HPC和AI工作負載上提供了約1.9倍的每瓦性能;和英偉達H100 SXM相比,MI300A的內存容量、峰值內存帶寬、FP64精度HPC矩陣及向量峰值性能均更高。

AMD正在設定能效創新的步伐,其30×25目標旨在從2020~2025為AI訓練及HPC伺服器處理器和加速器提高30倍的能效。

總體來看,APU有四大優勢:1)統一內存;2)共享AMD Infinity Cache技術;3)動態功率共享;4)易於編程。這使得APU能為客戶提供高性能計算、快速的AI訓練和高能效。

通過將統一內存、內存帶寬、GPU性能多重優勢組合,MI300A在OpenFOAM高性能計算MotorBike測試中,得分是H100的4倍。

在PeakHPC每瓦性能測試中,MI300A的成績是英偉達GH200的2倍。

在跑多種高性能計算任務時,相比H100,AMD MI300A均略勝一籌。

美國勞倫斯利弗莫爾國家實驗室打造的超級計算機EI Capitan便採用了MI300A,預計將成為世界上第一台2ExaFLOPS超級計算機。

惠普、Eviden、技嘉、超微等是MI300A加速器的OEM和解決方案合作夥伴。

三、ROCm 6軟體:針對生成式AI優化,讓Llama 2推理延遲暴降

軟體是顯著提高現有硬體可用性能的關鍵。

近年來,AMD持續降低用戶的遷移成本和開發門檻,來不斷補強其從雲到端的軟體護城河。

其中與AMD Instinct、Radeon GPU搭配使用的ROCm 6開放軟體平台對新數據類型、先進圖形和核心進行了優化。

ROCm 6增加了對生成式AI的幾個新增關鍵功能的支持,包括Flash Attention、HIP Graph、vLLM等。

與上一代軟硬體組合相比,使用MI300X和ROCm 6跑Llama 2 70B文本生成,AI推理延遲速度提高了約8倍。

單張GPU跑Llama 2 13B推理任務時,MI300X的性能是H100的1.2倍。

Meta宣布與AMD擴大合作夥伴關係,將MI300X與ROCm 6結合使用,為AI推理工作負載提供動力,並認可AMD對Llama 2系列語言模型做的ROCm 6優化。

AMD正通過收購AI軟體創企Nod.ai和Mipsology,利用廣泛的開源AI軟體模型、算法、框架、編譯器,擴展開源戰略,推進基於編譯器的優化,加快客戶互動等組合策略,來加強軟體能力、簡化開發,持續改善開發者體驗。

AMD還繼續通過戰略生態系統夥伴關係投資軟體能力,數據湖供應商databricks、AI創企Essential AI、為企業客戶提供大語言模型的Lamini的聯合創始人均來到現場進行分享,談論他們如何利用MI300X晶片和ROCm 6軟體堆棧為企業客戶提供差異化的AI解決方案。

從3.0版本開始,OpenAI標準Triton 3.0將添加對AMD GPU晶片開箱即用的支持。

四、Ryzen 8040:為AI PC提供動力,跑生成式AI性能大漲60%

AMD的AI布局已覆蓋雲邊端,除了Instinct加速器外,還有面向數據中心和邊緣推理的Alveo加速器、數據中心x86處理器EPYC、用於AI+傳感器嵌入式推理的Versal AI Edge、為消費級PC市場打造的Ryzen移動處理器。

面向個人AI處理任務,AMD在NPU中為移動AI處理能效設計了專用AI引擎,在CPU添加了AVX-512 VNNI指令集來加速AI工作負載,Radeon顯卡也內置有為並行處理AI工作負載優化的引擎。

AMD Ryzen 8040系列移動處理器為尋求具有可信性能和運行先進AI體驗能力的筆記本電腦創意專業人士、遊戲玩家和主流用戶而設計,採用「Zen 4」CPU和RDNA 3架構GPU。

這款最新處理器支持LPDDR5內存,跑Llama 2大語言模型、視覺模型等生成式AI任務的性能是上一代7040處理器的1.4倍。

與英特爾酷睿i9 13900H相比,Ryzen 8040系列在多線程處理、遊戲、內容創作等任務的性能均更加出色。

Ryzen 9 8945HS處理器基於「Zen 4」設計,擁有多達8個核心,可提供16個線程的處理能力。

宏碁、華碩、戴爾、惠普、聯想、雷蛇等OEM廠商預計將從2024年第一季度開始供應Ryzen 8040系列。

Ryzen 8040系列移動處理器已經準備好利用Windows 11生態系統的全方位優化性能,包括全面支持Windows 11安全功能。

AMD還廣泛提供Ryzen AI軟體,供用戶在其AI PC上輕鬆構建和部署機器學習模型。

今天AMD Ryzen AI提供有超過100種AI驅動的體驗。1.0版本的Ryzen AI軟體支持開源ONNX運行時推理引擎,並在Hugging Face上提供一個預優化的模型市場,使用戶幾分鐘內就能啟動和運行AI模型。

帶有Ryzen AI的筆記本電腦可將AI模型卸載到NPU,從而釋放CPU以降低功耗,同時延長電池壽命。

Ryzen AI軟體現已廣泛可用。開發者可以利用它來構建和部署受過PyTorch、TensorFlow等框架訓練的AI模型,並在由Ryzen AI提供支持的特定筆記本電腦上運行它們。

開發者可在AMD Ryzen AI計算資源上快速部署生成式AI。該軟體獲得了對Whisper等自動語音識別模型和OPT、Llama 2等大模型的早期訪問支持,以便解鎖語音轉寫、文檔摘要等功能。

AMD最近還宣布了Pervasive AI開發者挑戰賽,有生成式AI、機器人AI、PC AI三個賽道可選擇。其中PC AI是讓開發者藉助Ryzen AI,使用視覺、語音或領域優化的大語言模型為PC構建應用程式。每個賽道的最高獎金為10000美元,二等獎和三等獎也會獲得相應獎勵。免費硬體申請將於2024年1月31日截止。

結語:挺進AI晶片市場,AMD蓄勢待發

長久以來,英偉達一直是AI晶片遊戲規則的制定者。AMD Instinct MI300系列加速器的推出,意味著AMD成為高性能數據中心AI晶片的核心玩家之一,並且是英偉達有力的競爭對手。

AMD初步證明了其在AI硬體研發上的實力,而其勁敵英偉達能橫掃AI計算市場的真正王牌是形成強大集群的先進互連技術和持續優化的軟體。在今日的發布中,AMD亦展現出其通過軟體來升級AI能力的投資布局。

被英偉達主導已久的AI晶片戰場,終於出現了令人期待的火藥味。在11月舉行的第三財季電話會議上,AMD CEO蘇姿豐告訴投資者,公司預計明年MI300系列的收入將達到20億美元。許多業內人士也非常期待看到以一己之力打破英特爾與英偉達壟斷的「屠龍勇士」AMD,能夠改變AI晶片市場局勢,書寫新的「AMD yes」故事。

畢竟對於迫切需要更多AI算力的下遊客戶來說,更多的AI晶片選擇,總歸不是壞事。

文章來源: https://twgreatdaily.com/2a8de707de804df847d37c5bf081ba7d.html