助力生成式AI,AMD Instinct MI300系列產品創新上市

2023-12-08     微型計算機雜誌

原標題:助力生成式AI,AMD Instinct MI300系列產品創新上市

當地時間12月6日,美國聖何塞,AMD成功召開「ADVANCING AI」大會,向與會者分享了大量為AI而設計的相關產品。其中的重點就是MI300系列的詳細情況。該系列主要包括由1460億個電晶體組成的CPU+GPU加速器MI300A和專為數據中心市場打造、提升AI算力的GPU產品MI300X,以及與之配套的ROCm 6軟體環境。

其中Instinct MI300X GPU加速器已經發展到第三代。從2020年的為加速FP64及FP32計算而設計的第一代CDNA架構的MI100,到為高密度計算而設計、具有領先的內存容量及帶寬的第二代CDNA架構的MI200系列,再到今天重點改進了統一內存架構、人工智慧數據格式性能以及節點內網絡性能的第三代CDNA架構的MI300系列。

MI200系列已經投產好幾年了,在大型HPC部署中獲得了巨大的成功。最值得注意的是Frontier超級計算機,這意味著它仍然是超算500強名單上的超級計算機所採用的解決方案。

人工智慧的高速發展,帶來對硬體和軟體的巨大需求,AMD為此提供的解決方案是MI300系列:同時面向HPC應用和AI加速的MI300A,和為加速生成式人工智慧性能而設計的MI300X。

AMD的Instinct戰略有四個支柱。首先是它在現有的硬體和軟體架構之上很容易遷移,兼容以往的規範且不需要重新設計伺服器,軟體層面也已經讓上游相關合作夥伴進入這一全新的人工智慧框架,大多數人工智慧客戶可以實現代碼開箱即用。

其次是性能領先且無需妥協,在各種各樣的生成式人工智慧用例中提供領導力表現。第三是開放,承諾整個生態系統開放。最後則是專注於用戶,無論從未來的路線圖還是架構,都為用戶的成功提供支撐。

接下來一起來了解全新一代為AI加速而設計的第三代CDNA架構,採用3D封裝,為性能和能效而優化,為HPC和AI而設計的專用加速引擎。該架構分為兩種結構,一種是APU結構,為HPC而設計的MI300A,另一種則是基於GPU結構,MI300X。

我們先來看MI300X的相關信息。MI300X是頂級生成式AI加速器,採用CDNA3架構,擁有192GB HBM3內存,內存帶寬高達5.3TB/s,內部互聯的AMD Infinity Fabric帶寬最高可達895GB/s。

MI300X擁有8個XCD,總共304個AMD CNDA3架構計算單元,4個IOD模塊,8個HBM3堆棧,配備256MB的AMD Infinity Cache技術(L3 Cache),採用3.5D封裝。

來看更在細節的結構。MI300X總共擁有304個CDNA3架構計算單元,配備了192 GB的HBM 3內存,12個HBM 3顆粒,每秒能提供5.3TB的帶寬。這是關鍵的區別,AMD有八個堆棧,而競爭對手的堆棧較少。從封裝來看,MI300X擁有多層堆棧,採用了包括3D hybrid bonded銅混合鍵合工藝和2.5D矽interposer工藝。I/O Die上則堆疊了256MB AMD Infinity Cache(L3),各模塊之間用7條x16規格的第四代AMD Infinity總線連接。

接下來是引人注目的競品對比環節。相比競爭對手,MI300X的HBM3內存更大,內存帶寬更高,在高性能計算方面的FP64和FP32理論峰值算力都遠超競爭對手。在AI加速的能力上,MI300X也基本上是對手的1.3倍。

不僅如此,AMD還提供已經完全符合工業標準設計的,採用8個MI300X整合起來的整體解決方案。整體的HBM3內存容量高達1.5TB,Infinity Fabric帶寬可達896GB/s,BF16/FP16算力可達10.4PFLOPS。

和競爭對手的HGX解決方案相比,AMD的MI300X平台方案的HBM3內存容量是對手的2.4倍,FP16和BF16的算力是對手的1.3倍。其它規格則在伯仲之間。

在一些主流大模型的AI內核加速表現上,MI300X能夠領先競品10%-20%。

如果以8張GPU卡的單伺服器來比較,推理性能則可以領先40%到60%。

MPT模型的訓練方面,單服務的8張MI300組合能夠和競爭對手並駕齊驅。

單系統和競爭對手的性能對比總結。

AMD董事會主席兼CEO Lisa Su女士展示8x GPU套件。

朋友圈環節,OEM和集成商合作夥伴包括了主流的HP、DELL、Lenovo以及GIGABYTE等各大品牌。

秀肌肉環節則是展示AMD與Top超算500強前25強、綠色超算前10強之間的合作。

當地時間12月6日,美國聖何塞,AMD成功召開「ADVANCING AI」大會,向與會者分享了大量AI相關產品的最新資訊。其中的重點,就是MI300系列的詳細情況。該系列主要包括由1460億個電晶體組成的CPU+GPU加速器MI300A和專為數據中心市場打造的提升AI算力的GPU產品MI300X,以及與之配套的ROCm 6軟體環境。

其中,MI300A是世界上首款APU模式的加速器,可以同時兼顧為AI和HPC應用優化,GPU部分同樣採用CDNA3架構,擁有128GB的HBM3緩存,不同的模塊分別採用5nm和6nm製程,Chiplet封裝。

從第三代Infinity架構到第四代Infinity架構,CPU和GPU之間變得更加融合,採用統一內存架構,效率更高。

和MI300X相比,MI300A的XCD為6個,總共228個CNDA3架構計算單元。另外的空間安排了3個CCD的總共24個Zen4核心的x86架構CPU。

同樣採用了包括3D hybrid bonded銅混合鍵合工藝和2.5D矽interposer封裝工藝,被AMD稱之為3.5D封裝。但I/O Die的第四代Infinity Fabric總線減少到4條x16規格,然後對應新增了4條x16規格的PCIe 5總線。

MI300A的HPC性能基本上是對手的1.8倍,AI性能,包括TF32/FP16/BF16/FP8/INT8,都與競爭對手基本相當。

APU的優勢在於解鎖了新的性能和功能模式,CPU和GPU採用統一內存、共享的Infinity Cache、動態功耗調度,將更便於用戶編程,是一個完整的系統級解決方案。

在OpenFOAM測試中,MI300A的性能甚至可以達到對手的4倍。

AMD聲稱MI300A每瓦峰值性能可以達到對手GH200(Grace Hopper,GPU+ARM架構CPU組合)的兩倍。

MI300A在其他一些和H100對比的HPC性能測試也領先10%-20%。

將被用於美國勞倫斯利弗莫爾實驗室的EI Capitan超級計算機。

目前MI300A的首批OEM和解決方案合作夥伴,包括HPEE、VIDEN、GIGABYTE和SUPERMICRO。

軟體環境

從雲到端劍指AI

不僅僅是MI300X硬體系統強大,AMD為之準備的ROCm6軟體環境也大大助力整套系統在生成式AI應用中的性能表現。

與硬體相呼應的是AMD的軟體生態。AMD用於GPU平台的ROCm、用於XDNA AI引擎平台的Vitis AI以及用於EPYC CPU平台的zenDNN軟體環境都相當出色。

從硬體底層到API到編譯器和工具,再到庫,再到大模型,ROCm軟體環境應景為生成式AI做好準備,能夠提供強大的性能表現。

OpenAI正在與AMD攜手合作,將在Triton開源程式語言3.0版本中將MI300系列列入支持。

對於主流開源框架的支持也相當到位,大大減輕了開發難度。

對於Instrict系列來說,這一次的代際延遲優化高達8倍。

ROCm6.0的各方面優勢都相當明顯。

文章來源: https://twgreatdaily.com/51cc359be38583c6500e79dd02631751.html