當地時間12月6日，美國聖何塞，AMD成功召開「ADVANCING AI」大會，向與會者分享了大量為AI而設計的相關產品。其中的重點就是MI300系列的詳細情況。該系列主要包括由1460億個電晶體組成的CPU+GPU加速器MI300A和專為數據中心市場打造、提升AI算力的GPU產品MI300X，以及與之配套的ROCm 6軟體環境。

其中Instinct MI300X GPU加速器已經發展到第三代。從2020年的為加速FP64及FP32計算而設計的第一代CDNA架構的MI100，到為高密度計算而設計、具有領先的內存容量及帶寬的第二代CDNA架構的MI200系列，再到今天重點改進了統一內存架構、人工智慧數據格式性能以及節點內網絡性能的第三代CDNA架構的MI300系列。

MI200系列已經投產好幾年了，在大型HPC部署中獲得了巨大的成功。最值得注意的是Frontier超級計算機，這意味著它仍然是超算500強名單上的超級計算機所採用的解決方案。

人工智慧的高速發展，帶來對硬體和軟體的巨大需求，AMD為此提供的解決方案是MI300系列：同時面向HPC應用和AI加速的MI300A，和為加速生成式人工智慧性能而設計的MI300X。

AMD的Instinct戰略有四個支柱。首先是它在現有的硬體和軟體架構之上很容易遷移，兼容以往的規範且不需要重新設計伺服器，軟體層面也已經讓上游相關合作夥伴進入這一全新的人工智慧框架，大多數人工智慧客戶可以實現代碼開箱即用。

其次是性能領先且無需妥協，在各種各樣的生成式人工智慧用例中提供領導力表現。第三是開放，承諾整個生態系統開放。最後則是專注於用戶，無論從未來的路線圖還是架構，都為用戶的成功提供支撐。

接下來一起來了解全新一代為AI加速而設計的第三代CDNA架構，採用3D封裝，為性能和能效而優化，為HPC和AI而設計的專用加速引擎。該架構分為兩種結構，一種是APU結構，為HPC而設計的MI300A，另一種則是基於GPU結構，MI300X。

我們先來看MI300X的相關信息。MI300X是頂級生成式AI加速器，採用CDNA3架構，擁有192GB HBM3內存，內存帶寬高達5.3TB/s，內部互聯的AMD Infinity Fabric帶寬最高可達895GB/s。

MI300X擁有8個XCD，總共304個AMD CNDA3架構計算單元，4個IOD模塊，8個HBM3堆棧，配備256MB的AMD Infinity Cache技術（L3 Cache），採用3.5D封裝。

來看更在細節的結構。MI300X總共擁有304個CDNA3架構計算單元，配備了192 GB的HBM 3內存，12個HBM 3顆粒，每秒能提供5.3TB的帶寬。這是關鍵的區別，AMD有八個堆棧，而競爭對手的堆棧較少。從封裝來看，MI300X擁有多層堆棧，採用了包括3D hybrid bonded銅混合鍵合工藝和2.5D矽interposer工藝。I/O Die上則堆疊了256MB AMD Infinity Cache（L3），各模塊之間用7條x16規格的第四代AMD Infinity總線連接。

接下來是引人注目的競品對比環節。相比競爭對手，MI300X的HBM3內存更大，內存帶寬更高，在高性能計算方面的FP64和FP32理論峰值算力都遠超競爭對手。在AI加速的能力上，MI300X也基本上是對手的1.3倍。

不僅如此，AMD還提供已經完全符合工業標準設計的，採用8個MI300X整合起來的整體解決方案。整體的HBM3內存容量高達1.5TB,Infinity Fabric帶寬可達896GB/s，BF16/FP16算力可達10.4PFLOPS。

和競爭對手的HGX解決方案相比，AMD的MI300X平台方案的HBM3內存容量是對手的2.4倍，FP16和BF16的算力是對手的1.3倍。其它規格則在伯仲之間。

在一些主流大模型的AI內核加速表現上，MI300X能夠領先競品10%-20%。

如果以8張GPU卡的單伺服器來比較，推理性能則可以領先40%到60%。

MPT模型的訓練方面，單服務的8張MI300組合能夠和競爭對手並駕齊驅。

單系統和競爭對手的性能對比總結。

AMD董事會主席兼CEO Lisa Su女士展示8x GPU套件。

朋友圈環節，OEM和集成商合作夥伴包括了主流的HP、DELL、Lenovo以及GIGABYTE等各大品牌。

秀肌肉環節則是展示AMD與Top超算500強前25強、綠色超算前10強之間的合作。

當地時間12月6日，美國聖何塞，AMD成功召開「ADVANCING AI」大會，向與會者分享了大量AI相關產品的最新資訊。其中的重點，就是MI300系列的詳細情況。該系列主要包括由1460億個電晶體組成的CPU+GPU加速器MI300A和專為數據中心市場打造的提升AI算力的GPU產品MI300X，以及與之配套的ROCm 6軟體環境。

其中，MI300A是世界上首款APU模式的加速器，可以同時兼顧為AI和HPC應用優化，GPU部分同樣採用CDNA3架構，擁有128GB的HBM3緩存，不同的模塊分別採用5nm和6nm製程，Chiplet封裝。

從第三代Infinity架構到第四代Infinity架構，CPU和GPU之間變得更加融合，採用統一內存架構，效率更高。

和MI300X相比，MI300A的XCD為6個，總共228個CNDA3架構計算單元。另外的空間安排了3個CCD的總共24個Zen4核心的x86架構CPU。

同樣採用了包括3D hybrid bonded銅混合鍵合工藝和2.5D矽interposer封裝工藝，被AMD稱之為3.5D封裝。但I/O Die的第四代Infinity Fabric總線減少到4條x16規格，然後對應新增了4條x16規格的PCIe 5總線。

MI300A的HPC性能基本上是對手的1.8倍，AI性能，包括TF32/FP16/BF16/FP8/INT8，都與競爭對手基本相當。

APU的優勢在於解鎖了新的性能和功能模式，CPU和GPU採用統一內存、共享的Infinity Cache、動態功耗調度，將更便於用戶編程，是一個完整的系統級解決方案。

在OpenFOAM測試中，MI300A的性能甚至可以達到對手的4倍。

AMD聲稱MI300A每瓦峰值性能可以達到對手GH200(Grace Hopper，GPU+ARM架構CPU組合)的兩倍。

MI300A在其他一些和H100對比的HPC性能測試也領先10%-20%。

將被用於美國勞倫斯利弗莫爾實驗室的EI Capitan超級計算機。

目前MI300A的首批OEM和解決方案合作夥伴，包括HPEE、VIDEN、GIGABYTE和SUPERMICRO。

軟體環境

從雲到端劍指AI

不僅僅是MI300X硬體系統強大，AMD為之準備的ROCm6軟體環境也大大助力整套系統在生成式AI應用中的性能表現。

與硬體相呼應的是AMD的軟體生態。AMD用於GPU平台的ROCm、用於XDNA AI引擎平台的Vitis AI以及用於EPYC CPU平台的zenDNN軟體環境都相當出色。

從硬體底層到API到編譯器和工具，再到庫，再到大模型，ROCm軟體環境應景為生成式AI做好準備，能夠提供強大的性能表現。

OpenAI正在與AMD攜手合作，將在Triton開源程式語言3.0版本中將MI300系列列入支持。

對於主流開源框架的支持也相當到位，大大減輕了開發難度。

對於Instrict系列來說，這一次的代際延遲優化高達8倍。

ROCm6.0的各方面優勢都相當明顯。

助力生成式AI，AMD Instinct MI300系列產品創新上市

軟體環境

從雲到端劍指AI

能抗住52小時、2488次重啟！長江存儲PC41Q商用消費級固態硬碟測試

榮耀Magic V3摺疊屏新品發布：售價8999元起，首發支持天通衛星通信

性能提升達16%、支持USB4！AMD今同時發布最新Zen5與Zen3處理器

華碩靈耀14 2024體驗：首發酷睿Ultra的AI超輕薄本

九號公司多款新品亮相CES 2024，智能引領產品升級

【MC年度評選】阿斯加特AN4+ PCIe 4.0 SSD榮獲2023年度編輯選擇獎

與U盤差不多大，性能與容量卻強得多！金士頓XS1000移動固態硬碟體驗

單反級寫真人像——榮耀100 Pro實測體驗報告

高顏值「三芯」性能旗艦——榮耀90 GT首發評測

機械革命新品筆記本曝光：全新模具、首發15.3英寸螢幕、水冷板設計

支持200億大語言模型，集顯流暢運行3A大作！英特爾酷睿Ultra處理器發布

ThinkPad X13 2023銳龍版評測：打響商用AI PC第一槍！

加速大模型生成式AI，AMD EPYC不在話下

支持4K@60FPS！致態PRO專業高速存儲卡、致態Endurance高度耐用存儲卡首測

助力生成式AI，AMD Instinct MI300系列產品創新上市

引領AI PC領域——AMD發布新一代RYZEN AI處理器銳龍8040系列

摺疊屏標杆之作——華為Mate X5典藏版評測

699元享受旗艦級2TB PCIe 4.0 SSD！阿斯加特AN4+固態硬碟實戰測試

「為守護潘多拉而戰」——4K光追配置帶你暢玩《阿凡達：潘多拉邊境》

龍芯重磅發布新一代處理器，全力打造IT產業新生態

AMD 3000元RX 7700 XT趕超7000元專業卡，「AI代工」勝過5個工具人

指尖星辰——Filco 87雙模聖手三代銀河金定製版機械鍵盤賞析

主流價位段標壓輕薄本新選擇——榮耀MagicBook X 14 Pro銳龍版2023

感受極光的夢幻藍——藍寶石Radeon RX 6750 GRE 12G D6極光版OC簡評