12月7日消息,AMD於當地時間周三舉行了「Advancing AI」發布會,正式推出了面向AI及HPC領域的GPU產品Instinct MI300A/MI300X加速器,直接與英偉達(NVIDIA)H100加速器競爭。同時AMD還發布了代號為Hawk Point的最新一代Ryzen 8000系列APU,可面向AI PC產品。
MI300A:HPC性能達到NVIDIA H100的4倍
雖然在今年6月的「數據中心與人工智慧技術發布會」,AMD就有發布MI300A和MI300X,只不過當時MI300X只是紙面上的發布,現在MI300A和MI300X已經開始批量量產了,AMD也公布了更多關於MI300A、MI300X的性能數據。
AMD MI300A採用了Chiplet設計,其內部擁有多達13個小晶片,均基於台積電5nm或6nm製程工藝(CPU/GPU計算核心為5nm,HBM內存和I/O等為6nm),其中許多是 3D 堆疊的,以便創建一個面積可控的單晶片封裝,總共集成1460 億個電晶體。
具體來說,MI300A與上一代的MI250X一脈相承,採用新一代的CDNA 3 GPU架構,擁有228個計算單元(14592個核心),並集成了24個Zen 4 CPU內核,配置了128GB的HBM3內存。MI300A的計算核心被 8 個HBM3內存包圍,單個HBM3的帶寬為6.3GB/s,八個16GB堆棧形成128GB統一內存,帶寬高達5.3 TB/s。
在算力方面,MI300A提供了高達61 TFLOPS FP64算力,多達122 TFLOPS FP32算力。
AMD表示,MI300A GPU將HPC提升到一個新的水平,其性能是NVIDIA H100的4倍,能效是H100的兩倍。
具體來說,在OpenFOAM中,MI300A APU提供了相比H100高達4倍的性能提升,這主要來自於統一的內存布局、GPU性能以及整體內存容量和帶寬。與NVIDIA的Grace Hopper超級晶片相比,該系統每瓦的性能也提高了2倍。
AMD證實,MI300A目前正在發貨,還將用於為下一代El Capitan超級計算機提供動力,預計該超級計算機將提供高達2 Exaflops的計算能力。值得一提的是,AMD是唯一一家憑藉Frontier超級計算機突破1 Exaflop大關的公司,也是地球上效率最高的系統。此外,惠普、Eviden、技嘉、超微等也將是MI300A加速器的OEM和解決方案合作夥伴。
MI300X:AI性能比英偉達H100高出30%!
MI300X採用了相比MI250X更簡單的設計,MI300X內部集成了12個5/6nm工藝的小晶片(HMB和I/O為6nm),擁有1530億個電晶體,放棄了 APU 的 24 個Zen4內核和 I/O 晶片,取而代之的是更多計算核心的 CDNA 3 GPU。
MI300X的每個基於CDNA 3 GPU架構的GCD總共有40個計算單元,相當於2560個內核。總共有八個計算晶片(GCD),因此總共有320個計算和20480個核心單元。不過,就目前的量產版而言,AMD縮減這些核心的一小部分,因此實際總共有304個計算單元(每個GPU小晶片38個CU)可用於19456個流處理器。
在內存帶寬方面,MI300X也配備了更大的 192GB HBM3內存(8個HBM3封裝,每個堆棧為12 Hi)相比MI250X提高了50%,帶來高達5.2TB/s的帶寬和896GB/s的Infinity Fabric帶寬。相比之下,英偉達即將推出的H200 AI加速器提供141 GB的容量,而英特爾即將推出的Gaudi 3將提供144 GB的容量。大型內存池在LLM(大語言模型)中非常重要,LLM大多是與內存綁定的,AMD可以通過在HBM內存容量上的領先地位來提升器人工智慧能力。
具體來說,AMD的MI300X與英偉達的H100加速器相比:
在具體的AI大模型加速性能對比當中,MI300X相比H100在 FlashAttention-2 和 Llama 2 70B 中提供了高達 20% 的性能提升。
從平台角度來看,將 8x MI300X 解決方案與 8X H100 解決方案進行比較,前者在 Llama 2 70B 中獲得了更大的 40% 的性能提升,而在 Bloom 176B 中則獲得了 60% 的性能提升。
AMD指出,在AI訓練性能方面,MI300X 與競爭對手 (H100) 相當,並提供有競爭力的價格/性能,同時在推理工作負載方面表現出色。
在功耗方面,AMD MI300X的額定功率為750W,比 MI250X的500W增加了50%,比NVIDIA H200多了50W。
ROCm 6.0開放軟體平台
AMD還推出了ROCm 6.0開放軟體平台,該最新版本具有強大的新功能,包括支持各種人工智慧工作負載,例如生成式人工智慧和大型語言模型。
新的軟體堆棧支持最新的計算格式,例如 FP16、Bf16 和 FP8(包括 Sparsity)等。
這些優化相結合,通過優化的推理庫將 vLLM 的速度提高了高達 2.6 倍,通過優化的運行時間將 HIP Graph 的速度提高了 1.4 倍,並通過優化的內核將 Flash Attention 的速度提高 1.3 倍。
AMD指出,與上一代軟硬體組合相比,使用MI300X和ROCm 6跑Llama 2 70B文本生成,AI推理速度提高了約8倍。
ROCm 6 預計將於本月晚些時候與 MI300 AI 加速器一起推出。看看 ROCm 6 與 NVIDIA CUDA 堆棧的最新版本(它的真正競爭對手)相比如何,將會很有趣。
G593-ZX1/ZX2系列伺服器
AMD還展示了一種配置是Gigabyte的G593-ZX1/ZX2系列伺服器,它提供多達8個MI300X GPU加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W的電源,總功率為18000W。
據介紹,該集成了8個MI300X GPU的加速器平台,相比NVIDIA HGX H100平台,帶來的提升包括:
2.4倍更高的HBM3內存(1.5 TB vs. 640 GB)
1.3倍以上的計算FLOPS(10.4 PF vs. 7.9 PF)
類似的雙向帶寬(896 GB/s vs. 900 GB/s)
類似的單節點環形帶寬(448 GB/s vs. 450 GB/s)
類似的網絡功能(400 GbE vs. 400 GbE)
類似的PCIe協議(PCIe Gen 5 128 GB/s)
據semianalysis此前報道,微軟、Meta、甲骨文、谷歌、Supermicro/Qunta-direct、亞馬遜等公司已經向AMD下了不同數量的MI300系列訂單。
今天,微軟也宣布將評估對AMD的AI加速器產品的需求,評估採用該新品的可行性。Meta公司也宣布將在數據中心採用AMD新推的MI300X晶片產品。甲骨文也表示,公司將在雲服務中採用AMD的新款晶片。
此前市場預計AMD的MI300系列在2024年的出貨約為30~40萬顆,最大客戶為微軟、谷歌,若非受限台積電CoWoS產能短缺及英偉達早已預訂逾四成產能,AMD出貨有望再上修。
值得注意的是,在不久前的財報會議上,AMD CEO蘇姿豐(Lisa Su)表示,「基於我們在人工智慧路線圖執行和雲客戶購買承諾方面取得的快速進展,根據預計,隨著全年收入的增加,數據中心GPU的收入在第四季度將約為4億美元,2024年將超過20億美元。這一增長將使MI300系列成為AMD歷史上銷售額最快增長至10億美元的產品。
目前,在生成式AI的熱潮之下,英偉達憑藉其AI晶片的出色性能及CUDA的生態優勢,在雲端AI晶片市場占據者壟斷優勢。不過,由於英偉達的AI晶片價格高昂以及供應短缺,雲服務及AI技術廠商們處於成本及多元化供應鏈安全考慮,也使得AMD和英特爾等競爭者有了更多的機會。
編輯:芯智訊-浪客劍