最強AI晶片英偉達H200發布:HBM容量提升76%,大模型性能提升90%

2023-11-14     芯智訊

原標題:最強AI晶片英偉達H200發布:HBM容量提升76%,大模型性能提升90%

11月14日消息,英偉達(Nvidia)於當地時間13日上午在 「Supercomputing 23」會議上正式發布了全新的H200 GPU,以及更新後的GH200 產品線。

其中,H200依然是建立在現有的 Hopper H100 架構之上,但增加了更多高帶寬內存(HBM3e),從而更好地處理開發和實施人工智慧所需的大型數據集,使得運行大模型的綜合性能相比前代H100提升了60%到90%。而更新後的GH200,也將為下一代 AI 超級計算機提供動力。2024 年將會有超過 200 exaflops 的 AI 計算能力上線。

H200:HBM容量提升76%,大模型性能提升90%

具體來說,全新的H200提供了總共高達141GB 的 HBM3e 內存,有效運行速度約為 6.25 Gbps,六個 HBM3e 堆棧中每個 GPU 的總帶寬為 4.8 TB/s。與上一代的H100(具有 80GB HBM3 和 3.35 TB/s 帶寬)相比,這是一個巨大的改進,HBM容量提升了超過76%。官方提供的數據顯示,在運行大模型時,H200相比H100將帶來60%(GPT3 175B)到90%(Llama 2 70B)的提升。

雖然H100 的某些配置確實提供了更多內存,例如 H100 NVL 將兩塊板配對,並提供總計 188GB 內存(每個 GPU 94GB),但即便是與 H100 SXM 變體相比,新的 H200 SXM 也提供了 76% 以上的內存容量和 43 % 更多帶寬。

需要指出的是,H200原始計算性能似乎沒有太大變化。英偉達展示的唯一體現計算性能的幻燈片是基於使用了 8 個 GPU的HGX 200 配置,總性能為「32 PFLOPS FP8」。而最初的H100提供了3,958 teraflops 的 FP8算力,因此八個這樣的 GPU 也提供了大約32 PFLOPS 的 FP8算力。

那麼更多的高帶寬內存究竟帶來了哪些提升呢?這將取決於工作量。對於像 GPT-3 這樣的大模型(LLM)來說,將會大大受益於HBM內存容量增加。英偉達表示,H200在運行GPT-3時的性能,將比原始 A100 高出 18 倍,同時也比H100快11倍左右。還有即將推出的 Blackwell B100 的預告片,不過目前它只包含一個逐漸變黑的更高條,大約達到了H200的兩倍最右。

不僅如此,H200和H100是互相兼容的。也就是說,使用H100訓練/推理模型的AI企業,可以無縫更換成最新的H200晶片。雲端服務商將H200新增到產品組合時也不需要進行任何修改。

英偉達表示,通過推出新產品,他們希望跟上用於創建人工智慧模型和服務的數據集規模的增長。增強的內存能力將使H200在向軟體提供數據的過程中更快速,這個過程有助於訓練人工智慧執行識別圖像和語音等任務。

「整合更快、更大容量的HBM內存有助於對運算要求較高的任務提升性能,包括生成式AI模型和高效能運算應用程式,同時優化GPU使用率和效率」,NVIDIA高性能計算產品副總裁Ian Buck表示。

英偉達數據中心產品負責人迪翁·哈里斯(Dion Harris)表示:「當你看看市場上正在發生的事情,你會發現模型的規模正在迅速擴大。這是我們繼續迅速引進最新和最優秀技術的又一個例子。」

預計大型計算機製造商和雲服務提供商將於2024年第二季度開始使用H200。英偉達伺服器製造夥伴(包括永擎、華碩、戴爾、Eviden、技嘉、HPE、鴻佰、聯想、雲達、美超威、緯創資通以及緯穎科技)可以使用H200更新現有系統,而亞馬遜、Google、微軟、甲骨文等將成為首批採用H200的雲端服務商。

鑒於目前市場對於英偉達AI晶片的旺盛需求,以及全新的H200增加了更多的昂貴的HBM3e內存,因此H200的價格肯定會更昂貴。英偉達沒有列出它的價格,但上一代H100價格就已經高達25,000美元至40,000美元。

英偉達發言人Kristin Uchiyama指出,最終定價將由英偉達製造夥伴制定。

至於H200推出後,會不會影響H100生產,Kristin Uchiyama則表示:「你會看到我們全年的整體供應量有所增加」。

一直以來,英偉達的高端AI晶片被視為高效處理大量數據和訓練大型語言模型、AI生成工具最佳選擇,在發表H200之際,AI公司仍在市場上拚命尋求A100/H100晶片。市場關注的焦點仍在於,英偉達能否向客戶提供足夠多的供應,以滿足市場需求。因此,H200是否還是會像H100一樣供不應求?對此NVIDIA並沒有給出答案。

不過,明年對GPU買家來說可能將是一個更有利時期,據《金融時報》8月報導曾指出,NVIDIA計劃在2024年將H100產量提升三倍,產量目標將從2023年約50萬個增加至2024年200萬個。但生成式AI仍在蓬勃發展,未來需求也可能會更大。

比如最新推出的GPT-4大約是在10000-25000塊A100上訓練的;Meta的AI大模型需要大約21000塊A100;Stability AI用了大概5000塊A100;Falcon-40B的訓練,用了384塊A100。

根據馬斯克的說法,GPT-5可能需要30000-50000塊H100。摩根史坦利的說法是25000個GPU。

Sam Altman否認了在訓練GPT-5,但卻提過「OpenAI的GPU嚴重短缺,使用我們產品的人越少越好」。

當然,除了英偉達之外,AMD和英特爾也在積極的進入AI市場與英偉達展開競爭。此前AMD推出的MI300X就配備192GB的HBM3和5.2TB/s的顯存帶寬,這將使其在容量和帶寬上遠超H200。

同樣,英特爾也計劃提升Gaudi AI晶片的HBM容量,最新公布的信息顯示,Gaudi 3基於5nm工藝,在BF16工作負載方面的性能將是Gaudi 2的四倍,網絡性能也將是其的兩倍(Gaudi 2有24個內置的100 GbE RoCE Nic),HBM容量是Gaudi 2的1.5倍(Gaudi 2有96 GB的HBM2E)。正如我們在下圖中所看到的,Gaudi 3轉向了具有兩個計算集群的基於chiplet的設計,而不是英特爾為Gaudi 2使用的單晶片解決方案。

全新GH200超級晶片:為下一代 AI 超級計算機提供動力

除了全新的H200 GPU之外,英偉達還帶來了更新後的GH200超級晶片,它使用NVIDIA NVLink-C2C晶片互連,結合了最新的H200 GPU 和 Grace CPU(不清楚是否為更新一代的),每個 GH200超級晶片還將包含總計 624GB 的內存。

作為對比,上一代的GH200則是基於H100 GPU和 72 核的Grace CPU,提供了96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一個封裝中。

雖然英偉達並未介紹GH200超級晶片當中的Grace CPU細節,但是英偉達提供了GH200 和「現代雙路 x86 CPU」之間的一些比較。可以看到,GH200帶來了ICON性能8倍的提升,MILC、Quantum Fourier Transform、RAG LLM Inference等更是帶來數十倍乃至百倍的提升。

但需要指出的是,其中提到了加速與「非加速系統」。這意味著什麼?我們只能假設 x86 伺服器運行的是未完全優化的代碼,特別是考慮到人工智慧世界正在快速發展,並且優化方面似乎定期出現新的進展。

全新的GH200 還將用於新的 HGX H200 系統。據說這些與現有的 HGX H100 系統「無縫兼容」,這意味著 HGX H200 可以在相同的安裝中使用,以提高性能和內存容量,而無需重新設計基礎設施。

據介紹,瑞士國家超級計算中心的阿爾卑斯超級計算機(Alps supercomputer)可能是明年第一批投入使用的基於GH100的Grace Hopper 超級計算機之一。第一個在美國投入使用的 GH200 系統將是洛斯阿拉莫斯國家實驗室的 Venado 超級計算機。德克薩斯高級計算中心 (TACC) Vista 系統同樣將使用剛剛宣布的 Grace CPU 和 Grace Hopper 超級晶片,但尚不清楚它們是基於 H100 還是 H200。

目前,即將安裝的最大的超級計算機是Jϋlich超級計算中心的Jupiter 超級計算機。它將容納「近」24000 個 GH200 超級晶片,總共 93 exaflops 的 AI 計算(大概是使用 FP8,雖然大多數 AI 仍然使用 BF16 或 FP16)。它還將提供 1 exaflop 的傳統 FP64 計算。它將使用具有四個 GH200 超級晶片的「Quad GH200」板。

總的來說,英偉達預計這些新的超級計算機的安裝將在未來一年左右實現超過 200 exaflops 的 AI 計算性能。

編輯:芯智訊-浪客劍

文章來源: https://twgreatdaily.com/zh-tw/6bd7ffb9bf8fa3b5314013fb94f17f74.html