英特爾第五代數據中心CPU、Guadi 3加速器細節曝光

2023-11-14     芯智訊

原標題:英特爾第五代數據中心CPU、Guadi 3加速器細節曝光

11月14日消息,在 Supercomputing 2023 會議上,英特爾也提供了有關其最新 HPC 和 AI 計劃的大量更新,包括有關第五代 Emerald Rapids 和未來 Granite Rapids Xeon CPU、Guadi 3加速器、對標Nvidia H100 GPU 的新Max 系列 GPU 基準測試的新信息,以及在Aurora 超級計算機上運行的「genAI」1 萬億參數人工智慧模型的工作。

第五代 Emerald Rapids

英特爾的數據中心路線圖仍在正軌上,第五代Emerald Rapids晶片定於12月14日發布。

英特爾介紹了旗艦級的64核Xeon 8592+與前代56核第四代Xeon 8480+相比的基準測試。和往常一樣,對供應商提供的基準測試有所保留。

正如你所期望的那樣,Xeon 8592+在AI語音識別和LAMMPS基準測試中獲得了1.4倍的增益,同時在FFMPEG媒體轉碼工作負載中也獲得了1.2倍的增益。

英特爾還為其未來的Granite Rapids Xeons提供了性能預測,該Xeons將在「英特爾3」節點上製造。這些晶片將為FP16添加更多的內核、更高的頻率、硬體加速,並支持12個內存通道,包括大大提高內存吞吐量的新型MCR內存DIMM。總的來說,英特爾聲稱人工智慧工作負載提高了2-3倍,內存吞吐量提高了2.8倍,DeepMD+LAMMPS人工智慧推理工作負載提升了2.9倍。

英特爾搭載HBM2E的Xeon Max CPU現已發貨。英特爾將其配備64GB封裝HBM內存的56核Intel Max 9480與AMD的96核EPYC 9654進行了比較。英特爾為這一系列基準測試選擇的工作負載包括內存受限應用程式中的目標用例,這些用例自然會使至強晶片受益。總體而言,英特爾聲稱在模擬、能源、材料科學、製造和金融服務等一系列工作負載方面,其平均優勢是EPYC競爭者的1.2倍。

Gaudi 3與Falcon Shores GPU

英特爾還分享了即將推出的Gaudi 3的一些細節,這將是該公司將Gaudi 和GPU系列合併為一個單一產品Falcon Shores之前的最後一款Gaudi加速器。

據介紹,Gaudi 3基於5nm工藝,在BF16工作負載方面的性能將是Gaudi 2的四倍,網絡性能也將是其的兩倍(Gaudi 2有24個內置的100 GbE RoCE Nic),HBM容量是Gaudi 2的1.5倍(Gaudi 2有96 GB的HBM2E)。正如我們在圖中所看到的,Gaudi 3轉向了具有兩個計算集群的基於chiplet的設計,而不是Intel為Gaudi 2使用的單晶片解決方案。

英特爾在提供其未來Falcon Shores GPU的細節方面進展緩慢。但英特爾表示,儘管合併了Habana Gaudi IP和Xe GPU IP的各個方面,但基於chiplet的Falcon Shores將通過OneAPI編程接口看起來和起到單個GPU的作用。Falcon Shores將採用HBM3內存和乙太網交換,並支持CXL編程模型。此外,為Gaudi加速器和Xeon Max GPU調整的應用程式將與Falcon Shores前向兼容,從而為其客戶提供兩種截然不同的GPU和Gaudi系列之間的代碼連續性。

數據中心GPU Max系列

英特爾的數據中心GPU Max系列目前正在向客戶發貨,Supermicro提供了帶有八個OAM外形GPU的系統,而戴爾和聯想則提供了四個OAM GPU伺服器。GPU Max系列1100 PCIe卡也可從多個供應商處廣泛獲得。

英特爾的基準測試將其600W GPU的OAM外形尺寸的Max 1550與350W競爭對手英偉達的PCIe外形尺寸H100進行了比較。英特爾指出,難以訪問OAM形狀因子H100 GPU是基準差異的原因。

Aurora 超級計算機

根據之前的預計,基於英特爾晶片的Aurora超級計算機 將以 2 Exaflop/s (EFlop/s) 的性能奪得世界上最快的超級計算機的桂冠。然而,英特爾尚未透露有關 Aurora 正式提交 Top500 名單的基準測試的詳細信息,該公司表示將把該公告留給能源部和阿貢國家實驗室。如果按照慣例,Top500 組織將在今天晚些時候發布這些備受期待的結果。與此同時,英特爾的更新包含了大量值得仔細研究的新新信息。

基於英特爾晶片的Aurora超級計算機的詳細介紹:《全球首台200億億次超算安裝完成:21248個CPU、63744個GPU、20.42PB內存、220PB存儲!》

根據英特爾最新公布的數據顯示,英特爾和阿貢國家實驗室在genAI項目中測試了Aurora,這是一個萬億參數的GPT-3 LLM科學基礎人工智慧模型。由於數據中心GPU Max(「Ponte Vecchio」GPU)上存在大量內存,阿貢國家實驗室在總共256個節點上並行運行了四個模型實例。在對工作負載進行調優後,此工作負載最終將擴展到10000個節點。

英特爾強調,在藥物篩選人工智慧推理應用程式ESP-ML中,從128個節點到256個節點的強大擴展能力。

但與競爭對手GPU的對比更有趣。英特爾聲稱,在使用PyTorch/FP32進行CosmicTagger訓練時,單個Max 1550 GPU的速度比AMD的MI250加速器提高了56%,比英偉達的上一代A100 GPU有2.3倍的優勢。結果還表明了強大的可擴展性,六GPU Sunspot測試節點顯示出83%的性能可擴展性。因此,Sunspot節點的性能是具有未知GPU的四GPU AMD測試系統的兩倍多,是Polaris的四GPU節點的五倍多。

Argonne還測試了擁有512個節點的Aurora超算與475個節點的Polaris超算面向大腦連接體工作負載(Connectomics ML)能力,該工作負載模擬了小鼠的大腦,突出了Aurora相對於Polaris的2倍優勢。

編輯:芯智訊-浪客劍 資料來源:tomshardware

文章來源: https://twgreatdaily.com/zh/8dc87a31a3ad692fee5f066fa77be734.html