英特爾推出7nm中國版Gaudi2!訓練大模型性價比超A100

2023-07-11     芯東西

原標題:英特爾推出7nm中國版Gaudi2!訓練大模型性價比超A100

芯東西(公眾號:aichip001)

作者 | ZeR0

編輯 | 漠影

芯東西7月11日報道,今日下午,英特爾面向中國市場發布可便捷擴展運行大語言模型的雲端AI訓練晶片Gaudi2新品,並公布面向中國市場的英特爾AI戰略。

在中國市場推出的Gaudi2 AI加速器,將通過其合作夥伴浪潮提供給中國客戶。浪潮信息高級副總裁、AI和HPC總經理劉軍現場發布搭載Gaudi2的新一代AI伺服器NF5698G7。

會後,英特爾執行副總裁、數據中心與人工智慧事業部總經理Sandra L. Rivera,英特爾旗下Habana Labs的營運長Eitan Medina,英特爾數據中心與人工智慧集團副總裁兼中國區總經理陳葆立接受了芯東西等媒體的採訪。

陳葆立說,英特爾過去6個月在軟體優化上做了很多工作,此次不僅是向中國市場帶來晶片,而且帶來了可以大規模部署、訓練和推理大模型的整體方案。英特爾對方案的成熟度非常有信心。

據介紹,此次英特爾發布的Gaudi2新品是中國特供產品,在出口和支持中國客戶方面沒有任何問題。相比國際版Gaudi2產品,面向中國市場推出的加速卡在性能上差別不大,集成乙太網埠數量從24個埠減到21個。Gaudi2及下一代Gaudi3都會在合法合規的情況下繼續支持中國客戶。

據Eitan Medina介紹,英特爾Gaudi2運行ResNet-50的每瓦性能約是英偉達A100的2倍,運行1760億參數BLOOMZ模型的每瓦性能約達A100的1.6倍。

Sandra L. Rivera談道,英特爾致力於為中國客戶不斷創造更高價值,通過異構產品組合,交付具有性價比的AI解決方案。英特爾中國成立於1985年,中國員工數量超過1.1萬人,截至2022年總投資額超過130億美元,中國市場營收約占英特爾全球營收的27%。

據她分享,部署AI需要異構晶片,集成高級矩陣擴展(AMX)的第四代英特爾至強可擴展處理器,能實現比A100更快的訓練和推理性能。

英特爾現場演示了在第四代至強可擴展處理器上通過AMX加速指令運行文生圖模型Stable Diffusion,用5.34秒就生成一張圖片。

一、專供中國的Gaudi2新品:規格符合出口規定,支持大規模橫向擴展

Gaudi2處理器是一款高性能、完全可編程的AI處理器,整合了多項技術創新,具有高內存帶寬/容量和基於標準乙太網技術的縱向擴展能力,並支持使用外接網卡通過PCle接口實現橫向擴展,可滿足多節點集群需要。

該訓練處理器基於與第一代Gaudi相同的高效架構,採用7nm製程工藝,在性能、可擴展性和能效方面均實現了飛躍,其性價比相較於AWS雲中基於英偉達的解決方案高出40%。

它利用Habana完全可編程的TPC和的TPC和GEMM引擎,支持FP8、BF16、FP16、TF32和FP32等數據類型。TPC核心旨在支持深度學習訓練和推理工作負載。TPC是一款VLIW SIMD矢量處理器,其指令集和硬體經過定製,可高效處理上述工作負載。

第二代Gaudi2 AI深度學習夾層卡HL-225B專為數據中心實現大規模橫向擴展而設計。HL-225B處理器符合美國工業與安全局(BIS)的有關規定。該夾層卡符合OCP OAM1.1(開放計算平台之開放加速器模塊)規範。因此客戶可從符合規範的多種產品中做出選擇,靈活地進行系統設計。

HL-225B夾層卡內置Gaudi HL-2080處理器技術。HL-2080處理器擁有24個完全可編程的第四代張量處理器核心(TPC)。這些核心原生設計能為廣泛的深度學習工作負載加速,同時還賦予用戶按需進行優化和創新的靈活性。

該處理器還集成了96GB HBM2e內存和48MB SRAM,支持600瓦夾層卡級熱設計功耗(TDP)。Gaudi Al訓練處理器在晶片上集成了RDMA(RoCEv2),可與成熟且廣泛使用的乙太網進行連接。HL-2080晶片互連技術基於42對56Gbps Tx/RxPAM4 SerDes(配置為21個100 GbE埠)發揮作用。

中國專供版Gaudi2處理器具備出色的2.1Tbps網絡容量可擴展性,原生集成21個100Gbps RoCE v2 RDMA埠,可通過直接路由實現Gaudi處理器間通信。該處理器還集成了用於圖像和視頻解碼及預處理的專用媒體處理器。

二、訓練GPT-3實現近線性95%擴展性,FP8版Gaudi2性價比將超H100

業內普遍認為生成式AI和大語言模型僅適宜在GPU上運行。英特爾顯然正努力用Habana Labs的AI晶片打破這種「刻板印象」。

截至2023年6月,英特爾Gaudi2和英偉達H100是僅有的兩個提交了AI性能基準測試MLPerf GPT-3模型訓練成績的半導體解決方案。根據最新MLPerf結果,384個Gaudi2加速器訓練GPT-3的時長為311分鐘。

在GPT-3模型上,從256個到384個加速器實現近線性95%的擴展效果。這種出色擴展性部分歸功於其晶片上集成的100GB乙太網埠以及96GB HBM2e內存。

Gaudi2在四種主流計算機視覺以及自然語言處理模型的基準測試中亦優於英偉達A100。在計算機視覺模型ResNet-50(8個加速器)和Unet3D(8個加速器)以及自然語言處理模型BERT(8個和64個加速器)上取得了優異的訓練結果。與去年11月提交的數據相比,BERT和ResNet模型的性能分別提高了10%和4%,證明Gaudi2軟體成熟度的提升。

Gaudi2支持「開箱即用」功能。其客戶在本地或在雲端使用Gaudi2時,可以獲得與本次測試相當的性能結果。本次MLPerf 3.0的Gaudi2結果以BF16數據類型已提交。英特爾預計在2023年第三季度發布對FP8的軟體支持與新功能時,屆時Gaudi2的性價比預計將超越H100。

Gaudi2加速器已經被知名AI和機器學習開源軟體工具提供商Hugging Face採用。

根據Hugging Face發布的對Gaudi2性能的測試結果,從預訓練BERT模型到Stable Diffusion、1760億參數大型開源聊天模型BLOOMZ的推理,Gaudi2均領先於英偉達A100 GPU。與英偉達A100相比,2.44倍調優3B參數T5語言模型;與英偉達A100相比,Stable Diffusion推理時延顯著降低。

結語:為中國市場提供有競爭力的AI訓練加速選擇

訓練生成式AI和大語言模型需要伺服器集群來滿足大規模且更加複雜的計算要求。英特爾正通過多元化硬體和軟體產品技術組合,來將各種AI負載的推理和訓練性能提升至新的水平。

隨著Gaudi2產品進入中國市場,憑藉在AI訓練方面經權威基準測試驗證的高性價比,英特爾將為尋求擺脫效率與規模限制的中國客戶提供又一有競爭力的AI加速方案選擇。

文章來源: https://twgreatdaily.com/zh-tw/3026a7205ed0af0b161b5f5f5b07a70e.html