英特爾發布中國定製版大模型專用晶片Gaudi2,用性價比挑戰英偉達

2023-07-12     甲子光年

原標題:英特爾發布中國定製版大模型專用晶片Gaudi2,用性價比挑戰英偉達

訓練大模型,英偉達GPU不再是唯一選項。

作者|趙健

7月11日,英特爾在北京舉辦AI產品戰略暨Gaudi2新品發布會,正式於中國市場推出第二代深度學習加速器——Habana Gaudi2。

Habana是成立於2016年的AI晶片廠商,總部位於以色列,為數據中心提供可編程深度學習加速器。Habana在2019年推出了第一代Gaudi晶片,並在這一年12月被其早期投資人英特爾收購。

其實在2022年5月,英特爾已經發布過Gaudi2。而這一次在北京的產品發布,是面向中國市場的「定製版」,類似英偉達推出A100與H100的定製版A800與H800。

英特爾執行副總裁兼數據中心與人工智慧事業部總經理Sandra Rivera強調,Gaudi2是完全合法合規的。

在性能方面,這款中國定製版訓練最主要的性能裁剪在於網絡埠。Gaudi2有21個百兆埠,而國際版有24個。不過,英特爾Habana Labs營運長Eitan Medina表示,「從客戶使用情況來看,預計影響會非常小」。

Gaudi2的推出,為訓練大模型提供了英偉達之外的替代方案。在此之前,英偉達的GPU晶片——A100與H100,幾乎壟斷了訓練大模型的市場。供需的極度不平衡也讓GPU一芯難求。

相比英偉達GPU,Gaudi2最顯著的優勢在於「更高的性價比」。英特爾表示,將致力於為中國用戶提供更高的深度學習性能和效率,從而成為大規模部署AI的更優解。

目前,英特爾正與浪潮信息合作,打造並發售基於Gaudi2深度學習加速器的浪潮信息AI伺服器。此外,新華三與超聚變也是英特爾的合作夥伴。

1.用性價比挑戰英偉達

目前,業內普遍認為生成式AI和大語言模型僅適宜在GPU上運行。但英特爾Gaudi2正在向英偉達發起挑戰。

Gaudi2深度學習加速器暨Gaudi2夾層卡HL-225B,以第一代Gaudi高性能架構為基礎,採用了台積電7nm工藝,專為訓練大語言模型而構建。該加速器具備:

  • 24個可編程Tensor處理器核心(TPCs)
  • 21個100 Gbps(RoCEv2)乙太網接口
  • 96GB HBM2E內存容量
  • 2.4TB/秒的總內存帶寬
  • 48MB片上SRAM
  • 集成多媒體處理引擎

演講者為英特爾執行副總裁兼數據中心與人工智慧事業部總經理Sandra Rivera

Gaudi2真實性能表現如何?在發布會現場,英特爾多次與英偉達進行參數對比。

在6月公布的MLCommons MLPerf基準測試(被普遍認為是最具信服力的AI性能測試基準)結果中,Gaudi2在GPT-3模型、計算機視覺模型ResNet-50(使用8個加速器)、Unet3D(使用8個加速器),以及自然語言處理模型BERT(使用8個和64個加速器)上均取得了比A100更優異的結果,但還弱於H100。

演講者為英特爾Habana Labs營運長Eitan Medina

不僅如此,Gaudi2在性價比上更具優勢。

在MLCommons剛剛公布的MLPerf訓練3.0結果中,Gaudi2在1750億參數的GPT-3模型上,從256個加速器到384個加速器可實現接近線性的95%擴展效果。

英特爾表示,Gaudi2的每瓦性能大約是A100的兩倍。而隨著性能的進一步優化,英特爾預計在今年9月,Gaudi2的性價比將會超過H100。

值得一提的是,Gaudi2是僅有的兩個向GPT-3大模型訓練基準提交性能結果的解決方案之一。

英特爾Habana Labs營運長Eitan Medina強調:「這說明了其他半導體廠商還無法構建針對GPT-3的解決方案」。

除了模型的訓練,還需要模型的推理。Gaudi2可為大規模的多模態和語言模型提供出色的推理性能。

在最近的Hugging Face評估中,Gaudi2在大規模推理方面的表現,包括在運行Stable Diffusion、70億以及1760億參數BLOOMz模型時,都在行業內保持領先。

其中,與英偉達A100相比,Stable Diffusion推理時延降低2.21倍。

值得一提的是,下一代Gaudi3預計在明年推出,採用台積電5nm工藝。

2.英特爾的AI戰略

英特爾擁有龐大豐富的產品線,Gaudi2並非唯一的AI產品。

針對AI在不同場景、不同環節的異構計算需求,英特爾將其產品線分為通用計算與加速計算。

其中,英特爾的CPU產品,第四代至強處理器解決通用計算,滿足客戶在大部分模型較小場景的AI推理需求;Gaudi2解決加速計算,解決大模型的訓練及推理需求。

在通用計算層面,第四代英特爾至強可擴展處理器(英特爾AMX)為廣泛的AI負載和用例提供10倍的推理和訓練性能以及代際性能提升,同時每瓦性能比也比前代提高7.7倍

在6月底公布的MLPerf訓練3.0結果表明,第四代至強可擴展處理器為企業提供了「開箱即用」的功能,可以在通用系統上部署AI,避免了引入專用AI系統的高昂成本和複雜性。

第四代至強可擴展處理器也能夠支持Stable Diffusion。英偉達DGX H100系統也會選擇搭配英特爾CPU,從而為企業級AI提供高速、高能效並節省成本。

百度、美團是英特爾AMX的客戶。英特爾AMX助力百度文心一言輕量版ERNIE-Tiny性能提升2.66倍,助力美團加速視覺AI推理服務,成本降低80%。

值得一提的是,在加速計算層面,英特爾除了推出人工智慧專用晶片Gaudi2之外,也在2022年推出了面向數據中心的的GPU Max系列(代號為Ponte Vecchio)。兩款產品在AI計算層面存在一定的重合度。

對此,英特爾透露會在2025年把Gaudi產品線與GPU產品線整合為統一架構的新產品,並帶來更好的軟體適配能力與AI處理能力。

此外,正如英偉達依靠CUDA構建護城河,英特爾也在加強軟體開發生態的支持。

英特爾推出的軟體套件針對Gaudi平台深度學習業務進行了優化,集成了對TensorFlow和PyTorch框架的支持,並面向400多個機器學習和深度學習AI模型進行驗證,涵蓋每個業務領域使用的最常見AI用例。

總結來看,英特爾正在通過異構產品組合、開放式的軟體棧以及用於大模型訓練的Gaudi2集群,來降低人工智慧的准入門檻,來滿足龐大的市場需求。

晶片是大模型訓練及推理的基礎設施,也是這場大模型淘金熱必不可少的「鏟子」。如今,隨著主流半導體巨頭紛紛布局,這場大模型的晶片戰已經徹底打響了。

文章來源: https://twgreatdaily.com/zh-cn/46cb68f61fecdd23b8f0b6a37781dd91.html