生成式AI需要怎樣的數據中心CPU？阿里雲火山引擎解讀雲端晶片需求

芯東西（公眾號：aichip001）

作者 | ZeR0

編輯 | 漠影

芯東西12月18日報道，在12月15日舉行的2023英特爾新品發布會暨AI技術創新派對上，英特爾正式推出第五代英特爾至強可擴展處理器（代號Emerald Rapids）。這也是第五代英特爾至強可擴展處理器首次在中國亮相。

第五代英特爾至強可擴展處理器在每個核心中內置了人工智慧（AI）加速器，在提高AI、科學計算、網絡、存儲、資料庫、安全等關鍵工作負載的每瓦性能以及降低總體擁有成本（TCO）方面具有出色表現。英特爾執行副總裁兼數據中心與人工智慧事業部總經理Sandra Rivera稱該處理器為AI加速而生，旨在為在雲、網絡和邊緣環境中部署AI的客戶提供更高的性能。

英特爾與生態夥伴分享了這款全新處理器在京東雲、百度智能雲、阿里雲、火山引擎的成功實踐及其應用價值。會後，英特爾數據中心與人工智慧集團副總裁兼中國區總經理陳葆立、阿里雲伺服器研發事業部高級總監王偉、火山引擎IAAS產品負責人李越淵接受芯東西等媒體的採訪，從雲計算廠商的視角分享了生成式AI所需的關鍵晶片能力。

超過20家中國OEM/ODM合作夥伴已研發並將提供基於第五代英特爾至強可擴展處理器的系列伺服器產品，超過7家中國雲服務提供商已驗證並將提供基於第五代英特爾至強的雲服務實例。

一、每個內核內置AI加速功能，可微調200億個參數的大模型

第五代英特爾至強可擴展處理器每個內核均具備AI加速功能，無需添加獨立加速器，即可處理要求嚴苛的端到端AI工作負載，能夠微調多達200億個參數量的大語言模型，推理性能相較上一代提高42%，延遲低於100毫秒。

該處理器擁有多達64核，L3緩存是上一代產品的近3倍；具備8條DDR5通道，內存帶寬高達5600MT/s，且採用英特爾超級通道互聯（英特爾UPI）2.0以增加跨插槽內帶寬，提供高達20GT/s的傳輸。

阿里雲伺服器研發事業部高級總監王偉認為，大模型是顯存帶寬密集型、顯存容量密集型的，有時對於算力的「饑渴度」並不是非常高，因此在支撐生成式AI應用場景方面，建議未來通用處理器應更多關注內存帶寬和內存容量的提升。

得益於L3緩存、內存帶寬及一些加速引擎的提升，基於第五代至強的阿里雲第八代實例g8i實現了更好的性能表現，AI推理性能提升25%，QAT加解密性能提升20%，資料庫性能提升25%，音視頻性能提升15%。第八代實例g8i已經能夠為用戶實現快速的通義千問模型部署。

相較上一代產品，在相同的熱設計功率範圍內，第五代英特爾至強可擴展處理器可在進行通用計算時將整體性能提升高達21%，並在一系列客戶工作負載中將每瓦性能提升高達36%。對於遵循典型的五年更新周期並從更前一代處理器進行升級的客戶而言，其TCO最多可降低77%。

第五代英特爾至強可擴展處理器Emerald Rapids

由於該處理器與上一代產品的軟體和平台兼容，客戶能夠升級並大幅增加基礎設施的使用壽命，同時降低成本和碳排放。

王偉說，同架構帶來的好處是後續不需要再重新研發，雲廠商更多考慮將自身較有優勢的基礎軟體棧與第五代至強的算力提升、加速引擎相結合，給雲上客戶提供更簡潔易用的雲端算力、更好的應用推薦。

火山引擎IAAS產品負責人李越淵分享了類似看法，火山引擎更多關注的是如何讓雲上客戶非常容易地從上一代過渡到新版本上，其策略是在第三代實例上進行算力的疊代和升級，以便其客戶能夠更平滑、更友好、更低門檻地將第五代至強用起來。在遷移過程中，火山引擎和英特爾進行了很多深度交流和定製方面的互動，確保針對不同場景、不同應用的情況下，其CPU最後的產出是最符合客戶需求的。

李越淵認為，雲上彈性非常關鍵，很多伺服器天然會閒置，以確保能撐住大的應用需求量。有了彈性能力後，需要考慮性能和成本的性價比，在閒置集群上其實對成本的容忍度會很高，就像今天業界很成熟的搶占式實例模式，價格根據供需變化而浮動，客戶能獲得一個比較低廉的價格，在這樣的情況下CPU也能獲得較高性價比。

他談道，目前一些大客戶上已經跑通了這樣的模式，火山引擎與一些大客戶已經在用CPU做一些比較大規模的推理了，隨著CPU在AI能力上越來越強、性能越來越好，這個性價比會更高。

他還強調了互連技術的重要性，生成式AI不僅對CPU的算力、內存、帶寬提出了更高要求，隨著模型變大，單晶片甚至但伺服器的能力未必能夠滿足生成式AI的訴求，因此互聯互通的能力也非常重要。

王偉補充說，今天在一個大模型訓練中，通信時長大概占整個時長的20%，需要通過大規模網絡互連來降低這部分的時長，獲得更好的收益。互連網絡拓撲會隨著選擇的晶片與每家企業的技術方向有一定區別，物理帶寬可以有效減少在訓練過程中因為模型被拆分導致CPU或AI晶片之間通信量對整個訓練時長的影響。

「未來效率提升是軟體+硬體來做組合，進一步提升算力利用率。」王偉提到大模型還在初期階段，業界正在嘗試通過框架、引擎去做軟體優化，或通過一些運算元優化，來提升模型訓練或推理的效率。

二、CPU已經能跑大規模生成式AI推理，未來AI應用對算力需求會逐漸下降

CPU是當前AI推理市場的主流晶片。據王偉分享，GPU適合高並發、單指令多數據處理模式，如果單看AI訓練或推理場景的數據處理，GPU架構比CPU有更大優勢，這也是為什麼英特爾要在CPU中內置英特爾AMX加速器；而CPU強大在對分支預測和串行和高頻處理上有更好的表現，以通用計算為主的晶片在推理上更多側重於發揮SoC內部集成的向量執行單元、高並發執行單元來做AI處理過程中的一部分數據並行加速。

「任何訓練和推理過程都不是說數據在那裡一放，CPU就去處理了。」王偉說，「無論是數據預處理還是數據後加工，都有CPU必須要去承擔的角色，所以它是沒有辦法完全拆開的。」

「我們發現目前生成式AI對於CPU已經不算挑戰了，你可以輕鬆在CPU上跑各種生成式AI的模型。」他談道，阿里雲已經嘗試用CPU跑一些較大規模的推理，如12B、70B、72B的模型，目前都已經可以在單台通用伺服器上運行。

據英特爾數據中心與人工智慧集團副總裁兼中國區總經理陳葆立分享，做晶片需要兩三年，根據客戶反饋進行修改的工作需要提早進行，多年來，英特爾一直在與客戶持續溝通，針對每個客戶的反饋做一些針對性的解決方案，以更好地提供服務來滿足客戶的需求。

在第五代至強的助力下，火山引擎第三代彈性計算實例算力全新升級，整機算力、內存帶寬都進一步優化，在AI、視頻處理、Java應用、HPC應用等主流應用上性能最高提升43%。李越淵透露道，在最新實例上，火山引擎計劃推出多種基於英特爾硬體原生加速的能力，將給其內外部客戶的各項業務帶來顯著的性能提升。

京東雲研發並上線了基於第五代英特爾至強可擴展處理器的新一代金融雲伺服器，同時通過散熱和供電等技術創新實現了整體性能提升，例如在大語言模型Llama 2 13B的推理性能測試中比上一代整體提升了51%。

百度採用4台基於第五代英特爾至強可擴展處理器的伺服器，通100G的高速網絡實現多機分布式推理來運行Llama 2 70B大模型，相比單台伺服器實現2.85倍加速比，將時延降低至87ms。

陳葆立說，英特爾一直致力於生態系統建設，有著龐大的國內合作夥伴體系，為用戶提供廣泛且經過驗證的解決方案。目前英特爾已與許多國內合作夥伴一起完成了基於第五代英特爾至強可擴展處理器的驗證，從國產作業系統的支持到超融合一體機、一些代表性的AI應用場景均已在第五代至強上做解決方案並實現了顯著的性能提升。

陳葆立判斷，未來應用爆發時，在雲邊端的推理業務量均會增長。王偉亦給出類似的預測，短期來看，模型發展還未收斂，對算力的需求量是巨大的，需要基於異構計算的算力來做好訓練，其中對GPU算力需求更高一些；但如果只有訓練，沒看到更好的推理應用，產業是不健康的，長遠來看，未來更多AI應用場景會傾向於推理，對算力的需求會逐漸降下來。

在王偉看來，需要高算力來做AI推理的場景不太有利於AI在應用端快速發展，所以阿里雲會更多關注如何通過降低算力的訴求，來更好孵化大模型在推理側應用，希望使用不同的處理器架構來做推理，以滿足更多應用場景的需求。

李越淵亦談道，做AI推理需要講究性價比，對於一些場景來說，基於一個合理的參數量去喂很精準的數據、對模型調優，也許是可行之路。

三、雲上數據安全是重中之重

李越淵說，安全是雲廠商非常關注的晶片能力，模型是每個公司最重要的資產之一，很天然的，客戶會關注自身的數據安全、模型安全。他看到英特爾在這上面做了很多努力和嘗試，包括TDX能更加透明、低門檻的讓客戶實現端到端安全，火山引擎的AI客戶對這些非常關注。

英特爾可信域拓展（英特爾TDX）提供虛擬機（VM）層面的隔離和保密性，能增強隱私性和對數據的管理。

在基於英特爾TDX的機密虛擬機中，客戶機作業系統和虛擬機應用被隔離開來，不會被雲端主機、虛擬機管理程序和平台的其他虛擬機訪問。

今年年初發布的第四代英特爾至強已集成英特爾TDX，且特定CSP已經能夠應用該功能，隨著新一代至強的推出，所有OEM和CSP解決方案提供商均可啟用該功能。

據王偉分享，阿里雲一向非常重視客戶在雲上的數據安全，集合英特爾TDX技術的阿里雲g8i機密計算實例可以保障用戶在整個AI推理過程中模型和數據全流程的數據安全。

面向金融服務，平安科技同樣採用英特爾TDX技術來為大模型和用戶數據提供更強保護，使其聯邦大模型能夠平滑地部署在第五代至強上，訓練與推理過程都在加密的虛擬機內存中執行，且節點之間的通信也能通過加密及身份認證確保安全，由此構建一個可信的數據空間，實現數據共享，並全方位保護數據安全與數據隱私。

結語：2024年，生成式AI應用創新與落地的關鍵一年

英特爾在發布數據中心CPU上的節奏似乎越來越密集：今年1月和12月，英特爾分別推出第四代和第五代至強可擴展處理器。具備多達288個核心的能效核（E-core）處理器Sierra Forest將於明年上半年推出，性能核（P-core）處理器Granite Rapids也將緊隨其後發布。這正為市場帶來更加多元化的選擇。

應對AI計算需求的爆發，陳葆立認為，早期做溝通、早期做修正、以客戶為優先擁抱市場，是英特爾多年以來的優勢，再加上英特爾如期推進先進位程與先進封裝的演進，英特爾對自身的產品競爭力很有信心。他相信接下來一定更多新的生成式AI應用出現，英特爾會做好本業，繼續推進在算力、網絡、內存、安全等方面的關注。

英特爾正與合作夥伴和廣泛的生態系統攜手合作，不斷解鎖AI帶來的新增長機遇。陳葆立說：「英特爾始終致力於通過全面的產品組合、優化的軟體、多樣化工具和廣泛的生態，使更多客戶能夠為雲計算、網絡、邊緣和大規模訪問業務設計、交付和部署創新的解決方案。」

據他透露，英特爾將在2024年發力與開發者的互動，在數據中心端，做生態做得最成熟的只有英特爾，英特爾希望通過一個成熟的開發者社區合作方式，能夠讓更多人參與AI開發。

生成式AI需要怎樣的數據中心CPU？阿里雲火山引擎解讀雲端晶片需求

曝Apollo擬向英特爾投資50億美元

晶片巨頭裁員15000人！

黃仁勛封神時刻！英偉達市值全球第一背後，一個創造歷史的精明刀客與營銷鬼才

傳Arm擬明年推出自研AI晶片！

12家AI晶片創企，盯上大模型生意

又一家深圳半導體企業IPO獲受理！

OPPO調校晶片的秘籍，對外公布

RISC-V生態加速壯大！睿思芯科與多個海內外開源社區宣布合作

生成式AI需要怎樣的數據中心CPU？阿里雲火山引擎解讀雲端晶片需求

從軟硬體到生態加速AI PC革命，英偉達憑實力證明RTX就是AI

美國調查英偉達3款對華定製AI晶片：將檢查每一個規格細節

3D堆疊、背面供電、背面觸點，英特爾展示前沿電晶體微縮技術突破

讓生成式AI訓練更高效！Rambus推出9.6GBps HBM3內存控制器IP

AMD最強生成式AI核彈發布！跑大模型性能超H100，預告下一代AI PC處理器

OpenAI百度爭相送錢，盯上一家AI晶片創企

英特爾的危機：「Wintel」聯盟面臨挑戰，更多Windows轉向非英特爾處理器

國產CPU里程碑！龍芯最強處理器、自研GPGPU來了，披露Tock「三劍客」

突發，英國AI晶片獨角獸退出中國，大幅裁員

TCL晶片公司被曝解散！

30億美元！美國晶片法案首個重大研發投資計劃，投向先進封裝

OpenAI CEO被曝擬成立AI晶片公司，秘密推進數十億美元融資談判

微軟推出首款自研大模型AI晶片！台積電5nm、1050億顆電晶體，OpenAI率先試用

模擬人眼、拯救糊圖、兼容主流AI晶片，最小事件視覺傳感器問世！對話Prophesee CEO

大模型推理乘上RISC-V快車？國內AI晶片創企推大模型系列一體機