英特爾第五代至強可擴展處理器發布:AI推理性能提升42%!

2023-12-15     芯智訊

原標題:英特爾第五代至強可擴展處理器發布:AI推理性能提升42%!

12月15日下午,英特爾在中國北京召開了主題為「AI無處不在,創芯無所不及」的2023英特爾新品發布會暨AI技術創新派對,正式發布了代號為「Emerald Rapids」的面向伺服器、數據中心的第五代至強可擴展處理器,相比上代至強平均性能提升了21%,能效提升了36%,AI推理性能提升了42%,總擁有成本降低了77%!

最高64核心,整體性能提升21%、AI推理性能提升42%、總擁有成本降低77%!

據介紹,第五代至強(Xeon)延續了上代的Intel 7製造工藝、Raptor Cove P-Cove架構、LGA4677封裝接口,但在布局設計、部分核心規格上做了升級和增強。

首先在布局設計上,相對於第四代至強的4 Tile Die設計,64核旗艦級的第五代至強採用了2 Tile Die 設計(英特爾將其稱之為XCC),這樣做有幾個好處,即更少的模塊意味著更少的數據移動,從而可以降低功耗。不過,雖然Tile的數量更少了,但在物理面積上也更大了。通常情況下,更大的面積意味著更低的產量,但Sapphire Rapids和現在的Emerald Rapids中使用的Intel 7工藝技術在這一點上已經相當成熟。

64核旗艦級的第五代至強每個Tile都通過位於兩個核心和緩存陣列之間的模塊化裸片結合連接,每個Tile內擁有35個核心(其中3個是禁用的),每個Tile上還擁有2個內存控制器,支持高達5600 MT/s速度的DDR5 DIMM、3個PCIe控制器(共6個)、2個UPI(共4個)和2個加速器引擎(共4個)。

對於較低核心數量的第五代至強處理器,英特爾則繼續採用單晶片結構,英特爾稱之為中等核心數的晶片(MCC),最多可以有32個核心。還有一種名為EE-LCC的更小的晶片,適用於多達20個核心。

相比第四代至強來說,第五代至強核心數量由上代的最高60核提升到了64核,並且提供了高達320MB的緩存池,幾乎是上代112.5MB的三倍,相當於每核心從1.875MB增至5MB。同時,第五代至強還支持更快的DDR5-5600速度,單路最大容量還是4TB,連接通道則還是80條PCIe 5.0,還支持20 GT/s(千兆傳輸)帶寬的Intel UPI 2.0。

英特爾表示,與第四代至強相比,第五代至強CPU所能提供的平均性能提升了21%,每瓦平均性能提升36%,TCO(典型的5年刷新周期的總擁有成本)降低了77%。

在AI能力上,之前的第四代至強就有內置了AMX AI加速器,第五代至強又進一步提升了turbo頻率,在某些人工智慧推理負載中性能達到了四代至強的高達1.42倍,同時至強目前仍然是唯一一款擁有MLPerf訓練和推理基準性能測試的通用CPU。

根據英特爾之前公布的數據顯示,旗艦級第五代64核的Xeon 8592+與前代56核第四代Xeon 8480+相比的AI基準測試,Xeon 8592+在AI語音識別和LAMMPS基準測試中獲得了1.4倍的增益,同時在FFMPEG媒體轉碼工作負載中也獲得了1.2倍的增益。

此外,第五代至強還能夠支持運行200億參數的大語言模型(LLM)。隨著GPT-4、Meta的Llama 2和Stable Diffusion等大語言模型的興起,英特爾也在推動其至強處理器對於相對較小規模的大模型的支持能力,對於這類工作負載,內存帶寬和延遲是主要因素。雖然第五代至強沒有整合HMB,但是其也有5600 MT/s DDR5的幫助,雖然速度要差一些,但是已經可以滿足一些較小規模的大模型的性能需求,同時在成本上也是遠低於那些高昂的AI加速卡。

英特爾表示,在使用2S 五代至強平台上運行GPT-J 6B模型(60億參數),它可以實現在大約25毫秒下完成一個Token的處理。不過,對於運行更大的Llama 2 13B模型時,其平均需要的時間則要提升至62ms,但仍遠低於100毫秒。另外,有報道顯示,目前五代至強已經能夠在運行200億個參數的大模型上實現可接受的延遲。

同時,在第五代五代至強上,QAT快速助手、DLB動態負載均衡器、DSA數據流加速器、IAA存內分析加速器等也依然存在,並且都可以按需付費開啟。

客戶應用實例方面,IBM watsonx.data平台的網絡查詢吞吐量提高了2.7倍,Palo Alto Networks的基於深度學習模型的威脅檢測性能提升了2倍,Gallium Studios遊戲工作室Numenta AI平台的推理性能比GPU雲實例提高了多達6.5倍。

擁有28款SKU

在SKU方面,英特爾第5代至強CPU僅可擴展到1S和2S系統,4S和8S配置不在產品陣容中。其中,旗艦級的Xeon Platinum 8592系列有三種版本,Xeon Platinum 8592+ 用於通用解決方案,Xeon Platinum 8592Q用於液冷和通用解決方案、Xeon Platinum 8592V用於雲優化系統。該晶片共有64個內核、128個線程、高達3.90 GHz的睿頻、320 MB的L3緩存和385/350/330瓦的TDP。晶片的價格大約在11000美元到12000美元之間。

第五代Xeon Gold系列SKU當中,Xeon Gold 6558Q是最快的SKU,因為它是6548Y+的液冷版本的變體。該晶片有32個內核、64個線程、高達4.1 GHz的睿頻、60 MB的緩存和350W的TDP。Xeon Gold 6554S和6530仍然是Gold細分市場中僅有的緩存超過100MB(分別為180和160 MB)的SKU。陣容從8、16、24、28、32、36核不等。

第五代Xeon Silver系列,擁有五個SKU,其中Xeon Silver 4516+最強,擁有24個內核、48個線程、高達3.7 GHz的睿頻、45 MB的L3緩存和185W的TDP。所有第五代Xeon Silver SKU均支持DDR5-4400,擁有8、12、16和24核。

總體來說,五代至強擁有60、56、52、48、36、32、28、24、16、8核心等不同配置,相比四代至強取消了44、40、20、18、12、10核心版本,SKU型號總數也從55款之多精簡到28款。第五代至強的最高加速頻率範圍從1.9-4.2GHz不等來到了3.4-4.1GHz,雖然極限頻率低了100MHz,但是總體大大提升,基準頻率也從1.7-3.7GHz不等提高到了1.9-3.9GHz。隨著性能的提升,第五代至強的整體功耗範圍也提升到了150-385W,上代是115-350W。

下一代的Sierra Forest和Granite Rapids

需要指出的是,第五代至強「Emerald Rapids」系列將是為Eagle Stream平台設計的最後一款晶片,之後英特爾便會將至強產品線拆分為與競爭對手類似的注重高性能的全P核和注重高能效的全E核兩條產品線。

明年上半年,英特爾將推出基於全新Intel 3製造工藝,純E核架構的Sierra Forest,也是至強系列第一次引入E核,最多做到288核心288線程。緊隨其後的是同樣Intel 3製造工藝,純P核設計的Granite Rapids,但核心數量等規格未披露,將於2024年下半年推出。

根據英特爾的預告,其未來的Granite Rapids Xeons將在「Intel 3」節點上製造,這些晶片將添加更多的內核、更高的頻率、硬體加速,並支持136個PCIe通道,12個8800 MT/s MCR DIMM內存通道,內存總帶寬可提高到大約845 GB/s,這將大大有助於LLM推理性能。英特爾聲稱其人工智慧工作負載提高了2-3倍,內存吞吐量提高了2.8倍,DeepMD LAMMPS人工智慧推理工作負載提升了2.9倍。

編輯:芯智訊-浪客劍

文章來源: https://twgreatdaily.com/zh/6c936dadc56700b07b512a8fd6aaf29e.html