對話英特爾至強高管:全面解讀至強新品規劃,Chiplet和AI將是優化重點

2023-09-24   芯東西

原標題:對話英特爾至強高管:全面解讀至強新品規劃,Chiplet和AI將是優化重點

芯東西(公眾號:aichip001)

作者 | ZeR0

編輯 | 漠影

芯東西9月24日報道,2023英特爾on技術創新大會於當地時間9月19日在美國加州聖何塞開幕。大會首日,英特爾公司副總裁、至強產品和解決方案事業部總經理Lisa Spelman,英特爾資深院士、至強首席架構師Ronak Singhal,與芯東西與少數全球媒體就英特爾至強可擴展處理器的進展、新品、2024年及未來規划進行深入交流。

Ronak Singhal是管理所有至強產品路線圖並幫助設定技術方向的專家,他詳細分享了英特爾設計伺服器CPU的理念、思路、重心及優化方向,以及未來至強的設計重點與特性。總體來看,典型的至強產品正不斷圍繞核心、內存、I/O、軟體等進行演進升級。

芯東西尤其感興趣的是將於2024年上半年上市的高能效處理器Sierra Forest。它是英特爾第一款基於E-core能效核的產品,其設計將兩片各有144個高能效核的晶片像搭積木般「拼」在一起,與第四代至強相比,預計將使機架密度提升2.5倍,每瓦性能提高2.4倍。

英特爾CEO基辛格在2023英特爾on技術創新大會上展示Sierra Forest處理器

Ronak告訴芯東西,Sierra Forest基於chiplet架構,產品核數取決於其集合了多少chiplet。英特爾有單個chiplet、兩個chiplets或3個chiplets的產品,並可以根據客戶需求來擴大核心數量。如果客戶的需求是更高核心數量的產品,英特爾會有更多chiplets的晶片,針對更低的核數需求則有更少的chiplets,這給了英特爾構建晶片的靈活性

他向芯東西解釋道,相比製造一個巨大、單獨的晶片,chiplet方案更具技術優勢,有助於提升製造能力。目前集合2個chiplets,是基於現有的理念和技術,並不意味著未來如何,至強向未來擴展時,或許繼續使用這個概念,也可能會以不同的技術方式,也許是通過組合不同類型或不同大小的chiplets來進行擴展

針對為什麼x86比Arm效率低的問題,Ronak認為,決定效率的因素不是指令集架構,而是構建產品的方式。他相信當Sierra Forest推出時,客戶將可以看到它領先的性能和密度。雲服務提供商們正嘗試將儘可能多的用戶整合到一個系統上,幫助他們減少所需的系統數量,從而降低TCO(總擁有成本),而大核數的CPU正好可以幫助他們。

一、25%正在銷售的至強正被用於AI工作負載

英特爾資深院士、至強首席架構師Ronak Singhal談道,當前世界上大部分的推理工作都是在CPU上運行的,可以說每個工作負載都將嵌入一部分AI工作負載。據觀察,從算法發展方向及實際案例來看,在CPU上運行AI工作負載擁有更低延遲、更高能效等顯著優勢。

他回憶說,英特爾幾年前就認識到AI即將爆發,並將在未來把加速AI計算的能力嵌入到至強的每個核心中,英特爾在設計至強路線圖時更多考慮到這些因素。

據英特爾公司副總裁、至強產品和解決方案事業部總經理Lisa Spelman分享,經分析,英特爾認為25%正在銷售的至強正被用於AI工作負載,其中很大一部分被用於推理,只有一小部分被用於訓練。許多至強產品還被用於在訓練或推理前的一些內容,如數據準備,包括為至強和GPU提供數據。

英特爾正持續推出面向多樣化用途的標準平台。她談道,英特爾能夠一直拓展產品的能力,釋放性能,即便是發布了產品、設置了硬體之後,這是其為客戶提供的「投資保護」的一部分。

「我們始終認為至強是適用於任何邊緣網絡、數據中心、雲等工作負載的強有力產品,但同時其也具備諸多加速器和專業功能,以滿足AI工作負載的需求,而這也在日漸成為我們業務中越來越重要的一部分。」Lisa說。

二、至強能跑近200億參數AI大模型,下一代押注新型MCR內存技術

據Lisa分享,大約6個月前,當英特爾開始在至強上分析研究生成式AI時,能做到在50億或70億參數的大模型上實現優秀的TCO和效率;當採用一些框架、軟體進行調整和優化後,其可支持的參數規模增加到了100億;現在,至強可支持的參數規模已接近200億,英特爾實驗室正在研究300億參數大模型的運行。

Ronak說,討論大模型可以分為兩部分。

第一部分是首個token,輸入prompt時該如何處理,這與算力有關,英特爾在當前處理器核心中通過內置加速器AMX進行加速,每一代產品都會通過添加數據類型或增加有助於這些算法的產品特性的方式來進行優化。

後續的token與內存帶寬有關。如何持續提供一流的內存帶寬來滿足特定的工作負載?採用AMX是英特爾幾年前的一個「賭注」,新型MCR內存技術則是當前的一大「賭注」,它需要英特爾進行大量的工作以實現支持更高的內存帶寬。

Lisa補充說,MCR是由英特爾發明並對外提供的內存標準,它對於解鎖更多在CPU上應用的生成式AI案例至關重要,英特爾努力在2024年實現的目標包括提供針對計算密集型工作負載的產品以及針對生成式AI的卓越性能,從而抓住市場機遇、滿足客戶真實需求。

在談論上述第一個、第二個token的延遲時,Lisa認為需要考慮不同的使用場景。比如對話式AI類場景需要非常快的響應速度,讓用戶順暢交流,沒有等待感。而在一些應用場景,比如醫療診斷場景,人們可以接受稍慢一些的響應,來換取更高的準確性,在這種情況下,通過至強處理器來覆蓋這些工作,可以大幅降低成本。

也正因此,英特爾針對至強所做的努力,很多時候會專注於更多的企業級用例,而不是單純地像對話機器人那樣需要更快地解答每一個問題。

三、第五代至強大幅提升每瓦性能,注重增強AI和安全功能

具體到至強的進展上,Lisa分享道,第四代英特爾至強可擴展處理器Sapphire Rapids的功能、核心數量和性能都有顯著提升,並增強了在AI領域的應用。英特爾正在大規模推動第四代至強的廣泛應用,已與所有領先的雲服務提供商展開合作,打造多元化實例,並保障其基礎設施的可用性。與英特爾合作的原始設備製造商(OEM)都在大批量出貨。

Lisa說,對於英特爾來說,在第四代至強中加入AI加速器不僅意味著成本的變化,對於產品的空間布局等均有所影響,這一決定引發了激烈討論,最終英特爾內部一致認為這個舉措會產生積極的影響,所以將堅定不移地持續推進。在推動硬體革新的同時,英特爾也將更多精力投入到軟體的更新中,以期實現更多指數級變革。

「我們花了數年時間來構建生態系統,以確保每一代產品用戶都充分利用產品性能。」Lisa說,軟硬結合能更好地解鎖性能,英特爾正把越來越多的精力轉向軟體,努力讓整個市場更便捷地獲取利用到CPU的能力。Ronak補充說,今年至強的一個關注重點是可部署性,英特爾致力於讓所有數據中心客戶都能夠快速部署該產品。

至於將在今年12月14日發布的第五代至強可擴展處理器Emerald Rapids,現階段,英特爾正與客戶緊密合作,完成測試並為廣泛的系統做好準備。Emerald Rapids與Sapphire Rapids使用同一平台,據Lisa透露,這是至強產品線歷史上最無縫的升級之一

與前一代相比,Emerald Rapids在每瓦性能方面有很大提升,在相同功率範圍內實現了性能的提高,而且各種利用率都有較大增強。英特爾致力於提高不同工作負載或不同利用率水平下的性能、效率和功耗,這對於大型企業客戶及流量變化很大的雲服務提供商客戶來說至關重要。

Lisa談道,相比一些代表峰值或充分利用狀態的書面數字,英特爾更注重與客戶在多元化場景中的實際應用數據。新一代至強還將進一步將一些安全功能推向市場,比如正持續擴大可信執行環境的覆蓋範圍,這作為機密計算的服務基礎將更有助於增強硬體安全性。

至強將擁有更快的傳輸、更大的緩存等。這些改進都將為廣泛的工作負載帶來良好的性能提升。以AI領域為例,一些AI工作負載非常注重內存帶寬,Emerald Rapids也將通過支持DDR5以滿足其需求。

四、披露未來四代至強路線圖,為數據中心提供靈活性

包括Emerald Rapids在內,英特爾公布了展面向數據中心的未來四代至強路線圖,其它還包括將於明年上市的高能效處理器Sierra Forest和比第四代至強AI性能提高2~3倍的高性能處理器Granite Rapids,以及將於2025年問世的、採用Intel 18A製程節點製造的高能效處理器Clearwater Forest。

Ronak說,英特爾至強始終致力於通過核心數量、功率、能耗等變化,來滿足市場和客戶實際工作負載需求。但隨著客戶用例和應用程式的日益多元化,對硬體基礎設施提出了不同的需求。英特爾認為單一的解決方案無法滿足所有的需求,為此花費了大量時間探索研究如何處理這些問題,以及是否要儘可能擴展核心數量,而規模擴展又與邊緣端、中端等應用難以平衡

針對觀察到的情況,英特爾將引入下一代代號為Birch Stream的創新平台,該平台將支持兩種不同類型的至強處理器,其一是主打高性能的下一代P-core性能核處理器Granite Rapids。其二是英特爾將推出的第一款基於E-core能效核的產品Sierra Forest。

與Granite Rapids相比,Sierra Forest使用的核心更節能,且面積較小,因此可以在相同功耗下進行擴展,並增加核數,最多可達288核。

從部署角度來看,如果客戶需要投資構建平台,但遲遲無法決定需要怎樣的數據中心,是50% Granite Rapids+50% Sierra Forest?還是一方為0,一方為100%?抑或是完全混合,並最終由具體的工作負載或需要服務的最終客戶來決定?對此,至強平台為每個客戶提供了靈活性,讓客戶可以完全做自己想做的事情。

五、明年連發兩款至強,基於Chiplet,共享更多設計

構建至強處理器的任務艱巨而複雜,需要付出大量的精力、人力和時間,而Sierra Forest和Granite Rapids都目標在2024年上市,英特爾打算如何實現在幾乎同一時間推出兩款CPU?

Ronak分享道,英特爾構建產品的方式非常重要,是讓兩款處理器儘量共享更多的設計。這兩款處理器不僅平台相同,在核心之外,其他的SoC也相同,這將帶來非常高的靈活度。

下圖展示了英特爾如何構建其產品,這是基於chiplet(芯粒)的基礎設施,頂部的chiplet和底部的chiplet是I/O chiplet,包括PCIe、CXL等。這些功能在Sierra Forest和Granite Rapids之中都很常見。英特爾不會對這些功能以及安全性或可靠性進行區分和更改,不同產品的區別在於所使用的核心,以及根據密度和每核性能所擁有的擴展能力

Granite Rapids高性能處理器的產品升級主要有兩點:

一是增強算力。最重要的是在Sapphire Rapids的基礎上增加核數,以及繼續提高能效。因為進行大量AI矩陣計算時,耗電量會大幅提升,提升產品能效會直接影響性能底線。

二是內存帶寬。部分AI工作負載以計算為核心,因此將受到核數和能效的影響。還有部分大語言模型,需要處理包括計算、存儲等AI工作負載,因此對內存帶寬亦提出了要求。

這些英特爾至強的下一代技術:英特爾正在優化DDR5內存速度,並將支持MCR DIMM新內存技術,能夠以與DDR5相同的形態和互連方式,支持更高的內存帶寬,在HPC和AI等領域發揮價值,這些功能都將在Sierra Forest和Granite Rapids上共同實現。因此Ronak認為2024年將是基於該產品組合的數據中心發展拐點

結語:2024年,英特爾數據中心發展重要之年

「實話實說,2024真的太重要了!」Lisa說,「我們為至強工作已經有一段時間了。可以說是整個職業生涯中,甚至是一生中僅有的一次,將完全全新的產品帶給大家。這太令人興奮了,非常有趣,但要承擔的事情也太多了。」

為此,英特爾正在擴大組織規模,以及通過各種不同的方式與客戶進行合作,這使其夠進行一些很有意義的客戶對話,譬如討論大家是如何看待市場、英特爾可以在哪裡方面去匹配他們的基礎設施等,以及聽聽一些大客戶如何調整他們的基礎設施,來更好地匹配英特爾計劃推出的未來產品。此外,英特爾還有機會按照「4年5個節點」的引入一條全新的產品線。

目前,英特爾正在利用眼下這段時間打好基礎,確保其客戶準備好與其產品見面。