越來越熱的CXL

2022-05-16     半導體行業觀察

原標題:越來越熱的CXL

二十年前,英特爾公布了取代PCI總線的第三代I/O技術(3GIO技術),也就是我們現在常說的PCI-e(PCI Express)。憑藉高性能、高擴展性、高可靠性及出色的兼容性,PCI-e幾乎取代了以往所有的內部總線(包括AGP和PCI),成為當時眾望所歸的未來技術標準。

二十年後,在如今這個數據爆炸式增長,異構計算大行其道的當下,曾經的「未來之星「PCI-e 已經開始出現後繼無力的現象,無法成為 CPU、GPU、FPGA 以及其他 AI 計算設備之間溝通的最佳語言。為了達到最佳的計算效果,不同的計算設備亟需「一種新語言」。

而這一次,英特爾推出的CXL技術標準似乎殺出了重圍。

CXL是什麼

CXL全稱為Compute Express Link,是由英特爾於2019年3月在InterconnectDay 2019上推出的一種開放性互聯協議,能夠讓CPU與GPU、FPGA或其他加速器之間實現高速高效的互聯,從而滿足高性能異構計算的要求。

圖片來源:英特爾

目前來看,CXL 支持三種協議,分別是,類似於 PCIe 的 CXL.io - CXL 使用 PCIe 總線的物理層,CXL.memory 用於主機內存訪問,CXL.cache 用於一致的主機緩存訪問。

此外,CXL 聯盟也已經確定可從CXL中受益的三類主要設備:

類型 1(CXL.io 和CXL.cache):沒有本地內存的專用加速器(例如智能NIC),但可以利用 CXL.io 協議和 CXL.cache 與主機處理器的 DDR 內存進行通信。

類型 2(CXL.io、CXL.cache 和 CXL.mem):具有高性能GDDR或HBM本地內存的通用加速器(GPU、ASIC或FPGA )。

類型 3(CXL.io 和 CXL.mem):內存擴展板和存儲級內存。設備為主機 CPU 提供對本地 DRAM 或非易失性存儲的低延遲訪問。

圖片來源:英特爾

最初,英特爾創建CXL標準,是作為 CPU 與 GPU、FPGA等加速器之間的互聯通信,從而取代數據中心環境中的PCI-e。一直以來,CPU 都是透過主板上的 PCIe 插槽及 PCIe 協議與加速器溝通,但顯然其內存使用效率、延遲和數據吞吐量已經不能滿足日益增長的數據和計算速度需要。

相比PCIe,CXL標準在接口規格上可兼容PCIe5.0,也就是說未來伺服器 CPU 仍是置於主板 CPUSocket,GPU等加速器也是插在 PCIe 插槽上,但CPU 與 GPU 並非以 PCIe 協議進行溝通,而是採用新的 CXL 協議,可以理解為PCIe 5.0 純粹是用來提供實體插槽。

此外,CXL最高帶寬可達128GB/s幾乎能夠滿足當時所有的數據傳輸需求,可以在更大程度上允許更高的帶寬,更多的連接設備和更低的延遲,解決目前 PCIe 協議存在的 CPU 與加速器之間高延遲、帶寬不足等問題,而又不排除PCIe的簡單性和適應性。

正因為CXL構建與 PCI-e 邏輯和物理層級之上,所以其兼容性很高,更容易被現有支持 PCI-e 埠的處理器(絕大部分的通用 CPU、GPU 和 FPGA)所接納,因此,英特爾將CXL視為在PCIe物理層之上運行的一種可選協議,也就是說PCI-e 的互聯協議沒有被完全拋棄,並且英特爾還計劃在第六代 PCI-e 標準上大力推進 CXL 的採用。

除了兼容性很高之外,CXL標準還有另一個較大優勢就是內存一致性。

從本質上講,CXL可在CPU,以及GPU、FPGA等之間建立高速且低延遲的互連,維護 CPU 內存空間和連接設備上的內存之間的內存一致性,允許 CPU 與 GPU 之間繞過 PCIe協議,用 CXL 協議來共享、互取對方的內存資源。透過 CXL協議, CPU 與 GPU 之間形同連成單一個龐大的堆棧內存池,CPU Cache 和 GPU HBM2 內存猶如放在一起,有效降低兩者之間的延遲,故此能大幅提升數據運算效率。

除了資源共享(內存池)和交換之外,CXL 還可以通過連接 CXL 的設備向CPU 主機處理器添加更多內存。當與持久內存配對時,低延遲 CXL 鏈路允許 CPU 主機將此額外內存與 DRAM 內存結合使用。

由於大內存容量決定了大容量工作負載的性能,從這方面看,CXL 的優勢顯而易見。

CXL與Gen-Z之戰

就像開頭所提到的,不同的計算設備亟需「一種新語言」,那麼自然不會只有一個CXL出現,事實上,CXL可以說是最晚出現的一個標準,在它之前,還有IBM 的 CAPI 和 OpenCAPI、英偉達的 NVLink 和 NVSwitch、AMD的 Infinity Fabric、賽靈思的CCIX ,以及在這部分要說到的Gen-Z。

Gen-Z可以看成是CXL的先行者,源於 HPE 開發的 The Machine,是一種以內存為中心的新型計算機架構。Gen-Z 聯盟成立於 2016 年,由HPE 和戴爾提供支持。具體來說,Gen-Z協議允許分配和釋放資源,無論是內存、加速器還是網絡,可用於創建該資源與一個或多個 CPU 節點的臨時或永久綁定。本質上,這個想法是把任何類型的存儲都作為內存看待,允許軟體使用低延遲,高效率操作來訪問。

使用 Gen-Z 和 CXL 進行分解。資料來源:IntelliProp

在過去,Gen-Z和CXL都屬於數據中心、HPC、AI等領域全新數據設備互聯協議的領導者,分割著數據中心的互連和內部連接,但後來卻「節節敗退」。先是在2020年4月,Gen-Z聯盟與CXL聯盟達成合作備忘錄,強調了兩者之間的合作共贏,CXL專注於機架內CPU、GPU和加速器之間的互聯,而Gen-Z負責支持機架之間的互聯。在和平休戰一年多後,2021年11月,Gen-Z聯盟與CXL聯盟正式發布公告,把所有Gen-Z規範和資產轉移給CXL聯盟,雙方聯盟成員將專注於CXL這唯一的互聯標準。至此,CXL也確立了自己的領先地位,將成為未來唯一的行業標準。

在這場互聯標準爭奪戰中,CXL憑什麼可以「吞併」Gen-Z?

這就不得不說到兩大聯盟的參與者,Gen-Z聯盟的參與者包括了AMD、Arm、惠普企業(HPE)、IBM、美光、三星、SK海力士、希捷、西部數據等20個廠商,雖然都是大廠,但是最重要的伺服器 CPU 供應商卻只有IBM。而CXL聯盟那邊不僅聚集了內存廠商、IP廠商、加速器廠商等,更重要的是,它有AMD、ARM 、IBM 以及英特爾所有四個主要的 CPU 供應商的加入。任何用於處理器與 DRAM、FPGA以及其他專用處理器互連的後 PCIe 總線技術都必須得到伺服器 CPU 供應商的支持,這是一個必要條件。光從這點,Gen-Z聯盟就註定難以與CXL聯盟抗衡。

而另一方面,CXL較晚的推出時間反而成為了它的「利器」。隨著PCI-Express 擺脫了 3.0 和 4.0 代之間七年的停滯狀態,並進入兩年帶寬翻倍的性能節奏,這給基於PCI-Express 協議的CXL帶來了更大的優勢。相比CXL,Gen-Z等其他協議充其量只能降級為 CPU 到 CPU 互連,而CXL 作為兼容的 CPU 一致性協議,將允許跨 CPU 架構的標準,可以說CXL 在 PCI-Express 5.0 上的性能就是為此而存在的。

緊鑼密鼓的布局

自從去年成功「吞併」Gen-Z後,CXL的崛起勢頭可以說是越發強勁,Marvell、三星、Rambus、瀾起科技等大廠們的布局速度日漸加快,尤其在進入5月份後,「落子」速度變得更加密集。

·美滿電子收購 CXL 開發商 Tanzanite

美滿電子正在進行以數據中心為重點的投資(包括其 CXL 解決方案)來擴大潛在市場,5 月 9 日,美滿電子宣布將收購先進 CXL技術領先開發商Tanzanite,加速實現完全可組合的雲基礎架構的願景。

Marvell存儲業務事業部執行副總裁Dan Christman表示:「我們相信 CXL 將成為實現下一代數據中心最佳資源利用的重大變革者,而收購 Tanzanite 將提高我們解決客戶最具挑戰性問題的能力。「

據了解,未來的雲數據中心將建立在利用 CXL 技術的完全分解式架構上,基於連接處理器、加速器和內存的行業標準 CXL 的矽組件將促進具有顯著性能和效率優勢的新雲數據中心架構。

·Rambus收購哈登,加強CXL互連計劃

5月5日,行業領先晶片和矽 IP 提供商Rambus宣布已簽署收購Hardent, Inc. 的協議,該交易預計將於 2022 年第二季度完成。

Rambus官方消息顯示,Hardent 擁有 20 年的半導體經驗,其世界一流的矽設計、驗證、壓縮和糾錯碼 (ECC) 專業知識為 Rambus CXL 內存互連計劃提供了關鍵資源,此次收購加速了下一代數據中心的CXL 處理解決方案的開發。

Rambus總裁兼執行長Luc Seraphin 表示:「在 AI/ML 等高級工作負載的需求以及向分類數據中心架構的轉變的推動下,基於 CXL 的解決方案的行業勢頭繼續增長。」

·瀾起科技發布全球首款CXL內存擴展控制器晶片

5月6日,瀾起科技發布全球首款CXL內存擴展控制器晶片(MXC)。

圖片來源:瀾起科技

據了解,這款MXC晶片是一款CXL DRAM內存控制器,屬於CXL協議所定義的第三種設備類型,按照 CXL 2.0 規範設計,支持 PCIe 5.0 規範速度,專為內存AIC擴展卡、背板及EDSFF內存模組而設計,可大幅擴展內存容量和帶寬,滿足高性能計算、人工智慧等數據密集型應用日益增長的需求。

·三星推出 512GB CXL 內存擴展器 2.0

5月10日,三星宣布開發出三星首款512 GB內存擴展器 CXL DRAM,採用ASIC 的CXL控制器,並首次封裝了內存容量為512GB的 DDR5 DRAM,與之前的三星CXL產品相比,內存容量為其4倍,系統延遲僅為其五分之一。

三星半導體512GB內存擴展器 CXL DRAM

值得一提的是,三星這次推出的這款內存模組CXL內存擴展控制器晶片正是由上述提到的瀾起科技提供。

寫在最後

每當一個新名詞的出現,就意味著即將出現一個新市場。雖然CXL僅用兩年時間就走完了其他標準長途跋涉的路,成為本次互聯標準爭奪戰的獲勝者,但其市場還未成熟,這或許又是新的發展機遇。從上述提到的大廠布局,我們可以看出,大陸選手在CXL領域並未落後,甚至搶先獲得一分,想必未來只會更加精彩。

正如夏晶晶老師在知乎上曾表示的,CXL是intel對計算產業的一次巨大讓利,做好CXL很有可能短期在中國國內獲得獨特的性能優勢。

來源:內容由半導體行業觀察(ID:icbank)原創,作者:龔佳佳,謝謝。

文章來源: https://twgreatdaily.com/zh-mo/a2e3166e71bfb4a8d38fb3fbcb815b1e.html