決戰數據中心!Arm放出定製晶片新招式,13個月搞定雲端CPU開發

2023-09-01     芯東西

原標題:決戰數據中心!Arm放出定製晶片新招式,13個月搞定雲端CPU開發

芯東西(公眾號:aichip001)

編譯 | luna

編輯 | Panken

芯東西9月1日報道,8月29日,在頂尖處理器和系統架構師的年度盛會Hot Chips 2023上,Arm宣布推出Neoverse計運算元系統(CSS),同時發布了第一代CSS產品Arm CSS N2。這是Arm為進一步減少數據中心CPU開發周期和成本而推出的最新力作。

Neoverse是Arm面向數據中心市場研發的CPU IP產品家族。相比以前提供的獨立IP產品,Neoverse CSS提供了更完整的系統設計模塊,包括IP的集成、整合、驗證等配置,等於是進一步節省了很多開發步驟,讓其合作夥伴能根據需求更快開發出專用的伺服器CPU。

據Arm分享,以前開發CPU可能耗時長達3年,而使用CSS後,其一個客戶的晶片開發從啟動到投入使用,總共只花了13個月。

一年一度的Hot Chips大會本周在史丹福大學舉行,Arm與其他知名晶片巨頭及初創公司一同分享了以上動態。通過這次會議,觀眾不僅可以看到晶片領域頂級技術專家齊聚一堂的盛景,還可以領略行業風向標帶來的前沿產品介紹以及他們對未來發展趨勢的解析,今年也不例外。

本文將詳解Arm在會上披露的Arm CSS的技術要點,並結合第一代CSS CPU產品N2,來探討全新的計運算元系統如何縮減數據中心CPU的開發周期以及降低其成本。

一、13個月搞定晶片交付!Arm甩出定製新招,大降數據中心CPU開發成本

數據顯示,5G移動通信用戶數已達10億、物聯網設備接近150億個,加上高達120ZB(皆位元組)的數據產出量,連網的裝置與數據的數量正持續地增加,而這一切都需要更多的功耗與更高的性能。疊加摩爾定律的遞減,SoC設計成本與複雜性持續攀升,推出高效率與特定計算處理即是企業的應對之策。

Arm面向數據中心的基礎設施定製化需求,推出的Neoverse計運算元系統(CSS)是一款預先配置、整合及驗證的系統,該系統通過在先進晶片上提供經過驗證以及「性能最佳化」的計算,使晶片設計資源集中用於建構差異化的市場定製化解決方案。

CSS的組件

CSS是一個經過充分驗證的系統

據介紹,CSS的組件包括Neoverse核心、CMN網狀結構和系統IP,能夠快速提供市場高性能計算所需的系統管理、電源管理、軟體和開發工具。CSS提供Armv9架構和Neoverse技術的路線圖為:Arm機密計算架構(CCA)、AMBA CHI C2C、Arm可變矩陣擴展(SME)等。

CSS以更低的成本構建定製晶片,與傳統解決方案相比,風險更低、上市時間更快。

CSS可節省大量時間和成本

該系統可以降低SoC設計複雜性,CSS客戶報告顯示,從開始開發到可使用的晶片只需13個月,可節省80個「工程年」,即原本需要工程師80年的工作時間。

CSS客戶報告

Arm資深副總裁暨基礎設施事業部總經理Mohamed Awad說:「我們賦予合作夥伴將有限的資源專注在關鍵差異化的能力,同時Arm也繼續發揮所長,即提供可擴展且高效率的計算基礎。」

二、首款CSS產品N2:5nm製程,Armv9架構,可擴展256核

全新的計運算元系統為Arm Neoverse系列提供計算處理的支撐,Arm當即推出第一代CSS CPU產品——CSS N2。CSS N2基於現有的Neoverse N2核心而進行升級,通過Neoverse系列核心卓越的每瓦特性能來加快處理,以縮短晶片上市時間,助力晶片設計廠可以更專注於實現其商業價值,推出差異化的硬體和軟體。

CSS N2核心功能一覽

根據Arm介紹,CSS N2採用5nm先進位程,多達64個Neoverse N2核心;每個核心高達1MB的L2私有緩存和高達64MB的共享系統級緩存;多達8個DDR5 40b或LPDDR5通道;多達4個x16 PCIe/CXL Gen5通道。

CSS N2的組件

從Arm分享的CSS N2技術路線可以看到,CSS N2根據Neoverse N2核心進行預先整合、預先驗證的配置,且優化了功耗、性能與面積(PPA)。具體來說,如下:

1、多核和多晶片擴展功能

對於需要高核心數的橫向擴展雲等用例,CSS N2支持跨兩個插槽擴展多達256個核心。使用UCIe或特定於合作夥伴的PHY的高速晶片到晶片鏈路可以在單個插槽中連結多達128個核心。

CSS N2雲到邊緣用例

兩個插槽可以使用CXL PHY和SMP協議進行相干連接。在這兩種情況下,AMBA CXS協議都用於將UCIe/CXL物理層和數據鏈路層橋接到基於AMB ACHI的CMN-700互連網狀網絡中。

除了所有硬體規格和組件外,CSS N2還附帶一套適合其運行和快速部署的軟體和固件,具有各種功能和文檔,以便用戶在此N2核心上可以進行開發。

CSS N2的軟體

2、連接加速器和外部設備

為了支持專用晶片和異構計算的開發,CSS N2為片上和外部連接的加速器或其他設備提供了選項。片上加速器可以使用Arm的NI-700分組片上網絡互連進行整合,並支持中斷和地址轉換。對於片外加速,CSS N2支持組合PCIe Gen5/CXL1.1 PHY,支持連接GPU、TPU、DPU和其他高速設備。這包括對CXL Type3連接的支持,這對於內存擴展、池化和分層用例非常有用。

CSS N2結構圖

3、搭建完整的核心並增強安全性

CSS N2包括Arm的合作夥伴構建專用晶片所需的所有計運算元系統元素。這包括通過嵌入式Cortex-M7處理器處理的系統控制和管理。系統控制處理器(SCP)是一個值得信賴的核心,控制所有系統功能,如時鐘控制、電源和電壓域。可管理性控制處理器(MCP)與外部BMC連接,用於片上管理、RAS、事件記錄和通信警報。

4、可靠認證

CSS N2通過了SystemReady SR認證,並帶有參考固件堆棧和虛擬固定核心模型。這使合作夥伴能夠快速開發核心固件、集成作業系統和服務,並調整啟動流程、安全性和電源管理——所有這些都在流片最終晶片之前完成。

CSS N2將Neoverse V2核心、DDR5內存和PCIe Gen5/CXL IO封裝到一個性能和功耗平衡的子系統中,支持用於矢量處理和機器學習(ML)、加密增強、內存分區和監控以及高級電源管理,滿足5G、DPU、Arm上的雲計算和機器學習等的一系列市場需求。

Arm背後的想法是,CSS N2提供一個核心,使公司能夠更輕鬆地使用N2核心的技術開發他們的產品,以獲得帶有Arm Neoverse N2核心的完整晶片,具有集成的安全和控制系統,並允許每個公司添加其他附加模塊。

三、高性能Neoverse V2架構詳解:能效翻倍,支持CMN-700網狀互連

Arm Neoverse V2 CPU為雲端計算、高性能計算和機器學習性能領先而設計,是首款具有Armv9架構的性能、功耗和安全性強化功能的V系列處理器,其性能是Neoverse V1的兩倍。

沿襲V系列,V2通過內存標記擴展(MTE)和性能定義功耗管理(PDP)等Armv9功能,提高專用處理和工作負載加速能力。

值得注意的是,相關技術博客稱,Neoverse V2擁有幾乎無限的擴展能力。與CMN-700核心網狀網絡搭配使用時,V2可配置多達256個核心和512MB的系統級緩存(SLC)。在V2上,AMBA CHI C2C使用UCIe、CXL、PCIe或定製化PHY連接計算、存儲晶片和加速器,進而實現晶片間和晶片外連網。

據Arm介紹,V2核心構建在現有Neoverse架構的功能之上,可提供具有總擁有成本(TCO)優勢的高性能,同時支持具有DDR5/HBM3內存、PCIe5 IO和CXL2.0附加內存或相干加速器的多晶片/插槽解決方案。

根據外權威伺服器專業評測網站Serve The Home報道,在數據方面,V2的性能相較於V1有了兩到三位數的顯著提高:

1)在基準測試程序SPEC CPU和SPECRate(速度和吞吐量)分別顯示出13%和17%的增長率。

2)在當下流行的分布式內存緩存系統Memcached上進行的測試顯示,性能提升高達15%。

3)Web伺服器NGINX在V2上性能提升高達32%。

4)由於V2在分支預測、獲取和硬體預取方面的改進,在關係型資料庫管理系統MySQL的開源平台Percona發行版上顯示,V2性能(以每秒事務數衡量)提高了104%。

V2與V1的測試表現

5)最後,使用XGBoost的機器學習測試發現,V2比V1的性能平均提高了一倍,性能提升兩倍。通過全面強化的管道和高達兩倍的L2快取大小(每核心2MB),V2在雲端和機器學習應用上的性能是V1的兩倍。

V2核心為整體Neoverse計算架構帶來了重大改進,重點關注提高性能,同時確保微架構的變化不會導致不成比例的高功耗和面積成本。Neoverse V2包含最新的以基礎設施為中心的Neoverse V2 CPU核心,實現了Armv9架構的新功能。

結語:攪局數據中心市場,Arm正重新定義晶片開發的「基礎設施」

作為全球頂級半導體IP供應商,Arm近年來一直在改良晶片開發的「基礎設施」,讓基於其IP核心的晶片設計門檻一降再降。此次Arm最新推出的CSS,不僅是其Neoverse產品矩陣的最新創舉,也是對數據中心伺服器CPU下的一劑猛料。

Neoverse產品路線圖

以前做開發,雖然能拿到Arm的Neoverse伺服器CPU參考設計和授權,但其合作夥伴還是需要在一系列開發步驟中投入人力和財力。

而採用像Neoverse CSS N2這樣的現成設計後,Arm合作夥伴就能「跳關」開發,也就是不用開發處理器,也不用進行設計驗證、第三方IP集成驗證、添加接口、晶圓廠集成等繁複步驟,就能開發出滿足特定需求、功能齊全的CPU。

這種更加靈活且降低開發門檻的解決方案,讓沒那麼多專業晶片工程師的企業也能參與到定製的伺服器CPU設計中,進而有助於擴大Arm在數據中心領域的客戶範疇和生態系統。

文章來源: https://twgreatdaily.com/zh-tw/947e5e8bcc16ce972ca2a1433350b916.html