芯東西(公眾號:aichip001)
作者 | ZeR0
編輯 | 漠影
芯東西5月26日報道,上周五,Ampere Computing通過視頻發布了2023年最新戰略及產品路線圖,並宣布推出擁有多達192個單線程Ampere自研核的全新AmpereOne處理器,這一內核數量為當前業內最高。
作為CPU領域的新生代,以及Arm系伺服器CPU的玩家代表,Ampere近年來一直保持著強悍的戰鬥力,2020年推出業界首款雲原生處理器Ampere Altra,2021年推出業界首款128核雲原生處理器Ampere Altra Max,再到最新發布的AmpereOne系列處理器,不斷推出更高效的計算引擎,滿足從雲到邊緣等計算領域的需求。
「業內目前沒有可以與AmpereOne系列處理器相匹敵的CPU產品,它可助力實現單機架性能最大化的雲規模。」Ampere首席產品官Jeff Wittich說,「Ampere創造了一種新範式,證明了計算可以同時兼具巔峰能效和極致性能。」
Ampere早在兩年多前就組建了專門的AI團隊。此次AmpereOne也專門針對流媒體推薦、商品智能推薦、生成式AI等應用進行優化。在生成式AI方面,AmpereOne系列處理器以每機架性能高出2.3倍的優勢領先於同行產品,在可根據文本提示生成圖像的Stable Diffusion模型中勝出。
本周三,Jeff Wittich通過線上媒體溝通會向芯東西等中國媒體分享了關於AmpereOne路線圖的更多信息。他談道,AmpereOne現已投產並交付給客戶,由於首次採用Ampere自研核心,這款全新處理器能夠帶給用戶更多新的功能,包括實現更高效的管理、更優的資源配置、更好的能耗管理、更安全的雲環境等。
一、5nm工藝,192個自研核,高能效伺服器CPU新標杆
AmpereOne基於5nm工藝製造,能夠為雲工作負載提供更高的性能、更高的可擴展性以及更高的密度。這是第一款基於Ampere新自研核的產品,由Ampere自有IP全新打造,擁有多達192個單線程Ampere核,內核數為業界最高。
192核意味著什麼呢?Jeff Wittich舉了一個具體場景的例子來說明:比如在雲環境中運行虛擬機,對比96核的AMD Genoa或者60核的英特爾Sapphire Rapids,192核的AmpereOne每機架運行的虛擬機數量是AMD Genoa的2.9倍,是英特爾Sapphire Rapids的4.3倍。
此外,通過DDR5內存技術、128通道PCIe 5.0的設計,AmpereOne系列處理器不僅實現了性能的擴展,而且還具有一系列新功能,如網格擁塞管理、細粒度電源管理和內存標籤等,為高性能、高利用率的多用戶環境(如雲)提高了性能一致性、可管理性和安全性。
據介紹,相較於傳統的x86處理器,採用更早推出的Ampere Altra系列雲原生處理器,單機架性能已經能夠提高2.5倍,能耗大幅降低,且僅需占用原來1/3的空間。基於Ampere雲原生處理器所建設的一座數據中心,在一年內減少的碳排放量相當於39000輛燃油汽車的排放量,或是35000戶家庭的供電量。
而擁有更低能耗和更高性能的全新AmpereOne系列處理器,有望將Ampere在可持續方面的領先優勢進一步擴大。
「我認為Ampere已經在高性能、高效率的雲原生處理器中占領了一席之地,並一直引領市場,而且我相信我們會持續擴大這方面的領先優勢。」Jeff Wittich談道,「在設計產品的過程中,我們會確保所有的元素,從核到SoC,都能夠幫助實現每瓦性能、每機架性能的提升。我認為這個戰略會讓我們持續取得成功。」
二、每機架生成式AI推理性能優勢,領先於同行產品超2倍
在生成式AI方面,相比AMD Genoa,AmpereOne可以每秒多提供2.3倍的幀數,在運行Stable Diffusion模型中勝出;在運行DLRM模型的推薦系統中,通過AmpereOne響應的查詢數量是AMD Genoa的每秒查詢數量的兩倍多。
Jeff Wittich說,AI一直是驅動數據中心算力需求提升的重要引擎之一,而生成式AI進一步加速了市場對算力的需求,Ampere的產品非常適用於大規模雲計算場景的AI推理,目前已經有許多客戶都在使用Ampere Altra系列處理器進行AI推理,並且得到Ampere Library中軟體工具的支持。Ampere的產品不只適用於當前常見的大型語言模型,也適用於過去幾年相對舊的模型。
對於AI推理而言,使用GPU會帶來極高的能耗,而且容量擴展會受到制約,可部署的伺服器數量也會受限制,而Ampere的雲原生處理器通過提供出色的性能和能效,能夠解決這些行業痛點。
2021年,Ampere收購了AI軟體公司OnSpecta。OnSpecta通過創建AI軟體助力硬體在AI負載之下運行更快。過去幾年,Ampere AI團隊的主要工作焦點包括:建立形成標準框架的Libraries,助力以更高性能運行Ampere Altra。除了在軟體方面有所布局外,其AI團隊還和硬體團隊、架構團隊在AmpereOne的特性上進行優化合作,包括通過創新內核設計來優化AI性能。
Jeff Wittich舉例道,很多客戶目前正在使用其處理器運行AI推理工作負載,比如Matoha,他們有鑑別特定材料(如玻璃、金屬、織物)的應用程式,所以可以實現便捷回收。
三、適用於大算力需求,採用Chiplet設計
隨著AmpereOne推出,Ampere的多個產品系列能夠服務於不同的客戶需求。目前已經在市場上持續交付的Ampere Altra系列處理器,包含了幾款不同的產品,核數從32核到128核不等。
Jeff Wittich說,全新推出的AmpereOne系列處理器並不是要取代Ampere Altra系列,而是在Ampere Altra Max 128核的基礎上,進行持續的擴張,將核數進一步提升到了最高可達192核。未來很長一段時間,Ampere Altra系列處理器還會繼續銷售,為Ampere的客戶提供服務支持。
他也提供了一些輔助選擇的參考建議:譬如在邊緣計算的場景,32核、功耗40瓦的Ampere Altra處理器就夠用;但對於一些有更大算力需求的客戶,如大規模的數據中心,可能需要核數高達192核的AmpereOne系列處理器。
從架構來看,AmpereOne系列處理器採用了Chiplet設計。Jeff Wittich說,Ampere看到了大量採用Chiplet帶來的許多優勢,包括更高的靈活度、減少延遲、加快整個晶片設計周期以及更好地服務於Ampere的客戶。
Ampere在Chiplet設計中實現了特定的拓撲結構(一個大計算Chiplet被數個控制Chiplet包圍)、單一的計算裸片,還有單一大網格結構,使得數據可以通過高效的方式從內存傳輸到內核上,從而有助於為客戶提供平衡的高性能。在實現了最佳的Chiplet架構之後,產品上市速度就會更快。
此外,Ampere還通過採用更好的、更先進的帶寬技術,以及網格擁塞管理、內存和SLC QoS實施功能等優化方法,確保充分利用所有帶寬,以應對內存牆或是通過內核數量的增加導致不均衡內存的問題。
面向未來,Ampere在持續增加內核數量、提升算力的同時,也會不斷地向CPU中增加一些新的技術亮點,以增加內存帶寬,比如會推出採用12通道DDR5的AmpereOne系列處理器版本。
四、預計單路伺服器市場增長強勁
「我們看到單路伺服器的市場有明顯更強的增長牽引力和更強勁的增長。」Jeff Wittich說,Ampere Altra系列處理器和AmpereOne系列處理器,都能夠滿足單路和雙路伺服器的需求。
他解釋說,之所以有那麼多用戶選擇多路伺服器,其實是出於各種各樣的限制,算力不足、核數不夠,還有內存、IO方面的不足等。出於不得以,在過去多數情況下大家用的是多路伺服器。
多路伺服器的應用普遍存在的一個矛盾是,儘管它是多路,大家會儘量去將工作負載分隔開,分到其中一個伺服器插口上。在雙路的系統中,有很多在不同的伺服器插口之間遷移的數據。這樣的額外工作最後可能會造成整體性能的損失。
Jeff Wittich談道,客戶們要想從雙路轉變到單路,仍需兩個CPU來提供足夠的算力,但隨著Ampere處理器具備更多的核數、更高的算力、更多的IO、更高的內存,用戶就沒有必要再去使用雙路伺服器,而是可以通過單路來實現更好的解決方案。
採用單路的伺服器,複雜程度降低了,而性能卻提升了,性價比也更高,所以許多用戶已經基於Ampere Altra或AmpereOne系列處理器實現了從雙路伺服器到單路伺服器的轉變。
結語:Arm伺服器CPU漸成氣候
過去十年,雲計算產業飛速發展。隨著市場規模不斷擴大,雲計算產業需要更高效的基礎設施,來滿足更高算力和綠色數據中心的雙重需求。而Ampere推出的歷代產品解決了單核性能與能耗之間的矛盾,為雲計算產業提供了推動突破能耗限制的可持續之選,也因此成為伺服器CPU賽道紅透半邊天的獨立晶片新創公司。
如今,Arm伺服器CPU從技術到市占率都漸有起色。根據知名市場調研機構Counterpoint公布的報告,2022年全球伺服器CPU市場中,Ampere Computing的市占率達到1.52%,是僅次於英特爾、AMD、亞馬遜雲科技(AWS)的全球第四大伺服器CPU供應商,也是全球第二大Arm伺服器CPU供應商。隨著英偉達基於Arm的伺服器CPU在今年上半年推出,Arm伺服器CPU陣容和在市場的影響力預計將進一步擴大。