Arm備戰生成式AI,推最強移動計算平台,劇透CPU路線圖

2023-06-04     芯東西

原標題:Arm備戰生成式AI,推最強移動計算平台,劇透CPU路線圖

芯東西(公眾號:aichip001)

作者 | ZeR0

編輯 | 漠影

芯東西6月4日報道,生成式人工智慧(AI)的應用範疇正拓展至移動端,對晶片性能也提出更高要求。占據逾9成全球智慧型手機晶片市場的Arm,在本周推出新一代高端移動計算平台2023全面計算解決方案(TCS23),通過採用旗艦級Arm Immortalis GPU、全新Armv9 CPU集群以及更易訪問軟體的全新增強技術,進一步為智慧型手機提供更高的計算性能和能效。

在接受媒體採訪時,Arm高級副總裁兼終端事業部總經理Chris Bergey談道,無論是GPU性能,還是運行生成式AI和大型語言模型的AI性能,都需要全面的系統化以及對系統的深刻理解,要兼顧性能提升和高功效。把這些技術挑戰融合在一起並以系統級的方式解決,每個技術的模塊都是獨立的,但合在一起又能夠實現總體性能功效的最優表現,這就是TCS的概念。

「我們認為大型語言模型將塑造計算的未來,這意味著需要進一步提升AI方面的工作負載,」Chris Bergey說,「Arm也正在通過相關工作以確保AI可以很好地在Arm架構上運行。我們相信未來將是一個比較混合(hybrid)的環境,大型語言模型在雲端運行,但考慮到智慧型手機或其他計算設備上本地運行AI的隱私和能源效率等問題,用戶可以更願意在設備本機上運行較小的模型。」

Arm中國區業務全球副總裁鄒挺分享說,移動數據使用量仍在持續攀升,全球每個用戶平均每月流量預計將達到19GB,柔性顯示屏和AR光學這樣的新形式及元素也開始以不同的方式進入大眾視野,生成式AI及移動端大型語言模型的出現將帶來新的功能,Arm相信全世界對於移動設備的興趣和創新需求必將持續加速提升。

據他透露,Arm對CPU和GPU產品路線圖的承諾更勝以往,接下來幾年將在包括Krake GPU和Blackhawk CPU等關鍵IP上加大投入,以滿足合作夥伴對於計算和圖形性能的要求。

一、第五代GPU架構來了,旗艦級GPU性能提高15%

在TCS23中,Arm充分考慮到智慧型手機對計算的需求,採用旗艦級Arm Immortalis GPU,以滿足下一代視覺計算不斷增長的複雜需求,驅動沉浸式遊戲、實時3D應用和下一代AI應用。

視覺計算的體驗主要關乎性能、電池續航和硬體支持。對此,Arm推出迄今最高效的第五代GPU架構。為了優化內存帶寬,第五代GPU架構重新定義了部分圖形管道,顯著減少了內存帶寬,在移動設備上提供能與PC端和遊戲主機媲美的遊戲和實時3D應用體驗。

此外,Arm第五代GPU架構新引入延遲頂點著色(Deferred Vertex Shading, DVS)圖形功能,可重新定義數據流,有助於合作夥伴擴展核心數量,優化了系統級緩存的使用,有助於實現更高的性能水平。其優勢在《原神》、《堡壘之夜》等許多流行遊戲中得到體現。

在此基礎上,Arm推出首款基於第五代GPU架構的GPU產品Arm Immortalis-G720。它專為旗艦智慧型手機而設計,是Arm目前性能和能效最優的GPU,其性能和能效相較同配置的上一代產品分別提高了15%,系統級效率更躍升了40%,從而帶來更高質量的圖形渲染。

據Arm終端事業部產品管理高級總監Stefan Rosinger介紹,實現15%性能提升的一個關鍵驅動因素是提高每時鐘指令,再加上與更先進的製程工藝結合,實現比上一代更多的額外頻率。

除了Immortalis-G720之外,Arm也推出了新的Arm Mali-G720和Mali-G620,以更低的價位為消費者帶來了媲美旗艦級的GPU性能,將高端移動圖形功能快速地推向更廣大的消費終端市場。

二、迄今最高性能CPU內核:性能提高15%,功耗降低40%

Arm終端事業部產品管理總監Andy Craigen說,Arm在TCS23中做了大量的投入,確保CPU、GPU協同工作,以發揮最優化的系統級效率。

第五代GPU架構在設計時就考慮到CPU和系統。作為TCS23的一部分,全新的Armv9 Cortex CPU計算集群已經連續三年實現兩位數的性能增強,同時效率也得到顯著提升。

Arm Cortex-X4是Arm第四代Cortex-X內核,也是Arm迄今為止打造的最快速的CPU,其性能相比Cortex-X3提高了15%,同時基於相同工藝的全新高能效微架構可將功耗降低40%。這有助於實現更流暢的網頁瀏覽、更即時的UI響應、更快的應用程式啟動時間等移動設備的使用體驗。

製程工藝和計算能力更為緊密的結合是實現最高性能和最高效設計的關鍵。在新一代CPU設計中,Arm在台積電N3E製程工藝上順利完成了業內首個Cortex-X4流片。Arm和台積電共同為類似Cortex-X4的Arm內核打造定製IP,為充分利用製程工藝和處理器帶來的功耗、性能、面積(PPA)優勢做好準備,屆時雙方將通過設計分區和利用先進的封裝技術,一同協作提高系統性能和能效。

Arm CPU集群提供了不同配置的選擇。其全新大小核Arm Cortex-A720和Cortex-A520雙雙實現了20%的能效提升。新CPU集群的核心主力Cortex-A720是業界主流CPU IP,Cortex-A520則是Arm最出色的高效率核心。相較Cortex-A76集群解決方案,Cortex-A720和A520的組合方案可在面積僅增加15%的情況下,將性能提高40%,同時具備Armv9的全部優勢。

同時,新的CPU集群提供更多的DSU電源模式,以支持更高效地使用更大的L3緩存,並減少外部DRAM流量,實現性能更佳、效率更高的SoC。Arm推出的全新DSU-120即專為滿足要求苛刻的多線程用例而設計,支持從可穿戴設備到智慧型手機、筆記本電腦的眾多設備。

三、提供軟體和安全解決方案,支持大模型應用開發需求

鄒挺談道,全球有近900萬個移動開發者在基於Arm架構、且為Arm架構應用進行開發,Arm從高端遊戲到區域性應用為編寫更簡易、更安全、更快速的軟體提供了所需的靈活性和通用性。

作為TCS23的一部分,Arm提供64位計算性能、支持安全創新,以抵禦更先進的數字威脅,並提供可擴展的解決方案,從而為更廣泛的市場帶來更多高級功能。

Arm通過其開源軟體庫不斷提升Arm IP的機器學習功能。Arm NN和Arm Compute Library已在安卓平台上面向谷歌應用(Google Apps)開放,目前擁有超1億的日活用戶。明年年初,這些Arm技術庫將通過谷歌移動服務向第三方應用程式的安卓開發者開放訪問。Chris Bergey說,Arm將繼續推進對這些開源軟體庫的支持,以便開發者能夠繼續利用類似ChatGPT或大型語言模型的應用程式來開發他們的應用。

他還談道,Arm相信64位才是正確的方向,Arm在十年前就開始陸續將64位處理器推向市場,僅支持64位不光保證了更高的性能,也進一步夯實了計算安全。同時面向物聯網及更小型計算平台的應用,Arm在其處理器核心仍然會提供32位的支持。

遷移到64位系統的任務已經完成。去年,谷歌Pixel 7推出了一款純64位應用程式的作業系統,聯發科也推出了第一款全64位的安卓SoC,這個晶片目前被多款高端手機採用。另據中國主流應用商店近期報告,在前3000款常用的應用中,純64位系統應用的合規性接近100%。

內存安全同樣不容忽視。Arm所有新CPU均支持64位計算和Armv9安全創新功能,能抵禦更高級別的數字威脅。通過Armv9 CPU,Arm在整個移動生態系統中持續成功部署Arm內存標記擴展 (MTE) 功能,以消除占所有軟體漏洞高達70%的內存安全漏洞。

當前,企業和消費者市場都在部署相關解決方案。比如智慧型手機公司榮耀最近宣布將向開發者提供支持MTE的設備。短視頻平台快手也將進一步藉助該技術優化改進其開發流程。

結語:從移動端晶片到軟體創新,提供AI加速的沉浸式數字體驗

移動設備已觸及到當今數字生活的方方面面,使每個人得以創作並使用由AI加速的沉浸式體驗,由此也催生了對計算能力的更多需求。

面向下一代旗艦智慧型手機,Arm最新推出的2023全面計算解決方案(TCS23),通過一整套針對特定工作負載而設計和優化的最新IP,這些IP可作為一個完整系統無縫地協同工作,為沉浸式遊戲體驗和智能AI應用提供支持。

談及TCS是優選解決方案的原因,Chris Bergey總結說,Arm擁有最優秀的IP、廣大的合作夥伴以及對於軟體生態系統的持續投資的承諾。Arm是CPU的專家,從電晶體到軟體堆棧提供系統級解決方案,並與合作夥伴聯合進行開發,在終端產品上實現了設計創新。Arm還致力於發展中國的生態系統,使得Immortalis能夠成為這些平台上最優秀的遊戲引擎。

以最新的智慧型手機平台舉例,Arm CPU和GPU的性能提升帶動了AI處理能力大約每兩年翻一番。基於Arm架構的AI平台出貨量遠超其他終端計算架構,因而成為全球開發者在為其應用程式引入AI和機器學習時最易訪問和選用的平台。

可以看到,Arm正致力於移動領域實現從晶片到軟體的創新,通過實現性能和效率的提升,支持由龐大的全球生態系統帶來持續增長的沉浸式數字體驗。憑藉Armv9架構的可擴展性,Arm還在繼續探尋AI和機器學習的優化方法,以便開發者能訪問最新的Arm技術和軟體更新,並在Arm架構上獲得出色的AI性能。

文章來源: https://twgreatdaily.com/53e79929b8e82464fcae462cebd4e785.html