浪潮信息「拓荒」:一場面向大模型時代的性能「壓榨」

2023-11-02     智能相對論

原標題:浪潮信息「拓荒」:一場面向大模型時代的性能「壓榨」

文 | 智能相對論

作者 | 沈浪

全球人工智慧產業正被限制在了名為「算力」的瓶頸中,一側是供不應求的高端晶片,另一側則是激戰正酣的「百模大戰」,市場的供求兩端已然失衡。

然而,大多數人的關注點仍舊還是在以英偉達為主導的高端晶片領域。

半導體的創新固然關鍵,但是從現實處境來講,晶片從造出來到用起來,是一個龐大的系統工程,市場更需要一條能暫時繞開半導體創新的系統創新的技術路徑,來同步釋放算力,以滿足現階段爆發性的算力需求以及後期可持續的常態發展。

遵循著這一思路,就不難發現,以浪潮信息為代表的本土廠商已經開始了另一條釋放算力的創新路徑,即對伺服器等硬體的基礎架構進行創新,在硬體層面「拓荒」,「壓榨」更多的硬體性能,打破算力桎梏。

只是這樣的路徑,似乎沒有想像中的那麼簡單、輕鬆。

01 向底層「拓荒」,激活「牛鞭效應」

以伺服器為例,一台伺服器有超過10000個零部件,同時還涉及30多個技術領域,包括材料學、熱力學、電池技術、流體力學、化學等一系列學科。此外,一台伺服器里還會應用超過100種傳輸協議。其製造過程更是需要經歷30多道流程,使用100多種加工和製造工藝等等。

若要對這樣的高精密硬體的基礎架構進行創新,絕非易事。

在四五年前,一些大規模數據中心用戶幾乎都遇到過一個相似的問題:風扇轉速越快,硬碟越有可能出現性能波動,嚴重時還會直接掉線,非常影響硬碟的讀寫性能。

浪潮信息的工程師團隊做了大量實驗,最終鎖定原因:風扇產生的噪音一旦達到120分貝,就非常容易造成硬碟磁頭偏移、讀寫效率下降,進而導致扇區失效乃至硬碟報廢、伺服器宕機。

儘管這樣的問題看起來很小,卻對伺服器的性能有著嚴重製約。如何解決伺服器內部的風噪問題,成為了一個業內共同探索的議題。國際開放計算社區OCP組織成員包括FaceBook(現為Meta公司)、微軟、浪潮信息、戴爾等企業,共同發起Storage Vibration(存儲設備振動)項目,旨在解決相關的問題。

最終,浪潮信息的工程師們基於大量機理性研究和測試,發現了硬碟性能損失與聲壓強度間的數學規律,並構建出業界首個硬碟敏感度模型,量化出不同硬碟受到各類噪聲影響後的性能表現。

以此為依據,浪潮信息也得以對最新G7伺服器系統進行了全方位的優化設計,譬如通過CFD流體動力學仿真改進·不同機箱布局下的風扇的葉片形態,抑制扇葉表面因渦流脫落形成的高頻噪音,提升硬碟讀寫效率50%;或是在機箱內通過設計40多種歌院式的消音結構,消除特定的高頻噪聲等等。

這些「繡花針」功夫是創新底層架構的關鍵,而看似很微小的基礎改良,卻是提升伺服器性能、保障硬體平穩運行的重要因素。在經濟學領域,有一個專業術語叫作「牛鞭效應」,指一端微小的擺動被不斷放大,到了另一端將演變為大幅擺動的趨勢。

從硬體的應用來看,基礎部件的改良也將激活「牛鞭效應」——從一張硬碟到一個伺服器,再到一個數據中心,隨著硬體不斷疊加應用,底層的改良價值將被逐步放大,向上層傳遞,成為伺服器安全運作、釋放算力、促進人工智慧產業發展的重要保障。

類似的,現階段備受關注的晶片互聯技術,也是支撐大模型大規模算力場景的關鍵技術,尤其是單個伺服器內部晶片高速直連,是實現大規模算力集群高效協同工作的基礎。作為全球領先的伺服器廠商,浪潮信息在高速互連領域定義了業界第一個符合OAM(開放加速模塊)規範的8卡互連硬體系統,解決了高速信號的速率提升和信號失真問題,實現開放加速規範下晶片互連的最高速率,助力著人工智慧產業的持續突破。

02 一場對性能的極限「壓榨」

在人工智慧行業,算力的巨大需求和供給緊張已然是擺上檯面的事實。為什麼業內廠商想要不斷地改進傳統的硬體架構去釋放算力,哪怕只是一點細微的聲噪優化,都不遺餘力地花上四五年的時間去研究、探索和創新。

細究來說,算力的供應大抵可以歸結為兩條路徑,一是「增量拓展」,比如接入更多的伺服器、建更多的數據中心,通過「堆量」的方式來提供更多的算力。二是「存量優化」,對原有架構、原有機器進行優化升級,通過「提質」的方式來把性能和效率提升起來。

其中,在這兩條路徑之下,「存量優化」又是必然的一條。無關乎未來算力是否緊張或寬裕,如何對現有的機器和架構進行升級優化,是行業發展的一個重要階段,只是時間早晚的問題。

值得一提的是,現階段,伺服器行業已經有著充分的理由去推進「存量優化」這一路徑。

一方面,算力領域正在面臨著高端晶片緊張的問題,「增量拓展」被限制,那麼業內廠商就不得不考慮「存量優化」的事情。

另一方面,源於伺服器的特殊性,在伺服器概念上的簡單的「堆量」只能堆出各種形態和規格的伺服器,但對數據中心計算能力的提升並沒有什麼實質性的幫助。

對此,在2014年,浪潮信息提出了「融合架構」的技術理念,旨在創造一種新的體系架構,將硬體設備中的同類資源整合成一個資源池,即便是不同的設備也能夠任意地整合,再通過軟體動態感知業務的資源需求,從而利用硬體重組的能力來滿足各類應用的性能需求。

這種「融合架構」看似是「增量拓展」,但核心則是「存量優化」。直到融合架構3.0的發布,就可以清晰地看到,這一技術理念打破了現有伺服器的邏輯架構和應用模式,實現了整機櫃級別的計算、內存、存儲與互聯等各種IT資源的池化,形成了以系統設計為中心的新架構模式,對構建高速高性能的網際網路起到了重要作用。

簡單來說,基於「池化」的概念,融合架構3.0將伺服器內的計算資源、存儲資源、內存資源、異構加速資源等核心IT資源重新細化,並做了「重組」,從而能使其發揮出更高的性能和應用價值。

這相當於對現有的伺服器性能做了一次極限地「壓榨」。眾所周知,傳統伺服器的性能利用率是無法達到100%,兩台伺服器相連得到大多是1+1<2結果,而基於融合架構3.0的支持,就有可能實現1+1>2的情況。

當然,這只是一個便於理解的理想化公式,現實大抵是達不到這個效果的。但是,其中的進步也是看得見的,特別是隨著伺服器的增加,當我們再來估算1+1+1+...+N的效果時,在融合架構3.0下的伺服器便能發揮出遠超傳統架構的性能和價值。

這是融合架構3.0的價值展望,同時也是「存量優化」這一路徑在伺服器行業的價值呈現。正如上文提及的「牛鞭效應」,當底層細微的創新不斷被放大到一個硬體、一個計算集群、一個產業生態,那麼其發揮出來的作用將遠超過往。

03 在算力之外

當前,在伺服器行業,就能看到類似的信號。

繼續以融合架構3.0為例,其打破了以往「以CPU為中心」的設計理念,從整體出發,以系統為中心,通過硬體解耦將異構計算、內存、存儲等資源轉變為可獨立擴展的資源池。

在這個過程中,不僅實現了亞微秒級遠端內存訪問,並且還構建出了一種邏輯上可遠端共享的內存資源池,讓多台主機訪問同一個內存池,從而大大提高了數據交換的效率,讓Spark、Hadoop和機器學習等使用分布式數據框架的應用,能夠更順暢地實現框架內各節點間的數據交換與協作。

也就是說,融合架構3.0解決的不僅僅是伺服器性能、算力釋放等問題,實際上還繼續向上層拓展,解決了系統應用的問題——伺服器的架構創新在算力之外,帶來了全新的價值呈現。

類似的,放眼全球市場,微軟與英偉達合作推出的虛擬機Azure ND H100 v5 VM系列,正基於強大的硬體能力支持結合Quantum-2InfiniBand網絡互連,從而幫助企業更好、更高效地處理生成式AI任務。

現階段,大多數硬體升級並非單線的,而是考慮到上層的應用需求,如大模型訓練、生成式AI任務等,結合軟體系統、網絡服務等進行融合創新,從而為應用場景服務。

縱觀當前人工智慧產業在算力層面的困頓處境,以算力牽動整個人工智慧產業的發展是必然的趨勢。而業內廠商在解決算力供給問題的過程,也將同步帶動其他模塊的升級。換句話說,解決算力問題就不能局限在高端晶片領域,更要從其他的路徑尋求多元化的發展。

在這個階段,以英偉達為主導的高端晶片領域和以浪潮信息為代表的伺服器硬體升級,都將站在市場的聚光燈下。今天的市場,需要更多元、更勇敢、更執著的探索者、創新者。

*本文圖片均來源於網絡

文章來源: https://twgreatdaily.com/zh/ccf29b424f3fdfcb439f22cc80ed7751.html