AI大模型背後的算力基石,騰訊雲首次完整披露自研星脈高性能計算網絡

2023-06-26     光錐智能

原標題:AI大模型背後的算力基石,騰訊雲首次完整披露自研星脈高性能計算網絡

AIGC的爆發除了帶來算力上的挑戰,對網絡的要求也達到了前所未有的高度。

6月26日,騰訊雲首次對外完整披露自研星脈高性能計算網絡:星脈網絡具備業界最高的3.2T通信帶寬,能提升40%的GPU利用率,節省30%~60%的模型訓練成本,為AI大模型帶來10倍通信性能提升。基於騰訊雲新一代算力集群HCC,可支持10萬卡的超大計算規模。

騰訊雲副總裁王亞晨表示:「星脈網絡是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網絡服務,將助力算力瓶頸的突破,進一步釋放AI潛能,全面提升企業大模型的訓練效率,在雲上加速大模型技術的疊代升級和落地應用。」

構建大模型專屬高性能網絡,提升40%GPU利用率

AIGC的火爆帶來AI大模型參數量從億級到萬億級的飆升。為支撐海量數據的大規模訓練,大量伺服器通過高速網絡組成算力集群,互聯互通,共同完成訓練任務。

大集群不等於大算力,相反,GPU集群越大,產生的額外通信損耗越多。大帶寬、高利用率、信息無損,是AI大模型時代網絡面臨的核心挑戰。

千億、萬億參數規模的大模型,訓練過程中通信占比最大可達50%,傳統低速網絡的帶寬遠遠無法支撐。同時,傳統網絡協議容易導致網絡擁塞、高延時和丟包,而僅0.1%的網絡丟包就可能導致50%的算力損失,最終造成算力資源的嚴重浪費。

基於全面自研能力,騰訊雲在交換機、通信協議、通信庫以及運營系統等方面,進行了軟硬一體的升級和創新,率先推出業界領先的大模型專屬高性能網絡——星脈網絡。

在硬體方面,星脈網絡基於騰訊的網絡研發平台,採用全自研設備構建互聯底座,實現自動化部署和配置。

在軟體方面,騰訊雲自研的TiTa網絡協議,採用先進的擁塞控制和管理技術,能夠實時監測並調整網絡擁塞,滿足大量伺服器節點之間的通信需求,確保數據交換流暢、延時低,實現高負載下的零丟包,使集群通信效率達90%以上。

此外,騰訊雲還為星脈網絡設計了高性能集合通信庫TCCL,融入定製化解決方案,使系統實現了微秒級感知網絡質量。結合動態調度機制合理分配通信通道,可以避免因網絡問題導致的訓練中斷等問題,讓通信時延降低40%。

網絡的可用性,也決定了整個集群的計算穩定性。為確保星脈網絡的高可用,騰訊雲自研了端到端的全棧網絡運營系統,通過端網立體化監控與智能定位系統,將端網問題自動定界分析,讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓練系統的整體部署時間從19天縮減至4.5天,保證基礎配置100%準確。

歷經三代技術演進,軟硬一體深耕自研

星脈網絡全方位的升級背後,是騰訊數據中心網絡歷經三代技術演進的成果。

在騰訊發展初期,數據中心網絡流量主要由用戶訪問數據中心伺服器的南北向流量構成,網絡架構以接入、匯聚、出口為主。這一階段主要使用了商用網絡設備,搭建標準化數據中心網絡,支撐QQ在線人數增長超過1億,伺服器規模增長超10萬。

隨著大數據和雲計算的興起,伺服器之間的東西向流量逐漸增多,雲租戶對網絡產生了虛擬化和隔離的要求。數據中心網絡架構逐漸演變為同時承載南北向和東西向流量的雲網絡架構,騰訊雲構建了全自研網絡設備與管理系統,打造超大規模數據中心網絡,伺服器規模近200萬台。

如今隨著AI大模型的出現,騰訊雲在國內率先推出高性能計算網絡,採用東西向、南北向流量的分離架構。構建了獨立的超大帶寬、符合AI訓練流量特徵的網絡架構,並配合自研軟硬體設施,實現整套系統的自主可控,滿足超強算力對網絡性能的新需求。

日前,騰訊雲發布的新一代HCC高性能計算集群,正是基於星脈高性能網絡打造,可以實現3.2T超高互聯帶寬,算力性能較前代提升3倍,為AI大模型訓練構築可靠的高性能網絡底座。

未來,騰訊雲還將持續投入基礎技術的研發,為各行各業的數智化轉型提供有力的技術支撐。

文章來源: https://twgreatdaily.com/zh-tw/66f1bbac743c8ecd354369435d7b5b5d.html