「十萬卡集群」要來了 科技巨頭競逐AI算力極限

2024-09-26     第一財經

[ 此前Anthropic執行長也表示,當前AI模型訓練成本是10億美元,未來三年,這個數字可能會上升到100億美元甚至1000億美元。 ]

「萬卡集群」被業界視作這一輪大模型競賽的「入場券」,現在,「十萬卡集群」成為科技巨頭們競逐的新高地。

「很快就會有更多的10萬卡集群出現。」9月25日,百度集團執行副總裁沈抖在百度智雲大會上這樣說。

他提到,過去一年已經感受到客戶的模型訓練需求猛增,需要的集群規模越來越大,與此同時,大家對模型推理成本持續下降的預期也越來越高。這些都對GPU管理的穩定性和有效性提出了更高要求。當天,百度升級AI異構計算平台百舸4.0,具備了10萬卡集群部署和管理能力。

事實上,這一輪生成式人工智慧爆發的背後,一定程度上歸功於「大力出奇蹟」,業界通過不斷增加算力堆疊,實現大模型性能的飛躍。萬卡集群也因此被業界視作是進入AI核心圈的「標配」。但現在,即便是萬卡也不能夠完全滿足需求。不僅百度,越來越多的行業巨頭正在布局十萬卡集群,以追求更高的計算效率和大模型性能。

不久前的雲棲大會上,阿里雲展示了圍繞AI時代的新基建,其中單網絡集群已拓展至十萬卡級別,正在從晶片、伺服器、網絡、存儲到散熱、供電、數據中心等方方面面,重新打造面向未來的AI先進基礎設施。

9月初時馬斯克在社交媒體上宣布,旗下AI初創公司xAI打造的超級AI訓練集群Colossus 已經正式上線,搭建用時122天,共有10萬塊英偉達H100 GPU加速卡,而在未來幾個月將再翻倍增加10萬塊GPU,其中5萬為更先進的H200。

更早之前,Meta執行長馬克·扎克伯格曾在年初宣布計劃購買35萬塊英偉達H100 GPU,將Meta的算力擴展到相當於60萬塊英偉達H100 GPU的水平。OpenAI沒有透露過確切的GPU使用量,但業界猜測接近十萬塊。百川智能CEO王小川曾對第一財經記者透露,自己此前在矽谷走訪時,OpenAI正在設計能夠將1000萬塊GPU連在一起的計算模型,「這種想法像登月一樣」。

「今天一家通用大模型公司如果沒有萬卡,就不好說自己是大模型公司了。」香港科技大學校董會主席沈向洋更在不久前調侃,「談卡傷感情,沒卡沒感情。」而摩爾線程CEO張建中也在接受記者採訪時表示,在AI主戰場,萬卡是最低標配,因為大模型競爭激烈,縮短訓練時間是企業的基本訴求。

算力是推動大模型發展的核心動力。但從千卡到萬卡再到十萬卡,不是算力的簡單堆疊。在科技巨頭競逐AI算力極限背後,沈向洋指出,從2012年開始,每年大模型需要的算力都在增長,一開始幾年是六七倍的增長,最近幾年穩定下來,每年是四倍左右的增長。而隨著大模型的參數越來越大,大模型對算力的要求已經由線性增長進化到平方向的增長。

但構建十萬卡集群是一項複雜的系統工程,不僅意味著算力的指數級增長,還涉及複雜的技術和運營挑戰。這些集群需要解決高效能計算、高能耗管理、高密度機房設計、高穩定性訓練等一系列問題。而且即便智算中心已配備了超大規模的集群,最終能否將這些算力有效釋放,還取決於算法、軟體架構的優化與調度能力。

沈抖對包括第一財經在內的媒體表示,管理10萬卡的集群與管理萬卡集群有本質不同。要部署10萬卡這麼大規模的集群,光是在物理層面就要占據大概10萬平方米的空間,相當於14個標準足球場的面積。在能耗方面,這些伺服器一天就要消耗大約300萬千瓦時的電力,相當於北京市東城區一天的居民用電量。

這種對於空間和能源的巨大需求,遠遠超過了傳統機房部署方式所能承載的範疇,這意味著科技巨頭不得不考慮跨地域的機房部署,這帶來了網絡層面的巨大挑戰。

同時,巨額的建設、運營成本是一大難題。沈抖告訴記者,建一個萬卡集群,單是GPU的採購成本就高達幾十億。

此前Anthropic執行長也表示,當前AI模型訓練成本是10億美元,未來三年,這個數字可能會上升到100億美元甚至1000億美元。

隨著集群規模的擴大,如何高效利用每一塊GPU的算力成為關鍵挑戰。一位業內人士告訴記者,萬卡集群已經面臨卡間和節點間的網際網路、軟體和硬體的適配調優等問題,而十萬卡集群則需要更精細化的設計和優化,構建超高精度和高可靠性的網絡,包括引入新型晶片設計、超節點技術、跨節點網際網路技術等。

「你本身的集群調度效率怎麼樣?調度效率有時候會被大家忽略掉,超大規模的集群不是你的卡每時每刻都在用。大模型大規模的參數,在超大規模集群裡面怎麼樣做模型的拆分,才能真正讓算力有效發揮出來,這是非常關鍵的。」有AI晶片從業者這樣表示。

還有一大挑戰就是穩定性問題。在如此大規模的集群上,運維的複雜性急劇增加。硬體不可避免地會出故障,而規模越大,出故障的機率就越高。業界常常拿Meta訓練Llama模型舉例,該模型用的是1.6萬卡算力集群,大概每隔兩三個小時整個訓練任務就要因此重新開始,回到上一個Checkpoint(檢查點)。「如果推演到10萬卡,意味著每30分鐘訓練就要中斷一次,有效訓練時長占比會非常低。」沈抖告訴記者。

他稱,在這些故障中,絕大多數是由GPU引起的。其實GPU是一種很敏感的硬體,連中午天氣溫度的波動,都會影響到GPU的故障率。

「這些挑戰迫使我們重新思考如何構建、管理和維護這樣龐大而複雜的GPU集群,屏蔽硬體層的複雜性,為大模型落地的全流程提供一個簡單、好用的算力平台,讓用戶能夠更容易地管理GPU算力、低成本地用好算力。」沈抖告訴記者。

文章來源: https://twgreatdaily.com/zh-mo/e9eec1e1d737a882a63d9330fb9e6a46.html