大模型原生應用仍未爆發,誰能cover動輒10億/年的萬卡成本?
書圈授權轉載自AI科技評論
作者丨郭 思
編輯丨陳彩嫻
人工智慧的快速發展催生了智算中心這個概念。自 2023 年下半年起,中國智能計算中心的建設速度明顯提升。
據不完全統計,目前已有超過30個城市投身於智算中心的建設或規劃之中。
一方面,隨著生成式人工智慧的飛速進步和對大模型需求的急劇膨脹,處理和分析海量數據所需的強大算力變得至關重要。
另一方面,市場在追求規模效應的過程中,出現了盲目超前的建設和大量囤積現象,導致對需求的管理不夠精細,運營過程缺乏透明度和監管,從而引發了智算中心的空轉甚至停機問題。這不僅未能充分利用設備生命周期的潛在價值,還造成了資源和資金的浪費。
實際上,空轉率在算力行業並非鮮見,它是一個重要的指標,無論人工智慧需求量大小,都需關注。即便在我們的日常生活中,家用 PC 也存在空轉率問題。然而,大模型的爆炸式增長使得這一問題變得尤為關鍵,只是由於現在行業仍處於一卡難求的供不應求時期,它的緊迫性尚不顯著。
大模型加碼,算力行業迎來新的機遇,在這波熱潮之下,對於整個算力的部署,我們也需要一些不一樣的冷思考。
1
運行一座 AI 智算中心需要多少錢?
AI 智算中心的成立並非由大模型直接催生。事實上,在今年 ChatGPT 大火之前,國內已經有幾家大型廠商相繼成立了大型的 AI 計算裝置,如商湯的 AI 大裝置、阿里的飛天智算、百度的 AI 大底座等等。
大模型前夜,這些智算中心的用途主要是小型深度學習模型的訓練與推理,而大模型爆發後,萬卡規模、GPU 漸為算力集群核心的特徵成為新一代智算中心的挑戰。人們將大模型的起步階段比喻為「淘金期」,認為淘金浪潮下的淘金者不一定能成功淘到金、但賣鏟子的人一定穩賺不賠。於是,為大模型時代建立智算中心成為今年中國科技圈的另一番火熱現象。
這一思路沒毛病,但現實永遠比理想複雜。一個少為人知的數據是,在大模型爆火之前,一些智算中心一度有價無市,如果沒有模型在機器上跑,一天的閒置成本就高達十幾萬。換言之,大模型的爆火「救」了一部分智算中心。而高昂的空轉成本背後,恰是一座 AI 智算中心高昂的運行成本。
以萬卡規模的智算中心為例。據 AI 科技評論與相關行業人士了解後粗略估算,運營一座能用於大模型訓練與推理的萬卡規模智算中心需要每年投入高達 10 億人民幣。
與傳統的數據中心相比,智能中心的建設對能耗和基礎設施的要求更高。以算力行業常見的 42U 伺服器機櫃為例,傳統數據中心大約會部署 20 至 30 台 CPU 伺服器,而在相同空間內,若換成 GPU 伺服器,則需要考慮多方面因素。
多位行業人士向 AI 科技評論表示,供電、製冷和承重等多方面的限制因素共同決定了機櫃內可以放置的機器數量。行業形成的共識是,大多數智算中心的一個機櫃通常最多能放兩台 GPU 伺服器,超過四台的情況下就需要進行特殊的電力改造。標準機櫃一般最多能容納兩台 8 卡的 GPU 伺服器。
據 AI 科技評論了解,在條件允許的情況下,大部分智算中心部署的都是市面上熱捧的 DGX A100 伺服器。DGX A100 伺服器在發布時的售價為 19.9 萬美元,摺合人民幣約為 140 萬元。目前,其市場價格已攀升至約 170 萬元。這一價格涵蓋了內部配備的兩個高性能 AMD 64 核霄龍處理器以及八個先進的 A100 GPU。然而,這僅僅是硬體成本的一部分。
購買並安裝一台 DGX A100伺服器,加上存儲擴充、部分備件以及調試等費用,總成本將達到 170 萬元。部分伺服器還具備存儲擴展能力,這將進一步提高總價。按照市面上伺服器的平均四年折舊期計算,每年的折舊成本約為 42.5 萬元。
DGX A100 伺服器的最大系統功耗為 6500W,其外形尺寸為 6U。考慮到 42U 的標準機櫃配置,通常一個機櫃最多可以容納兩台 GPU 伺服器。若超過四台伺服器,則需要進行特殊的電力改造。標準機櫃一般能夠承載兩台 8 卡的 GPU 伺服器。
因此,單個機櫃可容納兩台 DGX A100 伺服器,對應的總功耗為 13KW。假設設備全年持續運行(每天 24 小時,每年 365 天),則每年的耗電量為 13KW * 24小時/天 * 365天/年 = 113.880KW。
以每度電0.54元(1度=1千瓦時,kWh)的價格計算,每年的電費為:113.880KW * 0.54元/kWh = 99,440元,接近每年10萬元。
在常規的網際網路數據中心(IDC)中,電力消耗主要來源於 IT 設備、冷卻系統、電源系統以及照明系統等。儘管不同類型的 IDC 中心電力消耗比例可能存在差異,但通常情況下,IT設備是最大的電力消耗源,約占總耗電量的50%至60%。其次為冷卻系統,其電力消耗占比在 30% 至 40% 之間。電源系統和照明系統等其他設施的耗電量相對較小。
基於這些數據,我們可以粗略估算出,一台全負荷運行的伺服器每年的電費大約為20萬元。考慮到電費通常占IDC中心運營成本的約 50%,那麼該伺服器一年的運行成本可能大約是電費的兩倍左右,估算為 40 萬元。
綜上所述,運營一台 DGX A100 伺服器,一年的成本包括約 42.5 萬元的折舊費和約 40 萬元的運行電費,總計約為 82.5 萬元。
可以想像,一台成本如此高昂的伺服器如果不能得到滿打滿載的利用,那麼所造成的浪費不可小覷。
以一個擁有萬卡的廠商為例,8 卡一台伺服器,相對應廠商會擁有 1250 台伺服器,粗略以每台 80 萬的成本來計算,一年都需要 1250*80 萬也就是 10 億的成本。
在衡量大模型智算中心的建設價值時,人們常習慣舉諸如高速公路、大型發電廠等基礎設施的例子來辯證——雖然高速公路的建設成本高,但當在路上跑的車輛越多,成本均攤下來就越便宜。在這樣的邏輯上,容易被忽視的問題是:
大模型時代剛起步,大模型的原生應用還遠遠沒有爆發,市場需求存在虛空。如果高速公路建成了、但每年跑在公路上的汽車只有數百輛,均攤成本由誰來承擔?
2
浮華之下,暗礁實在
大模型仍然在發展,但 2023 年即將過去,算力中心空轉率成為一個需要關注的問題。
一位算力從業者在參觀某市的一個大型智算中心時發現,雖然占了一個山頭寫著「**中心」,但實際上每年固定投入3000萬,但機房內只有不到100個有機架式伺服器,很多伺服器都是空轉。而據 AI 科技評論了解,該現象不是孤例。(大模型時代還存在哪些算力難題,可與本文作者郭思微信lionceau2046進一步探討)
當面臨巨大的算力需求時,智算相應的基礎設施建設成本會不可避免地增加。另一方面,對於市場實際需求把握不夠精準也會造成智算中心建設後,伺服器上架率卻達不到理想狀態。
沙利文的數據顯示,2022 年中國數據中心的上架率大約為 58%,這意味著在數據中心中,大約有 58% 的伺服器被擺放到機柜上並投入使用,而剩下的 42% 的機櫃可能是空的,即尚未被伺服器占用。
造成算力中心空轉的原因主要有兩塊,一塊是技術上的不成熟,另一塊則是市場需求的認知偏差。
技術上,無論是英偉達的計算卡還是國內某些品牌的晶片,在長時間運行過程中,都可能會出現故障,如突然掉卡等問題。一位雲計算行業的專業人士告訴AI科技評論,他在最近的一次會議上得知,某國產知名 AI 晶片在訓練30天後可能會完全報廢。
此外,由於晶片的更新換代周期性,晶片製造商不斷推出新產品,幾年後,新一代伺服器將成為市場主流,導致部分伺服器不得不被廢棄或閒置。
國內大型智算中心廠商表示,算力資源的利用率的確會出現高峰和低谷,在需求旺盛的時候,利用率可能達到 80% 到 90%,空轉率在那些時候會相對較低,大約在 10% 到 20% 之間波動。在尖峰時刻,計算資源可能會被充分利用,空轉率才會降低。
而從應用端而言,據 AI 科技評論了解,現如今底層模型端的需求主要是用於訓練,但大模型發展至今,真正的殺手級 AI 原生應用卻遲遲未見蹤影,當前中國的大模型原生應用數量遠遠沒有達到大眾預期。
數據顯示,截至10月份,國內已經發布了238個大模型,相較於6月份的79個,在四個月內增長三倍,但相較於國外的幾十個基礎大模型和上千個AI原生應用來看,國內AI原生應用數量卻很少。基於現有基座大模型推出的 AI 原生應用並沒有大面積爆發,也就是說DGX 伺服器基本還是用於基座模型的訓練,還沒有用於實際的推理端。
這就好比我們在前文提及的高速公路建設,建成了,前期雖有200多車輛來平攤成本,但是一旦訓練需求下降,後續沒有原生應用,如此高昂的成本便成為了實打實的浪費。
在如今應用側還沒有完全起來的情況下,智算中心空轉成本,仍是一個顯著問題。
以某AI公司發表的財報為例,2023 年上半年期內銷售成本大幅增長近63%,達到78億4千萬人民幣;其中占比達82%的硬體成本及分包服務費同比增長54%,另外兩塊成本——AI數據中心(AIDC)運營和折舊攤銷成本也分別暴增75%、562%,但該公司AI營收卻微,上半年生成式AI相關收入僅約為2.91億元。
而AI 原生應用爆發後的效果,以 ChatGPT 為例,在 ChatGPT(GPT3.5和GPT4)下每個單詞大概消耗1.12個token,官方計費標準為 $0.002 / 1k tokens,在英語中「一個 token 通常對應大約 4 個字符」,而1個漢字大致是2~2.5個token。1000 tokens大概是750單詞。那也就是說,大概2美元可以問100萬個token,相當於750000個單詞。日常我們使用基本問清楚1個問題就要耗費100~200個token,以ChatGPT的1億月活用戶的來算,算下來一個月至少得花200萬美元。若月活用戶持續增多或者當用戶規模進一步擴大,調用API帶來的運算和效益會更加巨大。
一個AI 應用尚且能獲得如此大的收入,而當行業不再只有200個基座大模型,而是幾百上千個AI應用出現時,巨額的算力成本或許也就有法可解了。
所以,只有當更多切實有效的大模型應用場景得以發掘,或是關鍵技術實現重大突破時,這些閒置的資源才可能被重新激活。
3
算力的悖論要如何破解?
當大模型熱潮興起時,人們常常將其比喻為電力。業內也有非常的多的模式來優化算力資源的調度。一行業人士告訴 AI 科技評論,一些廠商正在研發GPU服務,採用類似service的架構。儘管實現方式各異,但大家的目標是一致的:希望能夠按照客戶實際的使用量來計算費用,就像使用水電一樣——按用量計費。
算力池化是一種做法,池化顧名思義,就是把這些智算中心、資產中心裏面的這些 AI 晶片、 AI 加速器,池化完了之後,然後,通過網絡為需要計算資源的上層應用提供服務。這意味著應用可以根據需要提取資源,使用時即時獲取,用完後歸還到資源池中。
而另一方面,智算中心的高效運營本身就離不開技術層面其餘 IT 能力的提升。
行業人士告訴AI科技評論,對於一個專業的智算中心而言,冗餘和備用方案是至關重要的,以便在某個組件或資源出現故障時,其他資源可以自動接管,從而實現無縫切換,減少服務中斷的時間。另一方面,數據中心的運營還非常依賴於人員的技術能力。數據中心不僅需要提供計算資源,還需要提供技術支持和專業服務。
而縱觀整個行業,在大模型技術的席捲之下,當前對算力資源的精細化管理仍顯得相對滯後。儘管緊跟行業趨勢、積極布局大模型戰略對於企業來說無可非議,但就如同在一架全速飛行的飛機上,必須時刻警醒並密切關注那些可能潛藏風險的關鍵部件一樣,對於算力基礎設施的關注與優化同樣至關重要。前瞻性地規劃三步之遙,深度思考一步之內,方能在創新競賽中領先半步。
實際上,現在行業已經意識到AI應用的開發與突破是下一步人工智慧從理論層面步入實踐領域,並形成其價值轉化的關鍵節點。此前,百度李彥宏就曾點出,在基礎模型之上,要有千千萬萬甚至數以百萬計的 AI 原生應用,這個大模型的價值才能被體現出來。
而從根本上講,要解決智算中心資源利用率不高的實質性問題,關鍵也在於如何積極引導並推動大模型應用的廣泛普及與深度整合,確保計算設施能夠精準匹配真實世界的需求,實現高效、有序的運行狀態。通過大模型應用的全面開花,不僅可以有效利用現有智算中心的強大算力,還能進一步推動人工智慧技術與實體經濟的深度融合,釋放更大的創新活力與價值潛力。
從這一層面而言,如今面對智算中心潛在的空轉問題所帶來的冷思考,並非僅是對既有認知的簡單顛覆,更可能是關乎重大風險預警的「灰犀牛」現象。
點擊閱讀原文,查看會議報名詳情