大模型引發「暴力計算」,巨頭加速推進液冷「降溫」

2023-10-16     光錐智能

原標題:大模型引發「暴力計算」,巨頭加速推進液冷「降溫」

文|姚悅

編|王一粟

一進入部署了液冷伺服器的數據中心,不僅沒有嘈雜的風扇聲,甚至在不開空調的夏日也完全沒有悶熱感。

在大模型引發「暴力計算」的熱潮下,數據中心的上下游,正在加緊推進液冷「降溫」。

半年來,伺服器廠商在液冷產品上紛紛推出新的解決方案。比如,中興通訊的新G5系列伺服器,支持不同的冷板式液冷方案,從CPU液冷到內存條散熱+VR液冷;聯想升級海神溫水水冷系統,可實現伺服器全水冷無風扇設計;新華三也發布全棧液冷解決方案,包含G6系列伺服器、核心路由器、接入交換機;中科曙光子公司曙光數創8月發布了「冷平衡」戰略,是特別針對數據中心算力、成本、能耗三元平衡問題,推出的全棧液冷數據中心技術與全生命周期一站式服務;去年年底華為推出全場景液冷「天成」多樣性算力平台。今年,華為昇騰再推集成天成液冷的算力集群,可以支持萬卡規模。

「在『東數西算』『雙碳』大背景下,不斷提升的功率密度和PUE(能效指標,越接近1越優)設計要求已成為行業面臨的主要問題,液冷技術具有高密低碳等優勢,已經成為應對數據中心散熱壓力和節能挑戰的必由之路。」中興通訊數據中心產品線規劃總工翁建剛表示。

而就在去年,面對液冷,當上游設備廠商活躍時,中游的數據中心還顧慮重重,保持觀望。但現在,像企商在線這樣的中游企業也已經積極規劃液冷設施,足見液冷已經成為行業共識。

企商在線IDC能力中心售前經理徐濤對光錐智能表示,公司已經在接管客戶的一些AI業務,AI伺服器的功耗是通用伺服器功耗的十倍左右,風冷的局限性日漸明顯,必須嘗試液冷。

伺服器廠商的積極布局,很大程度上來源於客戶的需求逐漸明朗。

數據中心占有半壁江山的三大電信運營商在6月親自下場,聯合發布《白皮書》,提出「三年景願」:即2023年開展液冷技術驗證;2024年開展規模測試,新建數據中心項目10%規模試點應用液冷技術,推進產業生態成熟;2025年及以後開展規模應用,50%以上數據中心項目應用液冷技術。

「現在液冷基本上所有內容已經通過驗證,進入一個規模擴張的階段。」近期,工信部直屬研究機構賽迪顧問的液冷領域分析師袁鈺明確當前液冷所處階段。

其實,液冷並不是新技術,其早已被應用於工業、航空領域。一說,阿波羅登月計劃,就將液冷用於太空人體溫控制。在數據中心領域,液冷在上世紀60-90年代就嶄露頭角。但後來隨著計算技術疊代功耗下跌,又被「冷落」。

從被「冷落」到「翻紅」,液冷經歷了什麼,又將面對什麼新挑戰?

「暴力計算」亟需液冷降溫

風冷是過去很長時間內,數據中心的主流溫控方案,以空氣為冷卻媒介。液冷和風冷最大的區別,就是冷卻媒介不同,「液冷」利用礦物油、氟化液等絕緣低沸點的冷卻液作為冷媒,通過熱交換將伺服器的熱量排出。完全絕緣、無腐蝕性的冷液,單位體積價格堪比茅台、五糧液。

液冷之所以被數據中心重新重視,根本原因是,後摩爾定律時代,晶片、伺服器的功耗再呈上升趨勢,隨之產生更高的溫度。

「那一次更讓我深刻理解了溫度對於伺服器的影響。」有著十餘年IDC售前經驗的徐濤回憶從業過程中遇到的設備散熱對伺服器運行影響的問題,「客戶規劃的伺服器功耗100多瓦,實際裝的300多瓦,而且單機櫃實際密度也比規劃高,結果測出伺服器溫度到了六七十度,直接導致故障率是原來的10倍。」

針對數據中心高溫問題,頭部設備廠商更加大力推進液冷,目的大多集中在降低PUE,具體則從技術、方案等不同角度著力。

據媒體此前報道,中興通訊建設的全液冷數據中心項目中,液冷散熱的比例已經達到了70%。公司今年1月發布的G5系列伺服器新品支持液冷散熱技術,採用冷板式液冷散熱,可實現數據中心PUE降至1.1,冷板&管路高可靠連接,全管路智能監控,漏液秒級告警。

聯想則從液體溫度著眼,首創海神溫水全水冷技術。不同於常見的45-50攝氏度的技術,聯想通過數據分析,認為進水50攝氏度、出水60攝氏度,可以獲得最佳能耗比。海神溫水全水冷技術實現了伺服器全水冷無風扇設計,支持多類型GPU,散熱效率達98%,甚至可以支持數據中心PUE降至1.1以下。

後摩爾定律時代,晶片的功率越來越高。尤其是大模型帶來的「暴力計算」,例如,用於訓練ChatGPT的英偉達 A100伺服器的最大功耗已達6.5kW。而此前,傳統的伺服器功率400W左右已經算很高。

與此同時,AI產業快速發展,致使算力需求飆升。但受制於建設面積等客觀因素,增加單機櫃功率密度,成為調和快速的算力需求與有限數據中心承載力的共識方案。

伺服器功耗越來越大,溫度越來越高,所占空間越來越小。可以想像一下,一堆愛出汗的人,擠在狹小的屋子。

越來越高的溫度對於伺服器來說是非常大的隱患。

「晶片溫度每升高10度,故障率就會翻倍,壽命也會減半。」徐濤說,所以散熱已經是當前智算面臨的最大問題之一。

但是,風冷已經被逼近甚至突破極限。每機櫃15-25kW的功率密度是「未使用背板換熱器等其他製冷設備」的風冷解決方案上限,僅勉強扛得住2-4個NVIDIA A100。

華為集群計算業務副總裁王振華表示,當晶片的典型功耗超過300W,每平方厘米的功耗超過90W的時候,風冷難以為繼。而當前業界的主流晶片產品,功耗已經超過這個閾值。

「機櫃密度不斷提升,會帶來整個製冷系統的造價成本提升。」曙光數創總裁何繼盛表示,「甚至單機櫃的功率密度達到一定程度,繼續增加投資都不能滿足數據中心的散熱需求。」

另一方面,隨著「碳達峰」、「碳中和」等戰略落地,國家到地方對於PUE明確的「紅線」,成為刺激液冷產業加速更為直接的原因。

4月,多部門發文,2023年6月起數據中心PUE不高於1.4,2025年起數據中心不高於1.3,當前行業平均PUE為1.5。更多的地方政策,則對數據中心提出了更加嚴格的要求。

相比之下,液冷的單位體積的比熱容足有風冷的1000倍以上。(比熱容越大的物質,溫度每上升1攝氏度,所吸收的熱量越多);液冷PUE普遍在1.1,甚至不斷逼近1.0。

新華三已經設計了PUE<1.1更節能的數據中心,並獲得了金融業數據中心UptimeT4認證。2022年5月,新華三推出UniServer R4900LC G5液冷伺服器,支持NVIDIA A100 80GB PCIe液冷式GPU,相比於傳統風冷機型,整機功耗可降低21.3%,全年PUE均值為1.042。

新華三集團液冷伺服器產品經理何偉宇認為,隨著產品的快速疊代,單機櫃功率密度的持續演進,對於數據中心的散熱系統提出了更高的要求,像北上廣深等一線城市對於空間和散熱的需求則更為嚴苛,普通風冷機房的製冷效率已經大大制約了新技術和高算力的演進,這在一定程度上也推動了液冷技術在數據中心的發展和普及。

液冷作為更有效解決數據中心高密度散熱的新興技術,已經成為了行業的共識和確定趨勢。

「去年被業內稱作是數據中心液冷元年,今年已經有越來越多的客戶開始接受液冷方案,液冷在整個市場滲透率有望做到20%-30%。」寧暢總裁秦曉寧曾表示。

行業格局來看,海外液冷廠商具有先發優勢,中國廠商後來居上實現突圍。2015-2018年,中科曙光、華為、聯想、阿里巴巴等一眾國產廠商,先後實現了液冷伺服器大規模商業應用項目的落地,實現彎道超車。

據《中國液冷數據中心發展白皮書》在2020年對於中國液冷數據中心廠商競爭力的研究,基於產品營收、市占率、客戶反饋等指標,中科曙光為市場的絕對領導者,華為、阿里巴巴、聯想緊隨其後。

液冷的「成本帳」

「三年前接到調研任務時,液冷還是'黑科技',但現在已經進入了應用拓展階段。」袁鈺近期表示。

液冷「殺回」數據中心,進入拓展期,重要原因之一就是能算得來成本帳。

液冷技術按照液體與發熱器件的接觸方式,可分為「間接接觸型」和「直接接觸型」兩大類。冷板式液冷是最典型的間接接觸型液冷技術;直接接觸型主要有浸沒式液冷和噴淋式液冷兩種技術,浸沒式液冷最為典型。通俗講,對應就像人降溫措施,冷敷、冷水淋浴或直接泡冷水澡一樣。

浸沒式和噴淋式液冷技術冷卻效果更好,但由於冷板式的伺服器晶片等發熱器件不用直接接觸液體,所以冷板式液冷對現有伺服器晶片組件及附屬部件改動量較小,可操作性更強、目前成熟度最高、應用最廣泛,最重要的是成本更低。

翁建剛表示,測算來看,功率密度到達一定程度,液冷方案相比風冷已具備經濟優勢,3年左右能夠實現投資收益平衡。不僅如此,隨著液冷市場規模的擴大,相關基礎設施成本也將進一步降低。

曙光數創副總裁張鵬近期也表示,伺服器把散熱器去掉,換上冷板,可能成本會有一些上升,但不需要冷機、空調,以及工程上的一些東西,初投資的時候已經省錢。

據招商研報,數據中心TCO(總成本),在不計算伺服器折舊與伺服器運營成本的情況下,當單機櫃功率>15kW時,冷板式液冷TCO優勢明顯,當單機櫃功率>30kW時,浸沒式液冷開始出現優勢。

此外,無論任何一種液冷路線,相較風冷,都已經在節省電和空間上具備成本優勢。

根據開源證券研究所的統計結果,一個數據中心的能耗分布中,散熱系統的占比高達40%。也就是說,數據中心每耗費一度電,只有一半用在了「計算」上,其他的則浪費在了散熱、照明等方面。計算和散熱幾乎陷入了一場零和博弈,計算量越大散熱消耗的電量越大。

華為昇騰AI計算集群也已經採用液冷散熱。液冷方案本就比傳統風冷方案更省電,昇騰採用了直接把冷夜注入每塊晶片的精準供給方式,相比浸沒式,可以降低日常運維的成本。

「精準供給取決於晶片板卡上都設置傳感器、電控閥門,再加上中央控制,可以實現為不同晶片在不同的負荷下,提供精細化冷量輸送。」北京昇騰人工智慧生態創新中心CTO楊光向光錐智能介紹。

阿里雲技術專家王鵬曾表示,如果全國的數據中心都採用浸沒液冷技術,預計到2025年,一年可節省上千億度電。

液冷散熱效果強大,數據中心不用採用疏密手段。尤其是對於一二線的數據中心來說,液冷的空間成本更突出。

徐濤透露,他們有數據中心,因為接了一些AI業務,原來規劃246個機櫃,但現在GPU伺服器增多,為了避免數據中心溫度過高,只能進行疏密,所以一下就砍到了六七十個機櫃。但石景山區的數據中心上了液冷設備空間利用率就會大幅提升,同時可以降低數據中心的PUE,降低能耗水平。

「二三線城市的建築成本為數千元,北京的建築成本為數萬元,空間成本可以說非常高。」徐濤表示,雖然目前液冷單千瓦成本較風冷高,但考慮到空間利用率以及節省的電費,液冷製冷方案,還是值得投入的。

規模擴張還需跨越「百標大戰」

雖然已經初步跨過降本這道欄,接下來液冷擴張卻還要面臨新的問題——「百標大戰」。

以冷板式液冷為例,主要包括機櫃與伺服器,交付方式分為兩種,一體化交付與解耦交付。解耦交付是液冷機櫃與液冷伺服器之間遵循用戶統一制定的接口設計規範,機櫃與伺服器解耦,可由不同廠商交付;一體化交付是液冷整機櫃(包括機櫃和伺服器)由廠商自定標準進行集成設計開發,整機櫃由同一廠商一體化交付。

液冷產業鏈尚不成熟,當前業內尚無伺服器統一接口標準,各廠商產品及配件設計標準各異。兩種交付背後充滿了各方博弈。

對於廠商來說,一體化解決方案的成本一定是更低,開發和交付周期大幅縮短。更重要的是,為了形成客戶壁壘,廠商也多選擇以產品一體化的交付模式為主。這導致各廠商的產品之間兼容性差。

不過,數據中心用戶會對一體化交付充滿顧慮。

一方面,用戶會有遷移需求,比如達成新戰略合作,或者原本就是臨時租用機櫃,以及後續機櫃需要擴容等。如果液冷的設施綁定,遷移成本會增加。另一方面,設備與設施綁定,可能會讓用戶失去議價權。一次性批量採購,設備更新速度快,大機率只能保持固定供應商,如果選擇其他產品,還需要對基礎設施進行改造。

因此,考慮到用戶需求,數據中心不願意接受一體化方案,就會要求設備廠商解耦。畢竟設備廠商目前還處於充分競爭階段,廠商也就不得不解耦交付。

當前超聚變、華為、浪潮、曙光、新華三等主要液冷伺服器廠商皆擁有自己的一體化交付方案與解耦交付方案。

不過,解耦是能解,解耦也可帶來供應商多樣化,有助於控制成本,能夠讓各供應商發揮自身優勢。但是解耦要求甲方協調各個供應商做好對接,過程就會非常耗時耗力。「每一個環節都得多方密切溝通,也得緊盯落實,一旦出現一點差錯,就導致系統性問題。」徐濤說,相對於一體化交付,沒有行業標準,解耦就會變成項目制。

各方拉鋸中,首當其衝的就會是設備廠商。

曙光數創是國內最早布局液冷的企業,液冷基礎設施市占率接近6成。但曙光數創今年年中報顯示,冷板液冷數據中心基礎設施產品,營收收入同比減少42.55%,營收成本同比減少33.63%,毛利率同比減少11.14%。年報中解釋,收入波動的原因是,公司產品是非標準產品,但目前數據中心建設標準各異。

繼而,下游會因為種種問題,猶豫嘗試液冷方案,導致液冷推廣遇阻。

曙光數創也呼籲行業統一標準。張鵬表示,首先如果行業標準對於供水的溫度、溫差、壓力等能夠統一,對液冷成本進一步下降是非常有意義的,也是他們在實際落地中遇到的問題。

不過,行業的標準形成並不會一蹴而就。而徐濤認為,各方博弈的滾動過程,行業的發展難免會有波折很有可能「進三步退一步」。當然,這也是新興技術必然經歷的過程。

華為昇騰已經宣布將會發布業界首個萬卡級的集群,也將配套液冷方案,使用天成平台採用的「液冷+電源+網絡」三條總線的設計思路。

企商在線石景山公共算力中心預計明年8月就交付,雖然還沒有行業標準落實,企商在線則選擇部分高功耗算力採用液冷方式一體化建設,然後直接租算力給客戶。

徐濤表示,後續隨著行業發展一定會有新的方案,考慮到晶片功耗越來越高,風冷能力有限,同時「碳達峰」「碳中和」的要求,液冷作為確定趨勢,當前先做起來比較重要。

文章來源: https://twgreatdaily.com/zh-hk/2427bf3ee24120677019632414a8ce58.html