要問今年最大的熱點是什麼?AI說第二,沒人敢說自己是第一,這年頭誰若是沒用過ChatGPT提升下自己的生產力,都不敢稱自己是合格的打工人。
不僅是個人的日常工作,生成式AI更是為許多行業帶來了突破性的變革,近年來其使用量呈指數級增長。因此,全球領先的科技公司如OpenAI、微軟、谷歌和亞馬遜,正在乘勢加速推動AI的發展。
然而,AI盛世之下卻埋藏能源危機:AI使用量的爆髮式增長,帶來了驚人的耗電量,這些公司以及所在國家的碳凈零目標面臨著巨大挑戰。
為了給AI數據中心提供清潔的電力能源,巨頭公司紛紛出手:
- 亞馬遜已成為全球最大的可再生能源購買者;
- 谷歌也已簽署了史上最大的可再生能源協議;
- 微軟正尋求開發自己的核電站;
但許多人認為這些還遠遠不夠......
國際能源署(IEA):全球數據中心的耗電量到2026年將達到1,000TWh。AI帶來的數據中心耗電量增長速度正超過全球可再生能源容量的增長速度,然而許多西方國家正規劃的法規將限制額外的可再生能源容量建設。
彭博社(Bloomberg):到2030年,AI造成的耗電量將超過全球除12個國家以外的所有耗電量 。
因此,為儘可能地減少耗電量,提升用電效率成為了的重要切入點。在整個數據中心系統中,處理器、冷卻系統和電源分別是三個最大耗電點。
將目光聚焦到其中之一的電源,業里制定了一些電源效率規範,其中著名的是80 PLUS。這個標準雖然是自願性的,然而,80 PLUS中的鈦金級效率標準已被歐盟採納,作為其生態設計標準,並強制要求在歐盟運營的AI數據中心採用符合此效率標準的電源。鈦金級標準規定電源(PSU)的效率為96%。
AI數據中心耗電量的持續增長,要求使用CRPS或OCP這種固定標準外形電源具備更高的功率密度。
採用CRPS和OCP固定標準外形的伺服器電源
目前,矽還是電源里主要的半導體材料,但下一代AI所需電源的性能和效率要求正逐步超出矽的性能極限。因此,電源行業將目光逐漸轉到寬禁帶材料上:如碳化矽(SiC)和氮化鎵(GaN),以儘可能有效地滿足運算需求。
AI數據中心究竟會有多耗電?
在解答這個問題之前,我們先了解下當下的情況:
由於AI的增長,數據中心的耗電量正在迅速上升:
國際能源署(IEA):僅在2022年,全球數據中心就消耗了大約460TWh的電力,約占全球發電量的2%。在美國,2023年度的數據中心耗電量占全美的3%。
如前面所提到的,增長的耗電量對國家/公司的碳凈零目標帶來挑戰,一些地區/國家正在對新開發項目實施更嚴格的規劃限制。因此,許多公司正在尋找替代能源,包括對可再生能源的投資和建設小型核設施來為他們的AI數據中心供電。
儘管AI還未進入大規模應用,但數據中心電力消耗的大幅增長已是大勢所趨,同時每年的能效提升率也不容樂觀:已從2016年的約18%放緩至2023年的約1%。
來自高盛的報告,數據中心耗電量由於AI使用率提升而增加,但能效提升率放緩
放眼未來,數據中心耗電量即將迎來爆發增長已經成為了全球共識。
國際能源署(IEA):到2026年,全球數據中心的耗電量可能超過1000TWh。而四年後僅美國的數據中心耗電量就能達到這個數字;
高盛(Goldman Sachs):在2020-2030的十年間,數據中心的電力消耗將增加超過兩倍,達到約8%,並將電力需求的加速增長主要歸因於AI。
瑞典預計到2030年,由於AI的影響,數據中心的耗電量將翻倍,並在2040年再次翻倍。在英國,預計未來十年內,AI數據中心的耗電量將增長超過5倍。
彭博社(Bloomberg):目前全球正在建設或已經建成的數據中心超過7000個,這一數字在2015年僅為3600。到2034年,全球數據中心的耗電量將大致與整個印度的耗電量相當。
AI數據中心耗電量增長也源於用戶逐漸轉向使用生成式AI搜尋引擎,與傳統谷歌搜索相比,ChatGPT的耗電量在前者的6到10倍之間。
當合其他預計在2022年到2030年間,美國電力需求的復合年增長率(CAGR)為2.4%。根據高盛(Goldman Sachs)的一份報告顯示,AI數據中心的耗電量增長將是所有在追蹤行業中最高的,貢獻了0.9個百分點(占總增長的38%),這比其他兩個最大的耗電量增長領域:住宅(0.6個百分點)和交通(0.6個百分點)多出50%。
來自高盛的報告,AI數據中心耗電量為所有行業最高
AI晶片及其功耗的演進
AI數據中心為什麼這麼耗電?AI晶片日益恐怖的算力可謂是當之無愧的主要原因。為了讓大家更好了解到算力和耗電量之間的關係,我們決定為大家梳理下AI晶片的進化史:
AI晶片早期發展——2015年之前
在AI發展的早期,運算都是在標準GPU上進行的,而不是專用GPU硬體。典型的例子:
AMD FirePro S9150:於2014年推出,在發布時被稱為「HPC(高性能計算)最強大的伺服器GPU」,可提供5.07萬億次浮點運算能力,功耗為235W
NVIDIA CUDA支持型Tesla K80:於2014年推出,用於深度學習,可提供8.73萬億次浮點運算能力,功耗為300W
AI進化期——2015-2019
這一時期在推進機器學習和人工智慧應用方面奠定了基礎,專門為AI開發了處理器。例子包括:
NVIDIA Tesla v100:於2017年推出,可提供125萬億次浮點運算能力,功耗為300W
Google Tensor處理單元v3:於2018年推出,可提供高達420萬億次浮點運算能力,功耗大約450W
Inte Nervana NNP:於2019年推出,是一種神經網絡處理器,是Intel在2016年以4億美元收購Nervana後開發的,可提供119萬億次浮點運算能力,採用了優秀的散熱設計以將功耗降低至大約200W
AI突破期——2020年至今
運算能力的顯著提升,例如:
AMD MI200系列:於2021年推出,可提供383萬億次浮點運算能力,功耗為500W
Google TPU v4:於2021年推出,可提供275萬億次浮點運算能力,根據不同配置,功耗在200-250W之間
然而,英偉達無疑是最著名的AI處理器製造商,這家晶片製造商的股價在2024年上半年翻了一番,截至2024年6月英偉達成為了世界上最有價值的公司,並且其伺服器系統規格的最新發展表明,每個伺服器的最大功耗在增加,但每萬億次浮點運算的功耗在降低。
英偉達DGX H100(Grace Hopper)能在每萬億次浮點運算0.32kW的功率下運行,相較上一代(DGX A100)能夠實現7倍的計算速度,但僅消耗其1.5倍的電力。近期宣布的英偉達Rubin的具體規格尚未公布,但其Blackwell DGX B200伺服器系統將在Grace Hopper的基礎上進一步提升,實現72萬億次浮點運算,但每萬億次浮點運算的功耗僅為0.2kW。然而,這仍然使每個伺服器系統的功耗增加了40%,從Grace Hopper的每個700W,到Blackwell的1000W,意味著電源亟需進一步的升級疊代。
為應對AI帶來的耗電量激增問題,數據中心電源的升級是解決這一能源危機的重要突破口。今天我們就來深入了解數據中心所用的電源規格、主流標準,並談談為什麼第三代功率半導體——GaN和SiC是電源進化的關鍵。
數據中心在用什麼電源?
人工智慧和超大規模計算數據中心的電源有三種外形規格:
通用冗餘電源的CRPS185、CRPS265,開放計算項目的OCP
寬度和高度尺寸相同:73.5mm x 40mm
長度不同:
- CRPS185 = 185mm
- CRPS265 = 265mm
- OCP電源長度可長達700mm
這些規格由包括戴爾、Facebook/Meta、Google、Intel和Microsoft在內的超大規模開放計算項目成員開發和定義。基於共同的標準,行業能夠最大化兼容性,因此可進一步簡化升級難度。
CRPS電源(左)和OCP電源(右)
每個CRPS185電源尺寸都是固定的為40 x 73.5 x 185mm。因此,AI伺服器功率需求的增加就需要從功率密度下手。除了增加功率密度外,CRPS外形規格的發展路線圖還強調了提高效率、可靠性和管理性的需要。
CRPS外形規格電源的電路圖
功率密度的提高會帶來多重挑戰,比如電源需要更強的熱管理,這增加了成本。
功率密度的增加的同時,提高電源的轉換效率,可以減少了對熱管理的需求。功率密度的提升可以通過提高開關頻率來實現,但目前的功率密度已經達到了傳統矽的物理性能極限。在高密度CRPS應用中,只有用氮化鎵(GaN)器件替換矽MOSFET才能更高的開關頻率,並允許使用平面變壓器。
然而,分立的氮化鎵場效應電晶體(FET)的柵極相對脆弱,容易造成橋臂上下管之間存在直通風險,因此使用GaN FET的解決方案可能會產生風險,而通過在與氮化鎵FET相同的晶片上集成氮化鎵柵極驅動電路可以很好解決這些問題。
採用了納微GaNSafe和GeneSiC器件的
AI數據中心CRPS電源電路圖
80Plus電源標準
為了儘可能地減小電源損耗,行業已經建立了多種標準。其中電源(PSU)領域的關鍵標準是80 PLUS認證。
80 PLUS認證
80 PLUS認證是一個針對PSU製造商的自願性計劃,旨在鼓勵製造商生產更高效的電源產品。
在最基本的層面上,它規定PSU在20%、50%和100%負載下,輸入230V時,最低效率為80%。自2004年創立以來,隨著技術的發展,又增加了五個額外的效率級別,以進一步提高PSU的效率。對於伺服器電源,這些級別包括銅牌、銀牌、金牌、白金牌和鈦金牌,而歐盟對伺服器電源的供應商的每個80 PLUS級別有更高的效率要求。自2012年以來,最高標準一直是鈦金級鈦金牌。
80 PLUS鈦金
80 PLUS鈦金標準要求,在輸入230Vac時,PSU在10%負載下效率為90%,20%負載下效率為94%,在50%負載下為96%,在100%負載下為91%。
雖然歐盟並沒有官方強制執行這一標準,但它已經將其生態設計指令與80 PLUS認證標準對齊,包括AI數據中心,法律上要求他們在歐盟領土內運營時,遵守這些生態設計指令。
超越鈦金
行業普遍認為,未來AI數據中心的電源(PSU)將需要符合下一代80 PLUS認證標準。
因此,我們預期在AI數據中心的電源,將被要求在50%負載下的效率超過97%,同時還需對功率密度、峰值功率和保持時間進行增進。
80Plus電源標準將會愈發嚴苛
矽 VS 寬禁帶半導體
誰才是打造數據中心電源的頂流?
矽
數據中心伺服器電源最常用的拓撲結構基於矽MOSFET打造,並具有升壓功率因數校正(PFC)拓撲,隨後是LLC諧振轉換器。
與AI負載一同不斷增長的功率需求,AI數據中心電源功率密度越來越高,對應的開關頻率將需要進一步增加以減小無源器件包括磁件和電容的體積。
傳統矽器件在高開關頻率下表現出急劇增大的開關損耗,無法滿足效率和熱管理要求,這意味著傳統矽器件在高功率密度AI數據中心電源方面的性能已達到極限。
寬禁帶半導體在電源中的應用
禁帶是電子從其圍繞核的軌道釋放出來所需的能量。這直接決定了給定材料可承受的電場強度,更寬的禁帶可以開發具有非常短或狹窄耗盡區的半導體材料。
這使得器件結構具有非常高的載流子密度,使得電晶體更小,電流路徑更短,具有超低電阻和電容,以及比傳統矽基半導體高几個數量級的開關速度。
禁帶以eV為單位,其中矽的禁帶為1.12 eV。
碳化矽
碳化矽(SiC)是一種以高熱導率、高電場擊穿強度和出色的熱穩定性的卓越性能而聞名的化合物半導體,其禁帶為2.26 eV。基於SiC打造的器件與矽基同類產品相比,可更高的溫度和電壓下運行,從而實現更高效的功率轉換並減少能量損失。
SiC MOSFET和二極體能夠實現更快的開關速度和更低的功率損耗,並提高系統的整體效率。儘管它們的物理和開關特性使它們更適合電動汽車、工業和可再生能源領域,但納微通過將GeneSiC功率器件以及氮化鎵(GaN)功率晶片混合設計出的CRPS伺服器電源參考設計,顯著地提升了功率密度和效率。
氮化鎵
氮化鎵(GaN)具有3.39 eV的禁帶和高電子遷移率,使得器件擁有更高的開關頻率,並支持平面變壓器的使用。
如前面所述,分立的GaN FETs具有相對脆弱的柵極,對於電源來說,為了防止臂上下管之間的直通,需要在與GaN FET相同的晶片上使用單片集成的GaN柵極驅動電路。
納微的GaNSafe具有高速保護功能,可在50ns實現超快的自主「檢測到保護」,還具有2kV ESD功能。為防護異常的應用條件,GaNSafe還具有650V的連續和800V的瞬態電壓等級。
GaN+SiC打造全球最高功率密度伺服器電源
GaN和SiC的功率器件已經成功應用於CRPS外形規格的電源。比如納微打造的3.2kW CRPS平台。
值得一提的是,納微在2024年用GaNSafe和GeneSiC系列產品,發布了一款專屬AI數據中心的伺服器電源參考設計。這款54V AC-DC的AI數據中心伺服器電源,基於CRPS185外形規格打造,與納微此前發布的3.2kW CRPS電源相比,在相同尺寸下,具有4.5kW的輸出功率,效率增至97%以上,功率密度從98W/in³增加到138W/in³。
納微CRPS185 4.2kW電源技術詳解
總結
在生成式AI全面鋪開的前夜,數據中心的能源危機悄然而至。數據中心的耗電量的爆炸式增長,無論對其自身的發展或是碳凈零的目標達成,都將帶來嚴峻的挑戰。如何成功突破能源困局,成為了數據中心的首要任務。
數據中心常用的CRPS和OCP固定外形電源,亟需在功率密度上大做文章,而現有的矽材料已經達到了物理極限,接力棒已經交到了下一代功率半導體——氮化鎵和碳化矽手中。
由於氮化鎵和碳化矽這兩種第三代功率半導體,其寬禁帶特性可帶來更高的開關頻率、更出色的熱穩定性等性能優勢,可助力伺服器電源向更高效、更高功率密度和更低損耗的邁進。