FB最大模型訓練一輪電費就好幾百萬，機器學習的訓練成本難題

大數據文摘出品

來源：economist

編譯：張大筆茹、Andy

對於計算工業，其最基本的一個假設是：數字處理會變得越來越便宜。並且根據著名的摩爾定律，可以預測在給定尺寸的晶片其上面能集成的電路個數（差不多相當於算力）通常每兩年會翻一番。

史丹福人工智慧研究所副所長克里斯多福·曼寧表示，對於許多相對簡單的AI應用來言，上述假設意味著訓練成本的降低。但對於有些應用現在卻不是這樣的，特別是因為不斷增加的研究複雜性和競爭性，使得最前沿模型的訓練成本還在不斷上升。

曼寧用BERT模型來舉例，BERT是谷歌在18年提出的AI語言模型，已被用在谷歌搜索中。該模型有超過3.5億個內部參數，而且要大量數據來進行訓練，大概用了33億個大部分來自維基百科的單詞來訓練。接著曼寧說，現在看來維基百科都不是個多大的數據集了。「如果能用300億個單詞訓練一個系統，那它的性能肯定比用30億個單詞訓練的系統要好。」但更多的數據也意味著要用更多算力進行支持。

總部位於加州的OpenAI表示，隨著對機器學習興趣的不斷增加，對算力的需求從12年開始也急劇增加了。到18年，用於訓練大型模型的計算機算力相比之前已增長了30萬倍，並且還每三個半月翻一番（見圖）。比如，為訓練能在DOTA 2中擊敗人類的「OpenAI Five」系統，就幾乎將機器學習訓練擴展到了「前所未有的水平」，差不多用數千塊晶片訓練了十多個月。

關於所有這些訓練成本的確切數字，麻薩諸塞州阿默斯特大學的研究人員在19年發表的一篇論文中進行了估計，例如訓練某個版本的Transformer模型可能就要花費300萬美金。同時Facebook的AI負責人傑羅姆·佩森蒂表示，針對當前最大的模型進行一輪訓練光是電費可能就好幾百萬美金。

雲計算輔助

然而，對於Facebook這樣19年利潤就達185億美元的公司，這點錢不算什麼。但對於那些現金並不充足的公司就有點壓力山大了。著名風險投資公司Andreessen Horowitz (a16z)指出，許多AI初創公司都是從雲計算公司（如亞馬遜和微軟）來租用訓練所需的算力。而因此帶來的費用（有時占收入的25％或更多）也是AI初創公司投資吸引力低於老式軟體公司的原因之一。3月，曼寧博士在史丹福大學的同事們，包括著名的李飛飛，一起呼籲創建美國國家研究雲計算計劃，旨在幫助美國AI研究人員應對不斷增長的訓練費用。

對算力日益增長的需求同時也推動了晶片設計和AI專用計算設備的蓬勃發展。專用晶片的第一波浪潮是GPU的出現，其在90年代設計出來就是為了用於增強視頻遊戲圖形處理。而非常巧的是，GPU也非常適合現在AI應用中的數學計算。

相比起GPU現在還有更專業的晶片，各個公司也正在致力於研究這些晶片。去年12月，英特爾就以20億美元的價格收購了以色列公司Habana Labs；而成立於16年的英國公司Graphcore在2019年的估值為20億美元；最大的GPU製造商Nvidia等公司已對其晶片進行了重新設計來適應AI的計算需求；Google內部設計了自己的「張量處理單元」（TPU）晶片；而中國科技巨頭百度也已用上了自己的「崑崙」晶片。畢馬威的阿方索·馬龍認為，專用AI晶片的市場價值已達約100億美元的規模，而到2025年預估能達到800億美元。

Graphcore的創始人之一奈傑爾·圖恩表示：「計算機體系結構需要適應現在訓練處理數據的方式。」 對於AI運算其最基礎的特徵可以說就是「並行」，即將運算切分為很多小塊同時進行運算。例如，Graphcore的晶片有1,200多個單獨的數字運算核，能連接在一起提供更多的算力。而加州的創業公司Cerebras採取了更極端的方法，每個晶片占用了整張矽片，每張矽片上能放置40萬左右個核。

除了並行，其他優化也很重要。Cerebras的創始人之一安德魯·費爾德曼指出，AI模型花費了大量時間來進行乘零操作。而因為這些計算結果總時零，所以其實很多都是不必要的，所以Cerebras的晶片就儘量避免執行這些運算。同時，Graphcore的Toon先生說，與許多任務不同，現在AI並不需要超精確的計算。這也意味著晶片設計人員能通過減少運算所需的精度來節省能耗。（而計算精度到底能降到什麼程度仍是個開放性問題。）

之後所有這些因素都能綜合起來獲得更大提升。Toon就認為Graphcore當前的晶片效率是GPU的10到50倍。

現在類似的創新變得越來越重要，因為對算力需求激增正趕上摩爾定律逐漸失效的時候。現在縮小晶片變得越來越困難，而且帶來的收益也越來越小。去年，Nvidia的創始人黃仁勛直言不諱地說：「摩爾定律失效了」。

量子解決方案和神經形態方案

因此，現在研究人員還在尋找更多的解決方法。其中一種是量子計算，利用量子力學的反直覺特性為某些類型的計算進行大幅提速。關於機器學習的一種思考角度是將它看作是一個優化問題，而計算機試圖在數百萬個變量中進行權衡從而求出儘可能最小值。微軟量子系統部門負責人Krysta Svore說，一種稱為格羅弗算法的量子計算技術具有巨大的提速潛力。

另一種想法是從生物學中獲得啟發，認為當前的蠻力方法並不是唯一的方法。當Cerebras的晶片運行起來，功耗大約為15kw，足以為數十座房屋供電（相同數量GPU能耗更多）。而相比起來，人腦消耗能量就只有大概20w，只有前者的千分之一，而人腦在許多方面都比矽晶片更聰明。因此，英特爾和IBM等公司正在研究「神經形態」晶片，希望設計出更能模仿生物大腦神經元電行為的組件。

但到目前為止，這兩條路都還很遙遠。量子計算機在理論上相對容易理解些，但儘管有谷歌，微軟和IBM等技術巨頭投入數十億美元，實際搭建卻仍是個巨大挑戰。而神經形態晶片雖然是用現有技術構建的，但讓設計人員很氣餒的是，就連神經科學家都還不怎麼了解大腦究竟在做什麼以及怎麼做到的。

這意味著，在可預見的未來，AI研究人員將不得不繼續儘可能地壓榨現有計算技術性能。而Toon先生對此還是很樂觀的，他認為通過更專業硬體以及調整現有軟體讓訓練更快，也還是能帶來很大收益。為了說明這個新領域的發展，他用電子遊戲打了個比方：「現在我們已超越了乓（Pong），可能到了吃豆人。」

沒有錢來進行訓練的窮煉丹師們理所當然地希望他說的是對的。

相關報道：

https://www.economist.com/technology-quarterly/2020/06/11/the-cost-of-training-machines-is-becoming-a-problem

FB最大模型訓練一輪電費就好幾百萬，機器學習的訓練成本難題

等等，那頭豬還不想被吃！這個系統能讀懂豬的6種情緒，讀圖3780張，成功率85%

感受百年前五四運動的青年力量！用AI上色黑白影像，網友：感受到了覺醒與抗爭

從抖音起名說起，位元組跳動解密數據驅動的正確打開方式

中科院博論致謝登上熱搜：計算機終成一生事業與希望！網友：他把自己活成了光

你的每個哈欠老闆都知道！被AI攝像頭全天盯緊，亞馬遜快遞小哥不幹了

這個無人機會射箭！80多次反覆測試，精度±10cm，主要用於發送傳感器到危險區

SpaceX工程師在「暗網」用股票內幕消息換比特幣，獲利27000美元，已被起訴

數據時代的產品經理，通過這些能力站上C位！

疫苗亂局，拜登被驚動！創造谷歌微軟的美國，卻建不出一個靠譜的疫苗預約網站

矽谷公司公開存儲密碼，使15萬攝像頭被入侵！中槍的特斯拉：已停止攝像頭聯網

全球首台，基於5G的遠程紋身機問世！光學跟蹤結合C++，英國極客耗時6周打造

恢復哆啦A夢聽覺！實裝蝗蟲耳朵，生物機器人可以聽到聲音，還能區分和響應

用佳能單反運行我的世界伺服器，Reddit點贊37.4K，本人：相機可能變板磚

上交友軟體先測謊？日本大學生開發匹配模型，60個問題綜評價值觀，精度達75%

黑吃黑？俄羅斯四大黑客論壇相繼遭黑客攻擊，網友：小丑竟是我自己

女子被困浴室超30小時，危急情況AI能否救人於水火？

100美元賭你用這根撞球杆還能不進球！百發百中系列更新，網友：我沒進化完全

從簡筆畫到數據科學，Kaggle冰川圖像分類比賽如何征服「輪船剋星」

幫紐約警察營救人質！被征警的波士頓動力狗，會成為沒有感情的「監視工具」嗎

萬物數字化的時代，開發者的「變」與「不變」

一文帶你重溫去年最難忘的10個數據泄露事件

數據解讀「特殊」春運：「返鄉過年」人數同比降五成，這些人成今年春運主力

貝佐斯卸任亞馬遜CEO，安迪·賈西接任，卸任後將更多關注基金會和航天事業

睫毛長度精準復刻！掃描面部數據，用特殊技術和3D列印製作人臉，畫皮直呼內行