大數據文摘出品
來源:economist
編譯:張大筆茹、Andy
對於計算工業,其最基本的一個假設是:數字處理會變得越來越便宜。並且根據著名的摩爾定律,可以預測在給定尺寸的晶片其上面能集成的電路個數(差不多相當於算力)通常每兩年會翻一番。
史丹福人工智慧研究所副所長克里斯多福·曼寧表示,對於許多相對簡單的AI應用來言,上述假設意味著訓練成本的降低。但對於有些應用現在卻不是這樣的,特別是因為不斷增加的研究複雜性和競爭性,使得最前沿模型的訓練成本還在不斷上升。
曼寧用BERT模型來舉例,BERT是谷歌在18年提出的AI語言模型,已被用在谷歌搜索中。該模型有超過3.5億個內部參數,而且要大量數據來進行訓練,大概用了33億個大部分來自維基百科的單詞來訓練。接著曼寧說,現在看來維基百科都不是個多大的數據集了。「如果能用300億個單詞訓練一個系統,那它的性能肯定比用30億個單詞訓練的系統要好。」但更多的數據也意味著要用更多算力進行支持。
總部位於加州的OpenAI表示,隨著對機器學習興趣的不斷增加,對算力的需求從12年開始也急劇增加了。到18年,用於訓練大型模型的計算機算力相比之前已增長了30萬倍,並且還每三個半月翻一番(見圖)。比如,為訓練能在DOTA 2中擊敗人類的「OpenAI Five」系統,就幾乎將機器學習訓練擴展到了「前所未有的水平」,差不多用數千塊晶片訓練了十多個月。
關於所有這些訓練成本的確切數字,麻薩諸塞州阿默斯特大學的研究人員在19年發表的一篇論文中進行了估計,例如訓練某個版本的Transformer模型可能就要花費300萬美金。同時Facebook的AI負責人傑羅姆·佩森蒂表示,針對當前最大的模型進行一輪訓練光是電費可能就好幾百萬美金。
雲計算輔助
然而,對於Facebook這樣19年利潤就達185億美元的公司,這點錢不算什麼。但對於那些現金並不充足的公司就有點壓力山大了。著名風險投資公司Andreessen Horowitz (a16z)指出,許多AI初創公司都是從雲計算公司(如亞馬遜和微軟)來租用訓練所需的算力。而因此帶來的費用(有時占收入的25%或更多)也是AI初創公司投資吸引力低於老式軟體公司的原因之一。3月,曼寧博士在史丹福大學的同事們,包括著名的李飛飛,一起呼籲創建美國國家研究雲計算計劃,旨在幫助美國AI研究人員應對不斷增長的訓練費用。
對算力日益增長的需求同時也推動了晶片設計和AI專用計算設備的蓬勃發展。專用晶片的第一波浪潮是GPU的出現,其在90年代設計出來就是為了用於增強視頻遊戲圖形處理。而非常巧的是,GPU也非常適合現在AI應用中的數學計算。
相比起GPU現在還有更專業的晶片,各個公司也正在致力於研究這些晶片。去年12月,英特爾就以20億美元的價格收購了以色列公司Habana Labs;而成立於16年的英國公司Graphcore在2019年的估值為20億美元;最大的GPU製造商Nvidia等公司已對其晶片進行了重新設計來適應AI的計算需求;Google內部設計了自己的「張量處理單元」(TPU)晶片;而中國科技巨頭百度也已用上了自己的「崑崙」晶片。畢馬威的阿方索·馬龍認為,專用AI晶片的市場價值已達約100億美元的規模,而到2025年預估能達到800億美元。
Graphcore的創始人之一奈傑爾·圖恩表示:「計算機體系結構需要適應現在訓練處理數據的方式。」 對於AI運算其最基礎的特徵可以說就是「並行」,即將運算切分為很多小塊同時進行運算。例如,Graphcore的晶片有1,200多個單獨的數字運算核,能連接在一起提供更多的算力。而加州的創業公司Cerebras採取了更極端的方法,每個晶片占用了整張矽片,每張矽片上能放置40萬左右個核。
除了並行,其他優化也很重要。Cerebras的創始人之一安德魯·費爾德曼指出,AI模型花費了大量時間來進行乘零操作。而因為這些計算結果總時零,所以其實很多都是不必要的,所以Cerebras的晶片就儘量避免執行這些運算。同時,Graphcore的Toon先生說,與許多任務不同,現在AI並不需要超精確的計算。這也意味著晶片設計人員能通過減少運算所需的精度來節省能耗。(而計算精度到底能降到什麼程度仍是個開放性問題。)
之後所有這些因素都能綜合起來獲得更大提升。Toon就認為Graphcore當前的晶片效率是GPU的10到50倍。
現在類似的創新變得越來越重要,因為對算力需求激增正趕上摩爾定律逐漸失效的時候。現在縮小晶片變得越來越困難,而且帶來的收益也越來越小。去年,Nvidia的創始人黃仁勛直言不諱地說:「摩爾定律失效了」。
量子解決方案和神經形態方案
因此,現在研究人員還在尋找更多的解決方法。其中一種是量子計算,利用量子力學的反直覺特性為某些類型的計算進行大幅提速。關於機器學習的一種思考角度是將它看作是一個優化問題,而計算機試圖在數百萬個變量中進行權衡從而求出儘可能最小值。微軟量子系統部門負責人Krysta Svore說,一種稱為格羅弗算法的量子計算技術具有巨大的提速潛力。
另一種想法是從生物學中獲得啟發,認為當前的蠻力方法並不是唯一的方法。當Cerebras的晶片運行起來,功耗大約為15kw,足以為數十座房屋供電(相同數量GPU能耗更多)。而相比起來,人腦消耗能量就只有大概20w,只有前者的千分之一,而人腦在許多方面都比矽晶片更聰明。因此,英特爾和IBM等公司正在研究「神經形態」晶片,希望設計出更能模仿生物大腦神經元電行為的組件。
但到目前為止,這兩條路都還很遙遠。量子計算機在理論上相對容易理解些,但儘管有谷歌,微軟和IBM等技術巨頭投入數十億美元,實際搭建卻仍是個巨大挑戰。而神經形態晶片雖然是用現有技術構建的,但讓設計人員很氣餒的是,就連神經科學家都還不怎麼了解大腦究竟在做什麼以及怎麼做到的。
這意味著,在可預見的未來,AI研究人員將不得不繼續儘可能地壓榨現有計算技術性能。而Toon先生對此還是很樂觀的,他認為通過更專業硬體以及調整現有軟體讓訓練更快,也還是能帶來很大收益。為了說明這個新領域的發展,他用電子遊戲打了個比方:「現在我們已超越了乓(Pong),可能到了吃豆人。」
沒有錢來進行訓練的窮煉丹師們理所當然地希望他說的是對的。
相關報道:
https://www.economist.com/technology-quarterly/2020/06/11/the-cost-of-training-machines-is-becoming-a-problem
文章來源: https://twgreatdaily.com/dQsjD3MBnkjnB-0zFFBS.html