AI大模型在2030年會是什麼樣子?

2023-08-28     AI狐頭條

原標題:AI大模型在2030年會是什麼樣子?

原創 | 阿爾法工場

導語:一個比人類速度快5倍的模型可以通過設置將速度提高到比人類速度快125倍。

本文作者為加州伯克利分校助理教授Jacob Steinhardt。

GPT-4以其在編碼、創意頭腦風暴、寫信和其他技能方面的能力,讓許多人感到驚訝。機器學習領域的驚喜並不僅限於GPT-4:我之前也因Minerva在數學能力方面的表現感到驚訝,很多競爭性預測者也是如此。

我們如何能夠對機器學習的發展有更少的驚訝?我們的大腦通常會隱式地進行零階預測:查看當前的技術水平,並添加「似乎合理」的改進。但是,所謂的「似乎合理」容易受到認知偏見的影響,並且會低估像機器學習這樣快速發展領域的進展。

一種更有效的方法是一階預測:量化歷史進展速度,並將其向前推演,同時考慮可能出現的放緩或加速原因。

在這篇文章中,我將使用這種方法來預測2030年大型預訓練機器學習系統的特性。我將一直提到「GPT2030」,這是一個假設性的系統,具有我們預期在2030年大型語言模型中可能具備的能力、計算資源和推理速度(但很可能也會在其他形式上進行訓練,比如圖像)。

為了預測GPT2030的特性,我參考了多種信息源,包括經驗性的縮放規律、未來計算和數據可用性的預測、特定基準測試中改進的速度、當前系統經驗性的推理速度,以及可能的並行性改進。

GPT2030的能力事實上是令人驚訝的(至少對我來說是如此)。特別是,相較於當前的系統,GPT2030將在許多方面擁有顯著的優勢,甚至在某些重要方面優於當前的人類工作者:

GPT2030可能在多個具體任務上表現出超越人類的能力,包括編碼、黑客攻擊、數學,甚至可能包括蛋白質設計(第1節)。

GPT2030能夠快速「工作」和「思考」:我估計它每分鐘處理的文字數量將是人類的5倍,以此作為衡量標準[範圍:0.5倍-20倍],通過支付每FLOP的費用提高5倍,這個速度可能增加到125倍(第2節)。

GPT2030可以任意複製並進行並行運算。訓練GPT2030的組織將擁有足夠的計算能力來運行許多並行副本:我估計足以在調整為人類工作速度時執行180萬年的工作[範圍:40萬-1000萬年](第3節)。考慮到前面提到的5倍加速,這項工作可以在2.4個月內完成。

由於具有相同的模型權重,GPT2030的副本可以共享知識,從而實現快速的並行學習:我估計相當於2500年人類學習的內容可以在1天內完成(第4節)。

GPT2030將在除文本和圖像之外的其他形式上進行訓練,可能包括分子結構、網絡流量、低級機器代碼、天文圖像和腦部掃描等令人意想不到的形式。因此,在我們經驗有限的領域中,它可能會具有強大的直觀理解能力,包括形成我們尚未具備的概念(第5節)。

這些能力將至少加速許多研究領域,同時也會產生嚴重的濫用風險(第6節)。關於濫用,GPT2030的編程能力、並行化和速度將使其成為潛在的網絡攻擊威脅。此外,它快速的並行學習也可以用於分析人類行為,從而用幾千個「年份」的實踐來操縱和誤導。

在加速方面,主要的瓶頸將是自主性。在像數學研究這樣的領域,可以進行自動檢查的工作,我預測GPT2030將超過大多數專業數學家。

在機器學習領域,我預測GPT2030將獨立執行實驗、生成圖表和報告,但研究生和研究科學家將提供方向並評估結果。在這兩種情況下,GPT2030將是研究過程的重要組成部分。

我對GPT2030性能的預測並不是從今天的系統中直觀得出的,它們可能是錯誤的,因為關於2023年機器學習的形態存在很大的不確定性。然而,上述(1.-5.)的性能是我中位數的預測,無論GPT2030是什麼樣子,我都懷疑它不會是「只是比GPT-4好一點」。

如果我是對的,那麼無論人工智慧的影響是什麼,它們都不會是微不足道的。我們應該現在就為這些影響做好準備,思考在最大的尺度上會發生什麼(大約在1萬億美元、1000萬人生命或對社會流程的重大幹擾範圍內)。現在被驚訝總比在7年後系統已經開始推出時被驚訝要好。

具體能力

我預計GPT2030將具備超越人類的編碼、黑客攻擊和數學能力。我還預計它在閱讀和處理大規模語料庫以尋找模式和洞見、以及回憶事實方面將具備超人能力。

最後,由於AlphaFold和AlphaZero在蛋白質結構預測和遊戲玩法方面具備超人能力,GPT2030可能也會具備這些能力,例如,如果它在類似於AlphaFold/AlphaZero模型的數據上進行了多模態訓練。

編程。在訓練截止日期後,GPT-4在LeetCode問題上超越了強大的人類基準(Bubeck等,2023年,表2),並且通過了幾家主要科技公司的模擬面試(圖1.5)。改進的速度仍然很高,從GPT-3到4的躍升達到了19%。在更具挑戰性的CodeForces比賽中,GPT-4表現不佳,但AlphaCode與中位數CodeForces競爭者持平。在更具挑戰性的APPS數據集上,Parsel進一步超越了AlphaCode(7.8%->25.5%)。

展望未來,預測平台Metaculus在2027年預測了80%的中位數機率,這將超過所有除了最優秀的人類之外的所有人。

黑客攻擊。我預計黑客攻擊能力會隨著一般編程能力的提高而改進,再加上機器學習模型可以比人類更可擴展且更有責任感地搜索大規模代碼庫中的漏洞。事實上,ChatGPT已經被用於幫助生成漏洞利用。

數學。Minerva在競賽數學基準(MATH)上實現了50%的準確率,這比大多數人類競爭者表現要好。進展速度很快(1年內>30%),並且通過自動形式化、減少算術錯誤、改進思路鏈條以及改善數據等,存在顯著的低懸果實。Metaculus預測到2025年MATH將達到92%的準確率,並在2028年前,預測人工智慧在國際數學奧林匹克競賽上獲得金牌,與全球最優秀的高中學生水平持平。

我個人預計GPT2030在證明良好定理方面將優於大多數專業數學家。

信息處理。事實回憶和處理大規模語料庫是語言模型記憶能力和大上下文窗口的自然結果。根據經驗,GPT-4在廣泛的標準化考試(包括法律考試、MCAT以及大學數學、物理、生物化學和哲學考試)中的準確率達到86%;即使考慮到可能的訓練-測試污染,這可能超過了任何活著的人的知識廣度。

關於大規模語料庫,Zhong等(2023年)使用GPT-3構建了一個系統,在大型文本數據集中發現和描述了幾個先前未知的模式,Bills等(2023年)中的相關任務的規模趨勢表明,模型很快將具備超人能力。這些作品都利用了LLM(大型語言模型)的大上下文窗口,現在已超過10萬個標記並在不斷增長。

更一般地說,機器學習模型具有與人類不同的技能特點,因為人類和機器學習是針對非常不同的數據源(演化與大規模網際網路數據)。當模型在視頻識別等任務上達到人類水平時,它們可能在許多其他任務上也具備超人能力(如數學、編程和黑客攻擊)。

此外,由於模型越來越大且數據越來越好,還可能會出現其他強大的能力,沒有強有力的理由認為模型能力會在人類水平上或以下「停滯不前」。雖然當前的深度學習方法在某些領域可能達不到人類水平的能力,但也有可能在某些領域超越它們,甚至可能會在某些領域顯著超越,特別是在人類沒有進化專門化的數學等領域。

推理速度

(感謝Lev McKinney為本節運行性能基準測試。)

為了研究機器學習模型的速度,我們將衡量機器學習模型生成文本的速度,與人類的思考速度相比為每分鐘380個單詞(Korba(2016),詳見附錄A)。使用OpenAI的聊天補全API,我們估計gpt-3.5-turbo每分鐘可以生成1200個單詞(wpm),而gpt-4截至2023年4月初每分鐘生成370個單詞。像pythia-12b這樣的較小的開源模型,在A100 GPU上使用現成的工具至少可以實現1350 wpm,而通過進一步優化,這個速度可能會達到這個值的兩倍。

因此,如果我們考慮到2023年4月的OpenAI模型,我們要麼大約是人類速度的3倍,要麼等於人類速度。我預測未來模型的推理速度會更快,因為有強烈的商業和實際壓力促使推理速度加快。

實際上,在發布本文的前一周,根據Fabien Roger的追蹤數據,GPT-4的速度已經提高到了約540wpm(每秒12個標記);這說明仍然有改進的空間和需求。

我的中位數預測是,模型將具有人類文字/分鐘的5倍(範圍:[0.5x,20x]),因為在進一步提高速度方面,可能會出現遞減的實際效益,儘管有一些因素可能指向更高或更低的數字。我在附錄A中提供了這些考慮的詳細列表,以及在不同模型規模和實驗細節中的速度比較。

重要的是,機器學習模型的速度並不是固定的。模型的串行推理速度可以通過成本為$k$的吞吐量$k^2$的$k$倍減少來增加(換句話說,可以用一個$k^2$倍更快的模型替換$k^3$個並行模型)。這可以通過並行平鋪方案來實現,即使對於$k^2$的大值,理論上也可以運行,可能至少是100,甚至可能更多。

因此,一個比人類速度快5倍的模型可以通過設置$k=5$將速度提高到比人類速度快125倍。

一個重要的警告是速度不一定與質量相匹配:如第1節所述,GPT2030的技能特點與人類不同,在我們認為容易的一些任務上失敗,在我們認為困難的一些任務上取得成功。因此,我們不應該將GPT2030視為「加速的人類」,而應該將其視為「加速的工作者」,具有潛在的反直覺技能特點。

然而,考慮速度提升仍然是有意義的,尤其是當速度提升較大時。對於具有125倍速度提升的語言模型,我們需要一天才能完成的認知行為,可能只需幾分鐘,前提是它們在GPT2030的技能範圍內。使用之前黑客攻擊的例子,我們難以生成的漏洞利用或攻擊可能會被機器學習系統快速生成。

吞吐量和並行副本

模型可以在可用的計算資源和內存的限制下任意複製。這使它們能夠迅速完成任何可以有效並行化的工作。此外,一旦某個模型被微調為特別有效,該變化可以立即傳播到其他實例。模型還可以為專門的任務進行蒸餾,從而運行速度更快、更便宜。

一旦訓練完一個模型,很可能會有足夠的資源來運行許多複製品。這是因為訓練一個模型需要並行運行多個副本,而訓練模型的組織在部署時仍然擁有這些資源。因此,我們可以通過估計訓練成本來下限估計副本的數量。

以GPT-3的訓練成本為例,足以對其進行9 x 10^11次前向傳遞。換算成人類等效術語,人類每分鐘思考380個單詞(見附錄A),每個單詞平均1.33個標記,因此9 x 10^11次前向傳遞相當於以人類速度進行~3400年的工作。因此,該組織可以在一年內以人類工作速度運行3400個模型的並行副本,或者在5倍人類速度下可能在2.4個月內運行相同數量的副本。(注意:後一點取決於組織可以運行多少並行實例。)

接下來,讓我們將相同的「訓練過剩」(訓練成本與推理成本的比率)投影到未來的模型上。它應該會更大:主要原因是訓練過剩大致與數據集大小成正比,而數據集隨著時間的推移在增加。

隨著我們耗儘自然生成的語言數據,這種趨勢會減緩,但新的模式以及合成或自動生成的數據仍然會推動它前進。

在附錄B中,我詳細考慮了這些因素,以進行到2030年的預測。我預測,到2030年,模型將具備足夠的資源進行180萬年的工作,調整為人類速度[範圍:40萬-1000萬]。

注意,Cotra(2020年)和Davidson(2023年)估計了類似的數量,得出的數字比我的大;我猜測主要的區別是我如何對耗儘自然語言數據的影響建模。

上述預測在某種程度上是保守的,因為如果組織購買了額外的計算資源,模型可能會在比訓練時使用更多的資源上運行。一個快速的估算表明,GPT-4是在全球所有計算資源的約0.01%上進行訓練的,儘管我預計未來的訓練將占據更大比例的全球計算資源,並因此在訓練後的擴展空間較小。儘管如此,如果組織有充分的理由這麼做,它們可能還可以將運行的副本數量增加一個數量級。

知識共享

(感謝Geoff Hinton首次向我提出這個觀點。)

不同副本的模型可以共享參數更新。例如,ChatGPT可以部署到數百萬用戶中,從每次交互中學到一些東西,然後將梯度更新傳播到一個中央伺服器,這些更新會被平均起來並應用於所有模型的副本。

通過這種方式,ChatGPT在一個小時內可以觀察到關於人類本性的更多內容,而人類在一生中可能無法做到這一點(100萬小時=114年)。並行學習可能是模型具有的最重要的優勢之一,因為這意味著它們可以迅速學習任何缺失的技能。

並行學習的速率取決於同時運行的模型副本數量、它們能夠獲取數據的速度以及數據是否能夠在並行中有效地利用。在最後一個問題上,即使極端並行化也不應該對學習效率造成太大影響,因為實踐中的批處理大小通常在數百萬。

根據McCandlish等人(2018年)的研究,梯度噪聲規模預測在某個「臨界批處理大小」以下,學習性能的降低非常小。因此,我們將重點放在並行副本和數據獲取上。

我將提供兩個估計,兩者都表明,在人類速度下,至少可以有大約100萬個模型副本同時進行學習。這相當於每天2500個人類等效的學習年,因為100萬天=2500年。

第一個估計使用了第3節中的數字,該節得出的結論是訓練模型的成本足以模擬模型進行180萬年的工作(調整為人類速度)。假設訓練過程本身持續時間不到1.2年(Sevilla等,2022年),這意味著訓練模型的組織在以人類速度運行150萬個副本的情況下擁有足夠的GPU。

第二個估計考慮了部署模型的組織的市場份額。例如,如果同時有100萬用戶查詢模型,那麼組織必然有足夠的資源來為100萬個模型副本提供服務。作為一個估算,截至2023年5月,ChatGPT擁有1億用戶(並非同時都在活躍),並且截至2023年1月,每天有1300萬活躍用戶。

我會假設典型用戶請求幾分鐘的模型生成文本,因此1月份的數字可能只意味著每天約0.05百萬人天的文本。然而,未來類似於ChatGPT的模型可能會增加到20倍,達到每天2.5億活躍用戶或更多,因此每天產生100萬人天的數據。作為對比,Facebook擁有20億每日活躍用戶。

模態、工具和執行器

從歷史上看,GPT風格的模型主要是在文本和代碼上進行訓練,並且除了通過聊天對話以外,與外界互動的能力有限。然而,這種情況正在迅速改變,因為模型正在被訓練用於其他模態,比如圖像,也在被訓練使用工具,並開始與物理執行器進行交互。

此外,模型不會局限於人類中心的模態,如文本、自然圖像、視頻和語音,它們很可能還會在不熟悉的模態上進行訓練,比如網絡流量、天文圖像或其他大規模的數據源。

工具。最近發布的模型使用外部工具,正如我們在ChatGPT插件、Schick等人(2023年)、Yao等人(2022年)和Gao等人(2022年)的研究中所看到的。將文本與工具使用相結合足以編寫能夠執行的代碼,說服人類代表他們採取行動,進行API調用,進行交易,甚至可能進行網絡攻擊。工具使用在經濟上很有用,因此將有強烈的動力進一步發展這種能力。

ChatGPT是一種反應型系統:用戶說X,ChatGPT用Y進行回應。風險存在,但是是有界的。很快將誘惑出現主動型系統 - 一種助手將為您回復電子郵件,代表您採取行動等。風險將會大大增加。- Percy Liang (@percyliang) 2023年2月27日

新的模態。現在已經有大規模的開源視覺語言模型,比如OpenFlamingo,而在商業領域,GPT-4和Flamingo都是在視覺和文本數據上進行訓練的。研究人員還在嘗試使用更奇特的模態對,如蛋白質和語言(Guo等,2023年)。

我們應該期望大型預訓練模型的模態繼續擴展,有兩個原因。首先,在經濟上,將語言與不太熟悉的模態(如蛋白質)配對是有用的,這樣用戶可以從解釋中受益,並有效地進行編輯。這預測蛋白質、生物醫學數據、CAD模型以及與主要經濟領域相關的任何其他模態將進行多模態訓練。

其次,我們開始耗盡語言數據,因此模型開發者將尋找新類型的數據以繼續從規模效益中受益。除了傳統的文本和視頻外,一些現有的最大數據來源是天文數據(很快將達到每天的艾位元組級)和基因組數據(約0.1艾位元組/天)。這些和其他大規模數據源很可能會被用於訓練GPT2030。

使用奇特的模態意味著GPT2030可能具有非直觀的能力。它可能會比我們更好地理解星星和基因,即使在處理基本的物理任務時會有困難。這可能會帶來一些意外,比如設計新型蛋白質,這是基於GPT2030的「通用」智能水平,我們本不會預期的。在思考GPT2030的影響時,重要的是要考慮到由於這些奇特數據來源可能導致的特定超人能力。

執行器。模型也開始使用物理執行器:ChatGPT已經被用於控制機器人,OpenAI正在投資一家人形機器人公司。然而,收集物理領域的數據要比數字領域更加昂貴,而且人類在物理領域也更適應進化(因此ML模型與我們競爭的門檻更高)。

與數字工具相比,我預計掌握物理執行器的速度會更慢,並且我不確定我們是否應該在2030年之前期望這種情況。定量地說,我會給2030年是否會有一種能夠自動組裝與Metaculus問題中定義的比例複製法拉利的通用型模型一個40%的機率。

GPT-2030的影響

接下來,我們將分析類似GPT2030系統對社會意味著什麼。擁有GPT2030特性的系統,至少會顯著加速某些研究領域,同時也具有強大的濫用能力。

我將首先構建一些關於GPT2030的一般優勢和局限性的框架,然後將其用作分析加速和濫用的鏡頭。

優勢。GPT2030代表了一個大規模、高度適應性、高吞吐量的工作力。回想一下,GPT2030可以在平行副本上做180萬年的工作,其中每個副本以5倍於人類速度運行。這意味著我們可以(在並行性限制的情況下)在2.4個月內模擬1.8百萬個代理人每人工作一年。

如上所述,我們可以支付每個FLOP的5倍價格,以獲得額外的25倍加速(達到125倍人類速度),因此我們也可以在3天內模擬一萬四千個代理人每人工作一年。

局限性。利用這個數字化的工作力有三個障礙:技能配置、實驗成本和自主性。就第一點而言,GPT2030將具有與人類不同的技能配置,使其在某些任務上表現較差(但在其他任務上表現較好)。

在第二個障礙上,模擬工作人員仍然需要與世界接口以收集數據,這有自己的時間和計算成本。最後,在自主性方面,如今的模型在「卡住」之前只能生成數千個標記的連續思路,進入不再產生高質量輸出的狀態。在將複雜任務委託給模型之前,我們需要顯著提高可靠性。

我預計可靠性會增加,但並不是沒有限制:我(非常粗略地)猜測GPT2030在需要被重置或通過外部反饋進行引導之前,將能夠運行數天的人類等價時間。如果模型以5倍速度運行,這意味著它們需要每隔幾個小時進行人類監督。

因此,GPT2030將最有影響的任務是:

利用GPT2030在相對於人類而言擅長的技能。

只需要可以迅速收集到的外部經驗數據的任務(而不是昂貴的物理實驗)。

可以事先分解為可靠執行的子任務,或者具有明確和可自動化的反饋指標來幫助引導模型。

加速。一個很好滿足所有三個條件的任務是數學研究。在第一點上,GPT2030可能會具有超人的數學能力(第1節)。在第二和第三點上,數學可以通過純粹的思考和寫作來完成,我們知道何時一個定理被證明。而且全球總共的數學家並不多(例如,僅有3000人在美國),因此GPT2030可能能夠在幾天內模擬出超過所有數學家年產出的數量。

重要部分的機器學習研究也滿足上述標準。GPT2030將會在編程方面超越人類,其中包括實施和運行實驗。我猜它也會擅長呈現和解釋實驗結果,因為GPT-4能夠以易於理解的方式解釋複雜的主題(並且市場需求很大)。

因此,機器學習研究可能會減少到思考進行良好實驗和與高質量(但潛在不可靠)的實驗結果文稿進行交互。在2030年,研究生可能會擁有與今天的教授和幾名優秀學生相同的資源。

社會科學的某些部分也可能會得到顯著加速。有很多論文中,大部分工作是追蹤、分類和標記科學上有趣的數據源,並提取重要的模式,例如Acemoglu等人(2001年)或Webb(2020年)的代表性例子。這滿足了要求(3.),因為分類和標記可以分解為簡單的子任務,而且它滿足了要求(2.),只要數據在網際網路上可用,或者可以通過在線調查收集到。

濫用。除了加速,還存在嚴重的濫用風險。最直接的情況是網絡攻擊的能力。檢查特定目標的特定漏洞可能是可靠的,而且可以檢查漏洞是否成功(在能夠與代碼交互的情況下),因此雙重滿足了要求(3.)。在(2.)方面,GPT2030需要與目標系統進行交互,以知道攻擊是否奏效,這會帶來一些成本,但不足以成為一個重要的瓶頸。

此外,該模型可以在開原始碼上本地設計和測試漏洞作為訓練數據,因此在需要與任何外部系統進行交互之前,它可以在很大程度上變得非常擅長於網絡攻擊。因此,GPT2030可以迅速對大量目標進行複雜的並行網絡攻擊。

第二種濫用來源是操縱。如果GPT2030同時與數百萬用戶進行交互,那麼它在一個小時內獲得的關於人類互動的經驗,遠遠超過了人類一生的經驗(100萬小時=114年)。

如果它利用這些互動來學習操縱,那麼它可以獲得遠遠超過人類的操縱技能 - 類似於,騙子在欺騙受害者方面很擅長,因為他們在之前已經練習過幾百人,而GPT2030可以將這種能力擴大數個數量級。因此,在一對一的對話中,它可能非常擅長操縱用戶,或者在撰寫新聞文章以影響公眾輿論方面。

因此,總結一下,GPT2030可能會自動化幾乎所有數學研究以及其他研究領域的重要部分,並且可能成為關於網絡攻擊、說服/操縱的有力手段。它的很多影響都會受到「監督瓶頸」的限制,因此,如果它能夠在長時間內自主運行,那麼它的影響可能會更大。

附錄:未來模型的運行時間和訓練估算

A. 每分鐘生成的字數

首先,我們將估計人類和當前模型的每分鐘字數。然後,我們將從當前模型推導出未來模型的情況。

對於人類,我們可以測量五個數字:說話速度、閱讀速度、聽力速度以及「橢圓」和「擴展」思考速度。關於前三者,Rayner和Clifton(2009)指出閱讀速度為每分鐘300字,說話速度為每分鐘160字,而聽力速度可能比說話速度快2-3倍(因此大約每分鐘400字)。

對於思考速度,我們需要區分「橢圓」思維和「擴展」思維——事實證明我們的思維是在詞彙的閃爍中進行的,而不是完整句子,如果我們將這些閃爍延伸到完整句子,會得到非常不同的字數(相差約10倍)。

Korba(2016)發現橢圓思維的速度為每分鐘380字,而擴展思維的速度為每分鐘約4200字。由於這些數字大多在300-400 wpm的範圍內,我將使用每分鐘380字作為人類思維速度的估計。根據OpenAI提供的4:3令牌到字數比,這相當於每分鐘500個位元組

(感謝Lev McKinney在以下段落中運行評估。)

接下來,讓我們考慮當前的模型。我們查詢了gpt-3.5-turbo和gpt-4,以及EleutherAI的幾個開源模型,以對它們的推斷速度進行基準測試。我們通過查詢模型從1數到n,其中n從100到1900,步長為100。

由於數字包含多個位元組,我們在模型生成n個位元組時將其截斷,並測量經過的時間。然後,我們進行了帶有偏置項的線性回歸,以考慮延遲,以估計每秒生成的位元組數。

GPT-4和GPT-3.5-turbo於2023年4月初從OpenAI AIP查詢。所有pythia模型的實驗都是使用deepspeed注入內核和fp16模型在一個A100 GPU上執行的。可以在https://github.com/levmckinney/llm-racing找到複製這些結果的代碼。

原始數據如下圖所示

上圖展示了模型推斷隨著位元組輸入的變化。請注意,在這些上下文長度下,每個位元組的時間保持相對線性。

上圖和下表展示了模型推斷速度隨大小的變化情況。誤差條表示95%的置信區間。

因此,GPT-4的推斷速度接近人類的基準值500個標記/分鐘,而GPT-3.5-turbo則快大約3倍。更小的模型速度甚至快上一個數量級,這表明即使更快的推斷速度是可能的,但也暗示未來更大的模型可能會變慢(未考慮更好的硬體和其他優化)。實際推斷速度似乎在模型大小下以亞線性的方式減慢——在pythia模型中,將大小增加k倍會將推斷速度減少大約k^0.6。

那麼模型的每分鐘單詞數將如何在未來變化?有因素推動速度變快和變慢:

- 更大的模型更昂貴,特別是如果它們有更多的層(較大的寬度可以並行,但較大的深度不能)。

- 推斷通常會進行更多優化,例如通過提前退出、稀疏注意、跨GPU並行化或更好的硬體。在這方面有相當大的潛力,尤其是來自並行化和硬體(見下面的討論)。

- 特別是,將有很多動力使模型足夠快,以便容易使用(例如,比人類閱讀速度更快)。

在對模型大小、GPU架構等趨勢的大量數據進行了10多個小時的分析後,我主要得出的結論是,我對更大的模型與更好的硬體和軟體之間的競爭趨勢如何發展非常不確定。

我中位數的猜測是,我們將獲得比人類明顯更快的模型(5倍),但我對速度從比人類慢2倍到比人類快20倍的各種情況都不感到驚訝。

重要的是,這些速度只是在我們要求GPU的最大吞吐量的情況下。如果我們願意以k倍的吞吐量為代價,我們可以將推斷速度提高k^2倍,直至達到相當大的k值。因此,如果模型默認只比人類快5倍,那麼可以在吞吐量減少5倍的情況下將其提速至125倍,如果有必要,這還可以進一步提高。

最後,除了純粹的速度,每分鐘單詞數在人類和語言模型之間並不是可比的。首先,語言模型不僅在思考,還在寫作,而且在某些情況下,它們的寫作內容對人類來說可能要慢得多(例如,代碼或帶有引用的論點)。

另一方面,語言模型目前相當囉嗦,因此語言模型的一個單詞不如人類的一個單詞進行「工作」多。這種囉嗦性可以通過微調消除,但我們不確定能否達到人類的「橢圓思維」的效率。

最後,令牌化和單詞複雜性將隨時間而變化,因此從單詞到標記的1.333倍轉換比率不會保持恆定(事實上,我猜對於今天的模型來說,它已經是一種低估,因為它們現在傾向於使用帶有前綴和後綴的複雜詞語)。

有關並行化和硬體加速的詳細信息。正如《我們能多快執行前向傳遞?》一文所述,存在著可以顯著增加串行推斷速度的並行平鋪方案,而只有很小的開銷。例如,對GPT-3進行並行平鋪會使其在A100集群上的推斷速度相對於在單個8-GPU機器上運行時提高30倍或更多。

這些優化目前並沒有被廣泛使用,因為它們對於訓練不是有用的,而且稍微減少了推斷吞吐量,但一旦推斷時間成為瓶頸,人們會開始使用它們。

就硬體而言,GPU的性能正在提升,這將加快推斷速度。然而,GPU的設計越來越需要更大的算術強度,這將減少可能的並行平鋪(見上一點)。供參考,我在下面列出了所有NVIDIA GPU的規格。

「Mem Bandwidth」(內存帶寬)一欄測量了沒有任何跨GPU並行化時的串行吞吐量,而最終的M3/C2一欄測量了在保持足夠高算術強度的最大跨GPU並行化下的串行吞吐量。前者持續增加,而後者波動較大,但趨於減少。

(以下是表格數據,由於文字描述無法準確呈現表格,請參考原文)

這裡是來自NVIDIA GPU的一些規格,表格中的「Mem Bandwidth」是指沒有進行任何跨GPU並行化時的串行吞吐量,而最後一欄的M3/C2是指在保持足夠高算術強度的最大跨GPU並行化下的串行吞吐量。

請注意,這些硬體規格數據是在原始帖子中提供的,隨著硬體技術的不斷更新,這些數據可能已經發生了變化。

B. 訓練成熟度

將來可能會有足夠的資源來運行訓練過的模型的許多副本。以GPT-3為例,它需要3.1e23個浮點運算(FLOP)來進行訓練,並且執行前向傳遞需要3.5e11個FLOP,因此可以用訓練成本來運行9e11次前向傳遞。根據附錄A中的每分鐘500個標記的轉換,這相當於約3400年的人類思維時間。

未來會如何變化?我將使用Chinchilla的縮放定律和未來訓練成本的預測來進行初步估計,然後考慮可能偏離Chinchilla趨勢的方式。對於未來的訓練成本,我考慮了Besiroglu等人(2022)的預測,他們分析了500多個現有模型,以推斷機器學習中的計算趨勢。

他們對2030年訓練FLOP的中央預測是4.7e28,範圍為5.1e26至3.0e30。Metaculus也有類似的估計為2.3e27(截至2031年1月1日)。取幾何中位數,我將使用1.0e28作為我對訓練FLOP的估計,這相當於GPT-3的33,000倍增長。

由於Chinchilla的縮放定律暗示模型大小(因此推斷成本)隨著訓練成本的平方根增長,這意味著訓練成熟度應該增加sqrt(33000),大約是180倍。因此,3400年的人類思維時間將增加到620,000年。

然而,還有一個額外的考慮,即GPT-3實際上在訓練規模上存在不足。給定其訓練成本,GPT-3的理想大小應該是現在的四分之一,因此需要添加一個額外的因子4,得到2.5M年的人類思維時間,範圍從0.8M到9M,考慮到訓練FLOP數量的不確定性。

接下來,讓我們考慮與Chinchilla的縮放定律偏離。最明顯的偏離是我們可能很快就會耗盡數據。這可能意味著相對於更多的數據,更大的模型變得更有吸引力(這會減少訓練成熟度),或者我們生成額外的合成數據(使創建數據更加計算密集,這會增加訓練成熟度),或者我們轉向新的數據豐富的形式,比如視頻(對訓練成熟度的影響不明確,可能會增加它)。粗略地界定這些效應:

下限:Villalobos等人(2022)估計,到2026年,我們將耗盡高質量的語言數據(例如維基百科、書籍、科學論文等),儘管我們在2030年之前不會耗盡低質量的數據(例如網頁)。在一個悲觀的情況下,高質量數據是一個完全具有約束力的條件,Villalobos等人的模型意味著數據集的大小到2030年會增加8倍,訓練成熟度只會增加8倍,而不是180倍。

上限:如果我們用盡了數據,我們可能會生成新的合成數據。Huang等人(2022)中的一個可能性是像鏈式思維精餾一樣。在那篇論文中,每個輸入實例會生成32個思維鏈,其中只有一部分用於訓練更新。假設平均有5個32個思維鏈用於訓練更新,並且反向傳遞的成本是前向傳遞的兩倍。那麼,每次訓練更新的成本相當於8.4個前向傳遞,相比之下之前是3個,或者增加了2.8倍。在Chinchilla的縮放定律下,這個成本前傳到訓練成熟度的額外增加,即sqrt(2.8) = 1.7倍增加,即300倍而不是180倍。

總體而言,下限對我來說似乎相當悲觀,因為我們幾乎肯定會找到一些方法來利用低質量或合成數據。另一方面,除了耗盡數據,我們可能會通過課程學習等方式找到使訓練過程更加高效的方法。在考慮這些因素的情況下,我個人的猜測是,我們的訓練成熟度將在12倍至200倍之間,中央估計為100倍,從而得到大約18萬年的人類思維時間的訓練成熟度。我們還需要擴大範圍,以考慮到對Chinchilla縮放定律的偏離所帶來的額外不確定性。主觀地說,我會將範圍增加到40萬到1000萬。

所有這些估計都是針對2030年的。一般來說,上述數字對於晚些年份來說會更大,而對於早些年份來說會更小。

作為一個額外的比較點,Karnofsky(2022年)(在Cotra,2020年的基礎上)估計,培訓一個人類級別的模型所需的計算量足以讓100百萬份模型每個運行一年,儘管這個估計假設培訓使用了1e30個浮點運算(FLOPs)而不是1e28。即使考慮到這一點,對我來說似乎有點過高了,根據上面的平方根縮放,我會更接近180萬而不是1億。

不過實際上,如果做得正確,零階預測已經會很有幫助了!許多對ChatGPT感到驚訝的人可能已經對text-davinci-003感到印象深刻,雖然後者發布得更早,但介面不太友好。

作為具體的比較點,GPT-3的計算量只足以進行3400個經過人類調整的工作年,我猜它每天可能不到100個經過調整的學習年。我猜GPT-4的計算量約為13萬人類調整的工作年和125個調整年的學習。因此,GPT2030在這兩個軸上至少是一個數量級更大。

在整個文檔中,括號中的範圍表示我的預測分布的25th到75th百分位數。實際上,範圍可能過窄,因為我只進行了主線預測,沒有考慮「其他」選項。

從定性上看,GPT-4 Bubeck等人還發現,GPT-4可以零射擊生成一個400行的3D遊戲,這對於幾乎所有人類來說可能是不可能的。

關於此事的討論,請參閱「Forecasting ML Benchmarks in 2023」。

具體來說,我會給以下情況分配50%的機率:「如果我們從Electronic Journal of Combinatorics中隨機選擇5個定理陳述,並將它們交給UCSD的數學系,GPT2030在解決問題的比例上會比中位數教員解決的問題多,並且在解決問題時所需的時間會比中位數教員短。」

我假設初始訓練運行時間不到一年(Sevilla等,2022年),因此可以推出該組織至少可以並行運行9 x 10^11次前向傳遞,但要受到推理速度的限制。為了在2.4個月內做到這一點,他們可能需要進一步改進。

我認為這是合理的(但不確定),因為組織可能在不到一年的時間內訓練了該模型,並且在推理方面可能有一些技巧可用,這些技巧在訓練中不可用。

第二個因素是,GPT-3的訓練是不完美的,使用Chinchilla風格的理想大小本應是更小的,所以我們需要額外增加4倍的因子,從而得到2.5百萬人年,範圍從0.8百萬到900萬,考慮到訓練FLOP數量的不確定性。

此外,根據Metaculus的估計,2030年最大的訓練模型將具有2.5e15個參數(截至2030年1月1日),意味著前向傳遞成本為5e15 FLOPs。如果我們簡單地計算比值,我們會再次得到9e11次前向傳遞,但我認為這不是正確的計算,因為最大的訓練模型可能不會是當時的尖端水平,而更像是174萬億參數的BaGuaLu模型。

我根據Metaculus對其估計的25%到75%百分位數範圍為5M到660M,並將不確定性傳遞到平方根函數中。

文章來源: https://twgreatdaily.com/zh-hk/61af505fb0f7fd74ba5bde4fe5c0157b.html