OpenAI「打死都不說」的 GPT-4 訓練細節被傳出,這是我的解讀

2023-07-17     少數派

原標題:OpenAI「打死都不說」的 GPT-4 訓練細節被傳出,這是我的解讀

:本文長約 3500 字,文中配圖較少,請耐心觀看。

引子

那是前幾天一個普通的上午。我正在日常搬磚,突然各路信息席捲而來:「趕緊的,GPT-4 模型構架泄露啦,國產大模型要再次超越啦!」

打開社媒一看,好麼,都不用會英語,國內的人翻機翻都已經上線了,這速度,我是真的服氣。但是,等我去追根溯源,看看信息到底有幾分靠譜的時候,我突然就有把科技圈逛出了娛樂圈的感覺。

鑒於目前「Fake News」滿天飛的網際網路現狀,我看到這個消息後,乾的第一件事就是追本溯源。

來龍去脈

我信息挖掘的起點是 Hacker News 上分享的、通過 Thread Reader 提取的推文串存檔於 7 月 11 日)。點開一看,上來就是兩句:

GPT-4's details are leaked.

It is over.

GPT-4's details are leaked.

It is over.

這標題黨水平完全不遜色於國內。

眾所周知,OpenAI 在發布 GPT-4 的同時打破了自己對 open 的承諾,沒有透露任何權重或技術細節,被業界廣泛批評。這大概就是博主為什麼要用 It is over 這個梗來渲染「情節反轉」的戲劇效果。

再看內容,正是 OpenAI 守口如瓶的 GPT-4 訓練細節。這些信息前面有過很多猜測,但是官方一直都沒有披露,提到的時候都說的很模糊(原文比較晦澀,用了很多縮寫和行話,一些會在後文解釋):

  • 模型參數量 :1.8 萬億,比 GPT-3.5(1750 億)大 10 倍左右。
  • 模型層深 :120 層。
  • 模型構架 :混合專家模型(MoE,解釋見後文),一共 16 個「專家」,每個專家 1110 億參數量。每次向前傳遞推理(生成一個 token 的輸出)選擇兩個專家。
  • 訓練數據 :共 13T(13 萬億個)token 的數據。文本數據被重複訓練了 2 次,代碼數據被重複訓練了 4 次。這個數據其實挺重要的,後續具體分析。
  • 並行策略 :8 路張量並行 + 16 路管道並行。有多個位於不同數據中心的多個 GPU 集群同時訓練,每個集群有 128 個 GPU。
  • 預訓練上下文 :8K。32K 版本是在 8K 基礎上微調的。
  • 訓練成本:在約 25000 張 A100 上,以大約 2.15e25 flops 的速率,持續訓練 90 至 100 天。按照每張 A100 小時 1 美元,大約需要 6300 萬美元。(如今可在約 55 天內使用約 8192 張 H100 完成,費用估算為 2150 萬美元。)

訓練成本:在約 25000 張 A100 上,以大約 2.15e25 flops 的速率,持續訓練 90 至 100 天。按照每張 A100 小時 1 美元,大約需要 6300 萬美元。(如今可在約 55 天內使用約 8192 張 H100 完成,費用估算為 2150 萬美元。)

問題是,這些信息是怎麼弄來的,是否靠譜呢?

順藤摸「瓜」,我又找到了這串推文的發布者——Yam Peleg

這老哥的帳號雖然我沒關注,但還真看過他以前的文章。他是以色列一個「創業公司」的 CEO(但成立有 15 年,可能再叫創業公司不太合適了);本人工程經歷豐富,很懂大語言模型,曾經嘗試反向破解過 GPT-4 和 ChatGPT 代碼解釋器。今年六月,OpenAI 成員訪問以色列的時候,Peleg 還去參加座談溝通了,並且還和 CEO Sam Altman 合影。

讀這老哥的文章,我就禁不住想起來在以色列時候見過的一位學生聯絡員 Tom,隨便說點啥都能給你搞得熱血沸騰的。

左起:Sam Altman、Yam Peleg(來源:@Yampeleg)

考慮到這老哥一直在研究 OpenAI,也認識 OpenAI 內部很多人,所以他如果得到了點啥內部消息,我覺得可信度其實還挺高的。

但等我晚上準備去仔細研讀下他發的東西的時候,突然發現他把前面發的都刪了。本來我以為是被 OpenAI 捂嘴了,還慶幸自己留了檔。後面仔細一看,發現不是因為 OpenAI 要求刪除,而是因為他也是從一個付費專欄轉述的,被人投訴侵犯了版權。

這篇原始來源是一個叫做 SemiAnalysis 的 Substack 專欄,他們稍早之前發了一篇題為 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE的文章,放在付費牆後。

查了一下得知:

SemiAnalysis 是一個精品半導體研究和諮詢公司,專注於從化學原料到晶圓廠到設計 IP 和戰略的半導體供應鏈。該公司由 Dylan Patel 創辦,一位有著多年半導體行業經驗的分析師和工程師。Patel 曾在英特爾、AMD、高通等公司擔任過從設計工程師到市場營銷經理等的角色。

SemiAnalysis 的團隊還包括多位專業的半導體分析師和諮詢顧問。他們各自有著不同的專長領域,如 AI、雲計算、網絡、存儲、電動汽車、射頻、物聯網等。他們為客戶提供了從化學原料到晶圓廠到設計 IP 和戰略的全方位的半導體供應鏈分析和諮詢服務。

SemiAnalysis 是一個精品半導體研究和諮詢公司,專注於從化學原料到晶圓廠到設計 IP 和戰略的半導體供應鏈。該公司由 Dylan Patel 創辦,一位有著多年半導體行業經驗的分析師和工程師。Patel 曾在英特爾、AMD、高通等公司擔任過從設計工程師到市場營銷經理等的角色。

SemiAnalysis 的團隊還包括多位專業的半導體分析師和諮詢顧問。他們各自有著不同的專長領域,如 AI、雲計算、網絡、存儲、電動汽車、射頻、物聯網等。他們為客戶提供了從化學原料到晶圓廠到設計 IP 和戰略的全方位的半導體供應鏈分析和諮詢服務。

早些時候,SemiAnalysis 還發過一篇文章披露谷歌工程師在內部通信中說「我們沒有護城河,但 OpenAI 也沒有」(We Have No Moat, And Neither Does OpenAI),引起不小議論。這篇文章後面被證實為真。

這樣看來,Dylan Patel 老哥可能確實有些內線,他們給出的信息可信度應該還是可以的。

至於他們為啥這麼急著讓 Yam 老哥刪推——因為這些「內部信息」確實價值不菲,訂閱 SemiAnalysis 的付費文章,一年要 500 美元。Yam 老哥訂閱的精英版更是要 1000 美元。

梳理分析

根據這個來龍去脈,我的看法是,這個傳聞還是有一定的可信度的。以下則是我基於這些信息的一些分析,提出來供大家討論。

私有模型的競爭將集中在並行能力上

根據此次傳聞,目前如果要訓練一個 GPT-4 競品,按照使用約 8,192 個 H100 晶片來估算,以每小時 2 美元的價格,在約 55 天內可以完成預訓練,成本約為 2150 萬美元(1.5 億人民幣)。

這個成本對於目前波濤洶湧的 LLM 市場來說,真的不算大。國內目前的主要玩家都可以比較輕鬆地承擔數次訓練。所以,這次說真的,再過半年模型能力(起碼參數規模)對標 GPT-4 可能真的不是吹牛。

如果訓練成本不是問題,那麼訓練數據會不會成為問題呢?我認為也不會。傳聞稱,GPT-4 的訓練數據共 13T(13 萬億個)token。作為對比,CommonCrawl 和 RefinedWeb 兩個公開數據集都是 5T 個 token,傳聞稱,餘下部分來源 Twitter、Reddit 和 YouTube;一些訴訟還主張 OpenAI 使用了來自 LibGen、SciHub 等「影子圖書館」的盜版數據。

因此,我認為這個數據規模並不是不可企及,再加上國內本身也積累了很多中文資源,所以訓練數據也應該問題不大。

其他的類似預訓練、微調以及中文編解碼等問題,其實也不存在太多的技術秘密,方法還是 比較公開的。給足夠的資源,半年時間應該都可以解決。

所以,最後剩下的門檻就是並行能力了。其實這次傳聞裡面用了極大的篇幅去介紹相關的內容,專業程度還是比較高的,這裡我只能做些粗淺解釋。

粗略地說,所謂並行問題,就是你有了大模型,如何以最低的成本讓最多的人同時使用。這裡面涉及到很多專業的設計問題,在運算資源固定的情況下,應該如何分配不同環節的運算資源?如何處理並發?如何管理內存?

並行處理的能力直接決定了用戶體驗。目前基於 GPT-3.5 的 ChatGPT 和 API 都比較流暢了,這是非常厲害的。這裡大家可能會說,我體驗的其他國產 LLM 或者 Claude 都比 GPT-3.5 還快啊。但是,大家沒有考慮使用的量級問題,GPT-3.5 在這麼高的並發下有這樣的性能,其他的廠商如果匹配不了 OpenAI 的這個能力,也就沒能力來搶 OpenAI 的市場。

所以,並行能力可能會成為各路 OpenAI 競爭對手的角逐重點之一。

GPT-5 的重點在於多模態

前面提到,傳聞稱 GPT-4 是由 16 個專家模型組成的「專家混合」(mixture of experts, MoE)模型。這裡簡單解釋一下什麼是「專家混合」,這是指將用戶的「問題」劃分成若干子問題,每個子問題交給一個較小的模型(也就是一個「專家」)去解決,然後通過一個「路由模型」進行選擇和組合,再輸出給用戶。

傳聞進一步稱,GPT-4 的每個「專家」有 1110 億參數量——相當於 GPT-3(這個和 Sam Altman 前期說的 GPT-4 參數甚至小於 GPT-3.5 相符),其中有 550 億個參數是共享的。每次向前傳遞推理(生成一個 token 的輸出)使用兩個「專家」,事實上耗費的參數量約為 2800 億。這個數字顯著小於不用 MoE 所需的數量,也和前期很多學者預測的類似。

值得注意的是,傳聞指出 GPT-4 訓練所用的文本和代碼數據都是被重複使用過的。再結合使用 MoE 構架的選擇,我個人猜測:要麼目前可以比較方便獲取的高質量文本數據已經接近枯竭,要麼無限制增大數據量對 LLM 性能的提升已經非常有限了。

但是,無論是哪一種情況,GPT-5 想要有大的性能突破,就必須能夠充分利用現存的大量視頻、圖片以及音頻數據,換言之是一個「多模態」的模型。

問題在於,根據這次的傳聞,OpenAI 目前的視覺多模態並沒有太多的過人之處。它是一個獨立的視覺編碼器,使用文本做輸入進行預訓練,然後使用約 2 萬億個 Token 進行微調。這種訓練方式,明顯無法充分利用已有的視頻、圖片以及音頻數據。

所以,OpenAI 一直強調還沒有訓練 GPT-5,大機率是真話。在訓練 GPT-5 之前,他們還得找到一個更好的多模態模型構架,讓模型可以充分利用音視頻數據。而只有能夠利用這些優質的訓練數據,GPT-5 才有可能獲得足夠的能力提升。(同時,如果 GPT-5 真的能夠充分利用這些音視頻數據的話,那不管是 AGI 還是 OpenAI 最近提出的「超智體」,似乎確實也沒那麼遙遠了。)

OpenAI 可能是有意放出的本次傳聞

這個推論就完全是個人的瞎猜了。事實根據不足,大家看看就好。

我的理解是,OpenAI 很清楚 GPT-4 的護城河並不深;在如今這種熱潮中,競爭對手迎頭趕上也並不困難。並且如上分析,他們現在的多模態大模型構架應該還沒有搞定,這個時候如果有新的玩家上來就從多模態開始突破,OpenAI 被彎道超車的機率也是很大的。

所以,這也許是 OpenAI 的緩兵之計——我就給你們透露一些 GPT-4 的信息,讓頭部的玩家都先去做 GPT-4 的復刻工作,把 OpenAI 已經走過的路也再走一遍。

如果在這個過程中,OpenAI 給 GPT-5 的訓練打好了基礎,完成了多模態大模型的前期攻關,即使 GPT-4 已經被其他的大語言模型超越,OpenAI 也不慌了。個人認為,多模態很可能就是人卷人的最後一代了,再未來的模型開發和演進說不定就以 AGI 為主力了。也就是說,這次贏了,可能就贏到最後了。

原文連結:

https://sspai.com/post/81091?utm_source=wechat&utm_medium=social

作者:博而不士

責編:PlatyHsu

/ 更多熱門文章 /

文章來源: https://twgreatdaily.com/dbad730f87790d4301f126f6e9b118b9.html