OpenAI宣布超級對齊首個成果，讓能力弱大模型監督能力強的大模型

OpenAI 宣布了其「超級對齊（superalignment）」團隊的第一個成果，這是該公司的內部努力，致力於防止「超級智能」這種假想的、可以超越人類智能的未來計算機變得無法控制。

與該公司的許多新成果發布不同，這項工作沒有進行所謂的重大突破宣傳。

在一篇低調發表的研究論文中，超級對齊團隊描述了一種技術，可以讓一個能力較弱的大型語言模型監督一個能力較強的語言模型，並表示這可能是朝著弄清人類如何監督「超人」機器邁出的一小步。

（來源：STEPHANIE ARNETT/MITTR）

不到一個月前，OpenAI 的 CEO 山姆·奧特曼（Sam Altman）被董事會突然解僱（這顯然是由首席科學家伊利亞·蘇斯克弗（Ilya Sutskever）領導的政變）。

僅用了三天，奧特曼就官復原職。現在這個新成果的出現，傳達了一個明確的信息：一切如常。

不過，OpenAI 的業務並不普通。許多研究人員仍然質疑機器是否能與人類的智能相當，更不用說超過人類了，但 OpenAI 團隊認為機器超越人類是毫無疑問的。

該公司超級對齊團隊的研究員利奧波德·阿申布雷納（Leopold Aschenbrenner）說：「過去幾年，人工智慧的進步非常迅速。我們已經打破了所有的基準測試，而且這種進展有增無減。」

對於阿申布雷納和該公司的其他人來說，擁有類似人類能力的模型指日可待。「但它不會就此止步。」他說，「我們將擁有超越人類的模型，比我們聰明得多的模型。這帶來了根本上的新技術挑戰。」

2023 年 7 月，蘇斯克弗和另一位 OpenAI 科學家簡·萊克（Jan Leike）成立了超級對齊團隊來應對這些挑戰。

「我這樣做是為了我自己的利益。」蘇斯克弗在 2023 年 9 月份告訴《麻省理工技術評論》：「重要的是，任何人構建的任何超級智能都不能失控。這很明顯。」

就在外界猜測奧特曼可能因為在安全方面反覆無常而被解僱的情況下，蘇斯克弗的超級對齊團隊成為了頭條新聞。許多人一直在等著看到底發生了什麼。

注意事項

這個超級對齊團隊想回答的問題是，如何控制或「對齊」比我們聰明得多的假想中的未來模型，即「超人模型」。

對齊意味著確保模型做你想讓它做的事，而不是做你不想讓它去做的事。超級對齊意味著將這一理念應用於超人模型。

最廣泛的用於對齊現有模型的技術之一，名為通過人類反饋的強化學習。簡而言之，人類測試人員對模型的反應進行評分，投票給他們想看到的行為和他們不想看到的行為。

然後，這些反饋被用來訓練模型，使其只產生人類測試人員喜歡的那種響應。這項技術是 ChatGPT 如此吸引人的重要原因之一。

問題是，它首先要求人類能夠分辨出什麼是可取的行為，什麼不是可取的行為。

但一個超越人類智能的模型，可能會做出一些人類測試人員無法理解的事情，導致它的水平無法被人類準確評估。蘇斯克弗告訴我們，它甚至可能試圖向人類隱瞞自己的真實行為。

圖 | OpenAI 解決超對齊問題的方法類比（來源：OpenAI）

研究人員指出，這個問題很難研究，因為目前並不存在超越人類的機器，所以他們使用了替身。

他們沒有研究人類如何監督超人機器，而是研究 GPT-2（OpenAI 五年前發布的模型）如何監督 GPT-4（OpenAI 最新、最強大的模型）。

「如果你能做到這一點，這可能是一個證據，表明你可以使用類似的技術讓人類監督超人模型。」OpenAI 超級對齊團隊的另一位研究人員柯林·伯恩斯（Collin Burns）說。

該團隊採用 GPT-2，並訓練它執行一些不同的任務，包括一組西洋棋謎題和 22 個常見的自然語言處理測試，這些測試會評估推理、情緒分析等。他們使用 GPT-2 對這些測試和謎題的回答來訓練 GPT-4 執行相同的任務。

就好像一個 3 年級的學生在教一個 12 年級的學生如何完成一項任務。訣竅是在不讓 GPT-4 犧牲太多性能和表現的情況下完成這項工作。

結果好壞參半。該團隊測量了根據 GPT-2 的最佳猜測訓練的 GPT-4 和根據正確答案訓練的 GPT-4 之間的性能差距。

他們發現，GPT-2 訓練的 GPT-4 在語言任務上比 GPT-2 好 20% 到 70%，但在西洋棋謎題上表現較差。

該團隊的成員帕維爾·伊茲梅洛夫（Pavel Izmailov）說，GPT-4 完全超過了它的老師，這一事實令人印象深刻：「這是一個非常令人驚訝和積極的結果。」

但他說，它遠遠達不到自己的能力。他們得出的結論是，這種方法很有希望，但還有更多的工作要做。

「這是一個有趣的想法。」德國斯圖加特大學從事對齊工作的人工智慧研究員蒂洛·哈根多夫（Thilo Hagendorff）說。但他認為 GPT-2 可能太笨了，不適合當一名好老師。

他說：「GPT-2 傾向於對任何稍微複雜或需要推理的任務做出毫無意義的反饋。」哈根多夫想知道如果使用 GPT-3 會發生什麼。

他還指出，這種方法並沒有解決蘇斯克弗的假設場景，即超級智能可能會隱藏其真實行為，並沒有對齊的情況下假裝對齊好了。

哈根多夫說：「未來的超人模型可能會擁有研究人員未知的能力。在這種情況下，對齊如何工作？」

但他說，指出缺點很容易。他很高興看到 OpenAI 的工作從猜測轉向實驗：「我為 OpenAI 的努力鼓掌。」

OpenAI 現在想招募其他人加入它的事業。在這項研究更新的同時，該公司宣布了一項新的 1000 萬美元資金，計劃用於資助從事超級對齊工作的人。

它將向大學實驗室、非營利組織和個人研究人員提供高達 200 萬美元的資助，並向研究生提供為期一年的 15 萬美元獎學金。

「我們對此感到非常興奮。」阿申布雷納說，「我們真的認為新的研究人員可以做出很多貢獻。」

作者簡介：威爾·道格拉斯·海文（Will Douglas Heaven）是《麻省理工科技評論》人工智慧欄目的高級編輯，他在這裡報道新的研究、新興趨勢及其背後的人。此前，他是英國廣播公司（BBC）科技與地緣政治網站 Future Now 的創始編輯，也是 New Scientist 雜誌的首席技術編輯。他擁有英國倫敦帝國理工學院計算機科學博士學位，深諳與機器人合作的體驗。

支持：Ren

OpenAI宣布超級對齊首個成果，讓能力弱大模型監督能力強的大模型

清華AI學者趙昊署名文章：為什麼2024物理諾獎頒給兩位神經網絡先驅？

SpaceX發射載人龍飛船，旨在解救被困國際空間站的兩名NASA太空人

清華學者多維度探索晶片基礎問題，基於新材料研發全適配器件

科學家造出纖維素光學超材料，實現低於環境溫度5.7℃的製冷效果

美國國防部資助私密邊緣計算，與EnCharge AI開發超強邊緣計算晶片

OpenAI推出「全能模型」GPT-4o，支持語音、視頻、文字實時交互

科學家為集體智能制定理論框架，助力社交媒體信息傳播的發展

上海交大團隊研發通用人工智慧，解決傳統蛋白質工程難題

南科大團隊實現無擴散的單光子波包，或實現更複雜的量子系統

耶魯揭示自注意力結構的上下文學習機制，證明梯度流算法的收斂性

AI教母李飛飛創辦空間智能公司，力圖克服大模型AI技術的現有局限

北大團隊研發硫化鈮納米片，能用於電解水制氫和氫燃料電池

美國約70家公司正在發展先進核反應堆，其中六七家已與監管機構合作

95後南非非裔女子建立城鎮地圖數據集，用AI對抗空間種族隔離

新型固態鋰電池面世，兼具快充能力，有望用於手機和汽車等

史丹福團隊研發光上轉換薄膜，可用於打造新型夜視儀

專訪史丹福做飯機器人背後團隊：未來將研發摺疊褶皺衣物新功能

DeepMind開發AutoRT新系統，用AI大模型為機器人「發號施令」

科學家開闢物理研究新方向，為探索光與手性體系的作用提供新方法

歐美鈣鈦礦公司加速競賽，專家：鈣鈦礦電池商業化在於矽的背面

美國FTC對數據代理商採取懲罰，後者曾以低廉價格出售用戶隱私

科學家製備油水分離膜，能處理石化行業和油氣開採的廢水

吉大團隊研發碳點自組裝新材料，有望用於光學塗層和軟體機器人

歐盟制定《人工智慧責任指令》，讓被AI技術傷害的人獲得經濟補償