谷歌今天發布了其下一代人工智慧模型 Gemini 1.0 版本。Gemini 是谷歌在 CEO 桑達爾·皮查伊(Sundar Pichai)多年的監督和推動下誕生的產物。
圖 | 桑達爾·皮查伊(Sundar Pichai)(來源:ANDREAS PEIN/LAIF/REDUX)
皮查伊之前曾負責 Chrome 和安卓,以痴迷於產品而聞名。在 2016 年他以 CEO 身份發布的第一封致股東信中,他預測「我們將從移動優先走向人工智慧優先的世界。」自那以後的幾年裡,皮查伊將人工智慧深深融入了谷歌的所有產品中,從安卓設備到雲服務。
儘管如此,2022 年在很大程度上是由另一家公司 OpenAI 發布的人工智慧所主導的。2022 年推出的 DALL-E 和 GPT-3.5 模型,以及 2023 年推出的 GPT-4,都主導了該行業,並引發了初創公司和科技巨頭之間的軍備競賽。
Gemini 是這場比賽中的新選手。這個最先進的系統由谷歌 DeepMind 領導,DeepMind 由傑米斯·哈薩比斯(Demis Hassabis)領導,他將該公司的人工智慧團隊聚集在一起。你今天可以在聊天機器人 Bard 上體驗 Gemini,它將在 2024 年整合到谷歌更多的產品線中。
在 Gemini 發布前夕,我們在谷歌位於美國加利福尼亞州山景城的辦公室與皮查伊坐下來討論了它對谷歌、其產品、人工智慧和整個社會意味著什麼。
以下採訪內容儘可能地還原了皮查伊的原話。為了清晰易讀,我們對對話進行了編輯。
《麻省理工科技評論》:為什麼 Gemini 令人興奮?你能告訴我,你所看到的與人工智慧相關的全貌是什麼嗎?它的力量、有用性,以及它將如何融入你的產品?
桑達爾·皮查伊:Gemini 令人興奮的一個具體部分是,它是一個從零打造的原生多模態模型。就像人類一樣,它不僅僅從文本中學習,還會從音頻和代碼中學習。因此,該模型天生就更有能力,我認為這將幫助我們梳理出新的能力,並為該領域的進步做出貢獻。這太令人興奮了。
還有一點也很令人興奮,在32個基準中,Gemini Ultra 在 30 個基準上都是最先進的,尤其是在多模態基準方面,即 MMMU 基準,它展示了可觀的進展。
令我個人感到興奮的是,在領先基準 MMLU(大規模多任務語言理解)中,Gemini 突破了 90% 的分數門檻,這是一個重大的里程碑。兩年前的技術水平是 30% 或 40%。
所以,要意識到這個領域正在取得多大進展。在 57 個科目中,人類專家大約能達到 89% 的水平。這是第一個超越這個門檻的模型。
我也很興奮,因為它終於出現在我們的產品中了,開發人員可以利用它。這是一個平台。人工智慧是一個影響深遠的平台轉變,比網絡或移動更大。因此,從那一刻起,它也代表著我們邁出了一大步。
《麻省理工科技評論》:讓我們從這些基準開始。它似乎在幾乎所有方面都領先於 GPT-4,但差距不大。而 GPT-4 當時實現的提升似乎是一個巨大的飛躍。我們是否開始看到一些大型語言模型技術所能做的事情趨於平穩,你認為我們將繼續看到巨大的增長曲線嗎?
桑達爾·皮查伊:首先,展望未來,我們確實看到了很大的空間。一些基準已經很高了。你必須意識到,當你試圖從 85% 提升到更高的水平時,你現在正處於增長曲線的邊緣。所以它看起來提升可能不多,但它正在取得進展。
我們也將需要更新的基準。這也是我們研究 MMLU 多模式基準的部分原因。對於其中一些新的基準,目前最好的水平(SOTA)仍然要低得多。前面還有很多進展,規模定律仍然有效。隨著我們把模型做得更大,將會有更多的進展。當我從全局的角度審視它,我真的覺得我們才剛剛開始。
《麻省理工科技評論》:我想知道,你認為 Gemini 有哪些關鍵突破,以及它們將如何應用。
桑達爾·皮查伊:人們很難想像會發生什麼樣的飛躍。我們正在提供 API,人們會以非常深入的方式想像它。
我認為多模態會很重大。當我們教這些模型進行更多的推理時,就會有越來越大的突破,更深入的突破還在後頭。
思考這個問題的一種方法是 Gemini Pro。它在基準測試中表現非常好。但當我們把它用在 Bard 上時,作為一個用戶,我能真切地感覺到它。我們一直在測試它,所有類別的數據都大幅上升。這就是為什麼我們稱之為 Bard 迄今為止最大的升級之一。
當我們把兩種 Bard 放在一起進行盲評估時,使用了 Gemini 的版本展示出了優異的表現。因此,你可以使這些更好的模型在基準上得到改進。它取得了進展。我們將繼續訓練,並從中學習。
但我迫不及待地想把它放在我們的產品中。這些模型非常強大。實際上,在接下來的幾個月里,(繼續)設計產品體驗以利用所有模型的優勢,這將是令人興奮的。
《麻省理工科技評論》:我相信 Gemini 的發布背後有著巨大的壓力。我很好奇你從 GPT-4 的發布中學到了什麼?在那段時間,哪些方法發生了改變?
桑達爾·皮查伊:至少對我來說,學到了這樣一件事:這遠非零和遊戲。想想向人工智慧的轉變有多影響深遠,我們還在多麼早期的階段。前方充滿了機遇。
但對於你的具體問題,這是一個我們都在共同進步的富饒領域。它有科學元素,也有學術元素。我們看到了像 GPT-4 這樣的模型是如何在現實世界中工作的。我們已經從中吸取了經驗,意識到安全是一個重要領域。
因此,我們根據模型在現實世界中的運行情況,學習並改進了一些安全技術,用在了 Gemini 上面。它展示了微調等各種操作的重要性。
我們在 Med PaLM 2 中展示的一件事是,採用像 PaLM 這樣的模型,將其真正微調到特定的領域,讓它優於最先進的模型。這就是我們認識到微調的力量的一種方式。
當我們在努力創造 Gemini 時,其中很多經驗都得到了應用。我們之所以選擇花更多時間在 Ultra 上(即 2024 年才推出的更高級版本的 Gemini),部分原因是為了確保我們對其進行嚴格的安全測試。但我們也在對其進行微調,以真正梳理其功能。
《麻省理工科技評論》:你也看到了,有些模型發布後,當人們開始在現實世界中隨意使用它時,它們會產生幻覺,或者透露出模型訓練時使用的一些敏感數據。我想知道,考慮到訓練所用的數據,如果這是不可避免的,那麼其中有多少是人工智慧大模型技術固有的?如果這是不可避免的,你會嘗試做什麼來限制這種情況?
桑達爾·皮查伊:你說得對。這些都是活躍的研究領域。事實上,我們剛剛發表了一篇論文,展示了如何通過一系列提示(prompt)來揭示這些模型的訓練數據。
幻覺並不是一個已解決的問題。我認為我們都在這方面取得了進展,還有更多的工作要做。我們需要克服一些基本的局限性。一個例子是,如果你以 Gemini Ultra 為例,我們正在積極地將這些模型與使用它的外部第三方團隊進行紅隊測試,這些第三方是這方面的專家。
在像多模態這樣的領域,我們要膽子大,同時我們也要負責任。我們將更加小心多模態的推出,因為出現錯誤用例的幾率更高。
但你是對的,因為這仍然是一項正在進行中的技術,這就是為什麼它們不會做對所有事情。這就是為什麼在搜索中,我們對如何使用它、何時何地使用它以及何時觸發它更加謹慎。它們具有這些驚人的功能,但也有明顯的缺點。這是我們所有人面臨的艱巨工作。
《麻省理工科技評論》:你認為這個問題最終會被解決嗎?幻覺,還有其他訓練數據的泄露?
桑達爾·皮查伊:對於目前的自回歸大語言模型技術,幻覺並不是一個可以解決的問題。但未來的人工智慧系統可能不像我們今天所擁有的這樣,現在我們看到的只是該技術的一個版本。
這就像人們曾認為口袋裡裝不下電腦一樣。20 年前,有些人真的很固執己見。同樣的,看著現在這些系統,然後說你無法設計出更好的系統。
我不同意這種觀點。已經有許多研究探索正在進行中,以思考如何解決這些問題。
《麻省理工科技評論》:你談到了這是一個多麼深刻的轉變。在最近的一些轉變中,比如向移動端的轉變,它並不一定能提高生產力,而生產力已經在很長一段時間內保持不變了。我認為有一種觀點認為,這甚至可能加劇了收入不平等。谷歌正在做什麼樣的工作來確保這種轉變對社會更廣泛地有益?
桑達爾·皮查伊:這是一個非常重要的問題。我會從幾個層面來思考它。在谷歌,我們一直關注的一件事是:我們如何讓技術訪問儘可能廣泛?
所以我認為,在向移動設備轉變的例子中,也就是我們在安卓系統上所做的工作,我們讓數億人獲得了訪問計算機的途徑。我們正努力推動價格合理的智慧型手機,價格可能在 50 美元以下。
因此,讓人工智慧對每個人都有幫助是我思考的框架。你試圖讓儘可能多的人接觸到它。我認為這是重要的一部分。
我們正在深入思考將其應用於可以造福於人們的用例。例如,我們之前之所以進行洪水預測,是因為我們意識到,人工智慧可以檢測規律並做好這件事。我們正在用它翻譯 1000 種語言。我們現在正努力將小語種的內容以其他語言呈現,不然你可能都見不到這些語言。
這並不能解決你所說的所有問題。但我們一直都在關注,如何慎重考慮何時何地,你將關注什麼樣的問題。以 AlphaFold 為例,我們建立了一個世界各地病毒的開放資料庫。
但是誰先用它?它能用在哪裡?人工智慧不會神奇地讓一些更困難的問題變得更好,比如不平等,它甚至可能會加劇這種情況。
但重要的是,你要確保技術對每個人都可用。你早早地開發了它,讓人們接觸到它並參與對話,這樣社會就可以思考並適應它。
在這項技術中,我們參與的時間肯定比其他技術更早。你知道,最近的英國人工智慧安全論壇,還有在美國與國會和政府合作。我們正在努力建立更多的公私合作關係,更早地引入非營利和學術機構。
對就業等領域的影響需要深入研究,但我確實認為會有驚喜。當然,會有令人驚訝的正外部性,也會有負外部性。解決負外部性不是一家公司能做到的,這是社會中所有利益相關者的角色。所以我沒有一個簡單的答案。
我可以給你舉很多移動帶來好處的例子。我認為這也是事實。我們已經在糖尿病視網膜病變等領域進行了研究,因為世界上許多地方沒有足夠的醫生來檢測這種疾病。
就像我覺得讓世界各地的人們使用谷歌搜索會產生積極的影響一樣,我認為這就是擴大人工智慧訪問的方式。
有些進步顯然會讓人們更有效率,編程就是一個很好的例子。然而,這項技術的民主化正是威脅就業的因素。
即使一家公司不能解決所有的社會問題,當然,解決社會問題也不只是一家公司的責任,它也可以推出一款能夠極大地改變世界並產生深遠影響的產品。
我們從未提供面部識別 API。但人們構建了 API,技術因而向前發展。因此,技術也不在任何一家公司手中。它總是會向前發展。
我認為答案比這更複雜。社會本身也可能被落下。如果你不採用這些技術,可能會影響你的經濟競爭力,你可能會失去更多的工作。
我認為正確的答案是負責任地部署技術並取得進展,思考它可能造成不成比例傷害的領域,並努力減輕傷害。新的工作種類會出現的。如果你看看過去的 50、60 年,麻省理工學院的經濟學家們研究表明,大多數新創造的就業機會都是那之後出現的新領域。
新的工作崗位將會湧現,有些工作會變得更好,一些重複性的工作會被解放,你可以更具創造性地表達自己。
你可以是醫生,你可以是放射科醫生,你也可以是程式設計師。你花在日常任務上的時間與更高層次的思考時間的比例會改變,所有這些都可能改變,使工作更有意義。還有一些工作可能會被取代。那麼,從社會的角度而言,我們如何對人們進行再培訓、技能重塑並創造機會呢?
《麻省理工科技評論》:2022 年,在我們應該如何對待人工智慧這一問題上,人們產生了哲學上的分歧。你可以相信它要追求安全第一,商業用例第一,或者變成一個加速主義者與末日論者。你所處的位置是,你必須彌合所有這些哲學,並將其結合在一起。谷歌將成為這一領域的領導者,我想知道,你個人對如何將谷歌的這些利益連接到這個新世界有何看法。
桑達爾·皮查伊:我是一個技術樂觀主義者。基於我的個人經歷,我一直相信人和人性。因此,總的來說,我認為人類將利用技術來造福人類。所以我一直是個樂觀主義者。你是對的,像人工智慧這樣強大的技術有其雙重性。
這意味著我們有時會大膽前進,因為我認為我們可以推動最先進的技術。例如,如果人工智慧可以幫助我們解決癌症或氣候變化等問題,你就想竭盡全力快速前進。
但你肯定需要社會制定框架來適應它,無論是深度偽造還是工作崗位流失等問題。這將是一個前沿領域,與氣候變化沒有什麼不同。這將是我們在未來十年所面臨的最大問題之一。
《麻省理工科技評論》:另一個懸而未決的大問題是人工智慧的法律環境。還有關於公平使用的問題,關於保護產出內容的問題。這對智慧財產權來說似乎是一件大事。你如何告訴使用你產品的人,讓他們有安全感,他們所做的不會讓他們被起訴?
桑達爾·皮查伊:這些話題並不都會有簡單的答案。當我們構建產品時,比如搜索和 YouTube,以及前人工智慧時代的東西,我們一直在努力實現正確的價值交換。
這對人工智慧來說也沒什麼不同。我們絕對專注於確保我們能夠在符合法律的情況下,根據允許訓練的數據進行訓練,讓人們有機會選擇讓自己的數據不被用來訓練。然後就是關於什麼是合理使用。
為原創內容的創作者創造價值是很重要的。這些都是重要的領域。網際網路就是一個例子,或者當電子商務興起時,你如何在電子商務和常規商業之間劃清界限?
隨著時間的推移,會有新的法律框架發展起來,我想這就是我在這個領域發展時的想法。但與此同時,我們將努力站在法律的正確一邊,確保我們與當今許多內容提供商建立深厚的關係。
有些領域存在爭議,但我們正在努力解決這些問題,我致力於解決這個問題。我們必須創造一個雙贏的生態系統,讓這一切隨著時間的推移而發揮作用。
《麻省理工科技評論》:人們現在非常擔心搜索的未來。當你有一種技術可以根據網絡上的信息為你回答問題時,人們擔心用戶可能不再需要訪問這些搜索網站。這似乎也可能對谷歌產生影響。我還想知道,你是否在從自己的業務角度考慮這個問題。
桑達爾·皮查伊:我們在搜索中的一個獨特價值主張是,我們幫助用戶發現和學習新事物,找到答案,但始終以與他們分享網絡上存在的豐富性和多樣性為目的。即使我們創建了生成式搜索體驗,這個主張也是一樣的。這是我們開發產品的一個重要原則。
我不認為人們總是在搜索時說:「給我一個答案就夠了。」可能有一兩個問題是這樣的,但即使是這樣,你也會學到更多,甚至在這段旅程中,會走得更遠。我們一直想確保我們做對的事,我認為這不會改變,重要的是我們要在這方面取得平衡。
同樣,如果你深度交付價值,那麼你所交付的東西也有商業價值。從桌面到手機,我們都遇到過這樣的問題。
這對我們來說並不新鮮。根據我們所看到的一切以及用戶對高質量廣告的反應,我覺得很好。YouTube 是我們開發訂閱模式的一個很好的例子。這也很有效。
《麻省理工科技評論》:隨著這些產品開始真正進入市場並開始互動,你認為 2024 年人們的體驗將如何改變?他們的經歷將如何改變?
桑達爾·皮查伊:我認為一年後,任何開始在谷歌文檔中工作的人都會期待一些不同的東西。如果你讓他們用新版谷歌文檔,然後再回溯到舊版,他們會發現它已經過時了。
這就像,對於我的孩子而言,如果文檔軟體中沒有拼寫檢查,他們從會認為這個軟體壞了。你和我可能還記得在拼寫檢查出現之前,我們使用這些產品是什麼體驗。
但與任何其他公司相比,我們在搜索中引入了如此多的人工智慧,人們認為這是理所當然的。這是我隨著時間的推移學到的一件事:他們會認為這是理所當然的。
就人們可以做什麼新事情而言,隨著我們開發多模態能力,人們將能夠以以前無法實現的方式完成更複雜的任務,而且會有更強大的真實用例。
作者簡介:馬特·霍南(Mat Honan)是《麻省理工科技評論》的主編。加入《麻省理工科技評論》之前,馬特在 BuzzFeed News 任職,他在那裡擔任執行編輯,並推出 BuzzFeed 新聞技術服務台,他的團隊在那裡獲得了波爾克獎、利文斯頓獎和普利茲獎。霍南也曾是《連線》雜誌的專欄作家和資深作家,20 多年來一直報道科技行業。
支持:Ren