優等生歸來,谷歌最強大模型Gemini能否打敗GPT4?|甲子光年

2023-12-07     甲子光年

原標題:優等生歸來,谷歌最強大模型Gemini能否打敗GPT4?|甲子光年

谷歌在技術前瞻性上領先,OpenAI更專注於產品的打磨。

作者|蘇霍伊

編輯|王博‍‍

"沉寂"已久的谷歌終於放大招了。

美國當地時間12月6日,谷歌發布多模態大模型Gemini。谷歌DeepMind直接宣布,Gemini是「谷歌最大、最強的人工智慧模型」。

Google Deepmind 的官方帳號截圖,來源:谷歌DeepMind

Gemini谷歌是從頭開始構建的多模態模型,這也是更接近人類認識世界的方式。

作為谷歌用來應對GPT-4的「殺手鐧」。Gemini在32個多模態基準測試中取得了30個SOTA(State Of The Art,即當前最優效果)的記錄,是第一個在MMLU(大規模多任務語言理解)測評上超過人類專家的模型。Gemini在此項取得的成績是90.0%,作為對比,人類專家的成績為89.8%,GPT-4為86.4%。

Gemini共有三個版本:

  • Gemini Ultra:適用於高度複雜的任務;

  • Gemini Pro:適用於擴展至各種任務的Gemini模型;

  • Gemini Nano:體量較小,適用於特定任務和移動設備。

  • Gemini Ultra:適用於高度複雜的任務;

  • Gemini Pro:適用於擴展至各種任務的Gemini模型;

  • Gemini Nano:體量較小,適用於特定任務和移動設備。

Gemini Ultra:適用於高度複雜的任務;

Gemini Pro:適用於擴展至各種任務的Gemini模型;

Gemini Nano:體量較小,適用於特定任務和移動設備。

Gemini的三個版本,圖片來源:谷歌

"Gemini的多樣性讓它能夠在從移動設備到大型數據中心的所有設備上運行。"谷歌DeepMind產品副總裁Eli Collins說,「我們離新一代人工智慧模型的願景越來越近了。」

「有了人工智慧,我們將有機會以更大規模做一些重要的事情。」谷歌CEO Sundar Pichai在谷歌成立25周年公開信中就特意提到了人工智慧。面對強勢的OpenAI,優等生谷歌需要一款現象級產品,證明自己在人工智慧領域的實力。

Gemini就是谷歌交出的答卷。

1.「打的就是精銳」

谷歌的Gemini模型的核心優勢在於其原生多模態(natively multimodal)的特性。

以往的多模態大模型往往是通過分別針對不同模態訓練單獨的組件,再將這些組件組合起來以模擬多模態功能的方法構建的。雖然在某些任務(比如圖像描述)上表現良好,但在處理需要更深層次概念理解和複雜推理的任務時,它們的表現往往不盡人意。

而谷歌的Gemini模型從一開始就在不同模態上進行預訓練,再通過使用額外的多模態數據進行微調,進一步提升了模型的有效性。這種原生的多模態訓練方法使得Gemini在處理多種類型的數據和複雜任務時更為高效和精準,從而在多模態人工智慧領域樹立了新的標準。

並且,Gemini的推出主要是"瞄準OpenAI的GPT-4"而來。用《亮劍》里李雲龍的話來說就是——「打的就是精銳」。

圖片來源:電視劇《亮劍》

在運算效能方面,Gemini幾乎「全面吊打」GPT-4。Gemini Ultra在大模型研發被廣泛使用的32個學術基準測試集中,在其中30個測試集的性能超過此前SOTA結果。其中,在多選問題、數學問題、Python代碼任務、閱讀等方面,Gemini的性能都超過了此前最先進的水平。

谷歌稱,他們對MMLU採用了新的基準方法,使Gemini能夠利用推理能力在回答難題之前進行更仔細的思考,相比僅僅根據問題的第一印象作答,Gemini的表現有顯著改進。

Gemini Ultra在多個編碼基準測試中表現出色,包括HumanEval和Natural2Code。其中僅Gemini僅在HellaSWAG數據集上的測試遜色於GPT-4。

HellaSWAG數據集主要用於研究紮根的常識推理能力,但是一位NLP領域的研究專家向「甲子光年」表示:"這並不能說明GPT4的常識推理性能更好,因為不能排除ChatGPT的模型在HellaSWAG數據集上訓練過。"

Gemini模型與GPT-4部分測試評分對比,圖片來源:谷歌

此外,在多模態方面,Gemini Ultra在新的MMMU基準測試中取得了59.4%的最先進得分,突顯了其多模態性和複雜推理能力。

在圖像基準方面的測試中,Gemini Ultra不需要從圖像中提取文本就能進行OCR處理,表現優於之前最先進的模型。

Gemini模型在多模態方面的與GPT-4V的測試對比,圖片來源:谷歌

Gemini 1.0被訓練用於同時識別和理解文本、圖像、音頻等,因此它能更好地理解具有細微差別的信息,回答與複雜主題相關的問題,尤其擅長解釋數學和物理等複雜科目中的推理。

「推理缺陷」也是GPT系列存在的問題。著名語言模型批評者Gary Marcus博士曾銳評道:「大語言模型沒法做一些有嚴格定義的工作:遵守西洋棋規則、五位數字相乘、在家譜中進行可靠的推理、比較不同物體的重量等等。」

Gemini解答物理題演示案例,圖片來源:谷歌

儘管技術進步顯著,但AI生成的虛假或捏造信息的問題依然存在。Eli Collins指出,這仍是一個未被完全解決的研究難題。

但他同時也強調,Gemini接受了谷歌迄今最為全面的安全評估,以確保其可靠性和安全性。谷歌對Gemini進行了一系列對抗性測試,模擬惡意用戶使用模型,並輸入各種提示詞,以檢測模型是否會產生仇恨言論或表現出政治偏見。這些測試包括了「真實毒性提示詞」,由網絡收集的超過10萬個提示詞組成,用以全面檢驗模型的反應。

谷歌數據的TPU v5p AI 加速器超級計算機,圖片來源:谷歌

值得注意的是,Gemini是在谷歌自研的雲晶片Tensor Processing Units(TPU)上完成訓練的。特別是TPU v5p版本,在性能上有了顯著提升,使得模型訓練速度相比前一代提高了2.8倍。據悉,TPU v5p晶片是專為數據中心訓練及大型模型運行而設計。

從12月13日起,開發人員和企業客戶可以通過Google AI Studio或Google Cloud Vertex AI來訪問Gemini Pro模型。Google AI Studio是一個基於網絡的免費開發工具,為開發人員提供API密鑰,從而快速創建原型並啟動應用程式。Vertex AI提供了定製化的Gemini以提供更為全面和管理的人工智慧平台,並具有完整的數據控制功能,能利用谷歌雲的額外功能,包括企業級的安全性、隱私保護以及數據治理和合規性。

此外,從Pixel 8 Pro設備開始,Android開發人員還可以通過Android 14中的新系統功能AICore來使用Gemini Nano。Gemini Nano是專為設備端任務設計的高效模型,通過註冊AICore的早期預覽版,開發人員可以深入探索其潛力,更便捷地利用Gemini的先進技術,並在Android生態系統的應用開發中迸發更多可能性。

到2024年,谷歌計劃推出Bard Advanced,它與AI agent的初級形態十分相似。Bard Advanced將藉助Gemini Ultra提供支持,可以迅速理解多模態輸入,包括文本、圖像、音頻和視頻,並作出相應的響應。

2.谷歌 VS OpenAI

在OpenAI的GPTs大放異彩時,谷歌似乎過於沉寂了。

今年2月,谷歌在巴黎舉行活動時,因其聊天機器人Bard的一處失誤,市值蒸發了1000億美元,也引發了外界對於Bard準確性的擔憂。

隨著OpenAI推出了ChatGPT,尤其是在必應搜索中整合了GPT技術,並首次在應用程式下載量上超越了谷歌后,人們開始思考谷歌是否在已人工智慧領域落後於競爭對手。

事實上,谷歌才是在2017年提出的Transformer模型、為今天這場遊戲制定規則的先行者。

谷歌對大模型"高地"的競爭意識並不比OpenAI晚。2021年,谷歌便推出了1.6萬億參數的Switch Transformer,強調稀疏多模態結構的潛力。同時,谷歌還提出了Flan-T5模型,通過更多監督數據降低了模型規模,比GPT-3模型參數更少但性能更佳。

對於技術上的評估,《經濟學人》在今年1月曾進行了一項比較測試,向ChatGPT和谷歌基於Lamda的機器人Bard提出了數學、閱讀和約會建議等問題。

測試結果顯示,谷歌AI在數學問題上表現更佳,但ChatGPT在常識問題上更準確。幾天後OpenAI升級了ChatGPT,再次測試中在數學問題上與谷歌AI持平。儘管ChatGPT作為一個大型語言模型訓練成本高、疊代難,但也顯示了它持續進化的巨大潛力。值得注意的是,谷歌的語言模型與ChatGPT在性能上是旗鼓相當的。

在這場對決中,谷歌和微軟都需要成本效益更高的解決方案。谷歌在AI領域取得了不少研究進展,但尚未將這些成果部署和變現,類似於微軟在過去的某些時期。這可能是因為谷歌低估了微軟和OpenAI的競爭實力,或者過於自信於自己在搜尋引擎領域的主導地位。

甲子光年」綜合多方觀點分析得出,谷歌在技術前瞻性上領先,OpenAI更專注於產品的打磨。

在Sam Altman領導下的OpenAI專注於產品為導向的工作,致力於擴展和優化模型,主要關注細節精調方法。

谷歌則在技術發展的方向上始終保持著積極和前瞻的態度,不過在整體戰略規划上卻屢次調整。

谷歌在稀疏模型架構上進行了深入探索。只是兩年後的,萬億級別的Switch Transformer幾乎沒產生任何水花,而千億參數級別的GPTs系列卻風生水起。同樣,被反覆改進的Flan-T5模型雖然在性能上超越了GPT-3,但其優化進展相對緩慢。

在谷歌"選擇困難症"期間,OpenAI已經完成了對ChatGPT的訓練。

在2022年9月,谷歌旗下的DeepMind推出了麻雀(Sparrow)模型,和ChatGPT一樣,採取了基於人類反饋的強化學習(RL)框架。該模型採用了小型參數設置,與谷歌看重的LaMDA和PaLM模型的思路有明顯不同。只是谷歌並未能迅速確定麻雀模型是否是最優選擇,這也導致了麻雀模型的產品化滯緩,最終未能"飛上枝頭變鳳凰"。

"猶豫不決"似乎一直是谷歌的宿疾。「但遲到總比不做好!終於有了OpenAI王座的有力競爭者。」在Google公布消息後,英偉達AI科學家Jim Fan評論道。

今年4月,谷歌將Google Brain和DeepMind團隊合併,成立 Google DeepMind。有人將這一團隊戲稱為「AI復仇者聯盟」。原Google AI產品負責人Eli Collins被委以重任,擔任新團隊的產品副總裁。

目前,Gemini Pro和Gemini Nano已在聊天機器人Bard和智慧型手機Pixel 8 Pro上集成,實現了更為高級的推理、規劃、理解等能力。而更為強大的Gemini Ultra將在明年發布。

不知OpenAI會如何"應戰"呢?或許我們很快便可以等到GPT-5的發布了。

不過,優等生谷歌並不完全在意這一時之戰,而是在著眼未來。

「我們對答案的探索將在未來25年推動非凡的技術進步。到2048年時,如果有一位青少年在世界上的某個地方,看著我們用人工智慧建造的一切聳聳肩,我們就知道我們成功了。然後,我們就回去工作。」

谷歌CEO Sundar Pichai在谷歌成立25周年公開信中如是說。

*參考資料:

《Introducing Gemini: our largest and most capable AI model》,谷歌

《ChatGPT大熱,谷歌為何在自己的地盤輸給OpenAI?》,介面新聞

(封面圖來源:電影《超人歸來》)

END.

文章來源: https://twgreatdaily.com/zh-mo/80aca4413ff7fc3410139d01ee9943db.html