「試用完谷歌的新AI模型，再也不愛GPT」

2023-12-11 VISTA看天下

本文轉載自微信公眾號差評

（id:chaping123）

原標題 | 試用完谷歌的Gemini，我只想說GPT-4有點菜。

撰文 | 八戒松鼠江江

編輯 | 江江大餅面線

封面 | 萱萱

告訴 GPT-4 ：安，勿念。我這邊和谷歌 Gemini 過得很幸福。

美國時間12月6號，憋了好久的谷歌開大了，直接推出了最新的人工智慧模型 Gemini （雙子座）。

這個被谷歌稱為規模最大、能力最強的人工智慧模型，如果光看官方的演示視頻，那真的過於高級了點。

在視頻里， Gemini 不僅秒識別演示者畫的畫、放的視頻、做的小把戲、玩的惡作劇，而且整個過程中對答如流，各種語氣助詞熟練得飛起。

如果沒提前說，你甚至都會以為這就是電影里的賈維斯。

要真這麼牛逼，還要什麼 GPT-4 啊？

不過差評君仔細看了下發現，這次發布的 Gemini 其實是一個家族式大模型，分別是「中杯」Gemini Nano 、「大杯」Gemini Pro 和「超大杯」Gemini Ultra 。

目前現在大家能用上的都是 Gemini Pro ，而大部分的測試演示都是基於「超大杯」Gemini Ultra 來的。

從官方放出的數據來看，雖然每個版本都有自己合適的環境，但不同版本間，性能還是有著明顯差異的。

而「超大杯」的 Gemini Ultra 的能力確實是槓槓的。

不僅在各種常規測試里都薄紗了 GPT-4 。

甚至在 MMLU （大規模多任務語言理解）測試里， Gemini Ultra 超過 GPT-4 還不夠，還超越了人類專家，成為了第一個在該方面超越人類的模型。

除了在常規能力上的全面超越 GPT-4 ， Gemini 最特殊的一點是，它是谷歌帶來的首個多模態大模型，也就是能不光能打字互動，也能進行語音、視頻、圖片的互動。

按照谷歌的說法，現有的所謂多模態大模型，都是單獨訓練了文本、視覺和音頻等模型，再把這幾個拼接起來。

這樣出來的「散裝」多模態大模型，在遇到圖片、文字、語音或者視頻同時出現時，只會分解出不同模塊各自回答，然後匯總各個部分的回答最後形成答案。

而 Gemini 從根上就是個多模態模型，然後又通過大量多模態數據訓練，它能夠一開始就同步理解多模態。

這就好比遇到一個中日韓英混雜的旅遊團，以往都是找懂對應語言的導遊組成導遊團去帶隊。

而 Gemini 的做法是找了一個通曉中日韓英四門語言的導遊，一個人就能無縫安排所有遊客。

所以不出意外，在此前 GPT-4V 「遙遙領先」的多模態測試里， Gemini 也呈現了一種全面超越的姿態。

但也就是看起來過於牛逼，以至於顯得不夠真實，所以 Gemini 也在網上招來不少質疑。

比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二，結果圖里看起來像是巨大提升。

而且不少人還發現在不少測試里，谷歌用了些 「春秋手法」 。

因為給 Gemini Ultra 和 GPT-4 使用的測試方法並不一樣， Gemini Ultra 用的是自家特調的全新方法 CoT@32* 。

在這種新方法下， GPT-4 得分提升一般般，而 Gemini 卻進步明顯。

可如果 Gemini Ultra 和 GPT-4 的同一標準，那它的得分就只有 83.7 ，還不如 GPT-4 。

甚至，還有不少人懷疑那個演示互動視頻也是剪輯出來的賣家秀，實際效果絕對沒那麼牛。

這些真真假假的戲碼咱也不管了，因為谷歌已經在 Bard 上用了微調後的 Gemini Pro ，所以我們也可以直接看看，這波升級後的 Bard 能耐到底漲了多少。

不過，目前調整過的 Bard 只支持英文，所以我們找來了 GPT-4V 版的 ChatGPT ，用英文讓他們來一波華山論劍。

按照谷歌說法，這次 Gemini 在多模態上的長進最大，所以今天，我們主要就測測這塊。

先考考它們的一些基礎常識，丟一張八達嶺長城的照片過去，讓它們猜猜這是什麼地方。

沒想到一上來 Bard 就給了 ChatGPT 一個下馬威， Bard 這邊準確地給出了八達嶺長城的答案。

而 ChatGPT 這邊卻有點底氣不足，只給了個長城的答案，至於是哪段，它就沒具體說。

不過馬有失蹄，偶爾一次失誤也沒啥，為了進一步考驗它們的圖片識別能力，這把我直接讓他們識別車的型號。

它們倒是都給出正確答案了：雪佛蘭科爾維特。

但細節上還是 Bard 要稍稍細緻些，發動機的型號，馬力以及加速情況都寫出來了，查了下也都對的上，沒胡說八道。

ChatGPT 這邊，就只簡單給出了答案，帶了句性價比不錯。

能識別出這些正兒八經的圖片，也顯示不出有多大的能耐，畢竟現在這都是大模型的基本要求了。

於是差評君又上網找來了些梗圖，試試它們理解人類複雜思維的程度。

先是這個狗帶保護頭套的一個梗圖。

Bard 和 ChatGPT 給出的答案都差不多，都點明了帶上這個保護套後，狗狗很想舔舐傷口。

接下來我又試了下這個貓貓表情包，各位打工人應該都能 get 到吧。

Bard 不僅讀出了大夥們討厭周一的意思，還認出了這是 2012 年火的一隻網紅貓。

ChatGPT 這邊回答得倒很簡潔，意思也解讀出來了，和 Bard 旗鼓相當。

畢竟，幽默作為一種對事物的詼諧、滑稽或不合邏輯的理解和共鳴。。。

能讀懂梗圖、理解幽默，至少需要 AI 有理解人類情感、經驗和文化背景的能力。

當然，天天要碼字的差評君也得試試它的圖表分析能力，說不定之後咱也能多了個生產力工具。。。

我從美國財政部的官網隨便找了張柱狀圖丟給它們，看看它們能讀出多少信息。

這塊兒， Bard 和 ChatGPT 就有點難分伯仲了，大家給出的信息點都大差不差，都準確讀出了美國會加大對低等基礎設施州的投資力度。

就只是在表述語序上有一點差別，選哪個就看個人喜好了，不過要我說白嫖黨還是 Bard 香啊。

最後，我們還搬出了大模型們的噩夢，也就是數學題，測了測它們的數學能力。

第一道是道初中難度的幾何題，讓它們求一下 ABO 的角度。

Bard 這邊小試牛刀，迅速判斷出了 ABO 是個等邊三角形，得到 ABO 是個 60 °的答案。

但是 ChatGPT 這邊的答案卻大跌眼鏡，直接整出了 45 °。。。

在另一道，判斷哪些點連續但不可微的題目上， Bard 這邊也略勝一籌。

有點高數基礎的差友，應該都能看出 C ：x=-2 和 x=1 是正確答案。

Bard 這邊穩紮穩打，選出了正確答案 C 。

ChatGPT 繼續選擇破罐子破摔，支支吾吾選了個它認為最有可能的答案 B 。。。

總得來講，在幾輪的測試對比之後，終於讓差評君遇個到能和 GPT-4V 打得有來有回，甚至有些小優的大模型了。

而在幾天之後的 13 號，開發者和企業用戶，也直接可以調用 Gemini Pro 的 API 了。

另外，谷歌還準備把 Gemini 引入了 Pixel ， Pixel 8 Pro 將是第一款運行 Gemini Nano 的智慧型手機。

在接下來的幾個月中， Gemini 還會相繼和搜索、廣告、 Chrome 等服務和產品結合。

至於紙面實力「暴打」GPT-4V 的 Gemini Ultra ，則還要等到明年的年初，在 Bard Advanced 才能體驗到。

最後，差評君想說俗話講得好，巨人難轉身。。。不少人用這樣的比喻，來形容今年穀歌在 AI 新時代的困境。

畢竟上半年發布 Bard 的時候，甚至還因為推出得太急，整出了不少笑話。

谷歌的 AI 從遙遙領先，到淪為 OpenAI 追趕者的故事，似乎也成了科技圈的「傷仲永」，被大家當成了典型。

但差評君覺得，巨人轉身的「難」，最起碼有兩層邏輯在裡面。

第一層是願不願意轉身，另一層，才是成不成功的問題。

無論是雪藏「數位相機」的柯達，還是固守塞班系統到 2013 年的諾基亞，在第一層就出了些問題。

咱們也能看到，至少在轉身的態度這塊兒，谷歌是沒得說。

而目前的 Gemini 給我的感覺，雖說沒有當時初識 ChatGPT 時的驚艷，但好歹，是谷歌該有的水平。

畢竟，大夥們可別忘了，當年奧特曼、馬斯克等人創辦 OpenAI 的目的之一，就是為了打破谷歌在 AI 領域的壟斷。

包括「 GPT 」中的「 T 」，也就是 Transformer ，最早也是谷歌團隊提出來的。

而起了個大早，趕了個晚集的谷歌，這次最起碼跟上了步伐。

當然在通往 AGI 的道路上，差評君不好說谷歌、 OpenAI 、或是其他誰誰誰會第一個到終點、誰的方向是不是走對了。

但不能否認的是，如果一個內力雄厚的巨人一旦轉身成功，方向還碰巧對了，並且還開啟氮氣加速。。。

那，怕是誰也擋不住。

圖片、資料來源：Google DeepMind、Bard、ChatGPT

· 一周熱點回顧 ·

AI的疊代速度開始超乎想像