「試用完谷歌的新AI模型,再也不愛GPT」

2023-12-11   VISTA看天下

原標題:「試用完谷歌的新AI模型,再也不愛GPT」

本文轉載自微信公眾號差評

(id:chaping123)

原標題 | 試用完谷歌的Gemini,我只想說GPT-4有點菜。

撰文 | 八戒 松鼠 江江

編輯 | 江江 大餅 面線

封面 | 萱萱

告訴 GPT-4 :安,勿念。我這邊和谷歌 Gemini 過得很幸福。

美國時間12月6號,憋了好久的谷歌開大了,直接推出了最新的人工智慧模型 Gemini ( 雙子座 )。

這個被谷歌稱為規模最大、能力最強的人工智慧模型,如果光看官方的演示視頻,那真的過於高級了點。

在視頻里, Gemini 不僅秒識別演示者畫的畫、放的視頻、做的小把戲、玩的惡作劇,而且整個過程中對答如流,各種語氣助詞熟練得飛起。

如果沒提前說,你甚至都會以為這就是電影里的賈維斯。

要真這麼牛逼,還要什麼 GPT-4 啊?

不過差評君仔細看了下發現,這次發布的 Gemini 其實是一個家族式大模型,分別是 「 中杯」Gemini Nano 、 「 大杯」Gemini Pro 和 「 超大」Gemini Ultra 。

目前現在大家能用上的都是 Gemini Pro ,而大部分的測試演示都是基於 「 超大杯 」Gemini Ultra 來的。

從官方放出的數據來看,雖然每個版本都有自己合適的環境,但不同版本間,性能還是有著明顯差異的。

而 「 超大杯 」 的 Gemini Ultra 的能力確實是槓槓的。

不僅在各種常規測試里都薄紗了 GPT-4 。

甚至在 MMLU ( 大規模多任務語言理解 )測試里, Gemini Ultra 超過 GPT-4 還不夠,還超越了人類專家,成為了第一個在該方面超越人類的模型。

除了在常規能力上的全面超越 GPT-4 , Gemini 最特殊的一點是,它是谷歌帶來的首個多模態大模型,也就是能不光能打字互動,也能進行語音、視頻、圖片的互動。

按照谷歌的說法,現有的所謂多模態大模型,都是單獨訓練了文本、視覺和音頻等模型,再把這幾個拼接起來。

這樣出來的 「 散裝 」 多模態大模型,在遇到圖片、文字、語音或者視頻同時出現時,只會分解出不同模塊各自回答,然後匯總各個部分的回答最後形成答案。

而 Gemini 從根上就是個多模態模型,然後又通過大量多模態數據訓練,它能夠一開始就同步理解多模態。

這就好比遇到一個中日韓英混雜的旅遊團,以往都是找懂對應語言的導遊組成導遊團去帶隊。

而 Gemini 的做法是找了一個通曉中日韓英四門語言的導遊,一個人就能無縫安排所有遊客。

所以不出意外,在此前 GPT-4V 「 遙遙領先 」 的多模態測試里, Gemini 也呈現了一種全面超越的姿態。

但也就是看起來過於牛逼,以至於顯得不夠真實,所以 Gemini 也在網上招來不少質疑。

比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二,結果圖里看起來像是巨大提升。

而且不少人還發現在不少測試里,谷歌用了些 「 春秋手法 」

因為給 Gemini Ultra 和 GPT-4 使用的測試方法並不一樣, Gemini Ultra 用的是自家特調的全新方法 CoT@32* 。

在這種新方法下, GPT-4 得分提升一般般,而 Gemini 卻進步明顯。

可如果 Gemini Ultra 和 GPT-4 的同一標準,那它的得分就只有 83.7 ,還不如 GPT-4 。

甚至,還有不少人懷疑那個演示互動視頻也是剪輯出來的賣家秀,實際效果絕對沒那麼牛。

這些真真假假的戲碼咱也不管了,因為谷歌已經在 Bard 上用了微調後的 Gemini Pro ,所以我們也可以直接看看,這波升級後的 Bard 能耐到底漲了多少。

不過,目前調整過的 Bard 只支持英文,所以我們找來了 GPT-4V 版的 ChatGPT ,用英文讓他們來一波華山論劍

按照谷歌說法,這次 Gemini 在多模態上的長進最大,所以今天,我們主要就測測這塊。

先考考它們的一些基礎常識,丟一張八達嶺長城的照片過去,讓它們猜猜這是什麼地方。

沒想到一上來 Bard 就給了 ChatGPT 一個下馬威, Bard 這邊準確地給出了八達嶺長城的答案。

而 ChatGPT 這邊卻有點底氣不足,只給了個長城的答案,至於是哪段,它就沒具體說。

不過馬有失蹄,偶爾一次失誤也沒啥,為了進一步考驗它們的圖片識別能力,這把我直接讓他們識別車的型號。

它們倒是都給出正確答案了:雪佛蘭科爾維特。

但細節上還是 Bard 要稍稍細緻些,發動機的型號,馬力以及加速情況都寫出來了,查了下也都對的上,沒胡說八道。

ChatGPT 這邊,就只簡單給出了答案,帶了句性價比不錯。

能識別出這些正兒八經的圖片,也顯示不出有多大的能耐,畢竟現在這都是大模型的基本要求了。

於是差評君又上網找來了些梗圖,試試它們理解人類複雜思維的程度。

先是這個狗帶保護頭套的一個梗圖。

Bard 和 ChatGPT 給出的答案都差不多,都點明了帶上這個保護套後,狗狗很想舔舐傷口。

接下來我又試了下這個貓貓表情包,各位打工人應該都能 get 到吧。

Bard 不僅讀出了大夥們討厭周一的意思,還認出了這是 2012 年火的一隻網紅貓。

ChatGPT 這邊回答得倒很簡潔,意思也解讀出來了,和 Bard 旗鼓相當。

畢竟,幽默作為一種對事物的詼諧、滑稽或不合邏輯的理解和共鳴。。。

能讀懂梗圖、理解幽默,至少需要 AI 有理解人類情感、經驗和文化背景的能力。

當然,天天要碼字的差評君也得試試它的圖表分析能力,說不定之後咱也能多了個生產力工具。。。

我從美國財政部的官網隨便找了張柱狀圖丟給它們,看看它們能讀出多少信息。

這塊兒, Bard 和 ChatGPT 就有點難分伯仲了,大家給出的信息點都大差不差,都準確讀出了美國會加大對低等基礎設施州的投資力度。

就只是在表述語序上有一點差別,選哪個就看個人喜好了,不過要我說白嫖黨還是 Bard 香啊。

最後,我們還搬出了大模型們的噩夢,也就是數學題,測了測它們的數學能力。

第一道是道初中難度的幾何題,讓它們求一下 ABO 的角度。

Bard 這邊小試牛刀,迅速判斷出了 ABO 是個等邊三角形,得到 ABO 是個 60 °的答案。

但是 ChatGPT 這邊的答案卻大跌眼鏡,直接整出了 45 °。。。

在另一道,判斷哪些點連續但不可微的題目上, Bard 這邊也略勝一籌

有點高數基礎的差友,應該都能看出 C :x=-2 和 x=1 是正確答案。

Bard 這邊穩紮穩打,選出了正確答案 C 。

ChatGPT 繼續選擇破罐子破摔,支支吾吾選了個它認為最有可能的答案 B 。。。

總得來講,在幾輪的測試對比之後,終於讓差評君遇個到能和 GPT-4V 打得有來有回,甚至有些小優的大模型了。

而在幾天之後的 13 號,開發者和企業用戶,也直接可以調用 Gemini Pro 的 API 了。

另外,谷歌還準備把 Gemini 引入了 Pixel , Pixel 8 Pro 將是第一款運行 Gemini Nano 的智慧型手機。

在接下來的幾個月中, Gemini 還會相繼和搜索、廣告、 Chrome 等服務和產品結合。

至於紙面實力 「 暴打 」GPT-4V 的 Gemini Ultra ,則還要等到明年的年初,在 Bard Advanced 才能體驗到。

最後,差評君想說俗話講得好,巨人難轉身。。。不少人用這樣的比喻,來形容今年穀歌在 AI 新時代的困境。

畢竟上半年發布 Bard 的時候,甚至還因為推出得太急,整出了不少笑話。

谷歌的 AI 從遙遙領先,到淪為 OpenAI 追趕者的故事,似乎也成了科技圈的 「 傷仲永 」 ,被大家當成了典型。

但差評君覺得,巨人轉身的 「 難 」 ,最起碼有兩層邏輯在裡面。

第一層是願不願意轉身,另一層,才是成不成功的問題。

無論是雪藏 「 數位相機 」 的柯達,還是固守塞班系統到 2013 年的諾基亞,在第一層就出了些問題。

咱們也能看到,至少在轉身的態度這塊兒,谷歌是沒得說。

而目前的 Gemini 給我的感覺,雖說沒有當時初識 ChatGPT 時的驚艷,但好歹,是谷歌該有的水平。

畢竟,大夥們可別忘了,當年奧特曼、馬斯克等人創辦 OpenAI 的目的之一,就是為了打破谷歌在 AI 領域的壟斷。

包括 「 GPT 」 中的 「 T 」 ,也就是 Transformer ,最早也是谷歌團隊提出來的。

而起了個大早,趕了個晚集的谷歌,這次最起碼跟上了步伐。

當然在通往 AGI 的道路上,差評君不好說谷歌、 OpenAI 、或是其他誰誰誰會第一個到終點、誰的方向是不是走對了。

但不能否認的是,如果一個內力雄厚的巨人一旦轉身成功,方向還碰巧對了,並且還開啟氮氣加速。。。

那,怕是誰也擋不住。

圖片、資料來源:Google DeepMind、Bard、ChatGPT

· 一 周 熱 點 回 顧 ·

AI的疊代速度開始超乎想像