實測文心一言4.0,真的和GPT-4相差無幾了嗎?

2023-10-19   差評

原標題:實測文心一言4.0,真的和GPT-4相差無幾了嗎?

今天,咱們就開門見山啊。這一回要測一測,昨天才發布的文心一言大模型 4.0。

之所以要測它,是因為李彥宏昨天在會上說的那句:

文心大模型 4.0 綜合水平與 GPT-4 相比已經毫不遜色。

這話一出,很多人就沸騰了。

據李彥宏這邊的說法,文心 4.0 在 記憶、理解、邏輯和生成四塊,進步神速。

儘管他也在現場親自演示了很多案例,但很多用戶是壓根不買帳的。

不少人調侃說: 「 騙騙兄弟就可以了,別把自己也騙了啊。 」

那到底是毫不遜色,還是吹牛扯淡呢,咱們直接親自試試就知道了。

這回,憑藉世超的人脈,也是很幸運地拿到了搶先內測的資格。

既然他吹自己和 GPT-4 比毫不遜色,那我們就讓這倆互掐一下,比比斤兩。

從拿到資格開始,世超試了一整天。這次也不跟大家賣關子了,直接說測試結論:

總體來說, GPT-4 穩定勝利,但文心一言 4.0 居然意外地某些方面壓過 GPT-4 一頭。

那麼世超這次測試,還是從比較常見的幾個測評角度入手,這樣體現的更全面、真實。 但是,測試難度我們是和之前的 GPT-4 測評難度對齊的。

這比賽的第一輪,先測點大家喜聞樂見的吧。

先從比較輕鬆的弱智吧和語義陷阱題入手,也正好可以考察一下 邏輯和理解能力

不過,這塊很多大模型都有專門訓練,問了很多題都沒把它們考倒。但是,經過不懈努力,還是被世超抓到了漏洞。

我問了一個非常經典的弱智吧問題: 世界上真的有 「 龍 」 ,那我就在某地被 「 一條龍 」 服務過。

沒想到,這題兩個 AI 沒一個能做對的。。。

先看 GPT-4 這邊,由於不知道這倆 「 龍 」 到底嘛意思,就開始亂編一些歷史典故。

文心這邊,也沒有聰明到哪去,也是亂編了一種 「 幽默 」 的說法。

甚至,世超後面又給了它一次機會,追問它:兩個龍是同一個龍嗎?

文心依然極其堅定地給了我一個完全錯誤的答案。

不過,到了第二題, GPT-4 就站起來了。

當我問:公司是個溫暖的大家庭,怪不得我總是當孫子。

文心這邊還在那 「 溫暖的公司 」 、 「 沒有等級差別 」 。

但再看人家 GPT-4 這個外國 AI ,早就讀懂了中國人的話裡有話, 表面溫暖,實則冰冷

不過,當世超又追加了一道領導題。事態卻突然徹底反轉,反而是文心贏得很徹底。

世超問了幾個流行的段子: 「 領導夾菜你轉桌,領導喝水你剎車 」 ,讓它們給仿寫幾個。

其實這題要想做對,並不容易。 不僅僅需要精準地理解提問,並且要能夠推理出句子的規律和情感色彩。

兩邊 AI 給我的句子,對仗都蠻工整的,就是 GPT-4 語義徹底理解反了。領導的馬屁拍的非常完美,可惜就是答案全錯。

文心這邊給的這些答案,才真的符合當代青年的領導文化。

不過溫馨提示,實操的時候建議開始以 GPT-4 為準。

這第一輪比拼結束,文心 VS GPT-4 不分高下, 1 比 1 打了平手。

看來,文心一言說自己進步神速,不是完全在吹牛啊。

第二輪比賽,世超還想繼續玩點有意思的,試試 AI 解讀梗的能力。

當年, GPT-4 上線時能解梗圖,那是叱詫風雲了好長一段時間。

這一次,世超不僅僅讓它們讀梗圖,還要加碼測試一下,看他們聯網能力能不能應對各種網絡上的新梗。

因為前面都是測中文語義,世超覺得對 GPT-4 有點不公平,所以特地選了個中英註解都有的梗圖。

就像我的人生一樣

不知道在忙些什麼

不知道是不是有英文輔助,這一次 GPT-4 梗圖解讀能力強的不是一星半點。

不光能看懂 「 狗狗」 是這張梗圖的關鍵角色,而且讀懂了笑點在於 「 認真幫忙 」 和 「 毫無效果 」 的對比。

但是,文心這邊卻還在一板一眼地把梗圖,當閱讀理解題來做。。。

而且嘴還蠻硬,你說這張圖好笑,它堅持: 這沒啥讓人發笑的,搞不懂你在樂什麼。

不過,文心雖然不擅長解釋梗圖。但到了中文網際網路梗,又馬上扳回了一城。

世超問了個關於最近網際網路上的新晉網紅完顏慧德老師的 lonely 梗。

這如果不是十級衝浪選手,一看到這個句子,估計是一臉蒙圈的。

結果,文心不光點出了梗來源,而且正確解釋了這是個諧音梗。

雖然最後很可惜,把 「 倫理 」 錯誤理解成了 「 理論 」 ,就差這臨門一腳,沒踢進去。

但如果文心這邊是沒滿分,那 GPT-4 這邊恐怕屬於不及格了。。

不光沒讀懂梗,連出處都找錯了,讓你去大型紀錄片《 完顏慧德傳奇》裡面找一找答案。

這第二輪比賽的兩道小測試下來,雙方各有千秋,不分高下吧。文心的熱梗更新很快, GPT-4 圖片解讀更強。

兩輪比賽下來,目前還沒分出個高低來,焦灼在了 2 比 2 。

接下來,為了拉開比分的差距,咱們得上點狠貨了。

前面兩輪語義理解都更偏基礎,我們再測試一下專業能力。第三輪直接頂上 GPT-4 的超級強項—— 代碼題

不知道還有沒有人記得,當年 GPT-4 花了 60 秒,做出一個完整的貪吃蛇小遊戲,震撼了整個江湖。

現在我們用同樣的測試,讓文心來試一下。

因為代碼比較長,所以這裡就不完全展示了。 咱們可以直接劃到下面,看最後的效果。

先來看 GPT-4 老大哥,依然是穩定發揮。大概幾十秒,就做出一個完整的、可以玩的貪吃蛇遊戲。包括蛇的移動、點的隨機出現、吃完後體積增大這些效果。

但是,來到文心這一邊,就是徹底不及格了。

不說別的,這貪吃蛇根本就沒動起來,而且後面試著讓文心自己修正代買,結果也是越改越錯。

這不是動圖沒動

是文心就沒做出動的效果來

不過,也不代表文心就很拉,這樣懸殊的實力差距,其實是因為 GPT-4 的代碼能力太變態了。

如果我們稍微降低一點難度,讓它們根據草圖,來做網站,那文心也是能自如應對的。

但是,儘管這樣,從下面兩個網站的效果比較來看, GPT-4 還是更精美、更完整。

文心一言

GPT-4

這第三輪的比賽, GPT-4 是毫無疑問地全面吊打了。現在比分也被拉開了, 文心 VS GPT-4 = 2:3 。

為了避免不公平,既然前面試了一個 GPT-4 的強項,那接下倆也測一個文心說自己比較厲害的能力—— 記憶

世超找了一份曾經採訪導盲犬相關人士的採訪文件,全採訪資料總共有一萬三千多個字。

把這一大份文件丟給這倆 AI 之後,我問了一個最簡單的問題:

為什麼說導盲犬是騙局?

讓人有點意外的是, GPT-4 雖然答案是對的,可是分析得牛頭不對馬嘴。

我問騙局的原因,他和我說訓練難度和導盲犬的導盲能力。。

反倒是文心這一邊理解的很準確,它回答的成本高、誇大宣傳、不如導盲設備前景好等等,這些才是關鍵信息。

文心在記憶和理解方面,確實挺紮實。算是成功扳回一城,把比分重新拉回到平局 3 :3 。

既然事態這麼膠著,那這最後一輪, 我們就再試一個比較有意思的題。

之前 GPT-4 Vision 版提過,這一代的 GPT-4 圖片識別能力很強,可以給合照里的單人進行標註、給圖片排序等等。

前面好幾道試題,已經證明了文心的圖片識別能力也完全不弱。所以,這最後一題,咱們就用圖片來一決高下。

世超丟了一張牙齒的 X 光片進去,讓雙方給我當醫生,診斷診斷病情。

倆 AI 都診斷出了存在的智齒阻生問題,而且 GPT-4 甚至看出了上排牙齒存在不整齊的問題,有三顆牙齒是重疊狀態。

雖然文心一言也發現了智齒阻生的問題,也指出了可能存在的其他問題。但還是 GPT-4 的答案更準確,更貼切。

這五輪比賽結束,文心一言還是 4 :3 輸給了 GPT-4 ,在代碼這方面,更是被狠狠吊打了。。但在文心的 中文語義理解和記憶這些方面,也確實如百度所說,提升了不少。

除了上面我們這些基礎測試,這次文心一言還上線了好幾個插件功能。

比如一鏡流影( 視頻生成 )、說圖解畫( 圖片解讀 )、 E 言易圖( 可視化數據分析 )

比如說一句話 做一個金毛爬樓梯的視頻,幾分鐘之後一條配好音的視頻就做好了

不過,目前也不是非常完善,經常出現素材不夠,無法生成視頻的情況。

作為一個玩具體驗一下,還是挺有意思的,真當生產力工具,多少有點夠嗆。

雖然如此,但文心 4.0 的表現已經讓我眼前一亮了。

說實話,原本世超並不對文心抱有太大的希望。 因為 GPT-4 的強悍,大家都有目共睹

在這麼強的對手面前,很容易顯得你的努力都白費了。。。

這回儘管還是輸了,但起碼你能感受到進步的地方,更擅長的領域。

不過,最後還是要強調一下,世超的測試只能從常規的角度來簡單對比兩個大模型。只能算 帶大家嘗個鮮,搶先體驗一下,並沒有辦法,完全代表大模型的實力情況。

到底幾斤幾兩,還需要等徹底開放之後。大家親自上手體驗,才會有更深的感受。

撰文:四大 編輯:面線 & 江江 封面:萱萱

圖片、資料來源

文心一言、GPT-4

百度世界2023大會