原創 | 差評
大模型,它又雙叒來了。
今年上半年,那波大模型 1.0 狂轟濫炸之後。隨著時間的推移,各家打磨的下一代大模型,最近開始慢慢問世了。
這不,前兩天文心一言 4.0 才發。今天雲棲大會上,通義千問 2.0 就馬上跟進,還上了個 APP。
最重要的是,這次通義 2.0 直接開放給全社會體驗。點進通義千問,就能直接用上最新版。
這點還是挺有誠意,有興趣的差友們,都可以親自上手試試了 ~
不過,按照咱們傳統,世超還是會先帶大家簡單感受一下,全新升級的 2.0 有啥不同。也方便大家上手時,有個大致的體驗方向。
這回的通義 2.0,說是已經超過 ChatGPT 3.5,縮短了和 GPT-4 的差距。
但是,世超一上手,就覺得稍微有點失望,因為這個2.0 版依舊不支持聯網。
不過雖然不具備聯網能力,但世超試著問了一些熱梗。比如 「 哪李貴了 」、「 這是一個 lonely 的問題 」,它居然全都能夠讀懂。
這些回答不靠聯網,純靠手動更新資料庫。只能說,確實挺努力的。
但不管更新多快,我們都沒法當聯網 AI 測試了。只能從基本能力入手,分別是語義理解、邏輯、多模態能力、文本生成、代碼這五個方面,稍微探探底子咋樣。
首先,依照國際慣例,來點喜聞樂見的弱智吧問題。
世超一來就問道,連 GPT-4 都傻眼的題目。
問:這世上真的有龍,我就在某地被一條龍服務過。
上回, GPT-4 就是被這兩條龍給繞暈了,給我編了一堆虛構的成語來歷。
結果讓人有點意外,通義居然能完美應對。能完全理解兩個龍的區別是啥,也能明白 「 一條龍 」 服務是啥意思。
開局第一問,通義這小子應對的還不錯。
不過,為了防止通義會不會有備而來,偷偷訓練了,世超又去弱智吧上了點新貨。
問:為什麼抄襲永遠都是今人抄襲古人,沒有古人抄襲今人。
這回通義就有點應付不來了。它結論是對的,因為時間順序,古人當然不能抄今人。
但是,仔細看就會發現,後面還是說錯了一句。
它說,這並不是說古人就不會借鑑今人。估計通義本來是想正反面論證,顯得更客觀,結果就是反而暴露了邏輯馬腳。
其實世超試過這麼多中文語義題,沒有哪個大模型是都能做對的。
你多問幾題,換換角度,總是會做錯幾道。
比如問:小偷偷偷偷東西,什麼意思?
通義語義解釋為小偷偷取東西,是沒啥問題的。但是前半句又說句子裡有 3 個偷,說這是中文繞口令,就有些問題了。
不過,從結果來看,三道題算是對了 2.5 道,通義的中文語義理解算是不錯的。
好了,讓咱們測試繼續。下題還是從中文下手,問點中文語境下比較難的文本生成題。
以前每次都測寫小作文或者故事,這次整點花活。讓它用諸葛亮的語氣,寫首 rap 聽聽。
這一題,通義答得就有點意思了。
Rap 詞里又是孔明,又是臥龍;又是靜坐軍帳、輕撫瑤琴,又是小試牛刀的。既符合諸葛亮的人物屬性,又語言活潑。唯一美中不足就是沒押上韻。
不過,世超進一步考驗它的發散思維,又有點表現不行了。
讓它給我編個馬斯克和孔子的對話。然後,就看到孔子嘴裡說出了「 人工智慧 」四個字。。其他語句,也不太符合人物性格。
從前面兩輪測試看下來,通義 2.0 的中文水平是能聽能寫,但還沒有到能自如應對。發揮不太穩,有時能對,有時又會犯傻。
其實大模型都有這樣的毛病,咱們到底能不能把它應用起來,靠的是另一個東西——學習能力。
就比如讓大模型直接做一個直播策劃,往往出來的內容都是不夠成熟的。
這個時候,就看它們會不會學了。當你甩一些參考案例給它,它們能夠理解教程的意思,並模仿出來,這才是最重要的。
這點,世超覺得通義做的是不錯的,大家直接看案例就行。
世超讓它做個電動牙刷的直播流程。並提前丟了一個蜜雪冰城的參考,引導了一下。
它立馬就學會了,並甩了一份非常詳細的直播流程。開場、留客、鎖客學的一套一套的。。中文理解、學習和文本生成都相當在線。
到這一步,中文能力測試算暫時告一段落了。下面看看大模型的究極弱項——數學邏輯題和代碼,是否有提高。
當年考倒過無數大模型的 「 雞兔同籠 」 、 「 青蛙跳井 」 等等簡單的數學題,通義應對起來是沒問題了。
就算稍微給題目變一下形,也是分步解答,輕鬆駕馭。
但也是跟很多大模型一樣的毛病,題目一旦難起來,到個初高中水平,就傻眼了。
問它:任取三個長度小於 1 的線段,能組成一個三角形的機率為?
它和我說, 0 個交點組不成三角形, 1 個和 3 個交點組得成。。。我去,這麼簡單的解題思路,我怎麼沒想到呢?
以前有差友問說,大模型能不能用來改試卷。如果是數學老師,那世超建議還是三思。。通義確實是進步了,不過只進步到了小升初水平。
數學題這種嚴格推理的題目,對大模型來說還是一塊最難啃的骨頭。
不過,在代碼方面,世超倒是沒有把通義問倒,它應答自如。
甩了一堆要求,讓它做一個非常簡潔的差評雙十一大促頁面。
人家三下五除二就做完了,效果還是非常符合差評的審美的,需要預留的位置也都做了。
雖然可能為了嚴格執行我對於頁面簡潔的要求,所以導致看起來有點過於明了了。
測試到這裡,還沒有結束。除了基礎能力的提高之外,通義還增加了圖片和文檔解析兩個新功能。
其實像圖片上傳功能,是很多家的重點攻克對象, GPT-4 後續也主要是在這一塊發力了。
不過,世超試下來,通義目前的圖片解析能力,還是有點弱的。
基礎圖片識別,是沒啥問題的。比如丟個馬斯克給他,問它這哪位。它能一眼認出,還順道給你科普上兩句。
但是,如果加點抽象網際網路難度,比如說世超給了一張自己桌子上的玩偶,讓它給我分析分析。
它雖然能認出了這是 「 小雞 」,還有打籃球這兩個元素。但不太理解圖片里的梗,還堅持不懈地胡謅了一段 「 灌籃小雞 」 梗的來歷。。
我們的伍佰老師,更是輕而易舉地把通義耍得團團轉。
給了一張 「 隨 520 」 的梗圖,裡面是一張伍佰老師的靚照和一張 20 元人民幣。
結果,通義不光讀不懂什麼梗,連圖片里有多少錢也數不明白了。
圖片識別能力更被徹底地干垮了,指著伍佰說,這是吳彥祖。。。
不僅圖片上傳還差點意思,後面世超試了試文檔功能,也輕鬆把通義考倒了。
世超甩了一篇電動牙刷的行業報告給它,問了句電動牙刷行業的發展痛點是啥。
通義嘎嘎一頓總結,各種分點羅列,系統分析。看起來答的很努力,實際答案全錯了。
原因很簡單,這裡世超特地挖了個坑,預防大模型會胡說八道。
所以,給的文檔里只有目錄,沒有內容。通義這些分析是不錯,可惜全是胡編的,跟我的參考資料沒半點關係。。
幾輪測試結束,通義同學的成績是一目了然了。
雖然整體來沒有特別亮眼的強悍更新,但也算穩紮穩打,基本能力提高得更紮實,學習能力也一直在線。但其中,圖片和文檔倆能力,還有挺大的提升空間的。
其實,比起通義千問,世超覺得自己閒逛時發現的產品,更有意思。
阿里通義官網裡,還有七大產品方向,比如代碼助手、客服等等。雖然大部分還是內測,都試用不了。
不過,世超了一下開放的通義智文,文檔體驗比通義千問要好不少。
這個產品是專門用來解讀文檔的,你不僅可以丟長篇的電子書,也可以甩各種文章連結給它。
世超試著把前面挖坑的行業目錄,輸入進去。通義智文就沒有中招。
不僅明確指出裡面沒提到,回答還標註出,數據來源於文章里的那幾句。這點設計的就挺好,避免了胡言亂語。
比起通義千問本身,世超反而更期待這些專項訓練的應用大模型。
大部分工種,只用得到通識大模型一兩個功能。像世超這種碼字的,需要的就是文本分析和生成。更針對性的訓練,其實更有助於提高大模型的實用性。
不僅是從能力方面考慮,其實現在挺多大模型都到了一個平台期,很難有極大的突破。從這些小點入手,或許會成為一個更好的解題思路。
撰文:四大 編輯:面線 & 江江 封面:煥妍
圖片、資料來源:
通義千問、通義官網
微博@弱智吧