原創 | 小飯桌創服
人類對抗AI入侵的最後堡壘,可能是小學奧數題。
作者丨黃澤正、賈紫璇、王露、王滿華
在生成式AI席捲各行各業之前,現在的大模型,連一道小學奧數題都還做不出來。
近日,百度、智譜、百川、位元組、商湯、中科院(紫東太初)、MiniMax、上海人工智慧實驗室等8個企業/機構的大模型,通過了《生成式人工智慧服務管理暫行辦法》備案,這意味其可以正式上線面向公眾提供服務。
一時間,科技界、創投圈、媒體、科技愛好者、測評博主等各行各業都在爭相下載體驗,畢竟國內大模型的風吹了大半年,但更多還是僅限內測,如今放開體驗,可以說吊足了大家的胃口。
而經過實際體驗,小飯桌發現,頂著「顛覆人類」、「能力優秀到可怕」等誇張光環的大模型,實際表現還相當粗糙。比如小飯桌選取了一道小學奧數題,當前獲批的幾家大模型沒有一家能給出正確答案。更危險的信號是,各家大模型都對自己的答案「深信不疑」,甚至向小飯桌「一本正經」地闡述了錯誤的解題思路……
大模型的能力真如宣傳中強大嗎?號稱決定人類未來的「AI大腦」,為何意識不到自己在「胡言亂語」?
借著國內大模型正式上線的契機,小飯桌選取了9家在業內極具代表性的大模型產品進行了測試,其中既包括百度、位元組跳動、阿里等網際網路大廠,也有科大訊飛、崑崙萬維等上市公司,還有國家隊代表智譜AI,以及百川智能、MiniMax等大模型頭部創業公司。
為了確保評測結果更具說服力和全面性,小飯桌從邏輯性、相關性、真實性、多模態,以及生成速度五方面,對各家大模型進行了問答測評,並給出了測評分數。
以下是測評問題與測試結果(評分僅為小飯桌主觀判斷,不構成投資參考):
(每個問題總分 10 分)
· 邏輯性
1、彩虹島上有不到100隻獨角獸,每隻獨角獸的顏色不是綠色就是黃色。 每當午夜鐘聲響起的時候,一些獨角獸會改變顏色:昨天,黃色獨角獸與綠色獨角獸的數量之比為5:6;今天,黃色獨角獸與綠色獨角獸的數量之比為4:3。
請問:半夜改變顏色的獨角獸的最多可能有多少只?(答案:75隻)
2、請問:正10邊型的各邊所在直線將平面分成多少個部分?(答案:51部分)
· 相關性
1、列出中國國內大模型 Top3。
· 真實性
1、瑞幸的茅台咖啡很火,一天銷售額多少?
· 多模態
要求:畫一幅蒙娜麗莎的微笑,要體現中國風。
丨以下是我們針對各家不同維度的測評總結:
邏輯性
邏輯性方面,針對兩道小學奧數題,9家大模型均未能計算出正確答案——75隻和51部分。
在體感和生產速度方面,百度對題干分析較少,計算時間大概在5到10秒之間。抖音大模型會對題干進行分析,所用的方程不等式在觀感上更加高級,且立即給出答案,但答案均錯誤,並且距離正確答案75隻相差較大。
阿里、訊飛、360智腦均較快給出答案。MiniMax反應時間較長,在10秒以上。MiniMax官網顯要位置提示,在當前階段,未充值的體驗用戶調用接口時會被限速。
在邏輯推理環節,百川智能也沒能勝過百度與抖音。雖然看似有條理地分析,且回答速度較快。但兩道題的答案依舊是錯的。智譜AI能夠針對題干進行多角度、多情況分析,崑崙萬維給出的答案則較為簡單。
阿里、訊飛答案較為簡潔,360智腦和MiniMax回復字數較長,但MiniMax非邏輯推理的闡述類內容較多。
另外,用戶不能直接複製MiniMax的答案,儘管頁面上有一鍵複製按鈕,但複製的是該答案ID編號,而不是答案本身。
相關性
從答案生成時間上,百度和抖音大模型均立即給出了中國國內大模型 Top3排名,其中百度文心一言大模型在兩家的評比中均榜上有名。同時小飯桌注意到,百度大模型列舉的均為上市公司,抖音列舉的有兩家是初創公司,並且抖音大模型註明了評比標準來自北京商報,信息可溯源。
百川智能給出的答案是BAT,並且根據每家大模型的不同特徵,列出了分別擅長的部分。回答較為簡潔,生成速度也很快。
智譜AI和崑崙萬維均立即給出了具體榜單,但崑崙萬維在答案最後註明了答案為網上搜索結果,並附上了相關參考連結。
訊飛大模型沒有給出具體榜單,回復稱目前沒有一個官方的排名。但引用了相關報道中,提到了百度文心一言、科大訊飛星火、阿里通義千問,不過並未給出報道的具體連結。
阿里列出的榜單第一名是阿里通義千問,其餘為騰訊天機大模型和百度通義萬向,但這兩家大模型公司的名稱均是錯誤的。實際上騰訊為混元大模型,百度為文心一言。
MiniMax給出了具體的榜單,為百度ERNIE、騰訊BabyQ、阿里巴巴PLUG,但資訊內容陳舊,且回答頁面並無信息提供的截至時間提示。其中百度ERNIE為百度文心一言的英文名稱。騰訊BabyQ是騰訊QQ在2017年推出的聊天機器人,不能算作完全意義上的大模型產品。阿里巴巴 PLUG是2021 年阿里發布的語言大模型。
360智腦的榜單排名依次為崑崙天工、阿里巴巴和商湯科技,且指出根據相關研究數據,目前國內參數在10億規模以上的大模型數量已有116個。
真實性
針對瑞幸茅台咖啡一天銷售額,百度、抖音、智譜AI、崑崙萬維、阿里和訊飛給出了相同的數字。其中,抖音註明了數字出處來源於南方都市報等媒體,而百度大模型回答則較為籠統,以公開資料顯示一筆帶過。在肯定了茅台咖啡已刷新瑞幸最高銷售記錄後,百度大模型還對其未來銷售額進行了進一步預測。
相比百度和抖音,百川智能給出的答案則相對保守,並沒有給出具體數字。僅僅根據熱度,以及瑞幸2020年推出的生椰拿鐵銷量去做了預測,但預測結果與實際相差較多。從這點可以看出,百川智能在已有信息與數據獲取上,能力不及百度與抖音。
智譜AI延展性地提供了「因含酒精,孕婦和駕駛人員不建議飲用」的「人性化」建議。崑崙萬維大模型則是基於該新聞事件給出了自己的理解和總結。
訊飛大模型引用了澎湃新聞的報道,並就問題給出了自己理解的答案。阿里大模型未給出公開資料來源,但延伸了相關信息,即當天銷售額刷新了歷史記錄。
MiniMax未給出具體數字,表示不能實時獲取具體銷售數額,也並未就該事件給出預測。
360智腦在這一題上的答案是錯誤的,答案稱瑞幸咖啡於2021年4月2日推出了「茅台咖啡」,售價為每杯298元,且僅有500杯供應量,此舉為慶祝公司成功獲得營業執照一周年。實際上該事件並未真實發生。
多模態
在要求百度和抖音大模型根據文字生成圖片方面,抖音大模型無法完成相關任務,並且開始編造自己的畫作,試圖用文字描述的方式矇混過關,如果進一步要求其按要求生成圖片,抖音大模型會承認自己只是語言大模型,還不具備多模態輸出能力。反觀百度文心一言,基本按要求生成了圖片,但對於更高階的創意性指令——體現中國風,目前文心一言還難以實現。
百川智能不支持圖片生成。從這一點也能看出其功能的局限性。但其在後方附加了如何能夠生成這樣一幅畫作的操作流程,也算是在彌補其無法生成圖片的不足。
智譜AI和崑崙萬維大模型均不能根據文字生產圖片,但二者均根據題干,試圖通過文字描繪出圖像的一些細節建議,例如呈現畫面、繪畫技巧等。
阿里和MiniMax並不能生成圖片。阿里大模型回復稱作為一個語言模型,無法進行圖像創作。並給提問人一些色彩、服裝、背景、表情方面的建議。
MiniMax的文本體驗中心用文字描繪了問題相關場景。另外,MiniMax有語音體驗中心,但僅僅是不同音色重複提問者給出的內容,並不能給出相關答案。在音色方面選擇多達10多種,包括大學生、霸道青年、主持人、少女等。
訊飛完成了文生圖的指令,可以看出是在原畫作基礎上的色彩、圖形的更改,並未體現中國風元素。另外,訊飛可以在提問區發送圖片,也可以在提問欄使用語音實時轉文字。大模型回答的文字內容,都能實時轉語音播放。
360智腦很快發來相關圖像,但並未在瀏覽器上完整顯示。小飯桌打開答案中的360鴻圖連結,即360的AI生畫工具,才順利得到圖片,且有寫實、CG、動漫、壁紙四種主題風格,並支持照片轉動漫、圖生圖等模式。
寫在最後
測試結果和具體評分如上文所示,在評測過程中,最令小飯桌感到意外的是,針對產品邏輯性,我們選擇了一道小學生奧數題進行測試,結果居然9家AI大模型全軍覆沒,為了確保評測結果更具說服力,我們又增設一題,最終仍沒有一家給出正確答案。雖不能觀一隅而知全貌,但至少在本次評測中,幾家在邏輯推理環節的表現都不盡如人意,仍有很大進步空間。
刨除邏輯性,在相關性、真實性、多模態,以及生成速度四個方面,整體評測下來,訊飛星火和文心一言表現比較突出,特別是在多模態維度,僅有上述兩家以及360智腦完成了文生圖的指令,遺憾的是,對於更高階的創意性指令,均未達成要求。在相關性、真實性方面,二者答案相近,且都能基於問題給出進一步預測和理解。在生成速度上,對比訊飛星火,文心一言略占下風,但考慮到文心一言體驗用戶數量之龐大,此結果有待商榷。
其他幾家中,智譜AI、抖音、崑崙萬維、百川智能、阿里通義千問、360智腦因分數接近,位列第二梯隊。其中,抖音和崑崙萬維在回答問題中都註明了信息來源,頗具亮點。整體而言,這6家大模型產品表現還算中規中矩。
最後要說的是MiniMax。此次測評中,MiniMax多道問題均未給出準確答案,且出現內容錯誤情況,最終以總分13分慘遭墊底。更有意思的是,該產品也是唯一一個提示未充值會被限速的AI大模型。
因此次評測問題樣本有限,無法將9家AI大模型的性能全面、客觀地呈現出來,因此上述評分僅供參考,在實際選擇時,大家可根據各自感受選擇最適合自己的產品。