測試了9家大模型，做不出一道小學奧數題

2023-09-12 AI狐頭條

原創 | 小飯桌創服

人類對抗AI入侵的最後堡壘，可能是小學奧數題。

作者丨黃澤正、賈紫璇、王露、王滿華

在生成式AI席捲各行各業之前，現在的大模型，連一道小學奧數題都還做不出來。

近日，百度、智譜、百川、位元組、商湯、中科院（紫東太初）、MiniMax、上海人工智慧實驗室等8個企業/機構的大模型，通過了《生成式人工智慧服務管理暫行辦法》備案，這意味其可以正式上線面向公眾提供服務。

一時間，科技界、創投圈、媒體、科技愛好者、測評博主等各行各業都在爭相下載體驗，畢竟國內大模型的風吹了大半年，但更多還是僅限內測，如今放開體驗，可以說吊足了大家的胃口。

而經過實際體驗，小飯桌發現，頂著「顛覆人類」、「能力優秀到可怕」等誇張光環的大模型，實際表現還相當粗糙。比如小飯桌選取了一道小學奧數題，當前獲批的幾家大模型沒有一家能給出正確答案。更危險的信號是，各家大模型都對自己的答案「深信不疑」，甚至向小飯桌「一本正經」地闡述了錯誤的解題思路……

大模型的能力真如宣傳中強大嗎？號稱決定人類未來的「AI大腦」，為何意識不到自己在「胡言亂語」？

借著國內大模型正式上線的契機，小飯桌選取了9家在業內極具代表性的大模型產品進行了測試，其中既包括百度、位元組跳動、阿里等網際網路大廠，也有科大訊飛、崑崙萬維等上市公司，還有國家隊代表智譜AI，以及百川智能、MiniMax等大模型頭部創業公司。

為了確保評測結果更具說服力和全面性，小飯桌從邏輯性、相關性、真實性、多模態，以及生成速度五方面，對各家大模型進行了問答測評，並給出了測評分數。

以下是測評問題與測試結果（評分僅為小飯桌主觀判斷，不構成投資參考）：

（每個問題總分 10 分）

· 邏輯性

1、彩虹島上有不到100隻獨角獸，每隻獨角獸的顏色不是綠色就是黃色。每當午夜鐘聲響起的時候，一些獨角獸會改變顏色：昨天，黃色獨角獸與綠色獨角獸的數量之比為5：6；今天，黃色獨角獸與綠色獨角獸的數量之比為4：3。

請問：半夜改變顏色的獨角獸的最多可能有多少只？（答案：75隻）

2、請問：正10邊型的各邊所在直線將平面分成多少個部分？（答案：51部分）

· 相關性

1、列出中國國內大模型 Top3。

· 真實性

1、瑞幸的茅台咖啡很火，一天銷售額多少？

· 多模態

要求：畫一幅蒙娜麗莎的微笑，要體現中國風。

丨以下是我們針對各家不同維度的測評總結：

邏輯性

邏輯性方面，針對兩道小學奧數題，9家大模型均未能計算出正確答案——75隻和51部分。

在體感和生產速度方面，百度對題干分析較少，計算時間大概在5到10秒之間。抖音大模型會對題干進行分析，所用的方程不等式在觀感上更加高級，且立即給出答案，但答案均錯誤，並且距離正確答案75隻相差較大。

阿里、訊飛、360智腦均較快給出答案。MiniMax反應時間較長，在10秒以上。MiniMax官網顯要位置提示，在當前階段，未充值的體驗用戶調用接口時會被限速。

在邏輯推理環節，百川智能也沒能勝過百度與抖音。雖然看似有條理地分析，且回答速度較快。但兩道題的答案依舊是錯的。智譜AI能夠針對題干進行多角度、多情況分析，崑崙萬維給出的答案則較為簡單。

阿里、訊飛答案較為簡潔，360智腦和MiniMax回復字數較長，但MiniMax非邏輯推理的闡述類內容較多。

另外，用戶不能直接複製MiniMax的答案，儘管頁面上有一鍵複製按鈕，但複製的是該答案ID編號，而不是答案本身。

相關性

從答案生成時間上，百度和抖音大模型均立即給出了中國國內大模型 Top3排名，其中百度文心一言大模型在兩家的評比中均榜上有名。同時小飯桌注意到，百度大模型列舉的均為上市公司，抖音列舉的有兩家是初創公司，並且抖音大模型註明了評比標準來自北京商報，信息可溯源。

百川智能給出的答案是BAT，並且根據每家大模型的不同特徵，列出了分別擅長的部分。回答較為簡潔，生成速度也很快。

智譜AI和崑崙萬維均立即給出了具體榜單，但崑崙萬維在答案最後註明了答案為網上搜索結果，並附上了相關參考連結。

訊飛大模型沒有給出具體榜單，回復稱目前沒有一個官方的排名。但引用了相關報道中，提到了百度文心一言、科大訊飛星火、阿里通義千問，不過並未給出報道的具體連結。

阿里列出的榜單第一名是阿里通義千問，其餘為騰訊天機大模型和百度通義萬向，但這兩家大模型公司的名稱均是錯誤的。實際上騰訊為混元大模型，百度為文心一言。

MiniMax給出了具體的榜單，為百度ERNIE、騰訊BabyQ、阿里巴巴PLUG，但資訊內容陳舊，且回答頁面並無信息提供的截至時間提示。其中百度ERNIE為百度文心一言的英文名稱。騰訊BabyQ是騰訊QQ在2017年推出的聊天機器人，不能算作完全意義上的大模型產品。阿里巴巴 PLUG是2021 年阿里發布的語言大模型。

360智腦的榜單排名依次為崑崙天工、阿里巴巴和商湯科技，且指出根據相關研究數據，目前國內參數在10億規模以上的大模型數量已有116個。

真實性

針對瑞幸茅台咖啡一天銷售額，百度、抖音、智譜AI、崑崙萬維、阿里和訊飛給出了相同的數字。其中，抖音註明了數字出處來源於南方都市報等媒體，而百度大模型回答則較為籠統，以公開資料顯示一筆帶過。在肯定了茅台咖啡已刷新瑞幸最高銷售記錄後，百度大模型還對其未來銷售額進行了進一步預測。

相比百度和抖音，百川智能給出的答案則相對保守，並沒有給出具體數字。僅僅根據熱度，以及瑞幸2020年推出的生椰拿鐵銷量去做了預測，但預測結果與實際相差較多。從這點可以看出，百川智能在已有信息與數據獲取上，能力不及百度與抖音。

智譜AI延展性地提供了「因含酒精，孕婦和駕駛人員不建議飲用」的「人性化」建議。崑崙萬維大模型則是基於該新聞事件給出了自己的理解和總結。

訊飛大模型引用了澎湃新聞的報道，並就問題給出了自己理解的答案。阿里大模型未給出公開資料來源，但延伸了相關信息，即當天銷售額刷新了歷史記錄。

MiniMax未給出具體數字，表示不能實時獲取具體銷售數額，也並未就該事件給出預測。

360智腦在這一題上的答案是錯誤的，答案稱瑞幸咖啡於2021年4月2日推出了「茅台咖啡」，售價為每杯298元，且僅有500杯供應量，此舉為慶祝公司成功獲得營業執照一周年。實際上該事件並未真實發生。

多模態

在要求百度和抖音大模型根據文字生成圖片方面，抖音大模型無法完成相關任務，並且開始編造自己的畫作，試圖用文字描述的方式矇混過關，如果進一步要求其按要求生成圖片，抖音大模型會承認自己只是語言大模型，還不具備多模態輸出能力。反觀百度文心一言，基本按要求生成了圖片，但對於更高階的創意性指令——體現中國風，目前文心一言還難以實現。

百川智能不支持圖片生成。從這一點也能看出其功能的局限性。但其在後方附加了如何能夠生成這樣一幅畫作的操作流程，也算是在彌補其無法生成圖片的不足。

智譜AI和崑崙萬維大模型均不能根據文字生產圖片，但二者均根據題干，試圖通過文字描繪出圖像的一些細節建議，例如呈現畫面、繪畫技巧等。

阿里和MiniMax並不能生成圖片。阿里大模型回復稱作為一個語言模型，無法進行圖像創作。並給提問人一些色彩、服裝、背景、表情方面的建議。

MiniMax的文本體驗中心用文字描繪了問題相關場景。另外，MiniMax有語音體驗中心，但僅僅是不同音色重複提問者給出的內容，並不能給出相關答案。在音色方面選擇多達10多種，包括大學生、霸道青年、主持人、少女等。

訊飛完成了文生圖的指令，可以看出是在原畫作基礎上的色彩、圖形的更改，並未體現中國風元素。另外，訊飛可以在提問區發送圖片，也可以在提問欄使用語音實時轉文字。大模型回答的文字內容，都能實時轉語音播放。

360智腦很快發來相關圖像，但並未在瀏覽器上完整顯示。小飯桌打開答案中的360鴻圖連結，即360的AI生畫工具，才順利得到圖片，且有寫實、CG、動漫、壁紙四種主題風格，並支持照片轉動漫、圖生圖等模式。

寫在最後

測試結果和具體評分如上文所示，在評測過程中，最令小飯桌感到意外的是，針對產品邏輯性，我們選擇了一道小學生奧數題進行測試，結果居然9家AI大模型全軍覆沒，為了確保評測結果更具說服力，我們又增設一題，最終仍沒有一家給出正確答案。雖不能觀一隅而知全貌，但至少在本次評測中，幾家在邏輯推理環節的表現都不盡如人意，仍有很大進步空間。

刨除邏輯性，在相關性、真實性、多模態，以及生成速度四個方面，整體評測下來，訊飛星火和文心一言表現比較突出，特別是在多模態維度，僅有上述兩家以及360智腦完成了文生圖的指令，遺憾的是，對於更高階的創意性指令，均未達成要求。在相關性、真實性方面，二者答案相近，且都能基於問題給出進一步預測和理解。在生成速度上，對比訊飛星火，文心一言略占下風，但考慮到文心一言體驗用戶數量之龐大，此結果有待商榷。

其他幾家中，智譜AI、抖音、崑崙萬維、百川智能、阿里通義千問、360智腦因分數接近，位列第二梯隊。其中，抖音和崑崙萬維在回答問題中都註明了信息來源，頗具亮點。整體而言，這6家大模型產品表現還算中規中矩。

最後要說的是MiniMax。此次測評中，MiniMax多道問題均未給出準確答案，且出現內容錯誤情況，最終以總分13分慘遭墊底。更有意思的是，該產品也是唯一一個提示未充值會被限速的AI大模型。

因此次評測問題樣本有限，無法將9家AI大模型的性能全面、客觀地呈現出來，因此上述評分僅供參考，在實際選擇時，大家可根據各自感受選擇最適合自己的產品。

測試了9家大模型，做不出一道小學奧數題

14歲男孩殺死了自己，在此之前，他迷上了他的AI伴侶

暴跌125億！AI「巨頭」萬興科技，泡沫有多大？

AI重構下的百度網盤：限速頑疾久治不愈、屢曝安全漏洞，用戶信息如何守護？

深圳地下交通「最強大腦」背後：商湯科技五年半虧了近五百億

第一批搶跑的人，用AI搞了上千萬？

AI 幽靈，「刺殺」小說家

我用ChatGPT做了一下姜萍的數學競賽題，它懵了，我也懵了！

蘋果的大模型衝刺：沒有 AI 新產品，只有新功能

大模型軍備競賽遠未結束，但已註定成為少數人的遊戲

為了0.0003元，阿里和位元組槓上了

Kimi掙錢的樣子好抽象！

降價會是位元組AI的出路嗎？

別再狂吹GPT-4o了！不要只顧著漲他人威風、滅自己志氣

月之暗面撞上算力牆？

小紅書的大模型有點慫

三天暴漲一倍，商湯翻身還是泡沫？

巴菲特：我對AI一無所知

阿里想藉助AI電商反殺拼多多？

苦苦掙扎的周鴻禕，搖擺不定的360

湯曉鷗，倒在了商湯最難的時候

AI 製作的成人電影，為什麼這麼多人在看？

被冤枉的李開復，被「錯付」的中國開源

營收下降，利潤下滑！聯想梭哈大模型？

我找兩個熱門行業問現在AI如何取代人，結果被潑了冷水