「偏科」的國產大模型：長於文本、弱於數理、作畫湊合

2023-09-05 AI狐頭條

原創 | 財經故事會

采寫／王舒然

編輯／萬天南

國產大模型集體交答卷了。

8月31日，首批11家國產大模型獲批上線，包括百度的「文心一言」、商湯科技的「商量SenseChat」、智譜AI的「智譜清言」、MiniMax的「ABAB」、上海人工智慧實驗室的書生通用大模型、抖音的「雲雀」、百川智能的「百川」以及中科院旗下的「紫東太初」、科大訊飛的「訊飛星火認知大模型」、阿里「通義千問」、360智腦。

其中，文心一言、商量SenseChat、抖音基於「雲雀」研發的AI智能助手「豆包」、智譜清言、MiniMax的「ABAB」、「訊飛星火認知大模型」已經面向公眾開放測試。

另據第一財經報道，阿里「通義千問」、360智腦也預計在未來一周左右陸續開放。

自今年2月ChatGPT掀起「生成式AI」熱後，國產大模型齊齊備戰，7個月後的今天，到了驗收成果的時候。

就速度而言，不可謂不驚喜，但真正讓人關心的還是效果如何。

《財經故事薈》體驗了上述6家已經開放測試的大模型，從文本創作、數理計算、作畫、信息檢索等角度與其做了對話，發現這些大模型已經能解決相當一部分問題，尤其在文本創作方面頗有些亮點。當然，有瑕疵也在所難免，但就短短半年的沉澱而言，總體值得給一個肯定。

需要說明的是，大模型輸出的結果存在隨機性，即便是同一指令，每次生成的內容也有差異，因而不能就有限的體驗去定論模型的高下。

不過，國內大模型榜單SuperCLUE發布的大模型8月排行榜，倒是能體現出這些大模型的總體水平。排行榜顯示，在國產大模型中，百川智能的Baichuan-13B-Chat(V2)拿下榜首，MiniMax的MiniMax-abab5及百度的文心一言（V2.2.3）緊隨其後。

文本創作：頗有亮點

文本處理是這些大模型的主攻方向之一，其中，基於文本的創作是重頭戲，其一直肩負著解放生產力的眾望。

此次體驗重點針對寫詩、起標題、構思文章、潤色作文的能力進行。

其一，寫詩方面，這些大模型總體表現都不錯，創作的詩基本都有合理的語義和語境，而不只是詞與詞的無邏輯拼湊。

比如，指令是「寫一首詩，關鍵詞包含江湖、菩提、相逢」時，文心一言、商量大模型、MiniMax大模型均表現不錯，尤其掌握了押韻的精髓。

（左：文心一言，中：商量，右：MiniMax）

相對而言，百川大模型、訊飛星火、智譜清言、抖音「豆包」在押韻方面有時不夠穩定。

（左：訊飛星火，右：智譜清言）

其二，起標題方面，這些大模型也基本能抓住中心思想，雖然代替人的思考還不現實，但可以提供參考。

比如，輸入《財經故事薈》之前寫的關於「短視頻造假背後的流量經濟及造假產業鏈」的段落後，文心一言、訊飛星火、智譜清言、百川大模型的結果如下：

（左上：智譜清言，左下：商量，右上：訊飛星火，右下：百川）

而頗讓人有點驚喜的是MiniMax大模型的標題，其看起來不只是「組合」已有關鍵詞，而是有自己的歸納，部分直接拿來用也未嘗不可：《短視頻造假屢禁不止：揭秘背後的利益鏈和傳播機制》、《短視頻造假亂象：「流量為王」時代的道德困境》、《短視頻造假：一場博人眼球的「遊戲」》、《造假短視頻：平台、創作者與看客的共謀》、《短視頻造假：技術與人性的扭曲》。

值得一提的是，在上述體驗過程中，百川大模型有一個比較迷惑的現象，其似乎在「某些內容輸入字數過多」時無法處理，會提示回答不了，縮減段落後才會給出結果。

比如，上述測試段落有1600多字，縮減為1200多字後才能回答，但在嘗試另一個1400多字的段落時，卻可以正常處理，原因無從得知。

其三，潤色文章方面，各家水平可圈可點，彼此難分上下。

一方面，它們都能處理基本的錯別字、標點、語法等問題，只不過處理方式有差異。

比如，對於「我們自天性來說，本是嬌小的，本是弱小的」的潤色，文心一言會處理成「從天性來說，我們本是嬌小且弱小的」，而百川、智譜清言、訊飛星火則傾向於更簡潔的處理，類似於「我們天生就是渺小的，脆弱的」。

但這種處理風格並不固定，比如，對於「我打小住在鄉村，我十分稀愛下雨天，每次偶然對上下雨，我都很激動」的潤色，文心一言的處理更簡潔「我從小在鄉村長大，對雨天有著深深的喜愛」；訊飛星火則是在原有表達基礎上做簡單修飾「我自幼生活在鄉村，我非常喜愛下雨天。每當偶然遇到下雨天，我總是興奮不已。」——可見，AI算法帶有強烈的「隨機性」。

文心一言的結果

另一方面，在一些語義理解上，各家的識別與處理也有差異。

以潤色「因為下雨啊，可以讓一個人獲得成長，使其變得更美好呀！」為例，文心一言、抖音「豆包」的處理更好一些，它們都將「下雨讓人獲得成長」調整成「下雨讓生命或萬物得到滋潤」，顯然更合適，而其他大模型則沒有如此調整。

其四，在構思文章方面，幾家大模型的表現均有一定驚喜。

比如，輸入指令「分析鍾薛高進軍平價雪糕市場所面臨的挑戰」，幾家大模型都關注到了「與蒙牛、伊利等品牌的競爭」、「對鍾薛高品牌形象的影響」、「成本控制」的角度。

尤其值得稱讚的是，文心一言、抖音「豆包」還特別關注到「鍾薛高將面臨的銷售渠道挑戰」——這完全能給寫稿者提供一定思路。

抖音「豆包」的結果

不過，瑕疵也在所難免，在「分析鍾薛高推出低價雪糕的原因」問題上，幾家大模型雖然都給出了3-4點分析角度，但其實有些角度的本質含義一樣，均指向「擴大消費群體，開拓市場份額」，是可以合併的。

以文心一言為例：

這說明在語義理解上，這些大模型還有不小的進步空間。

實際上，在體驗過程中，就曾在語義理解上出現過比較離譜的現象。

比如，在「制定老年人愛看的2024年春晚節目單」問題上，訊飛星火、智譜清言、百川大模型、商量大模型、抖音「豆包」的人員名單中都出現了「鄧麗君」或「趙麗蓉」等已過世明星。

訊飛星火的結果

再比如，在「請寫一個『火腿腸炒滑鼠』的菜譜」問題上，智譜清言、訊飛星火、商量大模型、抖音「豆包」均指出滑鼠不能食用，百川大模型則很配合，還特意標註「使用廢棄不用的滑鼠」，著實有點冷幽默。

百川大模型的結果

文心一言更是有求必應，「將滑鼠去除內臟」的步驟讓人啼笑皆非。

文心一言的結果

但總的來說，短短7個月就能交付上述結果，這些大模型均值得一個肯定。

數理計算：水平不穩定

在解答數學題方面，《財經故事薈》抽取了10道初中數學題進行測試，結果是：文心一言、訊飛星火、商量大模型均答對5道，智譜清言答對4道，抖音「豆包」答對3道，百川大模型只答對2道。

比如，在比較簡單的「大於-0.5而小於4的整數共有多少個？」問題上，文心一言、商量大模型答對，是4個，其餘均錯誤。

而且，智譜清言「錯上加錯」，其列舉了5個數，但說成了7個。

智譜清言結果

在解答物理題方面，關於物理現象的解釋，這些大模型普遍沒有問題，《財經故事薈》抽樣了10道初中物理現象解釋題，它們均能答對9~10道。

比如，在「為什麼池水深度看起來比實際的淺?」問題上，它們都能答出「折射原理」。

這或許是因為，物理現象解釋更偏文本檢索和歸納，本質還是文本處理能力，這正中大模型的主攻方向。

當然，現階段出現一些離譜解釋也在所難免。

比如，在「醫生給病人檢查時，常把一把小鏡子在酒精燈上燒一燒，然後再放入病人的口腔，為什麼?」問題上，百川大模型就答多錯多，其額外提到了「鏡子會吸附口水，而口水含有豐富的礦物質等，對於治療某些疾病具有輔助效果」的奇怪解釋。

而在物理計算方面，這些大模型普遍表現欠佳。

在10道涉及物理運動、質量與密度、壓強、電學等不同題型的初中物理試題中，商量大模型表現較為突出，答對了4道，文心一言、百川大模型、抖音「豆包」答對2道，訊飛星火、智譜清言則只答對1道。

比如，在「甲乙兩個同學沿相反的方向拉測力計，各用力200牛，則測力計的示數是多少？」問題上，答案是200牛，只有商量大模型答對，且解題思路正確。文心一言、訊飛星火、百川大模型、智譜清言給出的答案都是0，抖音「豆包」則認為是400牛。

商量大模型結果

再比如，在「某同學用刻度尺測量鋼球的直徑，測得的四次結果是1.82CM，1.87CM，1.68CM，1.81CM，則小球的直徑應該取多少？」問題上，也只有商量大模型答對1.83CM，文心一言、百川大模型、訊飛星火都是1.79CM，抖音「豆包」是1.825CM，智譜清言解題思路正確，但最終結果算錯為1.82CM。

智譜清言結果

但需要備註的是，大模型的數理計算結果仍舊不穩定。

就如上述直徑問題，智譜清言第一次結果是錯誤的1.82CM，但重新詢問時又給出了1.83CM的正確答案；而在上述測力計問題上，訊飛星火第一次回答是錯誤的0，重新詢問又回答成錯誤的400N。

總的來說，在有標準答案的數理問題上，這些大模型表現都不能算及格。

作畫水平「拉胯」，「觸雷」機率較大

在6家大模型中，目前只有文心一言、訊飛星火支持作畫。

不過，目前這兩家大模型的作畫能力尚未達到理想狀態，「觸雷」機率不低。

其一，有些畫作看起來有些「假」，不夠真實。

以「馬」、「風景」為例，以下是文心一言的刻畫。

訊飛星火的風景畫在意境方面更好一些，但馬的刻畫風格跟文心一言一樣，有點不真實。

其二，它們對語義的理解還有欠缺。

以「請畫一幅李清照和蘇軾在下棋的畫」為例，文心一言的畫作上只呈現了一個人。

提示之後才增加，但「李清照」下棋坐的位置明顯不對。

而訊飛星火方面，雖然呈現了兩個人，但都是男性，也不符合需求。

經提示後，其竟然無法再重新生成圖片，且嘗試多次均如此。

比如，「畫一碗牛蛙面」，訊飛星火的很離譜——面里有整隻牛蛙。

（左：文心一言，右：訊飛星火）

再比如，「畫一隻正在睡覺的俄羅斯藍貓」，訊飛星火將俄羅斯藍貓理解成藍色的貓，而文心一言雖理解正確，但顧此失彼，對睡覺有些「誤解」。

（左：文心一言，右：訊飛星火）

其三，在面部等細節的刻畫上，大模型還有不少問題。

比如文心一言畫的人，眼睛有時會出現「鬥雞眼」，或者面部、手腳成「模糊的一團」。

訊飛星火也存在相似問題，比如下圖中「牧羊少年」的面部就有些畸形的詭異感。

試圖引導其優化，結果引來了更「災難」的畫面：

當然，也有值得肯定之處，在不需要刻畫太多細節的場景下，作品還是能讓人「駐足欣賞」一下。

比如下述兩家大模型給出的山水畫。

（左：文心一言，右：訊飛星火）

總的來說，相比文本能力，大模型的作畫水平需要更多「調教」，在這個過程中，不僅需要算法和數據層面的持續調優，也需要人在指令層面與其磨合，以充分挖掘其潛力。

正如李彥宏所說，未來提出問題比解決問題更重要，10年後，全世界可能有50%的工作是提示詞工程。

信息檢索：準確度待提升

如果把大模型當搜索工具用，就需要其在信息更新的及時性、全面度和準確性上達到合格水平。

體驗發現，在部分搜索場景下，這些大模型能提供準確信息。

比如，在「曹操為什麼娶林黛玉？」、「張三丰為什麼殺張無忌？」、「花生為什麼長在樹上？」等問題陷阱里，每一家都能準確告知不存在這個現象。

文心一言結果

再比如，關於「是誰提出了新三民主義？」、「淞滬會戰是什麼時候？」、「是誰首次培育出了雜交水稻？」等具體問題上，這些大模型也都能正確回答。

但在一些數據統計層面，它們表現很不理想。

一方面，有些大模型缺失最新數據，或者缺少某些特定領域的數據儲備。

比如，在統計中國年度新增人口時，文心一言、訊飛星火最新可統計到2022年，但智譜清言只能查到2020年，百川大模型、抖音「豆包」則只能查到2021年，商量大模型完全統計不到此類數據。

百川大模型結果

同樣的，在統計中國年度GDP時，百川大模型最新也只能查到2021年，商量大模型也完全統計不到。

商量大模型結果

再比如，在部分有關線下店面信息的問題上，MiniMax大模型、智譜清言、百川大模型、抖音「豆包」會表示無法查詢。

還有一些歷史信息，部分大模型也缺失相關內容，比如，問「中國成功爆炸第一顆氫彈是什麼時候」，智譜清言和百川大模型均提示無法查詢。

另一方面，數據的準確度也普遍欠佳。

比如，在「請統計下最近5年中國GDP數據」問題上，以國家統計局網站上的數據為標準，沒有一家是完全正確的。

其中，文心一言只有2021年的數據不正確，其顯示是114.37億元，而國家統計局是114.92億元。

經過提示後，再重新提問，其做了更正：

百川大模型、訊飛星火、抖音「豆包」則是每一年的數據都不正確；MiniMax大模型是2021、2022年不一致；智譜清言則只有2020年是正確的。

此外，在這幾家大模型中，只有MiniMax將「2022年劃分到最近5年」，其餘均默認最新顯示到2021年。

MiniMax結果

其實，準確度欠佳的問題不止出現在數據統計上。

比如，在「魯智深為什麼三打白骨精」的問題陷阱中，只有文心一言、商量大模型、抖音「豆包」回答不存在，其他大模型都開始「編故事」了。

再比如，在詢問「父母之愛子，則為之計深遠」的典故時，也只有文心一言、商量大模型、抖音「豆包」回答正確，百川大模型認為沒有特定典故，訊飛星火、智譜清言則說錯了典故出處。

抖音「豆包」結果

還有，查詢電影信息時也有類似現象，在「為陳思誠監製的電影《消失的她》寫影評」問題上，只有文心一言、商量大模型、抖音「豆包」描述的事實與電影相符，百川大模型、訊飛星火、智譜清言則有點「串場」，都提到了沒有參演的黃渤。

百川大模型結果

類似的現象在評價最新電影《封神》時也有出現，只有文心一言對劇情的描述正確，其餘大模型均將其誤認為是之前的電影《封神傳奇》；而當輸入指令更明確為「2023年上映的《封神第一部：朝歌風雲》」時，百川大模型、商量大模型、訊飛星火仍然錯誤，智譜清言、抖音「豆包」則做了更正。

可以看到，現階段如果把大模型當搜索用，還是讓人不放心。

其實，除了上述四大類能力外，這幾家大模型還都具備跨語言處理能力。《財經故事薈》以最簡單的「我愛你」為例，進行中文與法語、德語等語言的互翻，都能得到準確回答。當然，更複雜的跨語言處理能力還有待繼續挖掘。

綜上，僅以上述體驗結果看，現階段的大模型在文本創作方面基本邁過了及格線，在某些場景下還能「製造」一些驚喜感，這頗為難得。但其也像一個偏科的學生，在數理方面普遍一般，BUG較多；作畫水平更是有待優化，「雷人」機率比較大；信息檢索方面還不穩定，用起來不太放心。

那麼問題來了，對照當下的現實，再回看當初大模型被「吹捧」上神壇的那些觀點：「AI的iPhone時刻」「大模型將改變世界」……這些觀點所構建的未來還值得期待嗎？

答案毋庸置疑：值得，「莫欺少年窮」！大模型今天交付的答卷只是其漫漫長路上的起點，在此後的每一天，甚至每一小時里，大模型可能都處在無止境的進化中。

「偏科」的國產大模型：長於文本、弱於數理、作畫湊合

14歲男孩殺死了自己，在此之前，他迷上了他的AI伴侶

暴跌125億！AI「巨頭」萬興科技，泡沫有多大？

AI重構下的百度網盤：限速頑疾久治不愈、屢曝安全漏洞，用戶信息如何守護？

深圳地下交通「最強大腦」背後：商湯科技五年半虧了近五百億

第一批搶跑的人，用AI搞了上千萬？

AI 幽靈，「刺殺」小說家

我用ChatGPT做了一下姜萍的數學競賽題，它懵了，我也懵了！

蘋果的大模型衝刺：沒有 AI 新產品，只有新功能

大模型軍備競賽遠未結束，但已註定成為少數人的遊戲

為了0.0003元，阿里和位元組槓上了

Kimi掙錢的樣子好抽象！

降價會是位元組AI的出路嗎？

別再狂吹GPT-4o了！不要只顧著漲他人威風、滅自己志氣

月之暗面撞上算力牆？

小紅書的大模型有點慫

三天暴漲一倍，商湯翻身還是泡沫？

巴菲特：我對AI一無所知

阿里想藉助AI電商反殺拼多多？

苦苦掙扎的周鴻禕，搖擺不定的360

湯曉鷗，倒在了商湯最難的時候

AI 製作的成人電影，為什麼這麼多人在看？

被冤枉的李開復，被「錯付」的中國開源

營收下降，利潤下滑！聯想梭哈大模型？

我找兩個熱門行業問現在AI如何取代人，結果被潑了冷水