親測百度文心一言，沒有驚喜

燃次元（ID:chaintruth）原創

作者 | 呂敬之

編輯 | 曹楊

3月16日，百度創始人、董事長兼執行長李彥宏親自上陣，為大家揭開了百度文心一言的面紗。隨後，外界對文心一言的討論都沒有停止，百度的股價也跟著起起落落。

首先是發布會進行到半個小時左右，百度的股票就下跌超過7%，甚至一度跌破10%。這似乎源自被寄予厚望的文心一言在產品力上讓外界略有失望，尤其是文心一言的展示並不是「直播」而是「錄播」。

圖/百度股價走勢圖（3.16日）

來源/老虎證券燃次元截圖

「作為一個交互產品，演示都不是現場的，這會讓投資者和意向用戶的體驗大打折扣，也會不禁讓人懷疑，百度自己是不是對產品都沒有100%的信心。」一位看了全場直播的從業者聊起發布會的感受時，如實說道。

而隨著發布會結束，第一批用戶對文心一言開始了真實地測試後，百度股價有所回升。截至3月19日，百度港股股價報收142.2港元/股。一位百度工作人員對燃次元表示，「很多人都說文心一言實測體驗比發布會看起來好很多。」

除了簡單的測試，有才的網友們開始拋出五花八門的問題，把文心一言與ChatGPT作比較。比如「什麼工作錢多活少離家近？」「模仿李白的《將進酒》寫一首詩，主題是肯德基瘋狂星期四。」而針對這些問題，文心一言給出的回答，頗令網友滿意。

不過，也有一部分網友對文心一言的能力提出質疑。小紅書ID為「易安學姐」的用戶評價道，「文心一言的回答完全沒有上下文連結。」網友makima評價道，「百度真的有測試過自己的AI嗎？是放出來讓別人替它訓練嗎？」

圖/網友測試文心一言與ChatGPT對比圖

來源/小紅書燃次元截圖

與此同時，燃次元與多位測試文心一言，以及使用過ChatGPT的用戶進行了交流後發現，大家對文心一言的看法很自然地分成了兩派——鼓勵派和批判派。

鼓勵派表示，「ChatGPT對行業帶來的場景化和用戶習慣的改變將會是顛覆性的，文心一言的誕生是大勢所趨，也是未來的趨勢。」

批判派則反之，「文心一言在信息庫更新、底層數據質量上和ChatGPT有很大的差距。且由於規範性不明確，從長遠來看，並不看好國內ChatGPT類產品的發展。」

對於大家的批評，李彥宏表示，「文心一言並不完美，因為有市場需求，所以現在發布。大預言模型一旦發布，疊代速度會非常快。」

事實上，不論對文心一言看好還是看壞，市場對百度推出文心一言的原因都心知肚明。面對放緩的營業收入增速，和逐漸顯現的人口紅利天花板，百度急需第二增長曲線的切入口。

然而，尚不成熟的文心一言能成為這個切入口嗎？國內大廠紛紛布局ChatGPT下，其商業化又有什麼難以突破的瓶頸？

帶著這些問題，燃次元也開始了對文心一言的測試... ...

文心一言，就這？

「感謝百度，我的工作保住了。」百度文心一言發布會結束後，一位投行人員打趣地對燃次元表示。

ChatGPT橫空出世後，打工人最關心的問題莫過於，「如何利用ChatGPT賺錢」，以及「如何不被ChatGPT取代後賺不到錢」。

而百度文心一言的發布，無疑是給大家吃了顆「定心丸」。

但玩笑歸玩笑，自文心一言推出後，確有不少人將它和ChatGPT尤其是GPT-4進行比較。在第一時間拿到文心一言的測試碼後，燃次元便讓其為汽車品牌極氪的車型「極氪001」寫一則廣告文案。文心一言迅速給出了回答，「極氪001，超越想像！」

相比之下，燃次元在文心一言發布前一周，問過ChatGPT類似的問題，「為理想L7寫一份宣傳語」，ChatGPT給出的回答，雖說不是完美，但卻也包含了對理想L7性能的介紹以及亮點的總結。

當然，文案風格上，各花入各眼，沒法評論好壞，文案的「功底」也很難評勝負。但就核心優勢總結、對文案本身的內容理解，以及在信息的準確性和及時性等可以明確量化的方面，ChatGPT似乎略勝一籌。

燃次元曾讓ChatGPT幫忙整理特斯拉已經發布的所有車型。根據ChatGPT的結果，其按發布時間分別羅列了Roadster、 Model S、 Model X 、Model 3和 Model Y。除了車型，還包括發布時間和性能簡介。

然而，當燃次元把同樣的問題，拋給文心一言時，文心一言不僅沒能給出車型發布的時間，甚至連車型都沒能給全，少了Model Y和Roadster。

圖/上：文心一言回答；下：ChatGPT回答

來源/燃次元截圖

與此同時，文心一言提供的信息也不完全準確。

當燃次元要求其「整理理想汽車2022年交付數據」時，文心一言回答，「理想汽車在2022年共交付了100054輛純電動車型……」但事實上，理想並未推出純電車型，當燃次元進一步說明其錯誤時，文心一言也沒有及時修正。

圖/文心一言回答燃次元截圖

當然，在類ChatGPT的產品中，回答出現事實性錯誤的，也並非只有文心一言一家。

此前，谷歌推出的Bard也出現了類似錯誤。對此，技術專家林宇表示，深度學習模型的輸出結果會有不可解釋性，這與其學習模型的屬性有關，所以，類似的錯誤會有一定的出現機率。

除此之外，文心一言對同樣問題的理解能力也會出現偏差。

比如，燃次元在體驗其發布會上展示的圖片輸出功能時，就屢屢碰壁。最開始，當發出生成海報、圖片等指示時，文心一言在超過30秒鐘的加載後都會顯示，「當前與我互動的人過多，請稍後再試。」

隨後，當燃次元要求文心一言為迪士尼畫一張海報時，文心一言卻輸出了語言描述的回答；當再次要求其用圖片展示上述回答的時候，出現的海報卻與迪士尼沒什麼關係。而再一次做出嘗試，讓其為迪士尼畫一張海報時，終於，一張更類似迪士尼畫風的畫作被展現。

圖/文心一言回答燃次元截圖

同一個問題得不到準確的回答或得到的答案不同，這或許與文心一言測試版的不穩定性有關。但也意味著，文心一言的底層理解能力尚待提升。

ChatGPT的「大混戰」

就在文心一言的理解能力被多方調侃時，GPT-4的能力已經驚艷到了第一批試用用戶。

海外投資經理科林表示，「我將一份長文的超連結發給GPT-4並要求其解讀，GPT-4不但可以完全理解我的重點，還能將長文中的重點準確地摘取和總結出來。」

科林進一步表示，GPT-4在響應時間和文字承載量上也有很大進步，可以接受上限達2.5萬字的長文，「對於我這種每天都要讀幾百頁文字的金融從業者來說，非常有用，其會大大提高我的生產力。目前，我還在不斷探索工具更多的可能性。」

圖/GPT-4的回答

來源/科林供圖

在GPT-4被用戶追捧的同時，微軟也推出了AI助手Copilo。結合GPT-4，AI功能被直接集成到Word、Excel、PowerPoint、Outlook和Teams等應用中。用戶可以提出問題，將文字提煉、轉化、生成PPT等，被稱為「打工人的福音」。

北大在讀博士小孔看完了Copilo的展示後感嘆道，「我們要學習的東西還有很多。在我看來，將來不會使用ChatGPT類工具的人，在研究上效率會非常低。」

不只微軟，谷歌、騰訊、科大訊飛、美團等多家國內外大廠都在陸續布局ChatGPT。一位脈脈從業人員對燃次元透露，從今年2月份開始，包括百度、阿里、騰訊等在內的科技巨頭，都在陸續招聘ChatGPT相關的AIGC崗位，很多獵頭也紛紛下場，最高開出了10萬元的月薪。

BOSS直聘上，也有美團、BOSS直聘、百度文心產品線等企業和項目在招ChatGPT相關崗位。

圖/BOSS直聘招聘

來源/燃次元截圖

大廠為什麼會在這個時候紛紛布局ChatGPT？

在科林看來，重要因素有兩個。「第一是大廠們自身業務增長困境。以百度為例，百度整體的營收增速水平從2021年第一季度的24.79%下滑至2022年第四季度的0%。而作為百度主營業務的線上廣告業務，收入在2022年更是出現了6%的同比下滑。」

數據來源/百度財報燃次元製圖

「除此之外，更重要的是ChatGPT帶來的應用場景的疊代。」科林進一步分析，「ChatGPT會徹底改變人們工作的方式，尤其是以搜尋引擎為基礎產品的百度。與其說百度布局ChatGPT，不如說布局ChatGPT是百度順應時代的必要之舉。而搜尋引擎和ChatGPT本身的自然語言對話形式很相近，對於接入ChatGPT有屬性上的天然優勢。」

歐科雲鏈研究院高級研究員蔣照生補充道，通過AI技術的落地，可以解決C端用戶很多實際需求，比如大大提升工作、學習效率和生產力。

「大廠通過布局ChatGPT可以觸達更多有需求的C端用戶，不僅可以擴大自己的用戶市場占有率，也可以進一步向TOC、 TOB等多種形式的商業化探索。」

讓ChatGPT多「飛」一會

不難看出，未來ChatGPT或將是一項可以改變世界的技術，但大廠想要用ChatGPT實現新的突破，還需要經過重重考驗。

首先，是信息的準確性。不論是向用戶收費還是向企業收費，產品一旦開始收費，用戶對失誤率的包容性就會減弱。現在，大家還會對文心一言、ChatGPT偶爾的失誤回答吐槽、打趣，但如果打工人利用這項工具輸出工作內容，卻發現錯漏百出，那彼時，這種失誤就會從「笑話」變成「事故」。

對此，科林直言，「大模型輸出內容的準確性和及時性與其底層數據質量有極大的關係。目前國內類ChatGPT產品的底層數據質量尚待提升。」

其次，是產品的規範性。蔣照生分析，國內很多類ChatGPT產品的系統依然存在不穩定性，這最後會導致生成內容質量不一致。燃次元多次向文心一言發出相同請求，得出不同回答就是個典型的例子。對於商業化產品，這種不穩定性會存在風險。

再次，如何保證ChatGPT類產品的原創性、避免版權問題，以及保證ChatGPT類產品輸出的內容符合法律和道德標準，也是不得不重視的問題。蔣照生補充道，以AIGC為例，大多數AIGC系統仍然缺乏創造力，不能獨立生成原創內容，只能根據給定的模板或指導內容生成相關內容。

而ChatGPT作為人工智慧工具，是沒有任何「道德」標準的，開發者需要避免ChatGPT類產品給出的回答不與主流價值觀相悖。林宇表示，「摘除一些敏感詞彙的標籤，是其中一個方式，但一個標籤所衍生出的內容很廣泛，摘除一個標籤對於大模型學習的影響是極大的。這中間尺度的把握，是個挑戰。」

除此之外，大模型所需要的海量算力，需要資金、人才、軟硬體設施等各個環節的配合，缺一不可。

最重要的是，大廠如何能開發出讓用戶可以實際體驗到有改變的ChatGPT類產品？比如，把一個PDF扔進ChatGPT，後者能生成一個準確概括重點內容的PPT，這是有效工具。但和ChatGPT閒聊，得出一些百度百科都能給出的信息，這只是「虛假」的創新。

儘管目前來看，規模化的商業變現對ChatGPT產品來說，還需要一段距離。但是，ChatGPT已經可以給一些業務和行業帶來改變，幫助大廠優化成本、提升用戶體驗。

林宇、科林等多位業內人士均對燃次元表示，機械性高、重複性強的工作是可以利用ChatGPT優化的——人工客服就是最典型的一項。「事實上，現在已經有很多企業採用人工智慧客服，但是他們能夠理解的問題還是非常有局限的。ChatGPT可以理解更長、更複雜的問題，且交互形式更自然，能夠進一步優化用戶體驗。」

而ChatGPT類產品，本身也會隨著用戶使用頻次的增多，不斷學習、更新。以百度文心一言為例，在公開測試後的短短几天，就已經有所進步。

比如，3月16日晚，燃次元第一次要求文心一言整理出百度公司2022年的現金流情況時，文心一言似乎並不能理解「整理」的意思。而到了3月18日下午，燃次元再次問出相同的問題時，文心一言已經可以準確理解問題並給出了百度現金流的信息。

圖/文心一言回答燃次元截圖

由此不難看出，文心一言在不斷地學習和糾錯。

其實，不管是文心一言，還是其他類ChatGPT產品，是「黑」是「吹」都為時尚早。ChatGPT無疑是顛覆性的創新，但誰能因此獲利，「子彈」還得再「飛」一會才能見分曉。

*題圖及部分內文配圖來源於視覺中國。

*文中林宇、科林均為化名。

*免責聲明：在任何情況下，本文中的信息或所表述的意見，均不構成對任何人的投資建議。

親測百度文心一言，沒有驚喜

「中國能源安全高峰對話」在蓉成功舉辦

淄博「退熱」，誰會「二刷」？

誰給了迪士尼樂園漲價的「勇氣」？

年輕人「瓦解」618，本地零售崛起

網際網路「改造」麗江旅遊，初代網紅還需更多可能性

「壓艙石」加「秘密武器」，阿里巴巴全速前進

這屆年輕人開始和搭子搞事業

電商之戰：蘑菇街去哪了？

港交所遞表，極兔終於「蹦」上IPO

這個618，「所有女生」不再只看李佳琦

三次遞表，Keep到底何時才能上市。

大張偉、岳雲鵬聯袂串場東方衛視跨屏快手共創《開工！喜劇之夜》

被用戶「遺忘」的馬蜂窩，輝煌不再

這次，H&M真的「不行」了？

「高端烘焙」難割年輕人

《蜘蛛俠》火了，超級英雄就該這麼演

誰會為2.5萬元的「科技玩具」買單？

閒魚：賺錢還是攢人氣？

網際網路時代，被疊代的不只是天涯

大幅減虧後，B站離盈利還遠嗎？

誰會買猿輔導3899元的學練機？

飛盤熄火，匹克球能接住熱度麼？

躺在ICU的天涯，還在眾籌「救命錢」

為了吃燒烤，我跟低價旅行團去了一次淄博