燃次元(ID:chaintruth)原創
作者 | 呂敬之
編輯 | 曹楊
3月16日,百度創始人、董事長兼執行長李彥宏親自上陣,為大家揭開了百度文心一言的面紗。隨後,外界對文心一言的討論都沒有停止,百度的股價也跟著起起落落。
首先是發布會進行到半個小時左右,百度的股票就下跌超過7%,甚至一度跌破10%。這似乎源自被寄予厚望的文心一言在產品力上讓外界略有失望,尤其是文心一言的展示並不是「直播」而是「錄播」。
圖/百度股價走勢圖(3.16日)
來源/老虎證券 燃次元截圖
「作為一個交互產品,演示都不是現場的,這會讓投資者和意向用戶的體驗大打折扣,也會不禁讓人懷疑,百度自己是不是對產品都沒有100%的信心。」一位看了全場直播的從業者聊起發布會的感受時,如實說道。
而隨著發布會結束,第一批用戶對文心一言開始了真實地測試後,百度股價有所回升。截至3月19日,百度港股股價報收142.2港元/股。一位百度工作人員對燃次元表示,「很多人都說文心一言實測體驗比發布會看起來好很多。」
除了簡單的測試,有才的網友們開始拋出五花八門的問題,把文心一言與ChatGPT作比較。比如「什麼工作錢多活少離家近?」「模仿李白的《將進酒》寫一首詩,主題是肯德基瘋狂星期四。」而針對這些問題,文心一言給出的回答,頗令網友滿意。
不過,也有一部分網友對文心一言的能力提出質疑。小紅書ID為「易安學姐」的用戶評價道,「文心一言的回答完全沒有上下文連結。」網友makima評價道,「百度真的有測試過自己的AI嗎?是放出來讓別人替它訓練嗎?」
圖/網友測試文心一言與ChatGPT對比圖
來源/小紅書 燃次元截圖
與此同時,燃次元與多位測試文心一言,以及使用過ChatGPT的用戶進行了交流後發現,大家對文心一言的看法很自然地分成了兩派——鼓勵派和批判派。
鼓勵派表示,「ChatGPT對行業帶來的場景化和用戶習慣的改變將會是顛覆性的,文心一言的誕生是大勢所趨,也是未來的趨勢。」
批判派則反之,「文心一言在信息庫更新、底層數據質量上和ChatGPT有很大的差距。且由於規範性不明確,從長遠來看,並不看好國內ChatGPT類產品的發展。」
對於大家的批評,李彥宏表示,「文心一言並不完美,因為有市場需求,所以現在發布。大預言模型一旦發布,疊代速度會非常快。」
事實上,不論對文心一言看好還是看壞,市場對百度推出文心一言的原因都心知肚明。面對放緩的營業收入增速,和逐漸顯現的人口紅利天花板,百度急需第二增長曲線的切入口。
然而,尚不成熟的文心一言能成為這個切入口嗎?國內大廠紛紛布局ChatGPT下,其商業化又有什麼難以突破的瓶頸?
帶著這些問題,燃次元也開始了對文心一言的測試... ...
01
文心一言,就這?
「感謝百度,我的工作保住了。」百度文心一言發布會結束後,一位投行人員打趣地對燃次元表示。
ChatGPT橫空出世後,打工人最關心的問題莫過於,「如何利用ChatGPT賺錢」,以及「如何不被ChatGPT取代後賺不到錢」。
而百度文心一言的發布,無疑是給大家吃了顆「定心丸」。
但玩笑歸玩笑,自文心一言推出後,確有不少人將它和ChatGPT尤其是GPT-4進行比較。在第一時間拿到文心一言的測試碼後,燃次元便讓其為汽車品牌極氪的車型「極氪001」寫一則廣告文案。文心一言迅速給出了回答,「極氪001,超越想像!」
相比之下,燃次元在文心一言發布前一周,問過ChatGPT類似的問題,「為理想L7寫一份宣傳語」,ChatGPT給出的回答,雖說不是完美,但卻也包含了對理想L7性能的介紹以及亮點的總結。
當然,文案風格上,各花入各眼,沒法評論好壞,文案的「功底」也很難評勝負。但就核心優勢總結、對文案本身的內容理解,以及在信息的準確性和及時性等可以明確量化的方面,ChatGPT似乎略勝一籌。
燃次元曾讓ChatGPT幫忙整理特斯拉已經發布的所有車型。根據ChatGPT的結果,其按發布時間分別羅列了Roadster、 Model S、 Model X 、Model 3和 Model Y。除了車型,還包括發布時間和性能簡介。
然而,當燃次元把同樣的問題,拋給文心一言時,文心一言不僅沒能給出車型發布的時間,甚至連車型都沒能給全,少了Model Y和Roadster。
圖/上:文心一言回答;下:ChatGPT回答
來源/燃次元截圖
與此同時,文心一言提供的信息也不完全準確。
當燃次元要求其「整理理想汽車2022年交付數據」時,文心一言回答,「理想汽車在2022年共交付了100054輛純電動車型……」但事實上,理想並未推出純電車型,當燃次元進一步說明其錯誤時,文心一言也沒有及時修正。
圖/文心一言回答 燃次元截圖
當然,在類ChatGPT的產品中,回答出現事實性錯誤的,也並非只有文心一言一家。
此前,谷歌推出的Bard也出現了類似錯誤。對此,技術專家林宇表示,深度學習模型的輸出結果會有不可解釋性,這與其學習模型的屬性有關,所以,類似的錯誤會有一定的出現機率。
除此之外,文心一言對同樣問題的理解能力也會出現偏差。
比如,燃次元在體驗其發布會上展示的圖片輸出功能時,就屢屢碰壁。最開始,當發出生成海報、圖片等指示時,文心一言在超過30秒鐘的加載後都會顯示,「當前與我互動的人過多,請稍後再試。」
隨後,當燃次元要求文心一言為迪士尼畫一張海報時,文心一言卻輸出了語言描述的回答;當再次要求其用圖片展示上述回答的時候,出現的海報卻與迪士尼沒什麼關係。而再一次做出嘗試,讓其為迪士尼畫一張海報時,終於,一張更類似迪士尼畫風的畫作被展現。
圖/文心一言回答 燃次元截圖
同一個問題得不到準確的回答或得到的答案不同,這或許與文心一言測試版的不穩定性有關。但也意味著,文心一言的底層理解能力尚待提升。
02
ChatGPT的「大混戰」
就在文心一言的理解能力被多方調侃時,GPT-4的能力已經驚艷到了第一批試用用戶。
海外投資經理科林表示,「我將一份長文的超連結發給GPT-4並要求其解讀,GPT-4不但可以完全理解我的重點,還能將長文中的重點準確地摘取和總結出來。」
科林進一步表示,GPT-4在響應時間和文字承載量上也有很大進步,可以接受上限達2.5萬字的長文,「對於我這種每天都要讀幾百頁文字的金融從業者來說,非常有用,其會大大提高我的生產力。目前,我還在不斷探索工具更多的可能性。」
圖/GPT-4的回答
來源/科林供圖
在GPT-4被用戶追捧的同時,微軟也推出了AI助手Copilo。結合GPT-4,AI功能被直接集成到Word、Excel、PowerPoint、Outlook和Teams等應用中。用戶可以提出問題,將文字提煉、轉化、生成PPT等,被稱為「打工人的福音」。
北大在讀博士小孔看完了Copilo的展示後感嘆道,「我們要學習的東西還有很多。在我看來,將來不會使用ChatGPT類工具的人,在研究上效率會非常低。」
不只微軟,谷歌、騰訊、科大訊飛、美團等多家國內外大廠都在陸續布局ChatGPT。一位脈脈從業人員對燃次元透露,從今年2月份開始,包括百度、阿里、騰訊等在內的科技巨頭,都在陸續招聘ChatGPT相關的AIGC崗位,很多獵頭也紛紛下場,最高開出了10萬元的月薪。
BOSS直聘上,也有美團、BOSS直聘、百度文心產品線等企業和項目在招ChatGPT相關崗位。
圖/BOSS直聘招聘
來源/燃次元截圖
大廠為什麼會在這個時候紛紛布局ChatGPT?
在科林看來,重要因素有兩個。「第一是大廠們自身業務增長困境。以百度為例,百度整體的營收增速水平從2021年第一季度的24.79%下滑至2022年第四季度的0%。而作為百度主營業務的線上廣告業務,收入在2022年更是出現了6%的同比下滑。」
數據來源/百度財報燃次元製圖
「除此之外,更重要的是ChatGPT帶來的應用場景的疊代。」科林進一步分析,「ChatGPT會徹底改變人們工作的方式,尤其是以搜尋引擎為基礎產品的百度。與其說百度布局ChatGPT,不如說布局ChatGPT是百度順應時代的必要之舉。而搜尋引擎和ChatGPT本身的自然語言對話形式很相近,對於接入ChatGPT有屬性上的天然優勢。」
歐科雲鏈研究院高級研究員蔣照生補充道,通過AI技術的落地,可以解決C端用戶很多實際需求,比如大大提升工作、學習效率和生產力。
「大廠通過布局ChatGPT可以觸達更多有需求的C端用戶,不僅可以擴大自己的用戶市場占有率,也可以進一步向TOC、 TOB等多種形式的商業化探索。」
03
讓ChatGPT多「飛」一會
不難看出,未來ChatGPT或將是一項可以改變世界的技術,但大廠想要用ChatGPT實現新的突破,還需要經過重重考驗。
首先,是信息的準確性。不論是向用戶收費還是向企業收費,產品一旦開始收費,用戶對失誤率的包容性就會減弱。現在,大家還會對文心一言、ChatGPT偶爾的失誤回答吐槽、打趣,但如果打工人利用這項工具輸出工作內容,卻發現錯漏百出,那彼時,這種失誤就會從「笑話」變成「事故」。
對此,科林直言,「大模型輸出內容的準確性和及時性與其底層數據質量有極大的關係。目前國內類ChatGPT產品的底層數據質量尚待提升。」
其次,是產品的規範性。蔣照生分析,國內很多類ChatGPT產品的系統依然存在不穩定性,這最後會導致生成內容質量不一致。燃次元多次向文心一言發出相同請求,得出不同回答就是個典型的例子。對於商業化產品,這種不穩定性會存在風險。
再次,如何保證ChatGPT類產品的原創性、避免版權問題,以及保證ChatGPT類產品輸出的內容符合法律和道德標準,也是不得不重視的問題。蔣照生補充道,以AIGC為例,大多數AIGC系統仍然缺乏創造力,不能獨立生成原創內容,只能根據給定的模板或指導內容生成相關內容。
而ChatGPT作為人工智慧工具,是沒有任何「道德」標準的,開發者需要避免ChatGPT類產品給出的回答不與主流價值觀相悖。林宇表示,「摘除一些敏感詞彙的標籤,是其中一個方式,但一個標籤所衍生出的內容很廣泛,摘除一個標籤對於大模型學習的影響是極大的。這中間尺度的把握,是個挑戰。」
除此之外,大模型所需要的海量算力,需要資金、人才、軟硬體設施等各個環節的配合,缺一不可。
最重要的是,大廠如何能開發出讓用戶可以實際體驗到有改變的ChatGPT類產品?比如,把一個PDF扔進ChatGPT,後者能生成一個準確概括重點內容的PPT,這是有效工具。但和ChatGPT閒聊,得出一些百度百科都能給出的信息,這只是「虛假」的創新。
儘管目前來看,規模化的商業變現對ChatGPT產品來說,還需要一段距離。但是,ChatGPT已經可以給一些業務和行業帶來改變,幫助大廠優化成本、提升用戶體驗。
林宇、科林等多位業內人士均對燃次元表示,機械性高、重複性強的工作是可以利用ChatGPT優化的——人工客服就是最典型的一項。「事實上,現在已經有很多企業採用人工智慧客服,但是他們能夠理解的問題還是非常有局限的。ChatGPT可以理解更長、更複雜的問題,且交互形式更自然,能夠進一步優化用戶體驗。」
而ChatGPT類產品,本身也會隨著用戶使用頻次的增多,不斷學習、更新。以百度文心一言為例,在公開測試後的短短几天,就已經有所進步。
比如,3月16日晚,燃次元第一次要求文心一言整理出百度公司2022年的現金流情況時,文心一言似乎並不能理解「整理」的意思。而到了3月18日下午,燃次元再次問出相同的問題時,文心一言已經可以準確理解問題並給出了百度現金流的信息。
圖/文心一言回答 燃次元截圖
由此不難看出,文心一言在不斷地學習和糾錯。
其實,不管是文心一言,還是其他類ChatGPT產品,是「黑」是「吹」都為時尚早。ChatGPT無疑是顛覆性的創新,但誰能因此獲利,「子彈」還得再「飛」一會才能見分曉。
*題圖及部分內文配圖來源於視覺中國。
*文中林宇、科林均為化名。
*免責聲明:在任何情況下,本文中的信息或所表述的意見,均不構成對任何人的投資建議。