文心一言發布後,我第一時間拿到了體驗的資格,但第一次使用後卻不禁有些失望。他的邏輯能力極度缺乏、創造力也差點意思。不過,今天再次高強度使用後,卻又讓我對這款產品的想法有了些許改變。
▍前言
將 2023 年稱為 AI 紀元在我看來也沒什麼不合適的:雖說 ChatGPT 在去年就已推出,但真正在國內大火還是在今年的事情;而在這個月,OpenAI 又接連推出了 GPT-3.5-Turbo 的 API 和 GPT-4 模型,又讓一大波基於 OpenAI 的二次開發的工具類軟體大火;在今天,微軟在發布會上再度宣布將把 ChatGPT 整合進 Microsoft Office 套件中。一時間,AI 仿佛成為了最近最「潮流」的詞語。
而如果我們將時間倒回兩年之前,就能看到其實百度早在 2021 年就已經入局 AI:文心大模型的第一個版本早在 2019 年就已發布,此後的每一年都會發布一個新版本。不過直到 ChatGPT 在國內大火後,百度才推出了自己面向公眾的自然語言處理工具——文心一言。
2021 年「百度世界」上,李彥宏和撒貝寧交流百度關於 AI 的探索
▍「文心一言」是什麼?
根據百度自己的介紹:
文心一言是百度全新一代知識增強大語言模型,文心大模型家族的新成員,能夠與人對話互動,回答問題,協助創作,高效便捷地幫助人們獲取信息、知識和靈感。文心一言是知識增強的大語言模型,基於飛槳深度學習平台和文心知識增強大模型,持續從海量數據和大規模知識中融合學習具備知識增強、檢索增強和對話增強的技術特色。 文心一言有五大能力,文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。
文心一言是百度全新一代知識增強大語言模型,文心大模型家族的新成員,能夠與人對話互動,回答問題,協助創作,高效便捷地幫助人們獲取信息、知識和靈感。文心一言是知識增強的大語言模型,基於飛槳深度學習平台和文心知識增強大模型,持續從海量數據和大規模知識中融合學習具備知識增強、檢索增強和對話增強的技術特色。 文心一言有五大能力,文學創作、商業文案創作、數理邏輯推算、中文理解、多模態生成。
要更好的了解文心一言的能力,我們不妨就來試試文心一言「主打」的這五個能力,看看他們的能力分別是怎樣的。
▍實際體驗
01文學創作能力
在這裡我選擇了最能考驗 AI 想像能力的科幻作品創作,並且提升了一些難度:
Prompt:請你生成一個科幻故事,以「你好,宇宙。」作為結尾的最後一句。
在這個 Prompt 中,如果想要生成一個滿足條件的、有趣的科幻作品,難度不小。而且比較考驗 AI 把控情感和主題線索的能力。
來看看文心一言的表現:
可以看出,文心一言生成的內容,與其說是「科幻故事」,倒不如說是第三人稱敘事,並且也並沒有滿足 Prompt 的全部要求。不過對於文章主題(宇宙、太空)等大意能夠進行把握,有基本的分析文本的能力。
接下來是 GPT-4 模型的表現:
GPT-4 生成的故事要明顯好於文心一言生成的內容,並且準確的理解了 Prompt 的所有要求。文章中也不乏一些有意思的句子,改一改或許真的能寫成一篇科幻小說。不過 GPT-4 生成的內容雖然扣題,但「你好,宇宙」與文章內容的聯繫還是有些勉強。
總的來說,文心一言在文學創作方面,至少是科幻作品創作方面,還遠遠沒有達到基礎的門檻,甚至都沒有完全實現 Prompt 中的指令。不過文學創作方面本身就比較困難,因此也可以理解。
02 商業廣告能力
在這裡我選擇了我最熟悉的 Apple 的廣告詞。Apple 英文廣告詞一個非常常見的風格是每一句都很押韻,例如 iPad 10 的英文廣告詞是「Lovable. Drawable. Magical.」,但這一句在國區被翻譯為「可圈可點可畫心」,喪失了英文廣告詞的精髓。我們不妨讓文心一言和 GPT-4 來試著翻譯翻譯 iPad 10 的廣告詞。
文心一言的效果:
又再次出現了老問題:生成的內容並不嚴格遵循 prompt 的指令。接下來看看 GPT-4 模型的能力:
可見 GPT-4 模型在這種要求的商業廣告能力上也顯得力不從心,看來商業廣告的生成還是有很大難度。
03 數理邏輯推算
為了驗證 GPT-4 和文心一言的數理邏輯,我們問了兩個問題。一個是初中難度純數學問題,另一個是邏輯思維問題。
Prompt:請問一次函數 y=3x+3 與 X 軸的交點坐標是多少?
GPT-4:
看起來初中的題 GPT-4 模型來計算還是小菜一碟。但是當我們將目光放在文心一言上,就會發現他還有很大的提升空間:
至於 GPT-4 的上限,現在已經有很多人測試過,在這裡不做過多贅述。
接下來是一道邏輯題:
Prompt:有一個 3L 的燒杯和一個 5L 的燒杯,如何得到 4L 水?
先看 GPT-4,完美解決,用的是最簡單的方法:
可見 GPT-4 還是有一定的的邏輯能力。但接下來文心一言的生成讓我有點不敢相信這是 2023 年的語言模型:
這個回答,竟一時讓我不知從哪開始反駁。可見文心一言的 AI 模型目前連最基礎的數字運算都還不完善。
04 中文理解
這個在我最初的理解中,應該是文心一言的強勢部分。畢竟 GPT-4 中的中文模型比例僅占到 0.2%。在測試他的中文理解能力上,我選取了白話文、古詩文、小說三種中文形式進行測試
白話文理解
在白話文的測試中,我就選去情侶之間經常說的一句話:
Prompt:你要是還不來,就給我等著吧!
在這句話里,「你給我等著吧」有一種略微的威脅、生氣以及有些開玩笑的語氣成分在。來看看 GPT-4 和文心一言對於這句話的理解能力:
在這個測試中,文心一言比我想像中的,類似於「意思是是在等待另一方」的回覆要更加正確一些。但是相比於 GPT-4 模型的更加完善、全面的解釋,文心一言顯然只體會到了其中略微威脅、生氣的情感。
古詩文理解
在這一個部分中,我選取了《茅屋為秋風所破歌》的「安得廣廈千萬間,大辟天下寒士俱歡顏」一句。
Prompt:「安得廣廈千萬間,大辟天下寒士俱歡顏」表達了什麼樣的情感
他們的表現分別是:
對於這種非常經典的內容,兩個模型的理解都還不錯,尤其是 GPT-4 要比我想像的水平好不少。
小說理解
在這個部分中,我選擇用《紅樓夢》這部經典名作的其中一段來讓兩個模型練練手:
兩個模型都對於紅樓夢這部分內容有最基礎的理解,但是更深度的思考都很欠缺。僅僅是在概括和使用白話文總結這個段落髮生的事情。
05 多模態生成
多模態生成應該是文心一言相比於 ChatGPT 的優勢(我們在這裡暫且先不考慮 OpenAI 的 DALL·E 模型)。
在測試中,我使用了常見 Prompt 和毫無邏輯的 Prompt 兩個 Prompt 讓 AI 生成圖像。
對於常見的 Prompt,文心一言生成的內容質量還能有最基本的保證。風格默認是寫實和插畫混合的風格,但是可以通過 Prompt 來改變風格。
可惜在生成過程中,還是犯了文心一言的老毛病: 不嚴格遵循 Prompt 的要求。尤其是下面第二幅圖,只畫出了「一個人」,其他的要點都沒有展現在圖片中,這是目前文心一言一個很大的問題。
但是對於一些要求奇怪的 Prompt,比如「請你畫一隻愛國的貓」,他就會完全傻掉:
可見文心一言的多模態生成還有很多提升的空間。至少先讓生成的畫作能嚴格符合 Prompt 的要求吧
06 記憶類學術問題
不過對於記憶類的學術問題,文心一言和 GPT-4 的效果都相當不錯。一個主要的原因是這方面的訓練集不像其他內容需要在中文網際網路環境上收集,因此內容質量普遍比較高。
拿神經科學的題目舉個例子:
GPT-4 生成內容
兩個模型都正確的回答出了正確答案。我也嘗試了神經科學、認知心理學方面的很多理論性的知識,兩個模型的準確率都高於 90%。
▍總結
通過上面實際體驗的截圖,可以看出文心一言文字的生成質量還欠缺很多,並且多模態生成的圖片也有提升的空間。但文心一言也有自己的優勢,例如可以在國內網絡環境下直接體驗、可以生成圖片等功能。
百度作為國內最早入局 AI 的企業,但最終效果不盡人意,其實也間接說明了國內網際網路環境的一些遺憾,例如充斥著大幅無意義的內容。
而且,國內網際網路很難提供一個合格的訓練環境。例如知乎作為國內最大的問答平台,並沒有提供一個反選「最佳回答」的選項,而有些知乎問題的最高贊往往是一些抖機靈的答案,給 AI 訓練增加了很多難度,因此文心一言目前效果不盡如人意也不完全是百度的責任。
或許再給百度一段時間,文心一言的模型能做得更加優秀。相信文心一言也能隨著疊代,克服不足,讓亮點更亮。正如《離騷》中所寫的:
路漫漫其修遠兮,吾將上下而求索。
原文連結:
https://sspai.com/post/78900?utm_source=wechat&utm_medium=social
作者:MarvinCui
責編:北鴞
/ 更多熱門文章 /