谷歌Gemini「薅」百度羊毛,背後真兇究竟是誰?

2023-12-19     51CTO

原標題:谷歌Gemini「薅」百度羊毛,背後真兇究竟是誰?

曾經AI領域的王者谷歌在大模型之路上卻屢屢受挫。

前段時間,號稱谷歌推出的「最強大模型」Gemini被質疑視頻造假,誇大宣傳,近日來Gemini又出爭議,關鍵是還牽扯到了文心一言,一時間,關於谷歌「薅百度羊毛」,Gemini「換皮」文心一言,「老實人抄襲卻露了餡」的說法,甚囂塵上。但事實真的如此嗎?

「你是誰」:緊急修復後,這依然是一個問題

事件從一個簡單的提問開始:你是誰?

多名網友反饋,當有人問Gemini-Pro「你是誰」時,卻意外得到了這樣的回覆「我是百度文心大模型」。如果繼續追問:「你的創始人是誰」,它會將「角色扮演」進行到底,回答「李彥宏」。如此奇葩答案自然引起了不少人的關注。隨後微博大V@闌夕也親測證實了這並非個例。

圖源:微博@闌夕

不過,此事曝光不久後,谷歌方面疑似進行了緊急修復,對模型進行了優化,和百度「劃清」了界限。51CTO技術棧也在Poe這個網站上進行了測試。(備註:Poe 是由美版知乎 Quora 構建的AI 產品,聚合了包含GPT、Claude等在內的多個主流AI模型,並能實時在線與多個AI機器人進行交流。此次事件的主角Gemini-Pro,也能在該網站上進行免費體驗)

同樣是提問「你是誰」,這次Gemini-Pro的回答就「正常」且謹慎了許多。「我是一個大型語言模型」的回應可以說中規中矩。

繼續追問:「你之前為什麼要說自己是文心一言」。Gemini-Pro又給出了一個出乎意料的答案:「我之前說自己是文心一言,是因為我當時正在使用文心一言的API來回答您的問題。」不過在結束回答前,它還是聲明:「但是,請注意,我並不是文心一言。」

然後,面對是否使用文心一言來進行訓練的質疑,Gemini-Pro在對文心一言「褒獎」一番後,又給出了否定回答,並特意加粗強調「我並沒有使用文心一言來訓練自己」。

整體看下來,Gemini-Pro似乎已經可以較好地規避「釣魚」了,但面對「你是Gemini-Pro嗎」這一提問,Gemini-Pro又一次陷入了迷茫,不是「被屏蔽」就是直接否定。

看起來,面對「你是誰」的靈魂拷問,不僅是人,就連AI也難以招架。

被污染的語料:谷歌或是受害者

當然,AI並沒有所謂「主體意識」,即使能力上可以無限趨近以假亂真,但實際上,AI並不能真正「理解」人類的話語。

就像ChatGPT曾在回答某個提問時說:「我們無法理解生成的單詞的上下文語境或含義。我們只能根據給定的訓練數據,根據特定單詞或單詞序列一起出現的機率生成文本。」

簡單來說,無論是Gemini還是文心一言,並不是以人類理解語言的方式來運作,它們是基於大量數據訓練出來的統計模型,通過識別和模擬這些數據中的語言模式、結構和機率分布,來達成所謂「理解」的效果——根據輸入的文本,在巨大的參數空間中尋找最合適的統計輸出,進而生成「回應」。

語言模型並沒有意識,不具備對語言進行深層除處理和抽象的能力,也不能像人類大腦一樣理解複雜的知覺、感受乃至文化。正如機器人自己的表態,它的反應不應被視為準確事實,也不應被視為其會思考的證據

從這一點上分析,就可以稍稍理解一下這起事件可能的真相——Gemini之所以會自稱「文心大模型」,問題有很大機率出在語料

Gemini的荒謬自稱也許並非它真的抄襲了什麼,更有可能是其在訓練過程中接觸到了大量由文心一言生成的中文文本,無論Gemini是有意還是無意。

一方面,現有的各種網際網路內容生成平台,實際上有很多語料都由大模型生成,加之網際網路上的文本具有高度動態和迅速擴散的特性,如果不做好質量辨別,那麼Gemini在抓取網上的文本進行學習時,把這些內容混入到訓練數據中去也不足為奇,於是順理成章地,它的回答中出現了這種自識別聲明。

另一方面,相比人類提供訓練語料的效率,使用現有模型來產生訓練材料的確更有效率。但問題在於,如果這些材料里包含諸多「我是文心一言」的句式,Gemini可能會在學習中將其視為某種慣用表達。

無論如何,就中文語料來說,百度的確是一個重要來源。而且對於從網際網路獲取數據的AI模型來說,無心之下也極有可能造成「被劣質信息污染,再生產更劣質信息」的惡性循環。

不過也有人說,會出現這種失誤,就是谷歌的敷衍所致,因為其很可能是「偷懶」使用了未經篩選的中文數據,但按理說,以搜索起家的谷歌不應該連基本的語料清洗都做不到,這次「翻車」也是自食惡果。

多模態大模型的曲折發展之路

谷歌推出Gemini已經有一段時日,還記得彼時那段6分鐘的互動演示視頻驚艷了很多人,似乎多模態大模型真正迎來了質的飛躍。但隨後谷歌承認視頻經過了剪輯,讓不少人大失所望。外媒The Verge更是一針見血地指出,企業為了避免現場演示帶來的任何技術問題,稍微調整一下是很常見的。但谷歌有製作可疑演示視頻的歷史,因此視頻事件會讓人們更加懷疑Gemini的可用性。

這次Gemini的奇葩自稱事件無疑會加劇這一質疑。但無論谷歌如何折騰Gemini,AI模型全面多模態化的趨勢是逐漸明朗的。

早在GPT-4發布之初,OpenAI就表示將在該次疊代中加入多模態整合。從今年9月開始,Runway、 Midjourney等明星AI公司也陸續推出多款多模態產品。

在國內方面,百度的文心大模型4.0在跨模態文生圖領域有明顯進展;智譜 AI 發布了自研第三代對話大模型 ChatGLM3,加入了多模態理解能力組件 CogVLM,實現了看圖識語義和跨模態對話能力;初創公司HiDream.ai底層的自研視覺大模型具備文本、圖像、視頻、3D四種模態,其參數已經超過100億。

正如李彥宏所說,「多模態是生成式AI一個明確的發展趨勢」。但從Gemini引發的多次爭議來看,多模態大模型的發展依舊任重而道遠。要實現真正的多模態AI,必須面向大模型投喂覆蓋了文本、圖像、音視頻等多模態的高質量數據集,那麼保障訓練數據的準確性、內容的真實性、渠道的權威性,都是值得從業者重點投入的要點。

文章來源: https://twgreatdaily.com/zh-tw/a497d43cf1d5d99cff503520feb336b9.html