谷歌Gemini「奪舍」文心一言,天下大模型一大抄?

2023-12-20     三易生活

原標題:谷歌Gemini「奪舍」文心一言,天下大模型一大抄?

就在位元組跳動被OpenAI封號的羅生門還沒落幕之時,這邊谷歌的新王牌Gemini似乎也「暴雷」了。日前微博大V@闌夕 爆料稱,用中文向谷歌Gemini Pro提問時,其會直接表示自己是百度的文心一言。緊接著在更多的網友提問下,Gemini Pro一會認為自己是小愛同學,一會又承認自己是悟道大模型開發團隊北京智源做的。

不僅如此,有喜歡整活的網友對Gemini Pro進行了英文提問,Gemini Pro又稱自己是OpenAI訓練的。此事在經過了十幾個小時的發酵後,谷歌方面似乎是反應了過來,現在大家再用中文「調戲」Gemini Pro時,它已經不再承認自己與文心一言存在任何關係了。

其實不僅僅是谷歌的Gemini Pro,馬斯克旗下xAI推出的AI聊天機器人Grok也曾在與用戶對話時突然表示,「我無法完成您的請求,因為它違反了OpenAI的用例政策。」

如此種種反常的情況,用一句大模型出現「幻覺」現象來解釋顯然就有些勉強了,而是讓大模型圈子流行互相借鑑可能才更加合適,也就是說這些公司不約而同的選擇了互相薅羊毛。有業內人士就認為,谷歌用於訓練Gemini Pro的數據大機率是使用了百度文心一言的輸出結果,並以此來蒸餾自家的Gemini Pro,但也有一定的可能性是直接抓取了中文網際網路的公開內容。

先來看看機率更高的第一種情況。目前在AI大模型賽道,後發大模型用OpenAI的GPT-4進行輔助已然成為了常規操作。原因其實很簡單,畢竟用其他大模型來蒸餾自家大模型更省錢。眾所周知,OpenAI的ChatGPT就是靠時薪2美元的海外外包數據清洗人員,完成了史無前例的1750億參數量、45TB訓練數據。

使用外包人員確實可以降低成本,但人工清洗訓練集的效率太低,例如OpenAI的ChatGPT就有兩年半的練習時長,但在ChatGPT一鳴驚人後,其他大模型不可能有這麼長的時間去打磨。這時候利用成熟AI大模型輸出的結果既省錢又有效率,對於信奉效率就是生命的網際網路大廠來說,又怎麼會對此無動於衷呢。

至於說,谷歌為什麼會使用文心一言輸出的結果?答案或許是這與百度掌握有大量質量較高的非公開中文語料庫,有著密切的關係。比如說百度方面此前在2019年5月,就曾以「數據系統升級」為由,將2017年1月1日前所有的貼子都「藏了起來」,直接將百度貼吧用戶十幾年積累的數據從公開轉為私有。而谷歌在訓練Bard時找了ChatGPT、訓練Gemini時找文心一言,何嘗又不是一種路徑依賴。

而另一種小機率的推測背後,指向的則是中文網際網路語料已經開始被AI輸出的內容「污染」了。得益於AI聊天機器人的高效,其誕生一年以來,數以億計的用戶完成了與ChatGPT、New Bing、文心一言,以及其他AI聊天機器人的對話,這些內容自然也開始陸續出現在網際網路上。不過這一趨勢也不可避免,畢竟各大廠商的大模型已經或準備商用,AI大模型與人類共享網際網路世界幾乎是必然的事情。

值得一提的是,雖然有網友認為谷歌是中文網際網路大量低質量內容泛濫的受害者,但這句話其實既對、也不對。因為這種觀點是默認了英文網際網路世界的內容更優質,但大家以為海外的情況會好很多就大錯特錯了。實際情況是隨著Discord的崛起,小體量網際網路產品直接在Discord上向用戶提供服務,已經成為了潮流。

所以從某種意義上來說,Discord也變得與微信、抖音等超級App越來越相似,Discord上的個人伺服器幾乎就與小程序沒什麼兩樣。大家也發現相比於傳統的BBS,前者提供的交流環境更符合現代人的需求,直接導致海量BBS遷移到了Discord。且不提在搬遷過程中損失的數據,從公開的BBS到私有的Discord伺服器,數據同樣也完成了一次從公開到私有的轉化。

其實高質量語料的匱乏是一個世界性的問題,而非中文網際網路獨有,而造成這一切的原因則是移動網際網路的代表——App。雖然高質量語料依舊是有的,但它們比以往更分散、也更難獲取了。未來握有高質量數據的網際網路平台只會越來越吃香,也不僅僅只有英偉達會靠著AI大模型廠商大賺一筆,可能各大內容平台也會跟著撈上一票。

當然,無論哪一種猜測都無法掩蓋谷歌確實丟人現眼了,直接薅文心一言的羊毛被抓現行已經很難看,更難看的情況則是Gemini的資料庫被污染了。要知道谷歌可是做搜尋引擎起家的,而搜尋引擎的核心技術就包括了數據清洗,將爬蟲抓取數據中存在的缺失值、異常值(離群點)、重複值去除,就都是數據清洗的一部分,結果在自家的明星產品Gemini上失手,這可就稱得上是「打了一輩子雁,到頭來被雁啄了眼睛。」

文章來源: https://twgreatdaily.com/zh-tw/2d6e52a19b0d562c8ba43680608ded44.html