OpenAI用「貼吧」語料喂ChatGPT,網友表示非常嫌棄,研究人員:年少不知「貼吧」好

2024-05-17     36氪

文|陳斯達

編輯|李然

「美國貼吧」要把自家數據喂給ChatGPT了。

5月17日,據官方消息,Reddit 已與 OpenAI 達成協議,允許其使用自家內容訓練聊天機器人及其他產品。合作宣布後,Reddit股價在盤後交易中上漲11%。

圖源:X

合作的互利共贏,OpenAI在官網中有所介紹:

  • OpenAI能用上Reddit的實時內容:自家AI 工具由此能夠更好地理解和展示 Reddit 上最新話題的內容,因為OpenAI可訪問得Reddit數據 API,將提供實時的、結構化的、獨特的內容。
  • Reddit能用上OpenAI的AI技術:Reddit 將建立在 OpenAI 的 AI模型平台上,將使Reddit為redditor和 mod帶AI驅動的全新功能。
  • 最後,OpenAI將成為Reddit的廣告合作夥伴。

OpenAI的執行長Sam Altman持有Reddit 8.7%的股份,此前還是Reddit的董事會成員。所以OpenAI為了避嫌,強調此次合作是「由OpenAI的營運長(Brad Lightcap)領導」,並「由(OpenAI)獨立董事會批准」。Altman作為OpenAI董事會成員,據TechCrunch,本人在此次決定上採取迴避姿態。

此次合作的梗圖誕生:Altman這一出,屬於是左手倒右手,一看都是自家人。

圖源:Reddit

我想知道這次合作具體怎麼談成的。

我想知道這次合作具體怎麼談成的。

很多網友似乎不太理解Reddit內容對於大模型的價值,紛紛表示Reddit會讓ChatGPT變得「不幹凈」。

熟悉「貼吧」內容調性的網友們馬上炸開了鍋,有人馬上棄坑:Claude不比你GPT香?

圖源:X

大本營Reddit平台上的悲觀發言:把各位貼吧老哥的發言喂給大模型,AGI的進展立馬倒退四年:

圖源:Reddit

OpenAI的模型要用貼吧上科技板塊的數據訓練,看來對AGI的預測要推後四年。

OpenAI的模型要用貼吧上科技板塊的數據訓練,看來對AGI的預測要推後四年。

有人也不明白了:Reddit至於那麼差嗎?

圖源:Reddit

只有我比較開心?Reddit上有用的內容也不少,如果能用AI查詢,豈不美哉?

只有我比較開心?Reddit上有用的內容也不少,如果能用AI查詢,豈不美哉?

殊不知,前有論文證明「弱智吧」內容才是AI中文語料質量的高地,這波屬於是網友信不過OpenAI技術大拿們的眼光了。

圖源:論文

用平台數據拓寬收入渠道,曾遭大規模抵制

成立於2005年的Reddit,於2024年3月上市,目前並不盈利。據其最新介紹,Reddit日活躍用戶為8270萬。據Techcrunch,Reddit的平台帖子超10億個,評論數超160億條,用戶生成的內容每天還在增長。平台也可以被看做AI公司訓練模型的「金礦」。

此次合作也說明,Reddit依然在嘗試不同業務,不希望過於依賴於廣告收入。

OpenAI、谷歌等公司將Reddit的數據用於自家模型訓練後,Reddit不甘「白嫖」,2023年6月,Reddit宣布將對開發人員訪問其API收取高額費用。其對每5000萬個API請求收取12000 美元的費用,在業內定價已經很高。

大樹底下不能乘涼了。靠著Reddit發家的各種第三方應用及個人開發者沒法掙錢,Reddit社區自此開啟一場聲勢浩大的抗議。在海量用戶的自發組織下,在6月12日開始癱瘓。超過8000個版塊(類似於微博、貼吧的不同話題)都被版主設置成了「私人版塊」,其他用戶無法訪問。

來源:The Verge

這場利益沒有對齊的抗議很快又被自發終結。僅僅過了兩天,大部分版塊恢復運營。用戶找不到平替之前,還得接著用Reddit。

Reddit官方下場「反白嫖」的最終目的很快落地——用平台內容向大模型公司收費。

2024年3月上市前,Reddit與谷歌母公司Alphabet還達成每年價值約6000萬美元的交易,允許自家內容用於谷歌模型的訓練。5月早些時候,Reddit公布的首份季報中,收入超過分析師預期。這表明,Reddit與谷歌的交易及其推動廣告業務增長的努力,正在得到回報。

來源:路透社

為什麼各家大模型公司都在搶著給Reddit送錢,真的找不到更好的語料嗎?

數據「掘金」的終點,難道是貼吧?

OpenAI掌門人Altman最近在播客中提到,模型未來的進步,不應該依賴數據。但就目前階段來說,數據仍然是當下各大玩家的必爭資源。

根據大模型的尺度法則,即便模型參數和算力都不斷提高,但是數據量和質量如果停滯不前,模型的性能也很難持續進步(見智能湧現文章,大模型鬧「數據饑荒」,科技巨頭進入灰色地帶)。

3月在英偉達GTC大會上,黃仁勛對話Transformer七子時也有觀點認為:高質量的模型需要的其實是高質量的數據,一味堆量是不夠的。

外國網友還在擔心,把過於負面的Reddit「貼吧語料」喂給AI會不會適得其反;中文網際網路上,最好的大模型語料庫真的就是貼吧——弱智吧。

這個結論來自三月底發布的一篇論文。研究團隊發現,大語言模型目前能理解、執行複雜指令,回答也能做到準確流利。然而這些進步基本都發生在英語世界,中文大模型的若要進步,就需要基於獨特的語言特徵和文化深度,找到合適的數據集。

圖源:論文

研究看中了各類中文社交媒體、論壇的語料質量。論文不僅打造了中文指令微調數據集COIG-CQIA,還為後續從中文網際網路選擇訓練數據提供了參考。

論文作者從微博,知乎,豆瓣,小紅書等主流的社區論壇中抽取了大量的語料進行綜合,提出了COIG-CQIA數據集。而在這個過程當中,研究人員對這些社交平台上的語料進行了一個排名。

經過比較,弱智吧數據集在多個子集上的平均排名中最終位居第二。

圖源:論文

弱智吧的內容有那麼神?有網友整理過弱智吧的經典發言:

  • 每個人工作都想賺錢,那麼是誰在虧錢?
  • 我閉上眼睛觸碰星空,閱讀宇宙留給我的盲文。
  • 世界是個大象,我們都在盲人摸象,抽象是對這個世界的鞭撻。
  • 雨天,我走進水坑裡,不小心踩碎了天空。
  • 生魚片是死魚片。
  • 有的人看不到未來,其實是看到了未來。
  • 夜裡很安靜,我打開了收音機錄下來,等白天吵鬧的時候播放。

論文介紹,弱智吧的帖子充滿雙關語、多義詞、因果倒置、同音異義詞。有些邏輯陷阱人類看了都汗流浹背,對AI來說,那必須是增強模型邏輯推理能力的絕佳養料。

雖然網際網路社區的語料對於AI來說養分可能確實充足,但是網友們對於社區直接將自己貢獻的內容拿去賣錢,卻不一定那麼樂意。

Stack Overflow是面向程式設計師及開發人員的論壇。2024年5月初也與OpenAI合作為模型訓練提供數據。一些用戶為了表示不滿,刪除或者編輯自身問題和答案,避免被用於訓練AI,但Stack Overflow恢復了被刪的帖子,封禁了對應的帳號。

圖源:網絡

有網友分享怎樣把自己的高贊經驗帖編輯為抗議帖的方法,並表示,「(版主的鎮壓)也是在提醒大家,在平台上發布的任何內容都能用於盈利目的。在 Discord、Twitter 等平台上的所有消息,早晚也要被抓取投喂給模型,最後再把相應AI服務售賣給你。」

但與Stack Overflow相比,Reddit的各路網友暫時沒有用刪帖表示反抗,轉而心疼起AI:孩子,吃點好的吧。

圖源:Reddit

A:之前有人擔心:把整個網際網路喂給AI,AI會讓人類滅亡

B:我不認為現在這是玩笑了。

C:這就是為什麼我的網絡發言如此愚蠢。我其實很聰明(聰明一詞拼寫錯誤)!

D:你拯救了人類!

A:之前有人擔心:把整個網際網路喂給AI,AI會讓人類滅亡

B:我不認為現在這是玩笑了。

C:這就是為什麼我的網絡發言如此愚蠢。我其實很聰明(聰明一詞拼寫錯誤)!

D:你拯救了人類!

文章來源: https://twgreatdaily.com/a287a0d74c7ac03d5ffd2d5b3c32aa22.html