OpenAI用「貼吧」語料喂ChatGPT，網友表示非常嫌棄，研究人員：年少不知「貼吧」好

文｜陳斯達

編輯｜李然

「美國貼吧」要把自家數據喂給ChatGPT了。

5月17日，據官方消息，Reddit 已與 OpenAI 達成協議，允許其使用自家內容訓練聊天機器人及其他產品。合作宣布後，Reddit股價在盤後交易中上漲11%。

圖源：X

合作的互利共贏，OpenAI在官網中有所介紹：

OpenAI能用上Reddit的實時內容：自家AI 工具由此能夠更好地理解和展示 Reddit 上最新話題的內容，因為OpenAI可訪問得Reddit數據 API，將提供實時的、結構化的、獨特的內容。
Reddit能用上OpenAI的AI技術：Reddit 將建立在 OpenAI 的 AI模型平台上，將使Reddit為redditor和 mod帶AI驅動的全新功能。
最後，OpenAI將成為Reddit的廣告合作夥伴。

OpenAI的執行長Sam Altman持有Reddit 8.7%的股份，此前還是Reddit的董事會成員。所以OpenAI為了避嫌，強調此次合作是「由OpenAI的營運長（Brad Lightcap）領導」，並「由（OpenAI）獨立董事會批准」。Altman作為OpenAI董事會成員，據TechCrunch，本人在此次決定上採取迴避姿態。

此次合作的梗圖誕生：Altman這一出，屬於是左手倒右手，一看都是自家人。

圖源：Reddit

我想知道這次合作具體怎麼談成的。

我想知道這次合作具體怎麼談成的。

很多網友似乎不太理解Reddit內容對於大模型的價值，紛紛表示Reddit會讓ChatGPT變得「不幹凈」。

熟悉「貼吧」內容調性的網友們馬上炸開了鍋，有人馬上棄坑：Claude不比你GPT香？

圖源：X

大本營Reddit平台上的悲觀發言：把各位貼吧老哥的發言喂給大模型，AGI的進展立馬倒退四年：

圖源：Reddit

OpenAI的模型要用貼吧上科技板塊的數據訓練，看來對AGI的預測要推後四年。

OpenAI的模型要用貼吧上科技板塊的數據訓練，看來對AGI的預測要推後四年。

有人也不明白了：Reddit至於那麼差嗎？

圖源：Reddit

只有我比較開心？Reddit上有用的內容也不少，如果能用AI查詢，豈不美哉？

只有我比較開心？Reddit上有用的內容也不少，如果能用AI查詢，豈不美哉？

殊不知，前有論文證明「弱智吧」內容才是AI中文語料質量的高地，這波屬於是網友信不過OpenAI技術大拿們的眼光了。

圖源：論文

用平台數據拓寬收入渠道，曾遭大規模抵制

成立於2005年的Reddit，於2024年3月上市，目前並不盈利。據其最新介紹，Reddit日活躍用戶為8270萬。據Techcrunch，Reddit的平台帖子超10億個，評論數超160億條，用戶生成的內容每天還在增長。平台也可以被看做AI公司訓練模型的「金礦」。

此次合作也說明，Reddit依然在嘗試不同業務，不希望過於依賴於廣告收入。

OpenAI、谷歌等公司將Reddit的數據用於自家模型訓練後，Reddit不甘「白嫖」，2023年6月，Reddit宣布將對開發人員訪問其API收取高額費用。其對每5000萬個API請求收取12000 美元的費用，在業內定價已經很高。

大樹底下不能乘涼了。靠著Reddit發家的各種第三方應用及個人開發者沒法掙錢，Reddit社區自此開啟一場聲勢浩大的抗議。在海量用戶的自發組織下，在6月12日開始癱瘓。超過8000個版塊（類似於微博、貼吧的不同話題）都被版主設置成了「私人版塊」，其他用戶無法訪問。

來源：The Verge

這場利益沒有對齊的抗議很快又被自發終結。僅僅過了兩天，大部分版塊恢復運營。用戶找不到平替之前，還得接著用Reddit。

Reddit官方下場「反白嫖」的最終目的很快落地——用平台內容向大模型公司收費。

2024年3月上市前，Reddit與谷歌母公司Alphabet還達成每年價值約6000萬美元的交易，允許自家內容用於谷歌模型的訓練。5月早些時候，Reddit公布的首份季報中，收入超過分析師預期。這表明，Reddit與谷歌的交易及其推動廣告業務增長的努力，正在得到回報。

來源：路透社

為什麼各家大模型公司都在搶著給Reddit送錢，真的找不到更好的語料嗎？

數據「掘金」的終點，難道是貼吧？

OpenAI掌門人Altman最近在播客中提到，模型未來的進步，不應該依賴數據。但就目前階段來說，數據仍然是當下各大玩家的必爭資源。

根據大模型的尺度法則，即便模型參數和算力都不斷提高，但是數據量和質量如果停滯不前，模型的性能也很難持續進步（見智能湧現文章，大模型鬧「數據饑荒」，科技巨頭進入灰色地帶）。

3月在英偉達GTC大會上，黃仁勛對話Transformer七子時也有觀點認為：高質量的模型需要的其實是高質量的數據，一味堆量是不夠的。

外國網友還在擔心，把過於負面的Reddit「貼吧語料」喂給AI會不會適得其反；中文網際網路上，最好的大模型語料庫真的就是貼吧——弱智吧。

這個結論來自三月底發布的一篇論文。研究團隊發現，大語言模型目前能理解、執行複雜指令，回答也能做到準確流利。然而這些進步基本都發生在英語世界，中文大模型的若要進步，就需要基於獨特的語言特徵和文化深度，找到合適的數據集。

圖源：論文

研究看中了各類中文社交媒體、論壇的語料質量。論文不僅打造了中文指令微調數據集COIG-CQIA，還為後續從中文網際網路選擇訓練數據提供了參考。

論文作者從微博，知乎，豆瓣，小紅書等主流的社區論壇中抽取了大量的語料進行綜合，提出了COIG-CQIA數據集。而在這個過程當中，研究人員對這些社交平台上的語料進行了一個排名。

經過比較，弱智吧數據集在多個子集上的平均排名中最終位居第二。

圖源：論文

弱智吧的內容有那麼神？有網友整理過弱智吧的經典發言：

每個人工作都想賺錢，那麼是誰在虧錢？
我閉上眼睛觸碰星空，閱讀宇宙留給我的盲文。
世界是個大象，我們都在盲人摸象，抽象是對這個世界的鞭撻。
雨天，我走進水坑裡，不小心踩碎了天空。
生魚片是死魚片。
有的人看不到未來，其實是看到了未來。
夜裡很安靜，我打開了收音機錄下來，等白天吵鬧的時候播放。

論文介紹，弱智吧的帖子充滿雙關語、多義詞、因果倒置、同音異義詞。有些邏輯陷阱人類看了都汗流浹背，對AI來說，那必須是增強模型邏輯推理能力的絕佳養料。

雖然網際網路社區的語料對於AI來說養分可能確實充足，但是網友們對於社區直接將自己貢獻的內容拿去賣錢，卻不一定那麼樂意。

Stack Overflow是面向程式設計師及開發人員的論壇。2024年5月初也與OpenAI合作為模型訓練提供數據。一些用戶為了表示不滿，刪除或者編輯自身問題和答案，避免被用於訓練AI，但Stack Overflow恢復了被刪的帖子，封禁了對應的帳號。

圖源：網絡

有網友分享怎樣把自己的高贊經驗帖編輯為抗議帖的方法，並表示，「（版主的鎮壓）也是在提醒大家，在平台上發布的任何內容都能用於盈利目的。在 Discord、Twitter 等平台上的所有消息，早晚也要被抓取投喂給模型，最後再把相應AI服務售賣給你。」

但與Stack Overflow相比，Reddit的各路網友暫時沒有用刪帖表示反抗，轉而心疼起AI：孩子，吃點好的吧。

圖源：Reddit

A：之前有人擔心：把整個網際網路喂給AI，AI會讓人類滅亡

B：我不認為現在這是玩笑了。

C：這就是為什麼我的網絡發言如此愚蠢。我其實很聰明（聰明一詞拼寫錯誤）！

D：你拯救了人類！

A：之前有人擔心：把整個網際網路喂給AI，AI會讓人類滅亡

B：我不認為現在這是玩笑了。

C：這就是為什麼我的網絡發言如此愚蠢。我其實很聰明（聰明一詞拼寫錯誤）！

D：你拯救了人類！

OpenAI用「貼吧」語料喂ChatGPT，網友表示非常嫌棄，研究人員：年少不知「貼吧」好

文章來源: https://twgreatdaily.com/zh-my/a287a0d74c7ac03d5ffd2d5b3c32aa22.html

對話「百圖生科」：生命科學AI化已成確定性趨勢 | 36氪專訪

矽基智能DUIX ONE發布，為1億矽基勞動力按下加速鍵

智能寵物監控革命，靈予科技要做毛孩子的AI保姆｜早期項目

獲文和友關聯基金千萬元投資，「麻蒲碳烤肉」「好吃不貴」的十年養成之路｜早期項目

度小滿CEO朱光：推理大模型應用金融領域，要深入核心業務｜最前線

醫研共創，如何把冷光美白帶進家裡？

Soul CTO 陶明：人和AI，如何「持續地聊天」？｜36氪專訪

科氪 | 美的燃氣熱水器創新「無尾」技術，引領行業邁入一級能效新階段

大陸集團EMB線控制動首次亮相，新技術已無需剎車油｜最前線

國內首個自研架構類腦大模型，「陸兮科技」已通過《生成式人工智慧服務備案》｜早期項目

別著急開戶，先跟「投資版ChatGPT」聊一聊

飲料配酒，越喝越有，當代年輕人有什么喝酒新花樣？丨年輕人「喝酒」小調查

李開復回應放棄預訓練：訓一次大模型三四百萬美元，頭部公司都付得起｜最前線

史無前例，英特爾和AMD在聯想「撮合」下合作了 | 最前線

科氪 | 一加正式發布第二代東方屏，獲全球首個 DisplayMate A++ 認證

繼續狙擊英偉達， AMD子彈已上膛丨焦點分析

位元組豆包推出一款AI耳機，硬體不靈的魔咒這次能破嗎？

三萬美金的特斯拉機器人，會猜拳和跳舞，2026年對外量產

數字貨運降低物流信息差，貨拉拉護城河持續加深

演員袁弘，40歲從零開始做藝術博主

36氪馮大剛：讓AI通向物理世界｜AI Partner·2024具身智能大會

TCE雙抗藥「爆發」前夜，下一個10億美元交易將輪到誰｜36氪專訪

CSDN蔣濤：國內獨立開發者要賺到錢，需要軟體的創造成本真正降下來｜36氪專訪

百度版「Sora」，不發模型，直接落地｜最前線