外媒The Verge於北京時間今日凌晨報道，在生成式AI的瘋狂競賽中，位元組跳動一直在秘密利用OpenAI的技術「走捷徑」，直指位元組跳動在中國使用GPT生成的數據來訓練自己的大模型，違反了微軟和OpenAI的開發者許可。不久後，OpenAI發言人Niko Felix發表聲明，確認位元組跳動的帳戶已被暫停並將做進一步調查。

「他們想確保一切都合法，但他們真的只是不想被抓住」

外媒稱，位元組跳動此舉違反了OpenAI的有關服務條款。該條款規定，其模型輸出不能用於「開發任何與我們的產品和服務競爭的人工智慧模型」。位元組跳動正在通過微軟購買OpenAI的使用權，微軟也有同樣的政策。

但是記者Alex Heath表示，從他看到的位元組跳動內部文檔可以證實，在幾乎每個開發階段，包括訓練和評估模型，位元組跳動都依賴OpenAI API來開發其基礎大模型，代號為「種子計劃（Project Seed）」。

報道提到，自從大約一年前位元組跳動內部啟動「種子計劃」以來，它已成為一項高度優先的秘密計劃。從事這項工作的員工必須簽署單獨的保密協議。參與其中的員工也很清楚此事曝光的影響。Alex Heath在飛書國際版Lark的內部溝通記錄上看到過關於如何通過「數據脫敏」來「粉飾」證據的對話，「濫用如此猖獗，以至於種子計劃的員工經常達到 API 訪問的上限」。

內部文件顯示，在種子計劃的早期階段，對於OpenAI平台的使用更為肆無忌憚。但幾個月前，位元組跳動命令該團隊在「模型開發的任何階段」停止使用GPT生成的文本。也就是在這個時候，位元組跳動獲得了中國監管部門的批准，通過AI大模型「豆包」讓種子計劃上線。

Alex稱，儘管如此，這種API的使用方式仍然違反了OpenAI和微軟的服務條款，包括評估在豆包背後的模型的性能。文中引用了一位聲稱對位元組跳動內部情況有深入了解的爆料者的話，「他們說他們想確保一切都是合法的，但他們真的只是不想被抓住」。

OpenAI的回應：暫停帳號，作進一步調查

對於該報道，來自位元組跳動、微軟以及OpenAI三方的發言人均給出了回應。

位元組跳動發言人Jodi Seth在回應這篇報道中詳細列出的事實時表示，GPT生成的數據在種子計劃的早期開發中被用於注釋模型，並且在今年年中左右就從位元組跳動的訓練數據中刪除了它。

她提到:「位元組跳動獲得了微軟使用GPT API的許可。」「我們使用GPT為非中國市場的產品和功能提供動力，但使用我們自主開發的模式為豆包提供動力，而豆包只在中國提供。」

微軟發言人Frank Shaw則在一份聲明中表示:「微軟人工智慧解決方案(如Azure OpenAI Service)是我們有限訪問框架的一部分，這意味著所有客戶必須申請並獲得微軟批准才能訪問。」「我們還制定標準並提供資源，幫助我們的客戶在遵守服務條款的情況下負責任地使用這些技術，並制定了適當的流程來檢測濫用，並在公司違反我們的行為準則時停止訪問權限。」

OpenAI發言人Niko Felix則向該報道的作者表示，確認位元組跳動的帳戶已被暫停:「所有API客戶必須遵守我們的使用政策，以確保我們的技術得到善用。雖然位元組跳動對我們API的使用很少，但我們在進一步調查期間暫停了他們的帳戶。如果我們發現他們的使用不遵守這些政策，我們將要求他們做出必要的改變或終止他們的帳戶。」

灰色地帶：瘋狂競賽中的鋌而走險

今年以來，在OpenAI掀起的這場生成式AI競賽中，無論是巨頭還是初創企業，都被捲入了某種「瘋狂」的漩渦中。時不我待的焦慮感成為了每個人頭上的緊箍咒。於是乎，灰色地帶應運而生。

使用專有的人工智慧模型（尤其是OpenAI的模型）來幫助構建競爭產品已經成為小公司的普遍做法。這通常被視為一個法律灰色地帶，因為OpenAI和微軟還沒有公開對任何一個違規者做出「嚴懲」。正如Databricks負責生成式人工智慧的副總裁Naveen Rao所說：「現在很多初創公司都在冒這個風險。」

外媒強調，在此次事件中，對於像位元組跳動這樣體量的公司來說，這種行為是非常不尋常的。這表明種子計劃團隊承受著快速交付的巨大壓力。

據報道，種子計劃正在開發的兩款主打產品，一是豆包，目前在中國上線的AI聊天機器人，另一個是以商業為中心的機器人平台，正在開發中，將通過位元組跳動的雲部門銷售。種子計劃與TikTok無關，它是在中國的伺服器上開發的。項目負責人是位元組跳動的搜索主管朱文佳，他向公司最高工程負責人楊震原彙報工作。

雖然員工們被告知，種子計劃的目標是像 OpenAI 一樣，最終構建通用人工智慧，但真正的目標似乎是儘快成為中國的 ChatGPT。該團隊已接到命令，即在今年年底前與 GPT-3.5 的性能相匹敵，並在 2024 年年中之前與 GPT-4 相匹敵。當前的 Seed 模型大約有 2000 億個參數。相比之下，GPT-3.5 有 1750 億個參數，而GPT-4 的參數規模尚未公布。

濫用GPT來打造競爭對手並非個案。今年早些時候，谷歌的一名研究人員曾辭職以示抗議，因為一些員工試圖使用來自一個網站的數據，該網站包含人們上傳的與ChatGPT的對話。雖然那次事件並沒有發酵產生輿情，但也被內部視為恥辱。

衍生問題：大模型幻覺的加劇

當前OpenAI正在致力於識別API的輸出，以防止潛在的誤用、濫用，但潘多拉之匣已然開啟。目前尚不清楚位元組跳動這樣的行為是否會進一步加劇中美之間高度緊張的關係，畢竟兩國都將人工智慧視為國家安全問題。

另一個必須關注的問題是，當大模型越來越多地幫助構建其他大模型時，在線信息的質量會發生什麼變化。由於基礎模型已經在非事實的、人工創建的數據上進行了訓練，因此使用它們來構建更多的大模型只會放大幻覺問題。在鋼絲上行走的同時又要警惕陷入更為濃稠的迷霧，人工智慧的前路到底會走向何方？我們或許也只有在迷茫中繼續前行，在更深度的博弈中尋找答案。

參考連結：

https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm

https://www.theverge.com/2023/12/15/24003542/openai-suspends-bytedances-account-after-it-used-gpt-to-train-its-own-ai-model

突發！OpenAI封禁位元組跳動帳戶！內部爆料濫用GPT生成內容

「他們想確保一切都合法，但他們真的只是不想被抓住」

OpenAI的回應：暫停帳號，作進一步調查

灰色地帶：瘋狂競賽中的鋌而走險

衍生問題：大模型幻覺的加劇

如何改進RAG模型的性能？

撤出OpenAI後，蘋果繼續潑冷水：大模型不會推理。

如何分析和修復LLM應用程式中的錯誤

發布會上特斯拉Optimus竟是人扮演的？時薪高達48美元！

基於PyTorch自動混合精度庫對ResNet50模型進行優化訓練

喚醒數據，我理解的數據驅動秘籍

從數據倉庫到數據中台再到數據飛輪，我了解的數據技術進化史

從數據倉庫到數據中台再到數據飛輪：數據技術的打怪升級之路

從數據倉庫到數據中台再到數據飛輪，我了解的數據技術進化史

從數據倉庫到數據中台再到數據飛輪，我了解的數據技術進化史

從數據倉庫到數據中台再到數據飛輪：淺談數據技術進化史

技術最牛逼的阿里，又回來了！

數據中台過時了？是否需要升級到數據飛輪？

蘋果深夜炸場！搭載蘋果AI,Siri迎來最強新時代！iPhone16 Pro起價7999！

自適應AI在各領域的業務用例及面臨的挑戰

如何創建LLM應用程式的框架

基於LangChain+Langflow+Astra DB開發RAG聊天機器人

為什麼以及如何構建ClickHouse的主-副本架構

釋放銀行數據要素價值，數據飛輪是破局之道嗎？

人工智慧應用面臨的五大安全挑戰

楊冪論文查重率僅0.9%，「疑似AI生成」？於是我們動手檢測了一下……

做一款AI社交應用，項目牽頭人應該忙什麼？

部署成本降到十萬級，所有企業都該擁抱大模型嗎？

與機器對話：揭示提示工程的十個秘密