位元組跳動被OpenAI封號,國產大模型的「秘密」曝光

2023-12-19     三易生活

原標題:位元組跳動被OpenAI封號,國產大模型的「秘密」曝光

最近幾天,雖然國內網際網路行業最為吸引人,莫過於東方甄選與董宇輝之間的是是非非,但在海外,The Verge一篇題為《位元組跳動正在秘密使用OpenAI技術打造自己的大型語言模型》的文章,則讓OpenAI和位元組跳動陷入了「羅生門」。很快OpenAI公司發言人尼克·菲利克斯確認,位元組跳動帳戶已被暫停。緊接著,位元組跳動方面也站出來澄清了OpenAI相關服務的使用情況。

「他們其實真的不想被抓到,生成式人工智慧的瘋狂競爭意味著即使是實力最強大的玩家也在抄抄近道」,這是The Verge對於這一事件的註解。在相關文章中,The Verge方面拿到的位元組跳動內部文件顯示,其在開發代號為Project Seed的LLM幾乎每已個階段都依賴OpenAI API,其中包括用於訓練和評估模型。甚至他們同時還拿到了被認為是位元組跳動公司員工在飛書海外版Lark上的對話記錄,內容是則討論如何進行「數據脫敏」。

具體來說,The Verge認為位元組跳動使用了OpenAI的API服務來訓練自家大模型。但根據OpenAI在服務條款「限制」類目下的描述,OpenAI大模型的輸出結果是不能用於「開發任何與我們的產品和服務相競爭的人工智慧模型」,並且OpenAI方面也正是以此為由暫停了位元組跳動的帳戶。

事實上,位元組跳動公司發言人Jodi Seth也已承認,GPT生成的數據在「Project Seed」的早期開發中被用於註解模型,並且在今年年中左右就已從訓練數據中刪除。按照位元組跳動方面的說法,今年年初確實有部分工程師將GPT的API服務應用於較小模型的實驗性項目研究,但該模型僅為測試作為,沒有計劃上線、也從未對外使用。在4月份之後,位元組跳動引入了GPT API調用規範檢查,GPT模型生成的數據也不再添加到位元組跳動的訓練集中。

值得一提的是,位元組跳動在相關聲明中有提及「獲得了微軟的許可能夠使用GPT API」,即他們實際上是從微軟Azure獲得的OpenAI API服務,也就是說位元組跳動是與微軟簽訂的採購合同,所以理論上與OpenAI無關。眾所周知,微軟是OpenAI的最大金主,而且OpenAI打造的ChatGPT也有賴於微軟Azure的雲計算服務,Azure OpenAI就是雙方合作的一項成果。

由於OpenAI自家的API服務和微軟的Azure OpenAI在接口地址上是完全不同的,所以如果位元組跳動確實只使用了微軟的相關服務,那麼他們被OpenAI封號確實屬於無妄之災,但事實的真相或許並不是這樣。相比於Azure成熟的雲服務體系,OpenAI的基礎設施很難滿足企業級用戶的需求,所以直接使用OpenAI的API對於位元組跳動的大模型業務來說也是弊大於利。

目前,有一種說法得到了相當多業內人士的贊同,即位元組跳動的工程師被默許、或被要求以個人身份使用OpenAI API。這也就能解釋The Verge在相關內容中所提及,「Project Seed」的成員經常達到OpenAI API的最大訪問上限,也就是10000美元的限額。在OpenAI官網公布的價目表顯示,使用到10000美元的上限也就意味著至少調用了上千萬次GPT-4。

當然,這也僅僅只是猜測,畢竟OpenAI和位元組跳動的大模型目前還都是「黑箱」,即便位元組跳動有少量數據沒有完成清洗,也很難證明他們就一定用了OpenAI大模型輸出的結果。萬一位元組跳動是從公開網絡中抓取的數據,或者乾脆就是位元組跳動的大模型出現了幻覺呢?畢竟谷歌的Gemini-Pro還說自己是百度的文心一言,馬斯克的Grok也說過自己要遵守OpenAI的相關條款。

所以問題就來了,為什麼位元組跳動會與OpenAI API陷入瓜田李下的風波呢?其實準確來說,幾乎所有「百模大戰」的參與者都將OpenAI視為可一座寶藏,位元組跳動在做的事情同樣也是絕大多數國內大模型廠商在做的。據不完全統計,截至今年11月末,國內涉及10億參數規模以上的大模型廠商及相關機構已達254家,也使得短短一年時間AI大模型就進入了尋常百姓家。

即便OpenAI用基於人類反饋的強化學習(RLHF),揭開了Transformer架構在自然語言處理(NLP)領域的窗戶紙,為大語言模型的發展指明了方向,但相關廠商的跟進速度著實也太快了一些,仿佛一夜間相關技術就變成了大白菜。

有業內人士透露,這個問題的答案就是「知識蒸餾」(Knowledge Distillation),這項被稱為「教師-學生神經網絡學習算法」的技術正是從業者用來壓縮模型規模、降低模型部署成本的。簡單來說,就是許多大模型廠商藉助知識蒸餾的方式,藉助OpenAI的API去與GPT-4對話,用GPT-4輸出的結果反過來訓練和校正自家大模型。

大家不妨回憶一下,百模大戰是從什麼時候被提出,就正是在今年4月中旬。但這個時間點極其曖昧,在此之前,只有在AI賽道持續多年下重注的百度,在3月中旬上線了文心一言。

在百模大戰爆發前的一個半月,OpenAI方面在3月2日宣布正式開放ChatGPT API。只用一個多月就能追上百度進度的原因,要麼是百度多年來「All in AI」是個笑話,要麼就是用OpenAI的大模型去蒸餾自家大模型是潛規則,大家覺得哪個可能更接近事實的真相呢?

從某種意義上來說,這一操作與谷歌的AI反饋強化學習(RLAIF)其實有著異曲同工之妙。更接近事實的一點,是這種藉助其他優質大模型輸出作為訓練集的操作其實不僅在國內通行,同樣也受到了谷歌、Meta、微軟的青睞,畢竟這種模式可以節省大量人工標註數據的時間,在成本和效率上都更有優勢,甚至OpenAI自己大機率也在這樣搞。

只不過凡事都有個度,如果動作太大,OpenAI又那能還坐得住。

文章來源: https://twgreatdaily.com/zh-mo/61c819ea7b0cf6e6ec99284b13e4facf.html