史丹福團隊抄襲事件背後:AI研發競逐「貼身戰」

2024-06-05     第一財經陸家嘴

近日,一場史丹福大學AI項目團隊抄襲中國大模型公司開源產品的鬧劇,在AI新時代下,為中美技術追趕局勢按下刷新鍵。

由於史丹福大學AI團隊主導的Llama3-V開源模型,被迅速證實套殼抄襲國內清華與面壁智能的開源模型「小鋼炮」MiniCPM-Llama3-V 2.5,北京時間6月4日1點27分,兩位作者森德哈斯·沙瑪(Siddharth Sharma)和阿克沙·加格(Aksh Garg)在社交平台X上就這一行為向面壁MiniCPM團隊正式道歉,並表示會將Llama3-V模型撤下。

在面壁智能首席科學家、清華大學長聘副教授劉知遠看來,2006年行業從業者的主要目標還是在國際頂級會議上發表一篇論文。儘管這次以一種令人遺憾的方式揭示了中國AI研發的較高水平,但也說明,現如今中國創業公司的大模型產品開始受到國際的廣泛關注與認可。

抄襲動作被迅速證實

梳理時間線可知,事件最早起始於5月29日,一個來自史丹福大學的AI團隊開始在網絡上宣傳500美元就能訓練出一個SOTA(「最新技術」的最佳狀態)多模態模型。

作者聲稱Llama3-V比GPT-4V、Gemini Ultra、Claude Opus性能更強。團隊成員是來自史丹福大學的本科生,曾發表多篇機器學習領域論文,實習經歷包括AWS、SpaceX等。由於亮眼的背景,Llama3-V項目很快衝到HuggingFace(一個開發者社區和平台)首頁,並引發開發者群體的關注。

一位用戶在社交平台X與HuggingFace上質疑Llama3-V是否套殼MiniCPM-Llama3-V 2.5,後者為面壁智能推出的開源端側多模態模型,於2024年5月21日發布。

Llama-3V團隊彼時回應,他們只是使用了MiniCPM-Llama3-V 2.5的tokenizer(分詞器,自然語言處理中的一個重要組成部分),並在MiniCPM-Llama3-V 2.5發布前就開始了這項工作。但團隊並未解釋如何做到在MiniCPM-Llama3-V 2.5發布之前就獲取了詳細tokenizer的具體方式。

隨後,關於上述AI團隊抄襲的聲音越來越多。如Llama3-V的模型結構和配置文件與MiniCPM-Llama3-V 2.5完全相同,只是進行了一些重新格式化並將部分變量重新命名。Llama3-V也具有與MiniCPM-Llama3V 2.5相同的分詞器,包括MiniCPM-Llama3-V 2.5新定義的特殊符號。

HuggingFace頁面顯示,最初Llama3-V的作者在上傳代碼時直接導入了面壁智能MiniCPM-V的代碼,然後將名稱更改為Llama3-V。但作者之一的穆斯塔法·阿爾賈德里(Mustafa Aljadery)並不認為該行為屬於抄襲。他發文稱,Llama3-V推理存在bug,他們只是使用了MiniCPM-V的配置來解決bug,並不是抄襲。「架構是基於綜合研究的,你怎麼能說它是MiniCPM呢?MiniCPM代碼的視覺部分看起來也是從Idéfics那裡使用的。」

在面壁智能CEO李大海看來,另一證據在於Llama3-V同樣使用了面壁智能團隊新設置的清華簡(清華大學於2008年7月收藏的一批戰國竹簡)識別能力,且呈現的做錯案例都與MiniCPM一模一樣,而這一訓練數據尚未完全公開。更加微妙的是,兩個模型在高斯擾動驗證(一種用於驗證模型相似性的方法)後,在正確和錯誤表現方面都高度相似。

在最新的進展中,史丹福Llama3-V團隊的兩位作者在社交平台上向面壁MiniCPM團隊正式道歉。阿克沙·加格表示:「首先,我們要向MiniCPM原作者道歉。我、森德哈斯·沙瑪,以及穆斯塔法一起發布了Llama3-V。穆斯塔法為這個項目編寫了代碼,但從3日起就無法聯繫他。我與森德哈斯·沙瑪主要負責幫助穆斯塔法進行模型推廣。我們倆查看了最新的論文,以驗證這項工作的新穎性,但並未被告知或意識到OpenBMB(清華團隊支持發起的大規模預訓練語言模型庫與相關工具)之前的任何工作。我們向作者道歉,並對自己沒有努力驗證這項工作的原創性感到失望。我們對所發生的事情承擔全部責任,並已撤下Llama3-V,再次致歉。」

大模型時代中國迅速追趕

對於此次抄襲鬧劇,史丹福人工智慧實驗室主任曼寧(Christopher David Manning)發文譴責,並對MiniCPM這一中國開源模型表示讚揚。

李大海表示:「我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式,另一方面呼籲大家共建開放、合作、有信任的社區環境。」

目前全球大模型競爭格局呈現出多元化的特點。美國大模型數量和技術水平呈領先態勢,包括自然語言處理、計算機視覺、語音識別領域,以及AI晶片、雲計算基礎設施等方面。但中國大模型在應用場景、算法優化、數據資源等方面具有優勢。

據IT桔子數據,目前,中國人工智慧領域的獨角獸公司共有102家,其中2023年新晉獨角獸有10家,AIGC及大模型相關有4家,占比近一半,具體包括智譜AI、百川智能、零一萬物、Minimax名之夢。

此前在採訪中談及中美大模型領域的差距,零一萬物董事長兼CEO李開復表示,一年前,中國大模型與OpenAI、Google啟動大模型研發的時間點比起來,有7到10年的差距;但如今,中美之間的差距正在不斷縮小,目前約為6個月。

劉知遠因此次被抄襲事件回憶了過去十幾年間,科研經歷的「斗轉星移」:2006年劉知遠讀博時,計算機、人工智慧行業從業者的主要目標是在國際頂級會議上發篇論文;2014年,劉知遠開始做老師,彼時只有獲得國際著名會議的最佳論文等重要成果,才有機會登上系裡的新聞主頁;2018年語言表示模型BERT面世,科研團隊看到了它的變革意義,並做出知識增強的預訓練模型ERNIE,發表在ACL(計算語言學協會)2019年會,這樣的成果在當時已經算站到國際前沿了;2020年,OpenAI發布了1700+億參數GPT-3,從業者清醒認識到與國際頂尖成果的差距,知恥而後勇開始了「大模型」的探索;2022年底,OpenAI推出ChatGPT,讓大眾真切感受到AI領域國內外的差距,特別是2023年Llama等國際開源模型發布後,開始有「國外一開源、國內就自研」的說法。

到了2024年的今天,劉知遠表示,行業從業者也應該看到國內大模型團隊如智譜-清華GLM、阿里Qwen、DeepSeek和面壁-清華OpenBMB等,正在通過持續的開源共享,在國際上受到廣泛的關注和認可,這次事件也算側面反映國內創新成果受到的國際關注。

單模態之外,今年4月,清華大學人工智慧研究院副院長、生數科技聯合創始人兼首席科學家朱軍教授代表清華大學與生數科技,發布中國首個視頻大模型Vidu,被視作中國版Sora(OpenAI發布的多模態大模型)。

啟明創投合伙人周志峰表示,如今的大模型已從原來的純語言模態逐步走向多模態的探索。生數科技大量工作被OpenAI、Stable Diffusion團隊引用。生數科技CEO唐家渝認為,多模態大模型的研究仍處於起步階段,技術成熟度還不高。這一點不同於火熱的語言模型,國外已經領先了一個時代。因此,相比於在語言模型上「卷」,唐家渝認為多模態更是國內團隊搶占大模型賽道的一個重要機會。

北京智源人工智慧研究院副院長兼總工程師林詠華持有更嚴謹的態度,她對第一財經記者表示,中國在多模態領域彎道超車是有一定可能性的,但更關鍵的還是看多模態模型成功要素——依然是算力、算法和數據。目前算法層面,中美團隊之間差異沒有那麼大,算力也不會造成最大問題,行業仍有辦法去解決算力問題。但是,林詠華認為目前數據的問題是阻力最大的,即使智源一直在做AI訓練數據擴展,但要獲取海量高質量數據,依然難度很大。

文章來源: https://twgreatdaily.com/7ef5a1a9ce3397ca973031b5f5e409df.html