不是LlaMa套殼!李開復麾下大模型陷套殼爭議,團隊二次回應來了!

2023-11-15     51CTO

原標題:不是LlaMa套殼!李開復麾下大模型陷套殼爭議,團隊二次回應來了!

昨天科技圈社區Hacker News突然出現一則消息,矛頭直指不久前發布的大模型Yi-34B,認為其除了兩個張量被重新命名外,完全使用了Llama的架構。

而根據公開信息,Yi 系列開源大模型沒有在開源 License 中提及Llama。雖然原貼評論寥寥,但還是引起了部分關注。畢竟「Yi」才發布不久,而且備受期待。

今年3月,李開復在朋友圈發英雄帖,官宣組建零一萬物團隊。僅僅7個月後,零一萬物就發布了開源中英雙語大模型「Yi」。據有關資料顯示,在獲得創新工場、阿里雲和其他未披露投資者的融資後,零一萬物的估值已超過10億美元。

更令人矚目的是,據零一萬物官方介紹,Yi-34B不僅以黑馬之姿取得了多項SOTA 國際最佳性能指標認可,而且成為了迄今為止唯一成功登頂 Hugging Face 全球開源模型排行榜的國產模型。

因此,無論是圈內還是圈外,都在關註:「Yi」如何面對這一質疑,後續會有何回應。

01

一篇帖子引發的疑云:

社區質疑、賈揚清疑似暗諷

事件的肇因是一篇發布於Hugging Face的帖子。

一位署名為ehartford的開發者於9天前在社區留言。他首先指出,據其了解,Yi 使用的正是 Llama 的架構,除了重新命名了兩個張量(input_layernorm,post_attention_layernorm)。

更重要的是,由於圍繞 Llama 架構有大量的投資和工具,因此對張量使用相同的名稱是有價值的。因此他希望,在該模型獲得大量採用之前,開源社區重新發布Yi,並「重新命名張量,以便有一個符合Llama架構的版本」。

下面有跟帖的開發者也指出:如果他們確實採用了Meta LlaMA 結構、其代碼庫和所有相關資源,就需要遵守LLaMA規定的許可協議。要求以 LlaMA 形式正式發布 Yi 模型是有問題的,因為它破壞了 Yi 許可條款的可執行性。

隨後又有熱心網友挖出了前阿里VP賈揚清在朋友圈發的一張圖,直言某國產大模型實際上是抄襲的LlaMA,為表示不一樣就更換了幾個變量名。甚至還犀利諷刺道:如果是開源的模型架構,就不要改名字了,「免得我們還做一堆工作就為了適配你們改名字」。雖然賈揚清沒有指名道姓,但有留意此事的人不免「對號入座」。

02

首次針對性回應:命名問題是團隊疏忽

對於此番爭議,零一萬物隨後給出了自身的回應。

就在昨天,其團隊開源總監 Richard Lin 在Hugging Face社區原貼之下指出「命名問題是團隊的疏忽,在大量訓練實驗中,我們對代碼進行了多次重命名以滿足實驗要求。但在發布正式版本之前,我們沒能將它們切換回來。對此我們深感抱歉,由此造成的混亂我們也深表歉意」。

Richard Lin向原貼主承認修改張量名稱的做法不妥,「您對張量名稱的看法是正確的,我們將按照您的建議將其從 Yi 重命名為 Llama。我們也非常重視以準確、透明的方式完成工作。」

與此同時,他也給出了解決方案:要麼邀請這名發現問題的開發者提交一條包含這些變更的拉取請求,要麼由他們團隊處理更新按要求操作並在同一個 repo 中發布新版本,從而完成對 Yi 的張量名稱進行重命名以符合 Llama 架構。

最後Richard Lin重申,他們會努力改進工作流程,確保不會再次發生類似的失誤,「接下來我們將再次檢查所有代碼,確保其餘部分準確無誤」。

03

再次公開回應:

大模型核心突破點不僅在於架構,而是在於訓練得到的參數

有人說,LLaMa本就是開源的模型,使用LLaMa的架構是正常的大模型訓練步驟。而且國內已發布的開源模型也絕大多數採用漸成行業標準的 GPT/LLaMA 的架構。要訓練出好的模型,除了架構之外,更需要好的訓練數據和對訓練方法和具體參數的精準把控。

正如零一萬物在今天下午發布的公告所表達的:大模型持續發展與尋求突破口的核心點不僅在於架構,而是在於訓練得到的參數。

全文核心觀點可總結如下:

1、國內開源模型絕大多數採用 GPT/LLaMA 的架構,大模型持續發展與尋求突破口的核心點不僅在於架構,而是在於訓練得到的參數

2、零一萬物團隊完成了很多科學訓模的系統性工作,比起基本模型結構能起到巨大的作用跟價值。

3、零一萬物團隊投注大部分精力調整訓練方法、數據配比、數據工程、細節參數、baby sitting(訓練過程監測)技巧等。這一系列超越模型架構之外,研究與工程並進且具有前沿突破性的研發任務,才是真正屬於模型訓練內核最為關鍵、能夠形成大模型技術護城河 know-how積累

4、對於沿用LLaMA部分推理代碼經實驗更名後的疏忽,原始出發點是為了充分測試模型,並非刻意隱瞞來源,將儘速完成各開源社區的版本更新。

04

本土大模型的迷津難渡:

套殼到底如何界定

其實這不是本土大模型首次被質疑「套殼」。

不久前,外界對百川智能開源模型Baichuan-7B同樣提出了是否套殼LLaMa的質疑。彼時,王小川表示,搜索公司乾了20年,團隊對語言數據有深入的理解,知道取得高質量語料的渠道,模型疊代速度很快,「國內開源模型的能力目前已經可以達到LLaMa」。

那麼到底什麼是套殼,什麼又是合理利用既有開源成果?眾所周知,固然選擇同一種架構,用不同數據集訓練出來的模型也會有所差別。不過,Yi此次引發的爭議的焦點在於其對於開源模型架構的「魔改」命名。所以回歸事件本身,實質還是一個「用了你的成果,卻換了你的牌子」的故事。

當Yi-34B剛發布時,李開復在接受外媒TechCrunch採訪時曾說,引入開源LLM作為零一萬物首個產品的決定是「回饋」社會的一種方式。對於那些覺得LlaMA對他們來說是「天賜之物」的人來說,「我們提供了一個令人信服的選擇」。如今看來,到底能不能讓人信服,還是要留待時間的檢驗了。

文章來源: https://twgreatdaily.com/zh-mo/9c47ae75a815658348495618743bb59b.html