智源多模態模型不走Sora路線

2024-10-22     北京商報

「小朋友出生後接收的是視覺、圖像、語言,綜合的信號,現在市面上的多模態模型是先將語言學到非常高的水平,再把視覺信息做了橋接。更像是打補丁的方法。」將多模態模型比作小朋友,智源研究院院長王仲遠在10月21日向北京商報記者等詳細講解了多模態大模型Emu3,他認為,「Emu3的訓練過程更像人類」。6月18日,智源研究院在智源大會上首次預告Emu3,10月21日這款模型正式發布,Emu3具備原生多模態能力,實現了圖像、視頻、文字的統一輸入和輸出。「走通這條路線意味著,用一個大模型解決所有問題。」王仲遠總結。

10月21日,智源研究院正式發布原生多模態世界模型Emu3。根據智源研究院提供的案例,在僅給出一張消防栓照片的情況下,向Emu3發問:「哪種類型的車輛使用這個物品?」Emu3的回答是:「消防車。」「Emu3需要理解這句提問,理解這個圖片里的物品是什麼,以及圖片里並沒有出現的該物品對應的交通工具,Emu3需要自行聯想。」王仲遠介紹了這一問一答背後的邏輯。

對比效果,在圖像生成、視覺語言理解、視頻生成任務中,Emu3的表現超過了SDXL、LLaVA-1.6、OpenSora等開源模型。

原理上,Emu3基於自回歸技術路線(Autoregressive Model),只基於下一個token(輸入數據的基本單位)預測,無需擴散模型或組合式方法,將圖像、文本和視頻編碼為一個離散空間,在多模態混合序列上從頭開始聯合訓練一個Transformer。可以簡單理解為,智源研究院證明了可以用另一種思路解決問題,這個思路是用一個大一統的模型實現原來需要多個複雜的模型可以做到的能力。

自回歸技術路線屬於多模態大模型領域的一種方法,核心思想是利用序列數據中的時間依賴性來預測未來的數據點。該類型模型中,不同模態數據共享同一套參數,可實現跨模態的關聯和生成,無需人工設計的特徵工程。同時因自回歸技術路線的特點,在生成數據時模型必須按順序進行,限制了並行計算的能力,導致生成速度較慢。也會遇到長期依賴問題,即模型難以捕捉序列中較遠距離的依賴關係。

來自研究人員的評價是:「Emu3意味著出現了一個新的機會,可以通過統一的架構探索多模態,無需將複雜的擴散模型與大語言模型相結合。」

「Emu3的訓練過程更像人類的學習過程,人類不是先學習文字的,小朋友出生後不斷接收視覺、語言信號,Emu3也是一樣,一開始就是通過視覺、圖像、文字類數據訓練。」王仲遠告訴北京商報記者,「現在的多模態模型某些效果是非常不錯的,但它們是先把語言學到非常高的水平之後,把視覺的信息做橋接,再發揮語言處理能力。這更像是一種打補丁的方式,不是人類大腦延伸的方式」。

從2023年初開始判斷這條技術路線,到智源研究院正式發布Emu3,是0到1的過程。「要解決的問題包括把不同模態的數據統一成token,用什麼樣的數據做統一訓練等。」多模態大模型研究中心負責人王鑫龍告訴北京商報記者。

王仲遠認為這條技術路線的意義在於,「把整個世界都裝在了一個模型裡面,這個模型能夠解決所有的問題」,他還向北京商報記者強調,「Emu3可以極大地復用現有的AI基礎設施。」在成本和技術演進方面,王仲遠有信心。

北京商報記者 魏蔚

文章來源: https://twgreatdaily.com/zh-cn/edf191fcd256f3aecb7d7c44f1f38ab3.html














「法巴」魅影

2024-11-03