編譯 | 凌敏、核子可樂
漫威導演 JoeRusso 曾預測:兩年內,AI 能創作出成熟的電影。
11 月 16 日,Meta 宣布推出兩款 AI 視頻編輯工具:Emu Video 與 Emu Edit。
其中,Emu Video 可用於視頻生成,只需輸入標題、圖像、圖像加描述,Emu Video 就能生成一條 4 秒長的動畫片段。Emu Video 生成的片段,還可以用 Emu Edit 編輯工具進行進一步調整,用戶同樣通過自然語言描述自己需要進行的修改,例如「內容不變,但改為慢動作」,之後就能在 Emu Edit 中查看變化後的效果。
已關注
關注
重播分享贊
關閉
觀看更多
更多
正在加載
正在加載
退出全屏
視頻加載失敗,請刷新頁面再試
刷新
視頻詳情
Meta 表示,目前這項工作還屬於純基礎研究,但卻有著顯而易見的潛在用例。想像一下,如果大家希望即時生成自己的動畫大頭貼或者 GIF 動圖,那絕對會成為群聊中最耀眼的明星——再不必通過搜尋引擎來回尋找。或者,不具備任何技術認知的朋友也能輕鬆編輯自己的照片和圖像,把靜態照片轉化為精緻的動畫,甚至用它創作出更多全新的內容。
Meta 強調,雖然肯定不足以取代專業藝術家和動畫師,但 Emu Video 和 Emu Edit 這類最新技術可以幫助人們以前所未有的方式表達自我,通過更加積極、豐富、動態的方式與他人互動。
1基於 Emu 模型打造,Emu Video 生成的視頻足以以假亂真?
據 Meta 介紹,Emu Video 基於 Emu 模型打造。Emu 是 Meta 旗下首款圖像生成基礎模型,於今年的 Meta Connect 上正式發布。目前,Emu 技術已經在支持 Meta 內部的一系列生成式 AI 體驗,包括 Instagram 中那些為照片添加濾鏡或背景的 AI 圖像編輯工具、以及 Meta AI 中可直接通過提示詞為助手應用和群聊場景生成逼真圖像的 Imagine 功能。
Meta 在其中提出一種基於擴散模型的文本到視頻簡單生成方法。這是一套用於視頻生成任務的統一架構,能夠響應各自足輸入形式:純文本、純圖像以及文本加圖像。
Meta 將這個過程分為兩個步驟:首先是根據文本提示詞生成圖像,接下來再根據文本加生成圖像進一步輸出視頻。這種「分解」式的視頻生成方法能夠提高視頻生成模型的訓練效率,也證明視頻的分解生成方法完全可以通過單一擴散模型來實現。Meta 在其中提出了一系列關鍵設計決策,例如調整視頻擴散的噪聲時間表,並配合多段式訓練讓模型具備了直接生成高解析度視頻的能力。
與此前需要深度級聯模型(例如同時使用五種模型生成視頻)的方案不同,Meta 的新成果更易於實現,僅使用兩個擴散模型即可生成解析度為 512 x 512、每秒 16 幀、長度為 4 秒的視頻。憑藉極佳的保真度,很多非專業人士甚至根本無法將其與真實場景區分開來。
評估發現,與之前的方案相比,Meta 新模型生成的視頻更受歡迎——96% 的受訪者表示 Emu 模型生成的視頻質量更高,85% 的受訪者覺得它更能忠實反映自己輸入的提示詞。最後,這套模型還能根據文本提示詞對用戶提交的圖像進行「動畫化」處理,且效果同樣大大超越之前的同類方案。
據了解,Emu Video 最擅長的,似乎是那些比較簡單、且以靜態為主的場景。這些場景大多背離照片寫實主義,而強調立體主義、動漫、剪紙以及蒸汽朋友等視覺風格。但即使是在 Emu Video 最出色的作品中,AI 生成的老毛病也還是若隱若現——比如奇怪的物理現象、怪異的肢體等等,物體的出現和消失也往往沒有什麼邏輯。
雖然 Meta 接下來還有很多工作要做,但必須承認,把 Emu Video 生成的影像偷偷插進影視劇中,大多數觀眾可能很難分辨得出來。
2Emu Edit:通過識別和生成任務精確實現圖像編輯
生成式 AI 的應用總是伴隨著一整個過程:用戶首先輸入提示詞,之後發現生成的圖像與自己的需求有所出入,接下來繼續調整提示詞直到獲得更理想的結果。正因為如此,提示詞工程甚至開始成為一種趨勢。儘管指令式圖像生成模型近年來取得了顯著進步,但它們在精確控制能力方面仍然面臨很大局限。基於此,Meta 決定推出 Emu Edit,希望用一種新穎的方法簡化各類圖像處理任務、增強圖像編輯的功能性和準確性。
Emu Edit 能夠通過指令自由實現各種編輯操作,包括局部與全局編輯、移除和添加背景、顏色與幾何形狀變換、檢測和分割等任務。原有方案在編輯任務中往往存在過度修改等問題,而 Meta 認為 AI 編輯工具的意義不僅在於產出「可信」的圖像,更應該專注於精確修改與編輯請求相關的具體像素。
與當前大部分生成式 AI 模型不同,Emu Edit 能夠精確遵循指令,確保輸入圖像中與指令無關的像素繼續保持不變。例如,在向圖片中的棒球帽添加「歡呼!」字樣時,帽子本身應該保持不變。
Meta 的主要思路就是把計算機視覺任務當作圖像生成模型的指令,藉此對生成和編輯操作施以前所未有的控制。而在一系列針對局部和全局內容的編輯測試之後,Meta 發現 Emu Edit 在精確執行編輯指令方面確實擁有驚人的潛力。
為了訓練模型,Meta 開發出一套包含 1000 萬合成樣本的數據集,每個樣本都對應一幅輸入圖像、待執行任務的描述,以及目標輸出圖像。這可能是迄今為止體量最大的同類數據集,而 Emu 模型也不負所望,帶來了前所未有的高忠實度與圖像編輯質量。在評估當中,Emu Edit 顯示出優於原有方案的出色性能,在一系列圖像編輯任務的定性與定量評估中都創下新的紀錄。
3視頻生成技術背後的爭議
對於 Meta 的這兩項最新研究成果,有網友給予了肯定,認為這是一項巨大的進步,人類距離「一句話生成一部電影」將不再遙遠,未來已來。
網友 dougmwne 表示,Emu Edit 效果拔群,《星際迷航》里的場景已經由此成為現實。網友 bane 則認為「很科幻」:
隨著這些模型的出現,我堅持認為當《星際迷航》里的角色下達「編程」指令時,他們使用的就是經過疊代的提示詞,而計算機則通過一系列優化聚合這些提示詞,再進一步向曲率模型 / 全息甲板模擬 / 傳輸過濾器 / 生物床病原體檢測器等下達指令,無需做更具體的描述……哎呀,這不就是 NixOS 的聲明式構建嗎?
而每當需要對指令進行重新編程的時候,只要添加或變更一些提示詞即可實現不同的效果。
如果角色需要向計算機中添加新數據時,使用新輸入數據對基礎模型做微調就行。所以說……我感覺很科幻、很爽。
隨著這些模型的出現,我堅持認為當《星際迷航》里的角色下達「編程」指令時,他們使用的就是經過疊代的提示詞,而計算機則通過一系列優化聚合這些提示詞,再進一步向曲率模型 / 全息甲板模擬 / 傳輸過濾器 / 生物床病原體檢測器等下達指令,無需做更具體的描述……哎呀,這不就是 NixOS 的聲明式構建嗎?
而每當需要對指令進行重新編程的時候,只要添加或變更一些提示詞即可實現不同的效果。
如果角色需要向計算機中添加新數據時,使用新輸入數據對基礎模型做微調就行。所以說……我感覺很科幻、很爽。
也有網友對此表示擔憂,AI 如今已經這麼厲害了,真的不會取代人類嗎?網友 morph123 反問道:為什麼這幫搞 AI 研究的最後總要強調「這不會取代人類」?這話他們自己信嗎?
如今,視頻生成技術早已不再新鮮。不僅 Meta 公司此前做過這方面的嘗試,谷歌也有類似的方案。此外,Runway 等一眾初創企業甚至開發出了商業服務。
但與此同時,對於視頻生成技術的爭議也從未停止。一方面,AI 虛假視頻的製作和傳播屢禁不止,虛假視頻的濫用可能觸犯法律,如著作權和肖像權等。另一方面,這類生成工具很可能會奪去動畫師和藝術家們的飯碗。Meta 和其他生成式 AI 廠商當然會堅稱,像 Emu Video 這樣的工具是在增強人類藝術家、而非將其徹底取代。但這只是種過於樂觀、拒絕面對現實的說辭——面對更低的成本,企業自然會做出更有利於自己的選擇。
今年早些時候,Netflix 就在一部三分鐘的動畫短片中使用了 AI 生成的背景圖像。該公司聲稱,這項技術有助於解決動畫行業的所謂勞動力短缺問題。但為什麼會造成勞動力短缺?當然是工資太低、工作條件又太過艱苦。有了 AI,企業更沒必要改善從業者的待遇了。
其他類似的爭議還有,漫威《秘密入侵》片尾字幕的製作方承認使用 AI(主要是文本到圖像工具 Midjourney)來生成其中的大部分畫面。劇集總監 Ali Selim 認為使用 AI 符合該劇的立意主旨,但大多數藝術家社區和粉絲均表示強烈反對。
未來甚至連人類演員都將被替代。最近,美國電視和廣播藝術家聯合會 (SAG-AFTRA) 領導罷工的主要原因之一,就是企業使用 AI 創建數字肖像。出口公司雖然最終同意向演員支付 AI 生成肖像的費用,但隨著技術的發展,這種脆弱的平衡是否會被再度打破?答案很可能是肯定的。更糟糕的是,部分 AI 工具往往是用藝術家、攝影師和電影製作人的作品訓練而成,而且過程中根本就不會通知或者補償這些原創者。
參考連結:
https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/
https://news.ycombinator.com/item?id=38291139
https://techcrunch.com/2023/11/16/meta-brings-us-a-step-closer-to-ai-generated-movies/
聲明:本文由 InfoQ 翻譯整理,未經許可禁止轉載。
ClickHouse 彪悍發言:雲數倉死貴死貴的,Snowflake 這種就不應該成為當前主流!
「谷歌有谷歌的規矩」
丟掉 LangChain、像 Docker一樣編排大模型應用程式:這支十餘人的年輕創業團隊如何在2個月做出一個LLMOps平台?
僅憑 7 頁 PPT 拿下 1 億美元融資、半年後估值超 10 億!「歐洲 OpenAI」殺瘋了
內容推薦
大模型風行一年多,創業新秀們都有哪些故事?實際落地中,軟體產品中的 AIGC 能力又如何?本期《中國卓越技術團隊訪談錄 & 架構師特刊》中,LeptonAI、智譜 AI、Dify.AI 和京東雲言犀團隊深度分享了他們的創業思路和產品經驗,來自網易、百度、廣推科技等企業的技術專家,也深入探討關於 AIGC 編程、算法及應用等話題。
現在識別圖中二維碼或點擊「閱讀原文」即可下載電子書,查看更多、更詳細的精彩內容!
讀者福利
網際網路行業再進化——雲上AI時代