阿里通義實驗室回應關於「全民舞王」的一切

2024-01-14   娛樂資本論

原標題:阿里通義實驗室回應關於「全民舞王」的一切

作者|James

繼妙鴨相機之後,阿里又一個AIGC原生小程序火了。

下載通義千問App,輸入「全民舞王」之後,就可以用一張清晰的正面全身照片,生成幾秒鐘的跳舞視頻,從蒙古舞到科目三應有盡有。「兵馬俑跳科目三」登上了一周前的社交媒體熱搜,在海外的社交網絡上,也有不少不能及時用到的人實名表示羨慕。

「全民舞王」背後用到的技術正是由阿里通義實驗室開發的Animate Anyone算法,該算法在上個月首先在GitHub公開了論文,其中已經提到了一些和歷史上同類算法的對比細節,其完善程度令人震驚。

Animate Anyone官宣的時刻,正值其他文生視頻算法和產品批量湧現,國人主導的Pika 1.0驚艷開啟內測,位元組跳動的Magic Animate和微軟的GAIA同樣在展示效果上明顯升級。

阿里通義實驗室還有另外兩款最新算法官宣,其中Outfit Anyone可以給模特一鍵換裝,AnyText解決了文章圖當中字體,特別是對於漢字生成效果不準確的問題。

文生視頻的動向受到文娛行業的密切關注。值此「全民舞王」爆火之際,娛樂資本論·視智未來率先聯繫到阿里通義實驗室的團隊負責人,詳細的幫我們解答了有關其三款最新算法的一些大家關心的問題。

---以下為採訪實錄---

VOL.1

「全民舞王」和它背後的技術

視智未來:在舞王上線後的這幾天,你們的統計數據當中有什麼亮點和有趣的地方?

目前最受歡迎的模板是科目三,這與全球的趨勢相吻合,科目三模板斷崖領先於其他模板。

目前我們觀察到用戶使用頻率在某些時間段會顯著增加。例如,中午12點半之後到大約一點多的時間段,用戶使用頻率較高。晚上下班後,使用量逐漸上升,直至大約8-9點鐘達到另一個高峰。

人們各自用真人,或者是非真人比如動漫人物或兵馬俑的照片來製作。我們後台理論上可以識別這些種類的占比,但目前還沒有具體的數據。

同時在線人數峰值屬於內部數據,我們目前不對外公布。但可以確認的是,在高峰期間,等待時間確實有所增長。平時是15分鐘,晚上8-9點時有用戶反饋等待時間超過了20分鐘。

另外,舞王產品當前只在通義千問App中使用,但我們也在考慮是否將其擴展到阿里系的其他平台上。目前還沒有具體的計劃。

視智未來:Animate Anyone在論文中使用了TikTok的一些網紅跳舞的片段。國外媒體普遍關注的是,它是否是使用TikTok數據訓練的,是否已經獲得了這些網紅的授權?

在研發階段,我們主要使用的是自己內部的數據集。當然,在論文中的評測集對比上,我們對比了幾個主流的人物視頻生成模型。在進行這樣的對比時,我們可能會使用一些公開的數據集,比如TikTok的,以評估哪家的技術效果更好。這些數據集在行業內被廣泛認可,但實際上在開發過程中,我們是基於自己的數據集訓練。

視智未來:你們自己的數據集是來自淘寶上的商品描述視頻,或者是淘寶直播的片段嗎?

是的,我們有自己的內部數據集。

視智未來:目前在舞王當中可選的動作是固定的,為什麼考慮設置有限且固定的動作?

算法本身,對於符合格式的動作,都是支持的。設計有限且固定的動作,主要是從產品體驗角度出發,通義千問App面對的是全網的手機用戶,對這些用戶而言,自己拍攝、製作動作,是有難度的。這種複雜操作,對於開發者更合適一些。

我們後續會增加更多有趣的舞蹈模板。同時,我們也在思考如何能兼顧用戶自定義動作的需求和產品的易用性。

視智未來:支不支持從一個視頻的動作提取出來轉換到另一個視頻?比如提取一個視頻中主角的動作節奏,然後套到另一個圖像上?

和上一個問題類似,從視頻提取動作技術上是可行的。但是做到產品上,還需要更多考慮。

視智未來:舞王生成一次的十幾分鐘包含了排隊時間,那麼單算Animate Anyone算法本身的生成效率如何?

這個取決於很多因素:輸入圖的解析度、後台機器的型號、生成的時長等。

我們測試過,Animate算法的效率和常見的VideoComposer等視頻生成,效率基本一致。現在產品上,不排隊情況下,10秒左右的視頻,生成時間在9分鐘左右。

視智未來:據我所知,你們的方法是找出人物的關鍵點,然後將其匹配到類似火柴棍的模型上,對嗎?

確實如此。我們的模板相當於是骨架提取。用戶上傳照片時,我們的算法會提取照片中的基本信息,如人臉、表情、服裝和背景,並將這些與模板骨架結合,讓其動起來。

有人使用柯南漫畫封面進行生成,生成後封面背景的文字沒有錯位。這說明背景在識別後保持不變。這也是我們技術上的一個優勢。在GitHub上的展示案例中,我們的算法同樣展示出能夠保持背景穩定的明顯的優勢。

視智未來:我想知道是否可以將一個視頻的最後一幀作為下一個視頻的第一幀。會不會有接縫感覺?

與Pika有所不同,由於舞蹈背後的骨架可以設定為連貫的動作,我們認為可以實現無縫拼接。

視智未來:之前論文說一些大動作可能會有問題,能大致說一下是哪些類型的動作現在還不完善嗎?

轉身是一個挑戰,這是整個行業的普遍問題。對於快節奏的轉身動作和武打動作,因為這些動作幅度大,節奏快,目前的算法可能無法完美處理這些動作,可能會出現一些瑕疵。

我們需要對算法進行進一步的優化和升級。數據集是一個方面,我們可能需要一整套數據,而不僅僅是一兩段視頻。另外算法的結構設計也需要升級和優化。

視智未來:今年開發團隊對於Animate Anyone和「全民舞王」的下一步改進計劃有哪些?

算法上,會持續提升算法的細節效果,以及擴展更多功能,比如支持相機、背景控制,支持多人同時控制等。

產品上,今年計劃加入的新功能,至少包括多人共舞和上傳半身照片。

即使使用現有技術,也可以在綠幕之下先把每一個單人的動作做出來,再拼接到一起,甚至像愛爾蘭的《大河之舞》那種也可以做。但我們接下來希望在Animate Anyone的算法內部來實現多人共舞的功能,一次生成而不需要後期再加工。

另外我們現在研發上傳半身照片就可以生成,目前是需要上傳正面的全身照片才行。

VOL.2

文生圖準確生成漢字的難題,是如何被攻克的?

視智未來:在AnyText出來之前,也有很多人會自然的想到將AI生圖和生成文字作為兩個單獨的流程來處理。但文字可能難以準確的疊加在同樣的位置上,而且還要擦除上面原來的字。這方面的技術難題是怎樣攻克的呢?

分成兩個單獨流程處理是最直觀的方式,但也使問題更複雜。比如AI生圖後,生成的偽文字的位置很難定位,通用OCR模型無法檢測到,也就無法確定接下來生成文字的位置。而且為了提升視覺一致性,文字的風格與圖像應保持一致而不是單獨處理。

因此我們設計了一步圖文融合的方案。一方面我們將待生成文字的字形,位置等信息加到圖像隱空間,在常規文生圖的流程中加入了生成文字的「催化劑」;另一方面,待生成的文字受分詞器影響無法將每個字符對應到單獨的token,且預訓練的token特徵以語義編碼為主,無法提供足夠的筆畫信息,我們採用OCR模型對生成文本單獨編碼,再和提示詞的其他描述內容的語義做融合。

基於這兩點,我們做到了在圖像中生成筆畫準確、視覺風格一致的文字。

視智未來:我們發現針對中文的招牌字體優化程度非常好,這是因為測試數據集的篩選和優化有針對性嗎?

沒有刻意做優化,具體的數據集信息可以參考我們的論文。

視智未來:AnyText即使是針對3D造型,浮雕效果的漢字生成效果也是可以的,在這方面有沒有克服什麼特殊的困難?

這一點是符合預期的,我們對用戶輸入的提示詞進行了解耦。

如:【一個大理石浮雕,上面寫著「AnyText」】。對引號外的字符,它們和常規文生圖流程一樣,經過文本編碼器抽取語義特徵;對引號內的字符,我們認為其語義本身並無價值,而每個字符的筆畫尤為重要,因此引入預訓練OCR模型提取字形特徵,之後語義和字形特徵經過注意力機製做融合,就可以使「AnyText」這幾個字符在生成時關注圖像的一致性,從而實現浮雕的效果。

視智未來:演示照片當中,生成的文字角度都是比較正的,也就是直視角度。其它角度會不那麼準確嗎?

除直視角度,AnyText也可以在彎曲、不規則形狀、折角、透視變換等區域生成文字,不過這種情況的文字應該會帶來一定準確率的降低,因為訓練數據中大部分為直視角度。

視智未來:除中文和英文之外,還有其他哪些語言文字經過了相應優化?

AnyText方案本身並未限定語言,但目前訓練數據中絕大部分為中文和英文,其他語言並未做特別優化,後續會考慮逐步擴大多語言訓練集,也會藉助開源生態的力量。

視智未來:在生成的時候可以在prompt(提示詞)當中選擇字體嗎?

目前的版本不能通過prompt指定字體,文字生成模式下,字體的選擇主要受圖像描述的場景影響,在儘可能不破壞視覺一致性的前提下隨機生成某種字體的文字。

VOL.3

不只是跳舞和寫字,還有換裝

視智未來:我們知道在Outfit Anyone之前,早在去年三四月份,市場上已經有一些公司在嘗試優化和魔改Stable Diffusion,使其適應電商模特換裝場景。Outfit Anyone相對的優越性在哪裡?

確實利用SD魔改的很多試衣的應用大部分是基於SD的mask inpainting技術,通常是基於一張已有的模特上身圖或者人台圖片, 保持衣服區域不變,重新生成人頭和人臉的區域。這種方式對於輸入圖片的要求很高,同時由於不需要對服飾區域進行修改,生成難度相對較低。

而Outfit Anyone對於圖片輸入的要求很低,僅需要輸入服飾平鋪圖,就可以實現服飾的上身效果的生成。這種方式減少用戶的使用成本,能夠擴展更多的應用場景中。此外,Outfit Anyone 也能夠支持服飾搭配(上下裝組合),身材試衣等應用場景,同時加入了refiner,可以做到更好的一致性。

視智未來:Outfit Anyone會在近期有什麼實際應用落地嗎?

我們會和阿里巴巴內部的淘寶電商場景結合,也會探索一些外部的應用場景。

此外,在我們的論文中也展示了,Animate Anyone和Outfit Any One算法可以疊加使用,模特在生成舞蹈視頻之前可以先換裝,然後再跳舞。

視智未來:那麼,你們是否考慮在舞王應用中加入這一環節,比如先換裝再跳舞?

從產品角度看,可能不會很快實現,但這在論文和項目頁面上已有相關展示,是一個值得期待的未來應用場景。

請問你們在開始構思和設計的時候,是確定要應用到淘寶的電商場景,還是有其他的初衷?

目前,我們這三款產品都屬於通義實驗室。Outfit Anyone更緊密地結合了電商、時尚場景,具有換裝能力。AnyText這款產品則偏向圖像生成,比之前的文字生成能力有所加強。這些產品都是通義實驗室最近發布的模型算法的一部分。

通義實驗室主要集中於通義系列大模型的開發,這三個項目實戰意義非常強,與實際業務應用的聯繫特別緊密,不僅僅是純技術探索。這也是因為當前的大模型在各種應用場景中都非常明顯。至少從我們開發的Animate Anyone來看,這個項目的起源仍然基於技術上的突破。我們在生成場景上根據實際需要進行了一些創新,比如舞王。

視智未來:整個開發過程從剛開始到發布論文用了多久?這是通義團隊的主要項目,還是在業餘時間做出的項目?

Animate Anyone這項研究工作開展的比較早,大約2023年9月份就開始了。到2023年11月底,我們公開了論文和項目主頁,得到了同行的關注,有很多國內外的關注者自發轉發,引起了廣泛的討論。之後我們開始籌備上線通義千問里的「全民舞王」這個功能,這兩天上線後,也吸引了大量網友的體驗。

研究本身並不局限在舞蹈生成,為了讓偏枯燥的學術工作,變成大家都能體驗、都能找到樂趣的功能。

視智未來:業界非常關注這三個模型是否可以開源,以及商業化使用生成結果,和進行二次開發。

AnyText使用的開源許可證是Apache License 2.0,不是只能在阿里系的場景里使用,你可以將其商業化,但需要遵守一定的限制和條件,具體請參閱許可證協議。

Animate Anyone和Outfit Anyone項目的代碼目前還沒有開源,但GitHub上已有相關技術文檔。

目前Outfit Anyone和AnyText已經登陸huggingface和魔搭。Outfit Anyone在Huggingface和Modelscope體驗頁,不限制用戶對於生成的試衣圖片的使用。

視智未來:在自行架設相關模型體驗的時候,上傳照片如果有敏感的,算法端會處理嗎?

我們的算法並不會屏蔽敏感圖片,這種屏蔽是由前端限制實現的。