阿里通義實驗室回應關於「全民舞王」的一切

2024-01-14 娛樂資本論

作者|James

繼妙鴨相機之後，阿里又一個AIGC原生小程序火了。

下載通義千問App，輸入「全民舞王」之後，就可以用一張清晰的正面全身照片，生成幾秒鐘的跳舞視頻，從蒙古舞到科目三應有盡有。「兵馬俑跳科目三」登上了一周前的社交媒體熱搜，在海外的社交網絡上，也有不少不能及時用到的人實名表示羨慕。

「全民舞王」背後用到的技術正是由阿里通義實驗室開發的Animate Anyone算法，該算法在上個月首先在GitHub公開了論文，其中已經提到了一些和歷史上同類算法的對比細節，其完善程度令人震驚。

Animate Anyone官宣的時刻，正值其他文生視頻算法和產品批量湧現，國人主導的Pika 1.0驚艷開啟內測，位元組跳動的Magic Animate和微軟的GAIA同樣在展示效果上明顯升級。

阿里通義實驗室還有另外兩款最新算法官宣，其中Outfit Anyone可以給模特一鍵換裝，AnyText解決了文章圖當中字體，特別是對於漢字生成效果不準確的問題。

文生視頻的動向受到文娛行業的密切關注。值此「全民舞王」爆火之際，娛樂資本論·視智未來率先聯繫到阿里通義實驗室的團隊負責人，詳細的幫我們解答了有關其三款最新算法的一些大家關心的問題。

---以下為採訪實錄---

VOL.1

「全民舞王」和它背後的技術

視智未來：在舞王上線後的這幾天，你們的統計數據當中有什麼亮點和有趣的地方？

目前最受歡迎的模板是科目三，這與全球的趨勢相吻合，科目三模板斷崖領先於其他模板。

目前我們觀察到用戶使用頻率在某些時間段會顯著增加。例如，中午12點半之後到大約一點多的時間段，用戶使用頻率較高。晚上下班後，使用量逐漸上升，直至大約8-9點鐘達到另一個高峰。

人們各自用真人，或者是非真人比如動漫人物或兵馬俑的照片來製作。我們後台理論上可以識別這些種類的占比，但目前還沒有具體的數據。

同時在線人數峰值屬於內部數據，我們目前不對外公布。但可以確認的是，在高峰期間，等待時間確實有所增長。平時是15分鐘，晚上8-9點時有用戶反饋等待時間超過了20分鐘。

另外，舞王產品當前只在通義千問App中使用，但我們也在考慮是否將其擴展到阿里系的其他平台上。目前還沒有具體的計劃。

視智未來：Animate Anyone在論文中使用了TikTok的一些網紅跳舞的片段。國外媒體普遍關注的是，它是否是使用TikTok數據訓練的，是否已經獲得了這些網紅的授權？

在研發階段，我們主要使用的是自己內部的數據集。當然，在論文中的評測集對比上，我們對比了幾個主流的人物視頻生成模型。在進行這樣的對比時，我們可能會使用一些公開的數據集，比如TikTok的，以評估哪家的技術效果更好。這些數據集在行業內被廣泛認可，但實際上在開發過程中，我們是基於自己的數據集訓練。

視智未來：你們自己的數據集是來自淘寶上的商品描述視頻，或者是淘寶直播的片段嗎？

是的，我們有自己的內部數據集。

視智未來：目前在舞王當中可選的動作是固定的，為什麼考慮設置有限且固定的動作？

算法本身，對於符合格式的動作，都是支持的。設計有限且固定的動作，主要是從產品體驗角度出發，通義千問App面對的是全網的手機用戶，對這些用戶而言，自己拍攝、製作動作，是有難度的。這種複雜操作，對於開發者更合適一些。

我們後續會增加更多有趣的舞蹈模板。同時，我們也在思考如何能兼顧用戶自定義動作的需求和產品的易用性。

視智未來：支不支持從一個視頻的動作提取出來轉換到另一個視頻？比如提取一個視頻中主角的動作節奏，然後套到另一個圖像上？

和上一個問題類似，從視頻提取動作技術上是可行的。但是做到產品上，還需要更多考慮。

視智未來：舞王生成一次的十幾分鐘包含了排隊時間，那麼單算Animate Anyone算法本身的生成效率如何？

這個取決於很多因素：輸入圖的解析度、後台機器的型號、生成的時長等。

我們測試過，Animate算法的效率和常見的VideoComposer等視頻生成，效率基本一致。現在產品上，不排隊情況下，10秒左右的視頻，生成時間在9分鐘左右。

視智未來：據我所知，你們的方法是找出人物的關鍵點，然後將其匹配到類似火柴棍的模型上，對嗎？

確實如此。我們的模板相當於是骨架提取。用戶上傳照片時，我們的算法會提取照片中的基本信息，如人臉、表情、服裝和背景，並將這些與模板骨架結合，讓其動起來。

有人使用柯南漫畫封面進行生成，生成後封面背景的文字沒有錯位。這說明背景在識別後保持不變。這也是我們技術上的一個優勢。在GitHub上的展示案例中，我們的算法同樣展示出能夠保持背景穩定的明顯的優勢。

視智未來：我想知道是否可以將一個視頻的最後一幀作為下一個視頻的第一幀。會不會有接縫感覺？

與Pika有所不同，由於舞蹈背後的骨架可以設定為連貫的動作，我們認為可以實現無縫拼接。

視智未來：之前論文說一些大動作可能會有問題，能大致說一下是哪些類型的動作現在還不完善嗎？

轉身是一個挑戰，這是整個行業的普遍問題。對於快節奏的轉身動作和武打動作，因為這些動作幅度大，節奏快，目前的算法可能無法完美處理這些動作，可能會出現一些瑕疵。

我們需要對算法進行進一步的優化和升級。數據集是一個方面，我們可能需要一整套數據，而不僅僅是一兩段視頻。另外算法的結構設計也需要升級和優化。

視智未來：今年開發團隊對於Animate Anyone和「全民舞王」的下一步改進計劃有哪些？

算法上，會持續提升算法的細節效果，以及擴展更多功能，比如支持相機、背景控制，支持多人同時控制等。

產品上，今年計劃加入的新功能，至少包括多人共舞和上傳半身照片。

即使使用現有技術，也可以在綠幕之下先把每一個單人的動作做出來，再拼接到一起，甚至像愛爾蘭的《大河之舞》那種也可以做。但我們接下來希望在Animate Anyone的算法內部來實現多人共舞的功能，一次生成而不需要後期再加工。

另外我們現在研發上傳半身照片就可以生成，目前是需要上傳正面的全身照片才行。

VOL.2

文生圖準確生成漢字的難題，是如何被攻克的？

視智未來：在AnyText出來之前，也有很多人會自然的想到將AI生圖和生成文字作為兩個單獨的流程來處理。但文字可能難以準確的疊加在同樣的位置上，而且還要擦除上面原來的字。這方面的技術難題是怎樣攻克的呢？

分成兩個單獨流程處理是最直觀的方式，但也使問題更複雜。比如AI生圖後，生成的偽文字的位置很難定位，通用OCR模型無法檢測到，也就無法確定接下來生成文字的位置。而且為了提升視覺一致性，文字的風格與圖像應保持一致而不是單獨處理。

因此我們設計了一步圖文融合的方案。一方面我們將待生成文字的字形，位置等信息加到圖像隱空間，在常規文生圖的流程中加入了生成文字的「催化劑」；另一方面，待生成的文字受分詞器影響無法將每個字符對應到單獨的token，且預訓練的token特徵以語義編碼為主，無法提供足夠的筆畫信息，我們採用OCR模型對生成文本單獨編碼，再和提示詞的其他描述內容的語義做融合。

基於這兩點，我們做到了在圖像中生成筆畫準確、視覺風格一致的文字。

視智未來：我們發現針對中文的招牌字體優化程度非常好，這是因為測試數據集的篩選和優化有針對性嗎？

沒有刻意做優化，具體的數據集信息可以參考我們的論文。

視智未來：AnyText即使是針對3D造型，浮雕效果的漢字生成效果也是可以的，在這方面有沒有克服什麼特殊的困難？

這一點是符合預期的，我們對用戶輸入的提示詞進行了解耦。

如：【一個大理石浮雕，上面寫著「AnyText」】。對引號外的字符，它們和常規文生圖流程一樣，經過文本編碼器抽取語義特徵；對引號內的字符，我們認為其語義本身並無價值，而每個字符的筆畫尤為重要，因此引入預訓練OCR模型提取字形特徵，之後語義和字形特徵經過注意力機製做融合，就可以使「AnyText」這幾個字符在生成時關注圖像的一致性，從而實現浮雕的效果。

視智未來：演示照片當中，生成的文字角度都是比較正的，也就是直視角度。其它角度會不那麼準確嗎？

除直視角度，AnyText也可以在彎曲、不規則形狀、折角、透視變換等區域生成文字，不過這種情況的文字應該會帶來一定準確率的降低，因為訓練數據中大部分為直視角度。

視智未來：除中文和英文之外，還有其他哪些語言文字經過了相應優化？

AnyText方案本身並未限定語言，但目前訓練數據中絕大部分為中文和英文，其他語言並未做特別優化，後續會考慮逐步擴大多語言訓練集，也會藉助開源生態的力量。

視智未來：在生成的時候可以在prompt（提示詞）當中選擇字體嗎？

目前的版本不能通過prompt指定字體，文字生成模式下，字體的選擇主要受圖像描述的場景影響，在儘可能不破壞視覺一致性的前提下隨機生成某種字體的文字。

VOL.3

不只是跳舞和寫字，還有換裝

視智未來：我們知道在Outfit Anyone之前，早在去年三四月份，市場上已經有一些公司在嘗試優化和魔改Stable Diffusion，使其適應電商模特換裝場景。Outfit Anyone相對的優越性在哪裡？

確實利用SD魔改的很多試衣的應用大部分是基於SD的mask inpainting技術，通常是基於一張已有的模特上身圖或者人台圖片, 保持衣服區域不變，重新生成人頭和人臉的區域。這種方式對於輸入圖片的要求很高，同時由於不需要對服飾區域進行修改，生成難度相對較低。

而Outfit Anyone對於圖片輸入的要求很低，僅需要輸入服飾平鋪圖，就可以實現服飾的上身效果的生成。這種方式減少用戶的使用成本，能夠擴展更多的應用場景中。此外，Outfit Anyone 也能夠支持服飾搭配（上下裝組合），身材試衣等應用場景，同時加入了refiner，可以做到更好的一致性。

視智未來：Outfit Anyone會在近期有什麼實際應用落地嗎？

我們會和阿里巴巴內部的淘寶電商場景結合，也會探索一些外部的應用場景。

此外，在我們的論文中也展示了，Animate Anyone和Outfit Any One算法可以疊加使用,模特在生成舞蹈視頻之前可以先換裝，然後再跳舞。

視智未來：那麼，你們是否考慮在舞王應用中加入這一環節，比如先換裝再跳舞？

從產品角度看，可能不會很快實現，但這在論文和項目頁面上已有相關展示，是一個值得期待的未來應用場景。

請問你們在開始構思和設計的時候，是確定要應用到淘寶的電商場景，還是有其他的初衷？

目前，我們這三款產品都屬於通義實驗室。Outfit Anyone更緊密地結合了電商、時尚場景，具有換裝能力。AnyText這款產品則偏向圖像生成，比之前的文字生成能力有所加強。這些產品都是通義實驗室最近發布的模型算法的一部分。

通義實驗室主要集中於通義系列大模型的開發，這三個項目實戰意義非常強，與實際業務應用的聯繫特別緊密，不僅僅是純技術探索。這也是因為當前的大模型在各種應用場景中都非常明顯。至少從我們開發的Animate Anyone來看，這個項目的起源仍然基於技術上的突破。我們在生成場景上根據實際需要進行了一些創新，比如舞王。

視智未來：整個開發過程從剛開始到發布論文用了多久？這是通義團隊的主要項目，還是在業餘時間做出的項目？

Animate Anyone這項研究工作開展的比較早，大約2023年9月份就開始了。到2023年11月底，我們公開了論文和項目主頁，得到了同行的關注，有很多國內外的關注者自發轉發，引起了廣泛的討論。之後我們開始籌備上線通義千問里的「全民舞王」這個功能，這兩天上線後，也吸引了大量網友的體驗。

研究本身並不局限在舞蹈生成，為了讓偏枯燥的學術工作，變成大家都能體驗、都能找到樂趣的功能。

視智未來：業界非常關注這三個模型是否可以開源，以及商業化使用生成結果，和進行二次開發。

AnyText使用的開源許可證是Apache License 2.0，不是只能在阿里系的場景里使用，你可以將其商業化，但需要遵守一定的限制和條件，具體請參閱許可證協議。

Animate Anyone和Outfit Anyone項目的代碼目前還沒有開源，但GitHub上已有相關技術文檔。

目前Outfit Anyone和AnyText已經登陸huggingface和魔搭。Outfit Anyone在Huggingface和Modelscope體驗頁，不限制用戶對於生成的試衣圖片的使用。

視智未來：在自行架設相關模型體驗的時候，上傳照片如果有敏感的，算法端會處理嗎？

我們的算法並不會屏蔽敏感圖片，這種屏蔽是由前端限制實現的。

阿里通義實驗室回應關於「全民舞王」的一切

VOL.1

「全民舞王」和它背後的技術

VOL.2

文生圖準確生成漢字的難題，是如何被攻克的？

VOL.3

《大夢歸離》：一部「處處無郭、處處是郭」的「新郭敬明劇」

草莓熊後力捧史迪奇，尼克朱迪正當紅|2025迪士尼IP授權觀察

想買便宜會員？愛奇藝提供了兩種新選擇

沒有死磕眼鏡，位元組跳動為什麼選擇做AI耳機？

中國桌球，需要「莎頭」CP

片酬過千萬，票房有分成，三戲連排的肖央為何扛不住國慶檔？

名創優品豪擲63億成永輝第一股東，「東來模式」是最強推手？

樂道爆單，小鵬受傷，但消費者能接受每月599的月租嗎？

請司馬南站台自毀長城，西鳳酒上市更難了

中秋檔橫評：電影聚焦出走破4000萬，短劇打臉惡媳賺3000萬

黑神話流量盛宴：28家媒體直播，為打猿神卸載原神

《黑神話》大爆，誰在股市薅猴毛？

「韓國會是下一個短劇大票倉」｜專訪韓國短劇製片人

國內不賺錢的短劇人們，能賺到海外短劇的10億美金嗎？

拆解《異人之下》，原著粉到底在不滿什麼？

奧運開幕式轉播「大比武」：「沉默」的央視但一刀未剪

泡泡瑪特王寧：向上努力，向外看

《長相思2》「一女多男」的終極目標，就是乙游

宗馥莉辭職：股權博弈下的「以退為進」？

《默殺》12天8億，情緒奇觀電影的勝利

孤獨星球退出中國，小藍書終敵不過小紅書

AI男友這麼好，乙遊玩家怎麼不認呢

瘋狂小楊哥的首部短劇下架，繼「假茅颱風波」再受挫

角色貼臉、打戲過癮，內容出海的金庸武俠世界還做對了什麼？