最長3分鐘，快手的視頻大模型，成色幾何

2024-06-21 張書樂

在OpenAI文生視頻大模型Sora發布後，國內企業爭相入局，國產文生視頻大模型邁入加速階段。

過去半年，AI 生成視頻一直處在斷斷續續推進的狀態。

號稱國內首個自研視頻大模型的 Vidu，以及後續位元組、騰訊等多家國產廠商推出視頻生成模型，都在時不時引發外界的關注。

近日，又一國產視頻大模型加入戰局，快手「可靈」視頻生成大模型官網正式上線。

21日，快手可靈大模型發布重磅更新：正式開放圖生視頻功能，支持將靜態圖像轉化為5秒鐘視頻，用戶可通過提示詞文本控制圖像中物體的運動；同時推出視頻續寫功能，支持對生成視頻一鍵續寫和連續多次續寫，最長可生成約3分鐘視頻。

相較此前各家放出的視頻大模型以展示視頻為主，本次亮相的可靈大模型不但效果對標Sora，且已在快手旗下的快影App開放邀測體驗。

據快手方面介紹，可靈大模型為快手AI團隊自研，採用Sora相似的技術路線，結合多項自研技術創新，其生成的視頻解析度達1080p，時長最高可達2分鐘（幀率30fps），支持自由的寬高比。

此外，官方還宣稱，可靈大模型能夠生成大幅度的合理運動，並使其符合客觀運動規律。

在官方給出的視頻範例中，一位太空人在月球上奔跑，隨著鏡頭慢慢抬升，太空人的步態和影子都能保持合理恰當。

幾乎同時，美圖宣布將在7月底上線新品MOKI，該產品基於美圖奇想大模型的視頻生成能力，可幫助用戶生成AI短片。

然而，也有觀點認為，相比一擁而上的大語言模式，視頻大模型更慢熱，且少了巨頭的身影。

為什麼會如此？

大廠們不感興趣嗎？

同時，在上一輪大語言模型競爭中，快手和美圖的存在感較低。

而在視頻大模型賽道，這兩家企業最大的優勢又是什麼？

對此，北京商報記者魏蔚和書樂進行了一番交流，本猴以為：

還在衝刺「高考」的大廠，不會直接進擊「博士後」。

做視頻，不是一堆圖組成PPT，大廠不急於這一塊發力，且實用性不強，只是一個肌肉展示。

畢竟，視頻生成不是將一堆AI繪圖連在一起變成動畫片。

除了考慮形象一致、符合描述、光影分割、分鏡表現等更多細節外，還有對劇情的理解能力、再創造能力。

這些都需要對視頻結構、內容解析、拍攝技巧和敘事手法等多個垂直領域進行深度學習。

其難度遠不是聊天、繪畫或專精於下棋之類靠數據堆積和用戶糾錯來完成的。

即使是影視領域的大師也常有敗筆，讓還處在「高考階段」的人工智慧出片，其難度可想而知。

但快手和美團，則需要秀肌肉，哪怕只是一個秀。

快手也好，美圖也罷，在視頻大模型賽道上，最大的優勢只是他們擁有讓人工智慧深度學習的豐富「學習資料」。

依靠這些「學習資料」，可以規避一定的版權問題，並且通過多年在視頻領域的內容積累、垂直細分和標籤標註，都讓大模型能夠更好地「檢索」知識，也讓其在算法設計上多少有一定的視頻專業素養。

但也僅此而已，在技術上依然缺少在人工智慧算法上的原始積累。

此外，視頻大模型即使成熟，也很難在影視領域有大的突破。

無論是短劇、廣告還是長視頻或電影，儘管都會內卷「大片特效」。

但受眾最終被吸引的還是內容（從編劇到運鏡，以及演員演技）。

這些才是大規模商業變現的關鍵。

愚以為，視頻大模型或許更容易在動畫領域找到一些商機。

作者張書樂，人民網、人民郵電報專欄作者，中經傳媒智庫專家，資深產業評論人