記者 | 夕顏
來源 | CSDN(ID:CSDNnews)
動漫伴隨著我們大部分人的青春,很多人悄咪咪地都有一個動漫夢,如果有一天能變身成為漫畫中的人,感覺一定很奇妙吧?
還真就有人用技術手段幫我們實現了這個夢想。最近,抖音推出的一款漫畫變身特效成為爆款,不論是高顏值的明星大咖,還是我等芸芸眾生,都可以隨手拍個視頻,過把漫畫癮。
普世風格漫畫臉的誕生
這款漫畫特效這麼火,與特效的操作簡單,風格也比較符合大眾審美有很大關係,左右滑動就能切換現實和虛擬漫畫,效果也清新自然,符合大眾用上之後就「變美」的心理預期。
不過,在確定最終特效風格之前,抖音團隊也是考慮到不同年齡人群的喜好,搜集觀看了大量的漫畫風格,包括當下日漫、國漫、韓漫的主流風格的漫畫、番劇,比如日系清新風
國漫萌萌噠風
還有這樣的(不知道什麼風)
初期效果探索
但選到最後,團隊鎖定的效果方向為:具普世風格的漫畫臉效果。
最終效果確定
這個所謂的具有普世風格的漫畫臉,需要滿足兩個基本的要求——「像」和「美」。使用過這個特效的人應該對這兩點沒有什麼異議,使用特效後,人物髮型、臉型,甚至是表情和眼神都和真人神似,漫畫臉也讓人覺得莫名舒服,還挺好看。
實時視頻處理背後技術獨家揭秘
當然,除了好玩之外,這個特效背後的「技術」,才是我們最感興趣的。
和其他此前火爆過的漫畫效果相比,這個特效總結起來特別之處在於三個關鍵字:「實時」、「視頻」和「漫畫」。
之前,我們已經看過過很多漫畫相關的技術應用出現,比如港中文、哈工大和騰訊優圖合作的一篇論文中提出的方法,可以將將人臉照片轉化成手繪版風格的卡通圖,甚至反向把卡通圖轉換成真人版,很神奇。
華盛頓大學的照片喚醒技術,可以把動態圖像轉換成3D動態,讓目標像是從畫里走出來一般:
這些神奇的魔法,都與 GAN技術相關。GAN(生成式對抗網絡,Generative Adversarial Networks )是一種深度學習模型,是近年來複雜分布上無監督學習最具前景的方法之一。模型通過框架中(至少)兩個模塊:生成模型(Generative Model)和判別模型(Discriminative Model)的互相博弈學習產生相當好的輸出。由於這樣的特點,GAN成為各種生成技術的不二之選。
抖音這次推出的漫畫變身特效主要技術也還是GAN,但與以往相比也有差異之處。
此前,變漫畫功能基本都基於人臉表情跟蹤,學界和工業界都沒有千人千面的實時漫畫生成方法,這次抖音推出的漫畫特效是在視頻中實時實現的,這項技術在全球也是首次落地。在視頻中,可實現人臉和頭髮變漫畫的效果,配合背景風格遷移技術,完成全屏漫畫的實時生成,並且通過「手動滑杆」道具,能與真實視頻隨意切換。
實際上,抖音實時漫畫特效在最終技術選型之前,曾對比過大量當前生成技術方法,包括生成漫畫的方法,如 ugatit,也有做其他任務的方法,如 MUNIT 等。 但經調研發現,當前的 GAN 用於漫畫生成、風格遷移等任務存在一些問題,首先是訓練不穩定,超參數進行一些微小的調整就可能對結果產生很大影響,而且還容易遇到梯度消失的問題。對此,抖音的改善方案是嘗試多種 loss,包括WGAN、LSGAN等,但目前為止還是沒有銀彈,所以需要在實驗過程中監控梯度的變化。
抖音技術團隊告訴CSDN,在漫畫視頻技術探索過程中,技術團隊在初期嘗試中屢屢碰壁,在前期預研中,輸出版本效果與圖片版相差較大,且性能也未能達標。在幾次嘗試效果均不理想的情況下,團隊內部一度對實時漫畫的可行性也出現了懷疑。
但好在幾次失敗的嘗試後,在總結經驗時有人指出了關鍵所在:之前的模型結構單一,不同模型的優缺點不完全一致。於是,技術團隊嘗試了模型嫁接的方法,用不同的模塊拼接出新模型,大幅提升了漫畫的生成質量。在質量達標後,又通過計算每層的重要程度來裁剪模型,最終確定了實時版模型的結構。
效果產品團隊也參與模型效果調優,總結出參數與效果之間的定量關係,通過微調參數優化模型。最終,行業首發的高清實時真人漫畫風格處理爆款才得以誕生。
與靜態圖片處理相比,實現實時漫畫處理究竟難在哪裡呢,尤其是在手機端實現?
抖音技術團隊表示,實時視頻漫畫處理難度還是挺高的,比如模型本身計算量需要非常小,在有限的計算量下要達到比較好的漫畫效果,需要讓每一次運算都要充分發揮其價值。其次,抖音的用戶眾多,用戶使用的機型性能差距也非常大。為了滿足不同層次用戶的需求,抖音研發了複雜的模型下發策略,實現了模型的定製化下發,這在最終保證了實時漫畫的成功上線,在效果和性能方面達到實時漫畫的要求。
此外,抖音漫畫特效啟用了自研的推理引擎ByteNN,這個針對端側算法快速落地的推理引擎不僅支持 CPU 和 GPU 的通用計算能力,也充分發揮了廠商 NPU/DSP 硬體的加速能力,端側性能和功耗均處於業界領先水平,這也保證了實時漫畫能夠穩定支持抖音海量的用戶群體。
當然,這個實時漫畫特效目前的算法針對一些特殊場景還是有一定優化空間,在之後的疊代中也會從模型本身和推理引擎兩個方面入手,提升模型效果的同時優化推理性能。
在泛娛樂場景,GAN還有更大發揮空間
從當前推出的一些漫畫生成效果來看,GAN這個熱門技術確實為娛樂領域注入了很多新小的血液,引入了一些新鮮的玩法。不僅限於漫畫,泛娛樂領域中,GAN方法的應用潛力肉眼可見,未來,這項新興技術還會有哪些技術發展趨勢,或者研究熱點呢?
抖音技術人員認為,GAN本質上是分布之間的遷移,只要能定義分布之間的映射,就能嘗試GAN。至於未來GAN還可以在哪些方向上大有用武之地,他們認為真實感和非真實感的風格遷移可能是長期的熱點。除此之外,生成網絡與3D技術的結合也可能是未來的熱點之一。
比如同時期在日本一款 爆火的3D 姿態追蹤漫畫人物應用ThreeDPoseTracker,只需要使用一個USB攝像機或一段舞蹈視頻來捕獲運動,通過一種姿勢預估模型(主幹為Res-Net-34),就能讓虛擬動漫人物跟著自己舞動,生成的動作效果十分精準、自然流暢。
抖音表示,這是一個有趣的應用,團隊一直在關注一些前沿並且有趣的技術,事實上,抖音此前也已經上線了類似的特效,抖音搜索「召喚光頭強」、「Line dancer」就可以體驗。
正如抖音技術人員所說,GAN的能力不應僅局限於圖片,3D的應用場景將給這項技術提供更大的展示舞台,期待在未來,GAN能夠帶給我們更多驚喜。