1秒1張圖實時成畫,2023文生圖領域進化有多快?| 新榜出品

2023-12-04     新榜

原標題:1秒1張圖實時成畫,2023文生圖領域進化有多快?| 新榜出品

作者 | 阿虎

編輯 | 捲毛

天下武功,唯快不破。1秒1張圖,免費還開源。

11月28日,Stability AI在官網發布了開源文生圖模型SDXL Turbo,可以做到文本生成圖片實時響應。

「頭號AI玩家」第一時間上手嘗試了一下,相比DALL·E 3、Midjourney以及Stable Diffusion,SDXL Turbo生成效率非常快,能夠做到實時微調圖像,生成1張圖片的時間基本控制在2秒以內。

據Stability AI官方介紹,SDXL Turbo是基於SDXL 1.0疊代而成,使用了全新的對抗擴散蒸餾技術(Adversaral Diffusion Distillatio),所需圖像的生成步驟從50步減少到1步,並且不會損壞圖片的質量。

「X」平台用戶分享自己用SDXL Turbo在24秒內生成了256張圖,用戶「HylaruCoder」也稱,4060Ti配置生成速度為0.3秒。

是不是沒想到,文生圖技術能進展這麼快?

圖片來源:Reddit;人工智慧生成藝術1年前vs現在

一年前,AI只能生成一些大致的輪廓圖片,而現在實時生圖都不是問題,甚至連AI創作的漫畫續作都已經出版銷售,進入商用階段。

11月22日,由AI輔助創作的《怪醫黑傑克機器的心臟》這部作品正式出版銷售。

一年過去,文生圖領域進化到什麼程度了?達到出版水準有多難?還有哪些亟待探索和解決的問題?「頭號AI玩家」和一些創作者聊了聊。

1年前vs現在,文生圖領域的極大改變

一直以來,GAN(生成對抗網絡)方法是生成圖像的標準模型。自GAN以後,AI繪畫模型經過了幾次疊代,陸續上線了DALL·E、Imagen、Diffusion,「頭號AI玩家」此前做過相應的梳理和報道。

除了模型間的變化差異,從Disco Diffusion到Midjourney,再到SDXL Turbo,文生圖效果還發生了怎樣的改變?

「頭號AI玩家」用相同的提示詞進行了一組對比試驗,上圖是2022年8月Midjourney生成的圖像,下圖是同一組提示詞於2023年11月底生成的圖像。

2022年8月Midjourney生成圖片

2023年11月Midjourney生成圖片 2023年11月Midjourney生成圖片

上述兩幅圖相同提示詞:Batman (on the left) and Dwight Schrute (on the right) are in a fistfight in a parking lot in Scranton, Pennsylvania. Dramatic lighting. Photo realistic. Monochrome. High detail.

蝙蝠俠(左邊)和德懷特·施魯特(右邊)在賓夕法尼亞州斯克蘭頓的某個停車場裡打架,戲劇性的燈光,照片逼真,單色,高細節。

可以看到,最明顯的區別在於在場景創作上,AI已經能夠清晰描繪出具體的場景,人物和場景有了明顯的區分。

另外,AI對於語句的理解和想像力有了極大的進步,能夠勾畫出兩個人物的面部細節,並且在構圖和透視上展現了一定的審美水平。

對於人物的動作解讀也有顯著不同,比如,下面以「一個跳舞的男人」為提示詞生成的圖片。

2022年9月,Midjourney生成的圖片

2023年11月底,Midjourney生成圖片

現在的文生圖技術有效避免了像素化、模糊化的視覺缺點,能夠生成更具有輪廓細節、更加清晰真實的圖像。連AI飽受嘲諷的「不會畫手」,在這一年時間裡也得到了進化。

相比一年前,速度大幅度提升的同時,生成的圖片質量也並不遜色。

「X」平台上還有專門分享用AI生成蝙蝠俠的玩家。我們也用他分享的提示詞生成了圖片,和他之前的圖片進行了對比。

左起為網友2022年8月Midjourney生成圖片;「頭號AI玩家」2023年11月Midjourney生成圖片

使用同組提示詞:Batman in the style Shepard Fairey with the text HOPE at the bottom.蝙蝠俠風格為藝術家Shepard Fairey,底部帶有「希望」字樣。

在漫畫風格上,儘管生成的文字還是無法做到100%準確,但人物形象「Batman」生成形象更明確,對藝術家風格的理解也更細緻,在顏色、元素組成上更豐富。

海外社交平台Reddit上,有不少網友對於人工智慧藝術的疊代升級進行了討論。

有網友表示,「這就像人們指出GPT-4有一些小瑕疵,並以此推斷AI將在半個世紀內保持當前的能力,但他們一次又一次地錯了。所以永遠不要對人工智慧下注」。

還有網友調侃,「和現在相比是:我無法根據您的請求生成圖像,因為它不符合我們的內容政策(版權)」。

也有人質疑1年前有點誇張,應該是2年前吧,但確實有了肉眼可見的進步。

當然,我們也能從其他案例中找到文生圖領域技術進化的痕跡。

今年年初,日本漫畫師筱房六郎在「X」上發文稱,AI繪畫存在很大的問題,比如無法生成「長滿青苔」的圖像,也無法描繪「摔倒」的動作,人體的構造和關節都是錯亂的。

他認為,人類漫畫師扔掉畫筆,轉向AI還為時尚早。

不過,目光轉向今年9月,日本漫畫家Ume分享了他用AI生成的漫畫。

Ume表示,AI現在能畫出許多表情和一定程度的姿勢,對於人物刻畫的細節也比之前成熟不少。

但他還提出,讓AI生成俯視圖或者仰視圖,或是改變作畫視角還是非常困難。

AI作畫達到出版水準,有多難?

文生圖技術的快速發展,使得用AI創作漫畫成為一個必然趨勢。

早在2020年,日本研究人員就利用深度學習技術(StyleGAN),分析了知名漫畫家手塚治虫的經典作品,創造了世界上第一部由AI生成的漫畫《PHAEDO》(Tezuka 2020項目)。

而今年,為了紀念手塚治虫的作品《怪醫黑傑克》連載50周年,官方推出了由AI輔助創作紀念作《怪醫黑傑克機器之心》,希望藉助人工智慧,將手塚治虫的創作理念延續下去。

《哆啦A夢》中關於重現手塚治虫經典製作的情節成真

《怪醫黑傑克》公布使用AI創作續集以來,社交平台上關於AI創作漫畫的討論從未間斷。

有網友留言稱,日本有一批最具才華的漫畫師,但是卻靠AI出版漫畫,很怪。

「X」平台上有漫畫愛好者認為,「這些角色都很完美,因為他們是由人類創作的。」

當然,也有人表示奇怪,「AI能寫10000種劇情,但有1種表達了手塚治虫的想法嗎?」

但AI生成漫畫並沒有那麼簡單,後期工作也遠比想像要多。

有漫畫師提到,《怪醫》這個項目更像是研究,而不是漫畫創作。

在故事情節方面,項目組成員需要將漫畫原本的世界觀、劇情、對白、人物設定進行解構,投喂給GPT-4,然後讓GPT-4學習手塚治虫此前作品的畫風和思想,生成可能的台詞和分鏡。

然後將這些台詞、故事內容交由Stable Diffusion處理,最後由項目小組成員整理歸納,完善成具備出版條件的作品。

據NHK報道,為了能夠成功模仿手塚治虫的風格,AI借鑑了6000多張角色圖片,識別了手塚治虫65部作品。

大量的數據投喂下,AI生成了基本的劇情和人物設定,但最終精細的調整和設計,還是由人類創作者來完成。

數字藝術家「腦玩家mindplayer」今年3月也發布了一部AI輔助創作的漫畫《ARES覺醒》。

《ARES覺醒》

她告訴「頭號AI玩家」,用AI輔助創作漫畫通常需要列好故事提綱,列明章節後再交給ChatGPT進行細化調整,它可以細化到每一頁具體的分鏡內容。

「但分鏡排版比想像的難很多,如果完全沒有美術基礎,分鏡這個坎都過不去」。

「腦玩家mindplayer」以下面這張AI繪畫封面舉例。她認為,對於個人創作者來說,簡單生成兒童繪本風格的漫畫會簡單一些。

但如果要達到日漫出版的效果,沒有一定的繪畫水平和後期工作,很難完成。再加上調整和修改的成本,得不償失。

漫畫師三三對「頭號AI玩家」提到,AI現在唯一的缺點就是「生成什麼,你就得要什麼」,有時候創作意圖和靈感都很難用語言表達,更別說靠AI進行解釋和渲染。

不過,在手塚治虫這部漫畫出版之前,日本早已出版過首部由AI生成技術完成的漫畫作品《賽博朋克桃太郎》。

圖片來源:《CyberPunk PeachJohn》作者Rootport

彼時,這部漫畫的部分細節模糊,構圖簡單,透視關係紊亂,甚至遇到AI無法生成的近景時,創作者Rootport也直接擺爛,「這個手部特寫實在沒辦法了」。

從去年年底到現在,AI生成技術在可控性和一致性上也有了長足的進步。

左邊為人工手繪;右邊為AI實時生成

一些漫畫師表示,由於模型的解析度提高了,手部細節已經可以通過微調生成,比起當時輪廓和大致框架都不正確,已經是一個質的飛躍。

「腦玩家mindplayer」也提到,使用同一套提示詞,目前SDXL和DALL·E 3的出圖質量都不錯。

「現在很多功能都被開發出來了。圖片能夠進行擴展微調,需要的時間成本起碼變低了。」三三補充說道。

令人驚訝的並不是AI自動生成漫畫,而是AI疊代速度之快,漫畫師們需要數十年磨練的筆觸技巧,AI在一年之內就可以達到,完成進化。

當然,目前AI生成圖像還存在一些缺陷,比如還沒有開源軟體能讓角色保持連續性,視覺上更容易生成大全景,分鏡刻畫困難,場景一致性問題等等。但無論是《怪醫黑傑克》AI續作的成功出版,或是不同玩家嘗試的AI輔助生成漫畫,都為文生圖的進化添上了濃墨重彩的一筆。

AI現階段能夠輔助我們做到什麼程度?或許每一部作品都是答案。

文末彩蛋:體驗網址:https://clipdrop.co/,裡面集成了Stability AI自己開發的應用,包括SDXL、SDXL Turbo,感興趣的玩家可以在線體驗。

SDXL需要較高的內存和顯存,如果電腦配置不是特別高的話,不用下載模型,Clipdrop線上也值得一玩。

文章來源: https://twgreatdaily.com/ec4fdab959e0a5e417bfba0380a94e96.html