作者 | 阿虎
編輯 | 捲毛
天下武功,唯快不破。1秒1張圖,免費還開源。
11月28日,Stability AI在官網發布了開源文生圖模型SDXL Turbo,可以做到文本生成圖片實時響應。
「頭號AI玩家」第一時間上手嘗試了一下,相比DALL·E 3、Midjourney以及Stable Diffusion,SDXL Turbo生成效率非常快,能夠做到實時微調圖像,生成1張圖片的時間基本控制在2秒以內。
據Stability AI官方介紹,SDXL Turbo是基於SDXL 1.0疊代而成,使用了全新的對抗擴散蒸餾技術(Adversaral Diffusion Distillatio),所需圖像的生成步驟從50步減少到1步,並且不會損壞圖片的質量。
「X」平台用戶分享自己用SDXL Turbo在24秒內生成了256張圖,用戶「HylaruCoder」也稱,4060Ti配置生成速度為0.3秒。
是不是沒想到,文生圖技術能進展這麼快?
圖片來源:Reddit;人工智慧生成藝術1年前vs現在
一年前,AI只能生成一些大致的輪廓圖片,而現在實時生圖都不是問題,甚至連AI創作的漫畫續作都已經出版銷售,進入商用階段。
11月22日,由AI輔助創作的《怪醫黑傑克機器的心臟》這部作品正式出版銷售。
一年過去,文生圖領域進化到什麼程度了?達到出版水準有多難?還有哪些亟待探索和解決的問題?「頭號AI玩家」和一些創作者聊了聊。
1年前vs現在,文生圖領域的極大改變
一直以來,GAN(生成對抗網絡)方法是生成圖像的標準模型。自GAN以後,AI繪畫模型經過了幾次疊代,陸續上線了DALL·E、Imagen、Diffusion,「頭號AI玩家」此前做過相應的梳理和報道。
除了模型間的變化差異,從Disco Diffusion到Midjourney,再到SDXL Turbo,文生圖效果還發生了怎樣的改變?
「頭號AI玩家」用相同的提示詞進行了一組對比試驗,上圖是2022年8月Midjourney生成的圖像,下圖是同一組提示詞於2023年11月底生成的圖像。
2022年8月Midjourney生成圖片
2023年11月Midjourney生成圖片 2023年11月Midjourney生成圖片
上述兩幅圖相同提示詞:Batman (on the left) and Dwight Schrute (on the right) are in a fistfight in a parking lot in Scranton, Pennsylvania. Dramatic lighting. Photo realistic. Monochrome. High detail.
蝙蝠俠(左邊)和德懷特·施魯特(右邊)在賓夕法尼亞州斯克蘭頓的某個停車場裡打架,戲劇性的燈光,照片逼真,單色,高細節。
可以看到,最明顯的區別在於在場景創作上,AI已經能夠清晰描繪出具體的場景,人物和場景有了明顯的區分。
另外,AI對於語句的理解和想像力有了極大的進步,能夠勾畫出兩個人物的面部細節,並且在構圖和透視上展現了一定的審美水平。
對於人物的動作解讀也有顯著不同,比如,下面以「一個跳舞的男人」為提示詞生成的圖片。
2022年9月,Midjourney生成的圖片
2023年11月底,Midjourney生成圖片
現在的文生圖技術有效避免了像素化、模糊化的視覺缺點,能夠生成更具有輪廓細節、更加清晰真實的圖像。連AI飽受嘲諷的「不會畫手」,在這一年時間裡也得到了進化。
相比一年前,速度大幅度提升的同時,生成的圖片質量也並不遜色。
「X」平台上還有專門分享用AI生成蝙蝠俠的玩家。我們也用他分享的提示詞生成了圖片,和他之前的圖片進行了對比。
左起為網友2022年8月Midjourney生成圖片;「頭號AI玩家」2023年11月Midjourney生成圖片
使用同組提示詞:Batman in the style Shepard Fairey with the text HOPE at the bottom.蝙蝠俠風格為藝術家Shepard Fairey,底部帶有「希望」字樣。
在漫畫風格上,儘管生成的文字還是無法做到100%準確,但人物形象「Batman」生成形象更明確,對藝術家風格的理解也更細緻,在顏色、元素組成上更豐富。
海外社交平台Reddit上,有不少網友對於人工智慧藝術的疊代升級進行了討論。
有網友表示,「這就像人們指出GPT-4有一些小瑕疵,並以此推斷AI將在半個世紀內保持當前的能力,但他們一次又一次地錯了。所以永遠不要對人工智慧下注」。
還有網友調侃,「和現在相比是:我無法根據您的請求生成圖像,因為它不符合我們的內容政策(版權)」。
也有人質疑1年前有點誇張,應該是2年前吧,但確實有了肉眼可見的進步。
當然,我們也能從其他案例中找到文生圖領域技術進化的痕跡。
今年年初,日本漫畫師筱房六郎在「X」上發文稱,AI繪畫存在很大的問題,比如無法生成「長滿青苔」的圖像,也無法描繪「摔倒」的動作,人體的構造和關節都是錯亂的。
他認為,人類漫畫師扔掉畫筆,轉向AI還為時尚早。
不過,目光轉向今年9月,日本漫畫家Ume分享了他用AI生成的漫畫。
Ume表示,AI現在能畫出許多表情和一定程度的姿勢,對於人物刻畫的細節也比之前成熟不少。
但他還提出,讓AI生成俯視圖或者仰視圖,或是改變作畫視角還是非常困難。
AI作畫達到出版水準,有多難?
文生圖技術的快速發展,使得用AI創作漫畫成為一個必然趨勢。
早在2020年,日本研究人員就利用深度學習技術(StyleGAN),分析了知名漫畫家手塚治虫的經典作品,創造了世界上第一部由AI生成的漫畫《PHAEDO》(Tezuka 2020項目)。
而今年,為了紀念手塚治虫的作品《怪醫黑傑克》連載50周年,官方推出了由AI輔助創作紀念作《怪醫黑傑克機器之心》,希望藉助人工智慧,將手塚治虫的創作理念延續下去。
《哆啦A夢》中關於重現手塚治虫經典製作的情節成真
《怪醫黑傑克》公布使用AI創作續集以來,社交平台上關於AI創作漫畫的討論從未間斷。
有網友留言稱,日本有一批最具才華的漫畫師,但是卻靠AI出版漫畫,很怪。
「X」平台上有漫畫愛好者認為,「這些角色都很完美,因為他們是由人類創作的。」
當然,也有人表示奇怪,「AI能寫10000種劇情,但有1種表達了手塚治虫的想法嗎?」
但AI生成漫畫並沒有那麼簡單,後期工作也遠比想像要多。
有漫畫師提到,《怪醫》這個項目更像是研究,而不是漫畫創作。
在故事情節方面,項目組成員需要將漫畫原本的世界觀、劇情、對白、人物設定進行解構,投喂給GPT-4,然後讓GPT-4學習手塚治虫此前作品的畫風和思想,生成可能的台詞和分鏡。
然後將這些台詞、故事內容交由Stable Diffusion處理,最後由項目小組成員整理歸納,完善成具備出版條件的作品。
據NHK報道,為了能夠成功模仿手塚治虫的風格,AI借鑑了6000多張角色圖片,識別了手塚治虫65部作品。
大量的數據投喂下,AI生成了基本的劇情和人物設定,但最終精細的調整和設計,還是由人類創作者來完成。
數字藝術家「腦玩家mindplayer」今年3月也發布了一部AI輔助創作的漫畫《ARES覺醒》。
《ARES覺醒》
她告訴「頭號AI玩家」,用AI輔助創作漫畫通常需要列好故事提綱,列明章節後再交給ChatGPT進行細化調整,它可以細化到每一頁具體的分鏡內容。
「但分鏡排版比想像的難很多,如果完全沒有美術基礎,分鏡這個坎都過不去」。
「腦玩家mindplayer」以下面這張AI繪畫封面舉例。她認為,對於個人創作者來說,簡單生成兒童繪本風格的漫畫會簡單一些。
但如果要達到日漫出版的效果,沒有一定的繪畫水平和後期工作,很難完成。再加上調整和修改的成本,得不償失。
漫畫師三三對「頭號AI玩家」提到,AI現在唯一的缺點就是「生成什麼,你就得要什麼」,有時候創作意圖和靈感都很難用語言表達,更別說靠AI進行解釋和渲染。
不過,在手塚治虫這部漫畫出版之前,日本早已出版過首部由AI生成技術完成的漫畫作品《賽博朋克桃太郎》。
圖片來源:《CyberPunk PeachJohn》作者Rootport
彼時,這部漫畫的部分細節模糊,構圖簡單,透視關係紊亂,甚至遇到AI無法生成的近景時,創作者Rootport也直接擺爛,「這個手部特寫實在沒辦法了」。
從去年年底到現在,AI生成技術在可控性和一致性上也有了長足的進步。
左邊為人工手繪;右邊為AI實時生成
一些漫畫師表示,由於模型的解析度提高了,手部細節已經可以通過微調生成,比起當時輪廓和大致框架都不正確,已經是一個質的飛躍。
「腦玩家mindplayer」也提到,使用同一套提示詞,目前SDXL和DALL·E 3的出圖質量都不錯。
「現在很多功能都被開發出來了。圖片能夠進行擴展微調,需要的時間成本起碼變低了。」三三補充說道。
令人驚訝的並不是AI自動生成漫畫,而是AI疊代速度之快,漫畫師們需要數十年磨練的筆觸技巧,AI在一年之內就可以達到,完成進化。
當然,目前AI生成圖像還存在一些缺陷,比如還沒有開源軟體能讓角色保持連續性,視覺上更容易生成大全景,分鏡刻畫困難,場景一致性問題等等。但無論是《怪醫黑傑克》AI續作的成功出版,或是不同玩家嘗試的AI輔助生成漫畫,都為文生圖的進化添上了濃墨重彩的一筆。
AI現階段能夠輔助我們做到什麼程度?或許每一部作品都是答案。
文末彩蛋:體驗網址:https://clipdrop.co/,裡面集成了Stability AI自己開發的應用,包括SDXL、SDXL Turbo,感興趣的玩家可以在線體驗。
SDXL需要較高的內存和顯存,如果電腦配置不是特別高的話,不用下載模型,Clipdrop線上也值得一玩。