作者 | 阿虎

編輯 | 捲毛

天下武功，唯快不破。1秒1張圖，免費還開源。

11月28日，Stability AI在官網發布了開源文生圖模型SDXL Turbo，可以做到文本生成圖片實時響應。

「頭號AI玩家」第一時間上手嘗試了一下，相比DALL·E 3、Midjourney以及Stable Diffusion，SDXL Turbo生成效率非常快，能夠做到實時微調圖像，生成1張圖片的時間基本控制在2秒以內。

據Stability AI官方介紹，SDXL Turbo是基於SDXL 1.0疊代而成，使用了全新的對抗擴散蒸餾技術（Adversaral Diffusion Distillatio），所需圖像的生成步驟從50步減少到1步，並且不會損壞圖片的質量。

「X」平台用戶分享自己用SDXL Turbo在24秒內生成了256張圖，用戶「HylaruCoder」也稱，4060Ti配置生成速度為0.3秒。

是不是沒想到，文生圖技術能進展這麼快？

圖片來源：Reddit；人工智慧生成藝術1年前vs現在

一年前，AI只能生成一些大致的輪廓圖片，而現在實時生圖都不是問題，甚至連AI創作的漫畫續作都已經出版銷售，進入商用階段。

11月22日，由AI輔助創作的《怪醫黑傑克機器的心臟》這部作品正式出版銷售。

一年過去，文生圖領域進化到什麼程度了？達到出版水準有多難？還有哪些亟待探索和解決的問題？「頭號AI玩家」和一些創作者聊了聊。

1年前vs現在，文生圖領域的極大改變

一直以來，GAN（生成對抗網絡）方法是生成圖像的標準模型。自GAN以後，AI繪畫模型經過了幾次疊代，陸續上線了DALL·E、Imagen、Diffusion，「頭號AI玩家」此前做過相應的梳理和報道。

除了模型間的變化差異，從Disco Diffusion到Midjourney，再到SDXL Turbo，文生圖效果還發生了怎樣的改變？

「頭號AI玩家」用相同的提示詞進行了一組對比試驗，上圖是2022年8月Midjourney生成的圖像，下圖是同一組提示詞於2023年11月底生成的圖像。

2022年8月Midjourney生成圖片

2023年11月Midjourney生成圖片 2023年11月Midjourney生成圖片

上述兩幅圖相同提示詞：Batman (on the left) and Dwight Schrute (on the right) are in a fistfight in a parking lot in Scranton, Pennsylvania. Dramatic lighting. Photo realistic. Monochrome. High detail.

蝙蝠俠（左邊）和德懷特·施魯特（右邊）在賓夕法尼亞州斯克蘭頓的某個停車場裡打架，戲劇性的燈光，照片逼真，單色，高細節。

可以看到，最明顯的區別在於在場景創作上，AI已經能夠清晰描繪出具體的場景，人物和場景有了明顯的區分。

另外，AI對於語句的理解和想像力有了極大的進步，能夠勾畫出兩個人物的面部細節，並且在構圖和透視上展現了一定的審美水平。

對於人物的動作解讀也有顯著不同，比如，下面以「一個跳舞的男人」為提示詞生成的圖片。

2022年9月，Midjourney生成的圖片

2023年11月底，Midjourney生成圖片

現在的文生圖技術有效避免了像素化、模糊化的視覺缺點，能夠生成更具有輪廓細節、更加清晰真實的圖像。連AI飽受嘲諷的「不會畫手」，在這一年時間裡也得到了進化。

相比一年前，速度大幅度提升的同時，生成的圖片質量也並不遜色。

「X」平台上還有專門分享用AI生成蝙蝠俠的玩家。我們也用他分享的提示詞生成了圖片，和他之前的圖片進行了對比。

左起為網友2022年8月Midjourney生成圖片；「頭號AI玩家」2023年11月Midjourney生成圖片

使用同組提示詞：Batman in the style Shepard Fairey with the text HOPE at the bottom.蝙蝠俠風格為藝術家Shepard Fairey，底部帶有「希望」字樣。

在漫畫風格上，儘管生成的文字還是無法做到100%準確，但人物形象「Batman」生成形象更明確，對藝術家風格的理解也更細緻，在顏色、元素組成上更豐富。

海外社交平台Reddit上，有不少網友對於人工智慧藝術的疊代升級進行了討論。

有網友表示，「這就像人們指出GPT-4有一些小瑕疵，並以此推斷AI將在半個世紀內保持當前的能力，但他們一次又一次地錯了。所以永遠不要對人工智慧下注」。

還有網友調侃，「和現在相比是：我無法根據您的請求生成圖像，因為它不符合我們的內容政策（版權）」。

也有人質疑1年前有點誇張，應該是2年前吧，但確實有了肉眼可見的進步。

當然，我們也能從其他案例中找到文生圖領域技術進化的痕跡。

今年年初，日本漫畫師筱房六郎在「X」上發文稱，AI繪畫存在很大的問題，比如無法生成「長滿青苔」的圖像，也無法描繪「摔倒」的動作，人體的構造和關節都是錯亂的。

他認為，人類漫畫師扔掉畫筆，轉向AI還為時尚早。

不過，目光轉向今年9月，日本漫畫家Ume分享了他用AI生成的漫畫。

Ume表示，AI現在能畫出許多表情和一定程度的姿勢，對於人物刻畫的細節也比之前成熟不少。

但他還提出，讓AI生成俯視圖或者仰視圖，或是改變作畫視角還是非常困難。

AI作畫達到出版水準，有多難？

文生圖技術的快速發展，使得用AI創作漫畫成為一個必然趨勢。

早在2020年，日本研究人員就利用深度學習技術（StyleGAN），分析了知名漫畫家手塚治虫的經典作品，創造了世界上第一部由AI生成的漫畫《PHAEDO》（Tezuka 2020項目）。

而今年，為了紀念手塚治虫的作品《怪醫黑傑克》連載50周年，官方推出了由AI輔助創作紀念作《怪醫黑傑克機器之心》，希望藉助人工智慧，將手塚治虫的創作理念延續下去。

《哆啦A夢》中關於重現手塚治虫經典製作的情節成真

《怪醫黑傑克》公布使用AI創作續集以來，社交平台上關於AI創作漫畫的討論從未間斷。

有網友留言稱，日本有一批最具才華的漫畫師，但是卻靠AI出版漫畫，很怪。

「X」平台上有漫畫愛好者認為，「這些角色都很完美，因為他們是由人類創作的。」

當然，也有人表示奇怪，「AI能寫10000種劇情，但有1種表達了手塚治虫的想法嗎？」

但AI生成漫畫並沒有那麼簡單，後期工作也遠比想像要多。

有漫畫師提到，《怪醫》這個項目更像是研究，而不是漫畫創作。

在故事情節方面，項目組成員需要將漫畫原本的世界觀、劇情、對白、人物設定進行解構，投喂給GPT-4，然後讓GPT-4學習手塚治虫此前作品的畫風和思想，生成可能的台詞和分鏡。

然後將這些台詞、故事內容交由Stable Diffusion處理，最後由項目小組成員整理歸納，完善成具備出版條件的作品。

據NHK報道，為了能夠成功模仿手塚治虫的風格，AI借鑑了6000多張角色圖片，識別了手塚治虫65部作品。

大量的數據投喂下，AI生成了基本的劇情和人物設定，但最終精細的調整和設計，還是由人類創作者來完成。

數字藝術家「腦玩家mindplayer」今年3月也發布了一部AI輔助創作的漫畫《ARES覺醒》。

《ARES覺醒》

她告訴「頭號AI玩家」，用AI輔助創作漫畫通常需要列好故事提綱，列明章節後再交給ChatGPT進行細化調整，它可以細化到每一頁具體的分鏡內容。

「但分鏡排版比想像的難很多，如果完全沒有美術基礎，分鏡這個坎都過不去」。

「腦玩家mindplayer」以下面這張AI繪畫封面舉例。她認為，對於個人創作者來說，簡單生成兒童繪本風格的漫畫會簡單一些。

但如果要達到日漫出版的效果，沒有一定的繪畫水平和後期工作，很難完成。再加上調整和修改的成本，得不償失。

漫畫師三三對「頭號AI玩家」提到，AI現在唯一的缺點就是「生成什麼，你就得要什麼」，有時候創作意圖和靈感都很難用語言表達，更別說靠AI進行解釋和渲染。

不過，在手塚治虫這部漫畫出版之前，日本早已出版過首部由AI生成技術完成的漫畫作品《賽博朋克桃太郎》。

圖片來源：《CyberPunk PeachJohn》作者Rootport

彼時，這部漫畫的部分細節模糊，構圖簡單，透視關係紊亂，甚至遇到AI無法生成的近景時，創作者Rootport也直接擺爛，「這個手部特寫實在沒辦法了」。

從去年年底到現在，AI生成技術在可控性和一致性上也有了長足的進步。

左邊為人工手繪；右邊為AI實時生成

一些漫畫師表示，由於模型的解析度提高了，手部細節已經可以通過微調生成，比起當時輪廓和大致框架都不正確，已經是一個質的飛躍。

「腦玩家mindplayer」也提到，使用同一套提示詞，目前SDXL和DALL·E 3的出圖質量都不錯。

「現在很多功能都被開發出來了。圖片能夠進行擴展微調，需要的時間成本起碼變低了。」三三補充說道。

令人驚訝的並不是AI自動生成漫畫，而是AI疊代速度之快，漫畫師們需要數十年磨練的筆觸技巧，AI在一年之內就可以達到，完成進化。

當然，目前AI生成圖像還存在一些缺陷，比如還沒有開源軟體能讓角色保持連續性，視覺上更容易生成大全景，分鏡刻畫困難，場景一致性問題等等。但無論是《怪醫黑傑克》AI續作的成功出版，或是不同玩家嘗試的AI輔助生成漫畫，都為文生圖的進化添上了濃墨重彩的一筆。

AI現階段能夠輔助我們做到什麼程度？或許每一部作品都是答案。

文末彩蛋：體驗網址：https://clipdrop.co/，裡面集成了Stability AI自己開發的應用，包括SDXL、SDXL Turbo，感興趣的玩家可以在線體驗。

SDXL需要較高的內存和顯存，如果電腦配置不是特別高的話，不用下載模型，Clipdrop線上也值得一玩。

1秒1張圖實時成畫，2023文生圖領域進化有多快？| 新榜出品

1年前vs現在，文生圖領域的極大改變

AI作畫達到出版水準，有多難？

對話微博AI幕後團隊：靠「已讀亂回」爆火後，「評論羅伯特」為什麼變聰明|新榜洞察

9.11和9.9哪個大？OpenAI剛官宣的GPT-4o mini竟然也翻車了|新榜

谷歌深夜放送：比肩GPT-4o的多模態助手、AI概述搜索結果、新視頻生成模型Veo

辛巴師徒蟬聯帶貨Top3，22位主播躋身10億GMV俱樂部|新榜出品

董宇輝新號首播，「丈母娘」們爆買1個億，4小時漲粉275萬 | 新榜出品

300位主播齊聚，快手搞了場老鐵味十足的跨年狂歡 | 新榜出品

百萬粉絲圍觀的視頻筆記，扛起小紅書流量紅利新風口？| 新榜出品

從章小蕙到小楊哥、董宇輝，我們到底需要什麼樣的主播？| 2023年終復盤

刷爆朋友圈的「聞神」1天漲粉360萬，抖音再「造神」普通人？| 新榜出品

「董宇輝小作文事件」大結局：392萬人在線、單場直播GMV破億元 | 新榜出品

從專業種草到效果轉化，知乎內容營銷新範式 | 新榜出品

好人董宇輝救了東方甄選 | 新榜出品

新媒體榜單發布：搜狐視頻11月視頻號影響力排行榜

對話中國AI繪畫著作權第一案當事人：AI生成內容如何維權？| 新榜出品

月銷破億，被嘲「美麗刑具」，光腿神器是怎樣煉成的？| 新榜出品

不拼才藝靠撒錢，這個網紅30天漲粉571萬 | 新榜出品

OpenAI COO：明年ChatGPT的推理能力會更強，目標惠及所有人 | 新榜出品

1秒1張圖實時成畫，2023文生圖領域進化有多快？| 新榜出品

一天超7場AI面試，這屆畢業生想進名企得跟AI談 | 新榜出品

用AI搞副業日賺近3萬，零工陷阱還是掘金秘訣？| 新榜出品

上線24小時吸金2000萬後被下架，狂飆中的短劇被按暫停鍵？| 新榜出品

重磅！Sam Altman攜核心團隊投奔微軟，OpenAI持續失控 | 新榜出品

AI圈大地震！Sam Altman被OpenAI開除，安全問題是核心分歧? | 新榜出品

完蛋！被GPTs包圍後，百萬年薪的提示詞工程師要下崗？| 新榜出品