作者 | 捲毛

編輯 | 松露

*頭圖來源於DALL·E 3，描述：一個由擬人化的秋天樹葉組成的民謠樂隊的2D動畫，每一片樹葉都演奏著傳統的藍草樂器，在鄉村森林的背景中，點綴著豐收之月的柔光。

全自動畫圖神器來了！ChatGPT現在能直接出圖了。

只需要告訴ChatGPT你想要一張什麼圖，ChatGPT就能直接幫你寫好完整的描述詞，給到DALL·E 3生成圖片。像這張混合星雲爆炸的扣籃創意圖，換成以往的AI繪圖產品，一般都需要費力編寫大段的「咒語」才能實現。

「一幅表現籃球運動員扣籃的油畫，描繪的是星雲的爆炸」，圖源DALL·E 3

DALL·E 3是OpenAI最近推出的新版AI繪圖模型，原生構建在ChatGPT之上，進一步降低了AI繪畫門檻，用戶可以在對話中將自己的想法轉化成準確的圖像，甚至還能畫出正確的文字。

用戶問ChatGPT「我5歲的孩子說的超級向日葵刺蝟，它應該長什麼樣子」，ChatGPT立馬寫了四段不同風格的提示詞

「這幅插畫描繪了一顆由半透明玻璃製成的人心，矗立在驚濤駭浪中的基座上。陽光穿透雲層，照亮了心臟，揭示了其中的小宇宙」

目前只有一小部分ChatGPT Plus用戶獲得了內測資格。不過很快，與OpenAI深度合作的微軟便將DALL·E 3集成在瀏覽器Bing中，可供所有Bing Chat和Bing Image Creator用戶免費使用。由於來嘗鮮的用戶太多，Bing最近流量激增，報道稱微軟又緊急增加了數千台伺服器上線。

有了ChatGPT支持的DALL·E 3真的像介紹的這麼厲害嗎？和Midjourney等其他AI繪畫產品又有什麼區別呢？「頭號AI玩家」在Bing上對DALL·E 3進行了一番測評。

p.s. 想要體驗的玩家可以訪問以下兩個入口，登錄微軟帳戶即可使用，目前Bing Image Create每天有25次免費的快速生成額度，用完之後生成圖片需要更長的時間。

Bing Image Create網址：https://cn.bing.com/create

Bing Chat網址：https://www.microsoft.com/zh-cn/edge/launch/bing-chat-3p?form=MY02CJ&OCID=MY02CJ&q

文章插圖

內容創作者為了減少購買版權素材的成本，或者快速找到符合需求的圖片，可能會試著用AI生成配圖。

我們先用簡短的提示詞試試，輸入「畫一個招聘市場」，DALL·E 3默認生成了四張1024*1024解析度的圖片，內容相似，都是拿著放大鏡觀察市場數據。

我們可以給出更詳細的要求，比如「畫一個現實里的招聘市場，人來人往，非常熱鬧」。不過DALL·E 3理解錯了現實里的意思，變成了插畫風格，並寫上了文字「Real Job Market」，部分圖片的文字還出現了錯誤。

作為甲方，我們再次提出了修改意見——「人頭攢動的招聘市場，寫實攝影，不含文字，橫屏」。可惜的是，DALL·E 3給出的圖比較抽象，虛實結合，還是出現了文字。

相比之下，同樣的提示詞，Midjourney的理解就比較準確了，滿屏都是求職者。

換一個簡單點的描述看看，「兩個中國人在面試中」，這下DALL·E 3的表現基本不錯，只是交叉的手指都沒處理好。

而Midjourney與DALL·E 3的理解不同，認為是兩個人在面對面對談，四張圖的人物、環境、風格差異都比較大，細節上比DALL·E 3更真實一些。

Two Chinese people during the interview --ar 16:9 --v 5.2

DALL·E 3的特色在於能夠在對話中生成圖像，除了給出明確的提示詞，我們還可以試著直接輸入一段文字，要求生成符合文意的配圖。

這段話討論了非技術人員怎麼跟上AI浪潮，語義複雜，並沒有描述具體的人或事物，DALL·E 3的結果令人驚喜，有一座富有科技感的未來城市和工作在其中的人們，也有許多人圍繞著智慧大腦的脈絡進行工作，從不同角度切中了文意。

我們試著在其中一張原圖的基礎上繼續加入文字「AI」，但是DALL·E 3重新生成了四張跟原圖無關的圖片，似乎不能直接修改已生成的圖片，比如調整一些細節。

LOGO設計

既然有了ChaGPT支持，我們不妨讓DALL·E 3幫我們完善想法，自動生成詳細提示，定製一張個性化的LOGO。

一開始Bing認為「頭號AI玩家」與人工智慧和遊戲有關，所以設計的LOGO主體是一個機器人拿著遊戲手柄。在補充了帳號信息和主色調後，Bing以人工智慧頭像和數字1為主要元素重新設計了四張圖。

第三張感覺更簡潔一些，我們繼續溝通修改。

可以看到，Bing能比較好地理解需求，但生成的文字有時不太準確，需要再後期修改。對比Midjourney，我們無法實現這樣來回的溝通，只能自己琢磨提示詞，並且很難生成AIGC這麼多文字，Midjourney的優勢在於生成的圖片質量比較高，設計感更強。

The logo named after AIGC PLAYER, Purple, simple, technological sense, no complicated lines --v 5.2

產品圖/營銷圖

在廣告營銷、電商領域，AI商品圖的應用越來越多，那麼DALL·E 3能生成可用的素材圖嗎？

我們先讓Bing生成一隻中式風格的、適合秋冬使用的手提包，看來它理解的中式是喜慶、刺繡、流蘇。

換成傳統與現代結合的新中式風格呢？果然變成了黑色、金色為主的皮質包包，不過還是保留了複雜的刺繡圖案。即使要求裝飾簡約一點，Bing理解的中式風格依舊離不開刺繡。

而Midjourney生成的顯然更素雅一些，背景也更簡潔。

如果想換個背景和場景，比如秀場上，一個優雅的女模特拿著這隻包，那Bing暫時還做不到，會像前文一樣重新根據描述生圖。

最近推特上還流行一種DALL·E 3的玩法，用來生成一些排列整體的Knolling攝影照片，如下圖所示，一個主體周圍有許多相關物品環繞，放置在乾淨的背景上。

X@chaseleantj

想生成類似的圖片卻不知道怎麼寫提示詞，沒關係，直接問Bing就行了。

創意梗圖

AI降低了創作的門檻，可以幫助我們把腦中的奇思妙想畫出來，其隨機性也擴寬了想像力的邊界。因而，創意梗圖一直是AI繪圖領域的熱門類型。

我們來開開腦洞，讓Bing畫一隻巨大的貓咪爬在東方明珠電視塔上。

只有左下的一張比較符合要求，其他東方明珠塔的數量和造型都有些錯誤，而且貓咪看起來像是動畫建模，不太真實。

Midjourney雖然畫出了真實的貓，但地點不在東方明珠塔，大小比例也不對。

A giant cat climbing on the Oriental Pearl TV Tower --v 5.2

下面我們再畫一張最近的熱門IP表情包，「Loopy正在上班」。

起初Bing不認識Loopy，理解成了古怪的、瘋狂的意思。我們告訴Bing它來自韓國動畫片《小企鵝Pororo》之後，Bing表示明白了，卻把正在工作的主角換成了企鵝。

看來DALL·E 3還缺乏對於最新流行的素材訓練。如果換成更經典的IP，那麼DALL·E 3和Midjourney都能準確表現，並且DALL·E 3還配上了文字「假裝上班，正在摸魚」。

A meme of Pikachu working at a computer --v 5.2

最近AI繪畫還流行一種模仿iPhone拍攝的恐怖照片風格，非常貼合萬聖節的氛圍，我們試試直接輸入這一大段的描述。

提示詞：「a picture being taken of a cryptid sighting of [your character] as he runs into the bushes. [your character] has gone completely insane. He turns his head and creepily looks into the camera as he makes his getaway. There's a thick fog, and the scene is dimly lit."

四張圖片基本都滿足要求，左上的皮卡丘有點怪可愛的。但是同樣的提示詞，Midjourney就不能完全理解，還是需要轉換成「咒語」。

故事書/漫畫

在OpenAI官方演示中，ChatGPT可以通過自然的對話生成一隻想像中的刺蝟，並逐步生成完整的故事情節、繪本和系列貼紙。所以畫故事書/漫畫的流程被大大縮短了，如果你有一個想法，可以讓AI先幫忙擴寫故事、描繪場景，然後根據自動生成的提示詞畫出完整作品。

以醜小鴨變天鵝的故事為例，我們要求Bing把這個過程以兒童繪本的形式畫出來。

Bing雖然一口氣生成了三個畫面，的確有醜小鴨和白天鵝，是兒童繪本的形式，但是前後缺乏邏輯關係，情節呈現不完整，可能還是需要自己按照一個個情節依次引導生成。

Bing還可以重新創作一個新的故事，比如它幫我設想了一個擁有超能力的超級英雄「洋蔥俠」，畫出了它和邪惡廚師的戰鬥畫面。真別說，故事梗概和畫面都挺符合我的想像的，你覺得怎麼樣呢？

小結

通過以上測評，可以看到DALL·E 3在搭載了ChatGPT後，可以完全用自然語言進行交流，在對話中繪圖創作，不用複雜的提示工程，簡短的提示詞就能生成不錯的圖片，對抽象需求的理解能力也比較強，支持中文。不過文生圖仍然是越詳細的描述，輸出越準確，這一點沒有變。

DALLE·3和Midiourney等其他AI繪圖產品相比，各有其優劣勢：

在使用體驗和交互上，DALLE·3的交互式繪圖比較直觀方便，降低了使用門檻，還能直接讀懂大段文字自動作圖。Midjourney目前主要在Discord平台上運行，需要在特定的頻道里輸入描述，不能文字交互。文心一言雖然也可以在網頁上通過對話繪圖，但缺少上下文理解，不能繼續調整，目前一次只能生成一張圖。

圖源文心一言

在生成圖片方面，DALL·E 3的優勢是能生成較為準確的文本，可能有錯誤，但其他AI繪畫產品目前直接文生圖得到的文字都難以辨認，需要藉助微調模型上傳參考文字再融合。DALL·E 3默認生成1024*1024的正方形圖片，適用範圍較窄，而Midiourney可自定義多種尺寸，其他AI繪圖產品基本都支持不同比例。

對於寫實風格的圖片，DALL·E 3生成的人臉和手看起來可能失真，而Midiourney目前V5.2版本已經非常逼真了，Stable Diffusion也有超寫實的人像模型。

另外，在Bing上要求修改圖片的時候，Bing是根據對話修改提示語再輸入DALL·E 3進行生成，而不是直接修改已生成的圖片，DALL·E 3暫時還不能像Midjourney一樣快速進行微調，包括擴圖、修改局部細節，更不用說Stable Diffusion複雜的參數調整了。所以作為專業創作者的生產力工具而言，DALL·E 3的實用性還不夠強。

在安全問題上，DALL·E 3的內容限制較為嚴格，拒絕生成涉及公眾人物、暴力、成人或仇恨內容的圖像，比如要求畫一張馬斯克在火星上的照片，Bing顯示無法創建。

根據OpenAI發布的DALL·E 3的22頁技術報告，ChatGPT會改寫提示，包括刪除公眾人物的名字、將人物與特定屬性聯繫起來，以及以通用方式書寫品牌。OpenAI還開發了圖像分類器來檢測圖像中的存疑內容並阻止模型繼續生成。

報告地址：https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf

同時，微軟表示，為了保證用戶通過Bing Image Creator創建的內容的安全性，已經在生成的圖片中內置了，符合C2PA規範的數字水印，包含圖片創立日期、出處等信息。人的肉眼無法看見這些水印，但AI能識別出來。

總之，OpenAI的DALL·E 3現在加上了理解文字和圖像的智慧大腦，我們可以把ChatGPT作為合作夥伴一起頭腦風暴進行創作，無論是出於娛樂愛好或者專業需求。AI繪畫模型正在不斷進化，根據不同的用戶需求和適用場景可以選擇不同的工具，DALL·E 3不會完全替代其他產品，但新的創作方式已經更進一步了。

體驗當甲方的快樂！用嘴指揮DALL·E 3設計LOGO、做梗圖、畫漫畫

文章插圖

LOGO設計

產品圖/營銷圖

創意梗圖

故事書/漫畫

對話微博AI幕後團隊：靠「已讀亂回」爆火後，「評論羅伯特」為什麼變聰明|新榜洞察

9.11和9.9哪個大？OpenAI剛官宣的GPT-4o mini竟然也翻車了|新榜

谷歌深夜放送：比肩GPT-4o的多模態助手、AI概述搜索結果、新視頻生成模型Veo

辛巴師徒蟬聯帶貨Top3，22位主播躋身10億GMV俱樂部|新榜出品

董宇輝新號首播，「丈母娘」們爆買1個億，4小時漲粉275萬 | 新榜出品

300位主播齊聚，快手搞了場老鐵味十足的跨年狂歡 | 新榜出品

百萬粉絲圍觀的視頻筆記，扛起小紅書流量紅利新風口？| 新榜出品

從章小蕙到小楊哥、董宇輝，我們到底需要什麼樣的主播？| 2023年終復盤

刷爆朋友圈的「聞神」1天漲粉360萬，抖音再「造神」普通人？| 新榜出品

「董宇輝小作文事件」大結局：392萬人在線、單場直播GMV破億元 | 新榜出品

從專業種草到效果轉化，知乎內容營銷新範式 | 新榜出品

好人董宇輝救了東方甄選 | 新榜出品

新媒體榜單發布：搜狐視頻11月視頻號影響力排行榜

對話中國AI繪畫著作權第一案當事人：AI生成內容如何維權？| 新榜出品

月銷破億，被嘲「美麗刑具」，光腿神器是怎樣煉成的？| 新榜出品

不拼才藝靠撒錢，這個網紅30天漲粉571萬 | 新榜出品

OpenAI COO：明年ChatGPT的推理能力會更強，目標惠及所有人 | 新榜出品

1秒1張圖實時成畫，2023文生圖領域進化有多快？| 新榜出品

一天超7場AI面試，這屆畢業生想進名企得跟AI談 | 新榜出品

用AI搞副業日賺近3萬，零工陷阱還是掘金秘訣？| 新榜出品

上線24小時吸金2000萬後被下架，狂飆中的短劇被按暫停鍵？| 新榜出品

重磅！Sam Altman攜核心團隊投奔微軟，OpenAI持續失控 | 新榜出品

AI圈大地震！Sam Altman被OpenAI開除，安全問題是核心分歧? | 新榜出品

完蛋！被GPTs包圍後，百萬年薪的提示詞工程師要下崗？| 新榜出品