AIGC名詞解釋:Diffusion 擴散模型

2023-10-05   新設技

原標題:AIGC名詞解釋:Diffusion 擴散模型

用設計師能理解的語言

來解釋AIGC中的技術名詞

AIGC 屬於跨學科的產物,涉及領域眾多,包括高等數學、統計學、計算機圖形圖像學、機器學習等各個領域。AIGC 設計軟體的介面上往往會涉及到許多這些領域的技術術語。要想搞清楚它們背後的知識體系需要展開的知識樹體量十分龐大繁雜。術業有專攻,我們無法全面俱到地在每一個領域都做到精通,但又需要了解到一定的程度,以便更好地使用 AIGC 的相關軟體。所以,我們將儘量以設計行業從業者能理解的語言來解釋那些經常遇到無法繞開的技術術語。

Diffusion 擴散模型

在講解 Diffusion 擴散模型之前,讓我們先回顧一下 GAN 生成對抗網,這將有助於我們更好地理解 Diffusion 擴散模型。在 GAN 的介紹中我們講過,它的主要架構思想是:通過生成器(Generato)與判別器(Discriminator)不斷對抗進行模型訓練。

這就好比贗品畫師 G 在和名畫鑑別師 D 之間進行的一場永無止境的道高一尺魔高一丈的競賽。G 不斷地提高自己的模仿能力,D 則不斷地提高自己的鑑別能力。以至於經過 D 專門「對抗訓練」出來的 G 的畫作在市場上得到了廣泛的認可。除了 G 和 D 自己以外,這世界上再無其他人能認得出 G 的畫作是假畫了,大家都以為 G 拿出來的畫是某某大師親手所做。

GANs 網絡中生成器(G)於判別器(D)的關係

在贗品畫師 G 看來,自己已經具備了大師級的細緻入微的筆觸模仿能力,既然自己有如此高超的模仿能力,應該改邪歸正,出品屬於自己畫風的畫作。可是此時他遇上了一個新問題,GAN 生成對抗網絡的算法有一個嚴重問題,由於程序互相對抗的標準是給定的樣本,因此生成的內容實質上只是對現有內容無限地逼近模仿,而模仿則意味著無法實現真正的藝術突破,即我們通常所說的「藝術創作」!

於是,Diffusion 擴散模型誕生了。從2022年初引起廣泛關注的 Disco Diffusion,再到 DALL-E 等都是基於 Diffusion 模型開發出來 AIGC 圖像創作程序,而拿到 1.1 億美元巨額融資的 Stable Diffusion 是最受歡迎的(實際上 Latent Diffusion 是 Diffusion 的改進版, 而 Stable Diffusion 則是 Latent Diffusion 的改進版)。

Diffusion 擴散模型是在 2015年時的 Deep Unsupervised Learning using Nonequilibrium Thermodynamics (論文:https://arxiv.org/abs/1503.03585)文章中提出的。但當時,這個擴散模型並沒有立刻得到廣泛的關注。目前所採用的擴散模型大都是 2020年6月時,來自於加州大學伯克利分校的一篇題為 DDPM 去噪擴散機率模型的論文( DDPM:Denoising Diffusion Probabilistic Models 去噪擴散機率模型的英文簡寫,論文:https://arxiv.org/abs/2006.11239)。DDPM在更加龐大的數據集上展現出了與當時最優秀的生成對抗網絡 GAN 模型相媲美的性能,這才讓世人真正地領略到了 Diffusion 擴散模型在 AIGC 內容創作領域所蘊藏的巨大潛力。於是Diffusion 擴散模型開始火爆了起來!

受非平衡熱力學(Non-equilibrium thermodynamics)的啟發,Diffusion 的意思就是如滴入一杯清水中的墨滴一樣,慢慢散開最終變成一片渾濁。如果這個過程可逆,那麼就可以創造一個由一片渾濁去探尋最初墨滴狀態的方法。於是 Diffusion Models 模型誕生了,它分為兩個部分:

Diffusion 模型分為兩個部分:前向過程、反向過程

  • 前向過程(Forward Diffusion Process)在圖片中添加噪聲,猶如墨滴逐漸擴散開來。這個過程用於訓練階段;

  • 反向過程(Reverse Diffusion Process)去除圖片中的噪聲,猶如一片渾濁的水逐漸逆轉,時間倒流回到一滴墨汁的狀態。這個過沖用於生成階段。

前向過程(Forward Diffusion Process)在圖片中添加噪聲,猶如墨滴逐漸擴散開來。這個過程用於訓練階段;

反向過程(Reverse Diffusion Process)去除圖片中的噪聲,猶如一片渾濁的水逐漸逆轉,時間倒流回到一滴墨汁的狀態。這個過沖用於生成階段。

Diffusion 擴散模型在前向過程時,對圖像逐步施加噪點,直至圖像變成完全的高斯噪聲圖。然後在反向過程中,從高斯噪聲逐漸還原為某一張圖像(記住,這裡是說某一張圖片,而不是之前那一張圖片,稍後我們再詳細解釋)。先看一下在這一正一反的兩個過程中,AI算法都乾了些什麼。具體過程如下:

  • 前向過程(圖中由右至左的過程)在原始圖像上逐步增加噪聲,每一步得到的圖像只和上一步的結果相關(|-1), 直至第 ( 趨向於∞)步的圖像 變為純高斯噪聲圖。這個過程主要是訓練過程,訓練 U-Net 網絡預測噪點的能力(我們之後會詳細講解 U-Net 網絡);
  • 而反向過程(圖中由左至右的過程)則是生成圖像的過程,圖像生成是靠不斷地去除噪點。首先給定一個全高斯噪點圖 ,通過訓練好的 U-Net 網絡估算的噪點逐步去噪,直至最終復現出圖像0 。

前向過程和反向過程最關鍵的地方就是訓練 U-Net 網絡,即訓練模型。當模型訓練完成後, 只要給定一張全噪點圖,就可以生成一張從未見過的新圖像。神奇吧~!

其實,這也是很多人納悶的地方,把一張圖加上噪點,再去掉噪點變回一張圖,這不是脫了褲子放屁,多此一舉嗎。其實,新生成的墨滴早已不再是原來那個墨滴了,雖然他們長得都很像,這就是 Diffusion 擴散模型的魅力所在。因為時間根本無法逆轉,反擴散過程即生成圖像的過程只是因為在正向擴撒過程中AI學會了一個技能,從而能用這個技能進行圖像的創作。這個技能就是,AI知道了從一張具體的有內涵的圖像怎樣逐漸地變成完全噪點圖的每一步中都發生了什麼。將一個有內涵有靈魂的內容一步一步地讓它變成一片虛無,或者說讓一個生命一步一步地走向死亡,最終塵歸塵土歸土,回歸到最初的狀態,AI從中窺探到了生與死之間並無本質的分別,只是形式進行了轉換,在生命中不斷地增加了一些東西而已,一旦這些東西增加到飽和狀態,物質就從生命模式轉換到了虛無模式。於是,它立即明白過來,將這個過程反過來也可以從一片虛無中創造出新的生命。雖然這個新的生命還有原來那個墨滴的影子,但早已不是原來那個墨滴。好了,如此寫意地解釋 Diffusion 擴散模型可能顯得不夠嚴謹。在接下來的章節中,我們將嚴謹地詳細講解 Diffusion 的具體過程,讓我們繼續。

常見的幾種生成模型有 GAN,Flow-based Model,VAE,Energy-Based Model 以及 Diffusion。Diffusion擴散模型和其它生成模型的區別是,它不是直接地從圖像到潛變量、再從潛變量到圖像的一步到位,它是一步一步地逐漸分解、逐漸去噪的過程。

Diffusion 模型與其他生成模型之間的架構區別

這也導致了 Diffusion 的缺點是在反向擴散過程中需要把完整尺寸的圖片輸入到 U-Net 網絡,這使得當圖片尺寸以及隨機時間步長 足夠大時,Diffusion 運行得將會非常緩慢,系統算力耗費巨大。於是為了解決這一問題 Stable Diffusion 應運而生了~。所以,在下一章節中,主角 Stable Diffusion 將正式登場,我們將重點介紹這個目前在所有 AIGC 圖像創作領域最頂尖的模型!同時,我們也將詳細地了解到 Diffusion 擴散模型具體是如何擴散和反向生成圖像的。

AIGC基礎知識

專業名詞解析

Stable Diffusion從入門到精通到實戰

專欄內容簡介

從AIGC的基礎概念介紹開始,以「喂飯級」的語言,逐一詳細介紹 Stable Diffusion WebUI 的各個參數與設置,配合詳細的圖文素材,並用大量實戰案例來解讀 Stable Diffusion 在目前各設計領域中的應用。

通過這個專欄,你會得到

AIGC的基礎概念、紮實的基礎知識;

AIGC圖像設計創作領域目前最重要的陣地——Stable Diffusion 的相關基礎知識、專業術語;

Stable Diffusion WebUI 軟體中每一個參數詳細功能介紹,原理,對應AI生圖的結果;

Stable Diffusion WebUI 的具體使用方法和技巧,各種模型介紹、周邊配套插件與軟體的使用方法和技巧;

Stable Diffusion WebUI 在實際設計產業中的應用、實戰解析;

Stable Diffusion 的提示詞庫、參數庫等;

購買全套課程的學員,享受半年免費 SD-WebUI(高性能GPU)線上使用權限,使用期限內無限出圖、高速出圖。

訂閱須知

《Stable Diffusion從入門到精通到實戰》為圖文/視頻專欄,不少於 20 期,每周五 21:00 點更新;

20 期更新結束後,專欄內容會根據 AIGC 領域的最新動態、Stable Diffusion 的不斷疊代而產生新內容,這些與時俱進的新內容無需額外付費;

添加一對一輔導員,及時收到通知更新內容,一對一解答疑難問題;

本專欄為虛擬內容服務,購買成功後不支持退款,請理解。

加輔導員微信諮詢

了解更詳細課程信息

一對一解答疑難問題

Stable Diffusion WebUI

從入門到精通再到實戰

完全喂飯級,細緻到每一個參數

「設計小白」都能看懂

有設計基礎的朋友更會得到啟發

抓住人工智慧工業革命帶來的新機遇

輔導員微信:cyxq2019

長按上方二維碼圖

在彈出菜單中選擇「打開對方的名片」

加輔導員微信,諮詢課程