用設計師能理解的語言
來解釋AIGC中的技術名詞
「AIGC 屬於跨學科的產物,涉及領域眾多,包括高等數學、統計學、計算機圖形圖像學、機器學習等各個領域。AIGC 設計軟體的介面上往往會涉及到許多這些領域的技術術語。要想搞清楚它們背後的知識體系需要展開的知識樹體量十分龐大繁雜。術業有專攻,我們無法全面俱到地在每一個領域都做到精通,但又需要了解到一定的程度,以便更好地使用 AIGC 的相關軟體。所以,我們將儘量以設計行業從業者能理解的語言來解釋那些經常遇到無法繞開的技術術語。
Latent Space 潛空間
Latent ,這個詞的語義是「隱藏」的意思。「Latent Space 潛在空間」也可以理解為「隱藏的空間」。Latent Space 這一概念是十分重要的,它在「深度學習」領域中處於核心地位,即它是用來學習數據的潛在特徵,以及學習如何簡化這些數據特徵的表達,以便發現某種規律模式,最終來識別、歸類、處理這些數據。所以我們放在所有的名詞解釋的第一個來進行講解。
如圖1所示,想像許多張卡片,每張卡片上以手寫的方式書寫著從0至9中的一個數字,這些卡片構成了一個數據集。相同數字的卡片容易被辨認出來(比如含有手寫數字3的卡片),與其他數字的卡片看起來是有區別的(比如含有手寫數字3的卡片和數字7的卡片之間的區別)。思考一個問題,我們能否訓練一種算法來讓計算機把同一種手寫數字的卡片歸類到一起,怎樣做到?
圖1:image Source: hackernoon.com
如果您最終訓練出了這個算法,那麼首先意味著你訓練出來了一個模型能夠識別卡片上不同手寫數字之間特徵的相似性,以便進行歸類。
通常,我們把一組數據進行壓縮,以便進行深度學習。壓縮既為了節約算力資源,但更重要的是為了對數據進行高度概括以便找出某種規律特徵。如圖2所示,我們把一個19位的數據集,壓縮成9位的數據集,用形象化的圖像方式表示。其中空白的四個點位被去除。臨近相同的點位被合併,並標註出總共有幾個臨近相同的點位被合併。這樣19個點位就壓縮成了9個點位。
圖2:Source: Faust 2013
當然,這只是一個簡易的舉例,很明顯僅一張512*512像素RGB圖片中的數據集(512*512*3)都要遠比這19個點位的數據量大很多。但無論多少最終都會以上文中提到的邏輯來壓縮。就好比我們用500字來高度概括一篇萬字的文章,寫出文章的核心意思以及概要一樣。
如圖3所示,紅綠藍色(代表一張RGB真彩圖像)的數據集代表大自然中可以直接觀測到的一張圖片數據,在本例中可以理解為一張手寫數字卡片的所有像素點陣數據集。通過編碼器(淺灰色方塊代表)進行壓縮,最終高度概括為中間的潛空間數據集(深灰色方塊代表)。這一數據集所在的數據維度,用形象的詞彙描述為 Latent Space 潛在空間 或 潛空間。順便說一下,這個淺灰色的編碼器和之後用於解壓的解碼器在深度學習領域就是變分自動編碼器( Variational AutoEncoder,簡稱VAE ,之後會介紹)。
圖3:Source: Faust 2013
實際上ANN神經網絡(Artificial Neural Network人工神經網絡,之後會介紹)就是在這個潛空間中進行運算的(注意:而不是在直接從大自然中採集來的數據集,即像素空間中進行計算)。
你可能會意識到一個問題,如果按照某種規則壓縮數據集,比如之前提到的19位數據壓縮成9位,其間的空白數據會被丟掉,但是我們並沒有記錄這些空白數據所在的位置,也沒有記錄那些重複的數據各自所在的位置,日後解壓時,該如何100%復現壓縮前的原始狀態呢?
需要明確的是,我們在人工智慧領域所提到的潛空間的數據壓縮,指的是有損的壓縮,不可能直接通過這樣的壓縮編碼器在逆向解壓時重複使用為解碼器以期達到100%復原原始數據集。雖然理論上如果編碼器和解碼器足夠強大的話,是可以做到無損壓縮的(確切地說是無損編碼),但在人工智慧領域,這是完全沒有必要的,當然也必然地不需要。其實,人工智慧在這裡進行的不是解壓,而是一種通過不斷地訓練學習,學會根據潛空間中被壓縮的數據來儘量復原再現被壓縮前的原始狀態,只能說是儘量逼近而不是100%復原。也就是說,讓機器通過500字的中心思想和梗概去擴寫出一篇1萬字的文章出來,和原文章肯定不是字字句句都相同的,但看過的人一對比發現和原文章竟然大體上雷同。這個過程便是人工智慧的訓練學習的過程。我們經常說的大模型訓練就是這個意思,學習訓練出來的規律總和,就叫「模型」,雖然這個模型中具體的規律是什麼我們並不能清楚,無法解釋為若干具體的公式。
按照之前講到的神經網絡中所提及的內容,我們無法知道大腦中數以億計的神經元之間是用怎樣的計算公式導致了大腦能記住一隻貓,但通過訓練我們可以讓一個幼兒記住眼前的這個小動物就是一隻貓,這就是訓練的方式,對期望達到的結果進行訓練。再比如,針對本例中手寫數字卡片的識別訓練規律,就是一種十分有針對性的圖形分辨模型。用500字的中心思想和梗概擴寫出1萬字文章逼近於原文章的規律,就是另一個很有針對性的語言領域的模型,我們熟知的ChatGPT便是這樣的大模型。圖4中就展示出來了,這個辨認手寫數字卡片的大模型通過學習訓練所達到的各個階段的表現,可以看到它逐步逼近原始數據狀態的過程。
圖4:image Source: hackernoon.com
編碼與解碼配對互相校正的過程就是人工智慧學習的過程,這需要大量的訓練樣本來學習,幫助糾正編碼器與解碼器的認知偏差。如果放棄訓練過程,把編碼器中的規律直接告訴AI,讓它逆向執行,那就等於失去創造與探知未知領域的能力,失去了解決新問題的能力,也就失去了人工智慧的意義而變成了鸚鵡學舌的機器。如同人類不教育孩子自主尋求解決問題的方法,而只是讓孩子死記硬背前人總結的道理一樣。浩如煙海的知識不可能全部背下來,且未來還會產生新的領域和問題,如何去面對新問題找到合適的辦法呢?很明顯對於只知道死記硬背的孩子來說是沒有施展空間的,而對於開啟了主動尋找解決思路的孩子來說會更適合創新領域。當然,我們並沒有否定知識被存儲記憶下來的意義,我們否定的是過度偏重死記硬背而忽略了啟發創新思維。
AIGC基礎知識
專業名詞解析
及
Stable Diffusion從入門到精通到實戰
專欄內容簡介
從AIGC的基礎概念介紹開始,以「喂飯級」的語言,逐一詳細介紹 Stable Diffusion WebUI 的各個參數與設置,配合詳細的圖文素材,並用大量實戰案例來解讀 Stable Diffusion 在目前各設計領域中的應用。
通過這個專欄,你會得到
AIGC的基礎概念、紮實的基礎知識;
AIGC圖像設計創作領域目前最重要的陣地——Stable Diffusion 的相關基礎知識、專業術語;
Stable Diffusion WebUI 軟體中每一個參數詳細功能介紹,原理,對應AI生圖的結果;
Stable Diffusion WebUI 的具體使用方法和技巧,各種模型介紹、周邊配套插件與軟體的使用方法和技巧;
Stable Diffusion WebUI 在實際設計產業中的應用、實戰解析;
Stable Diffusion 的提示詞庫、參數庫等;
購買全套課程的學員,享受半年免費 SD-WebUI(高性能GPU)線上使用權限,使用期限內無限出圖、高速出圖。
訂閱須知
《Stable Diffusion從入門到精通到實戰》為圖文/視頻專欄,不少於 20 期,每周五 21:00 點更新;
20 期更新結束後,專欄內容會根據 AIGC 領域的最新動態、Stable Diffusion 的不斷疊代而產生新內容,這些與時俱進的新內容無需額外付費;
添加一對一輔導員,及時收到通知更新內容,一對一解答疑難問題;
本專欄為虛擬內容服務,購買成功後不支持退款,請理解。
加輔導員微信諮詢
了解更詳細課程信息
一對一解答疑難問題
Stable Diffusion WebUI
從入門到精通再到實戰
完全喂飯級,細緻到每一個參數
「設計小白」都能看懂
有設計基礎的朋友更會得到啟發
抓住人工智慧工業革命帶來的新機遇
輔導員微信:cyxq2019
長按上方二維碼圖
在彈出菜單中選擇「打開對方的名片」
加輔導員微信,諮詢課程