【Ai時刻】Ai生圖原理,那些一眼心動的美女是如何騙你的?

2023-05-19     太平洋電腦網

原標題:【Ai時刻】Ai生圖原理,那些一眼心動的美女是如何騙你的?

作為一名自詡「賽博寫手」的無名小編,在完成每天的工作之餘,就是在各類Ai繪畫社群與某鳥上衝浪,最近一段時間ChatGPT的「Meme時刻」(就是常說的高光時刻)明顯已經過去了,與之伴隨的Ai整體熱度也開始下滑,沒有3月初期那種一刷信息流就全是Ai內容的「擁擠感」。

百度的Ai搜索指數

谷歌的Ai關鍵詞全球搜索指數(這越南有點東西啊)

其實這也是好事,任何獨特新鮮技術的「誕生時刻」都是惹人關注的,但想要真正有所建樹,還是需要時間的沉澱,哪怕是Ai技術的疊代是普通科技產品的指數級倍數。比如最近,谷歌的2023 IO開發者大會上,劍指微軟系(ChatGPT/Bing/copliot)的Palm2模型發布,不僅擁有與GPT4相抗衡的語言能力,同時還打了一套Ai組合拳來維繫谷歌科技龍頭的地位。

圖片源自網際網路

PaLM 2模型有四個版本,按照大小從小到大分別是Gecko、Otter、Bison和Unicorn。其中,輕量級的Gecko模型可以快速的在移動設備上運行,無需網絡連接。PaLM 2在超過100種語言的語料庫上進行訓練,因此它在處理多語言任務上表現優異,能理解、生成和翻譯更精細、多樣化的文本。在一些基準評估中,PaLM 2部分成績甚至超過了GPT-4。儘管PaLM 2的參數數量更少,但其性能卻優於上一代PaLM模型。

谷歌bard對話模型進步比較明顯,應該已經使用了PaLM 2模型

可見在短短的幾個月中,由算法、算力組織起來的Ai智慧樹已經從一棵小樹苗長成一棵碩果纍纍的巨樹,至於這棵樹會不會成為未來人類科技的「智慧之母」,還是要等待與辯證地看待。

Midjourney丨Ai繪畫

回歸到標題上,最近在C站發現了一個運行在stable diffusion上的新模型,名字叫做BRA(Beautiful Realistic Asians) V5直譯為美麗逼真的亞洲人,點擊查看其效果照片,非常驚艷,不少用戶展示出的作品都能達到照片級別,於是我就下載嘗試玩玩。

圖片源自網際網路

根據該模型的創作者介紹,該模型使用了大約 3 個月的訓練失敗以及訓練合併的結果。該作者是一位在新加坡的華人,會說一點點中文與日文。

使用Discord和該模型製作者交流一下使用心得

下面是我利用該模型配合一些特定的prompt產出的效果圖片,部分圖片由於原生精度與解析度不足,我利用NVIDIA推薦的ON1 Ai放大軟體進行了解析度擴展,大家可以來看看這些Ai產出的圖片是否很具有迷惑性。

stable diffusion丨BRA V5

部分prompt:8k, best quality, masterpiece, ultra highres_1.2) Photo of Pretty Japanese woman in the style of paul rubens and rebecca guay

stable diffusion丨BRA V5

stable diffusion丨BRA V5

stable diffusion丨BRA V5

stable diffusion丨BRA V5

部分prompt:A beautiful woman is setting up a stall in the street market,beautiful face,cinematic, Faint side light,fine details, 8k,

stable diffusion丨BRA V5

stable diffusion丨BRA V5

stable diffusion丨BRA V5

部分prompt:A lovely girl typing in front of the office computer, beautiful, lovely face, shot with Nikon Z7 full frame camera, 50mm lens,

stable diffusion丨BRA V5

stable diffusion丨BRA V5

部分prompt:girl at the bus stop on a rainy day, no umbrella, getting wet, cute face, short haircinematic,Faint side light,fine details

stable diffusion丨BRA V5

stable diffusion丨BRA V5

部分prompt:Cute girl at the beach, short hair, smile, sunset, with a bow, half body, film style,cinematic,Faint side light,fine details, 8k

stable diffusion丨BRA V5

stable diffusion丨BRA V5

部分prompt:girl in supermarket, young girl, bangs, cute face, 50mm, F1.2, shot by Nikon camera, faded film style,Faint side light,

stable diffusion丨BRA V5

stable diffusion丨BRA V5

stable diffusion丨BRA V5

部分prompt:Snowy girl with a scarf covering her nose, big eyes, eyelashes, black pupils, F1.2, shot by Nikon camera, faded film style

stable diffusion丨BRA V5

部分prompt:Urban girl, city neon as background, city night view from high above, neon flashing, with love, short hair, wearing glasses

是不是感到很驚艷,不僅僅是螢幕前的大家,就算訓練過千張Ai圖片的我,當看到光線、五官、表情與神態與照片幾乎無差別的Ai生圖時也是激動得不行,要知道就在20天前我們在做《NVIDIA顯卡Ai算力大比拼,想畫Ai女友該怎麼選?》時畫出的Ai女友也就僅僅長成這樣:

雖然也是非常美麗動人,但一眼就能覺得這是Ai出圖,在臉部與皮膚的生成上,Ai非常傾向給出非常完美的「光線效果」,讓皮膚的顏色、光感都處於絕佳狀態,眼睛與嘴唇的細節處理也偏向於極致,眼妝與口紅的色號也都是使用了「婚禮級別」,讓圖片中的女生雖然光彩動人,但是太過於「完美」,少了真實感。

但在BRA V5中,在生成人像時,Ai模型甚至會刻意避開臉部的細節光線,讓圖像中的臉部處於陰暗面或者側光面,同時在臉上加入了不少「瑕疵」,比如明顯的血管紋、痘痘、雀斑等來增加人像的真實感。

圖片中的女生甚至有抬頭紋,膚色也相對更偏向真實,另外人臉的骨骼結構也更偏向真人

在該張中,女生的眼袋與雀斑也是比較明顯,同時不會出現Ai經典的假笑

同樣的,臉部會出現一些血管紋、印記等瑕疵來烘托真實感

臉部會有明顯的高光與陰影區域,符合在真實光線與攝影環境中的出圖

這樣的照片也成功騙到了我的朋友們,雖然他們已經給我打上了「我發的女生99%都是Ai畫的」標籤,但依然這幾組成功唬到了不少人。

看來,在可預見的未來,喜歡好看妹妹的男生們不僅要防過度美顏大法還要警惕Ai美女的以假亂真,這也從側面反映了,當前的Ai生圖技術的強大,那麼目前流行的stable diffusion和midjourney的Ai繪圖軟體到底是怎麼理解文字,然後生成這樣的圖片的呢?

stable diffusion丨BRA V5

接下來就來為大家揭開Ai畫圖的奧秘,但其中會涉及大量的技術類名詞,為了更方便大家的理解,我會用大量的比喻來代替。

教學時刻

使用過stable diffusion和midjourney的小夥伴都應該清楚,Ai繪圖都一個從「模糊到清晰」的過程,不論是基於本地的stable diffusion還是基於線上高性能伺服器的midjourney。

這模糊到清晰的過程就是當前Ai繪畫的主流手段-Diffusion model(擴散模型),簡單點說,Ai繪畫會先把圖片進行「降維」然後訓練,這個降維的過程很像是大家平時使用的榨汁機,將一個蘋果放在榨汁機里去打碎了,變成蘋果泥,然後吃一口,記住蘋果泥的味道,從而知道這個味道的果泥就是蘋果。

Midjourney丨Ai繪畫

而Ai則是將圖片進行「嚼碎」(加噪點)來變成一組組的馬賽克圖片,這樣的用意是在有限的算力下儘可能地多學習幾組圖片,多生成幾組圖片。因為馬賽克的數據值是精確圖片的1/100甚至1/1000.

那現在知道了Ai是如何快速學習圖片的,那如何生成呢?還是拿蘋果泥舉例,在我們吃過了許多的果泥,比如蘋果的、西瓜的、哈密瓜的、香蕉的,我們即使蒙上眼睛,只需要通過一點點的果泥就能分辨這個水果,然後回答出來。

Midjourney丨Ai繪畫

Ai也是重複類似的過程,通過大量的圖片加噪點得到的馬賽克圖片,Ai也總結出了這個馬賽克是貓、那個馬賽克是狗之類的規則(具體邏輯比較深,不做贅述)。那就可以通過馬賽克來反向還原圖像,這一步就叫做Reverse diffusion 反向擴散。

那麼,Ai是如何理解我們的語言,並根據我們的想法畫出「我們想要的小姐姐」的呢?過程中需要將文本進行「分詞器Tokenizer」然後進行「clip」再進行「嵌入Embedding」,就可以讓機器學習、認識到了!謝謝大家!

好了,不鬧了。這些拗口且複雜的概念應該留給更加專業的小夥伴去學習,我們只需要知道,Ai(不管是繪圖的,還是GPT類型的)都是通過將文字「降維」的方式來理解並學習,有點像是上述提到的「蘋果泥」概念,Ai會將用戶輸入的文本拆分為更小的單元(詞或字符),然後將分詞後的文本轉換成數學向量,這樣模型才能更好地理解和處理。

Ai理解就是將文本碎片化、數字化丨Midjourney丨Ai繪畫

然後就要用到轉換器模型(Transformer Model):這是一個能夠處理序列數據(如文本)的深度學習模型。它通過捕捉文本中的依賴關係和上下文信息,為生成圖像提供豐富的信息。類似於專業的語言學家來幫計算機處理文本的關係,比如用戶輸出「可愛的貓」,不至於出現「貓的愛可」這樣的計算機識別錯誤。

轉換器模型就是將成堆的拼圖碎片轉換成一張張完整的拼圖丨Midjourney丨Ai繪畫

理解完文本,就到了畫畫的過程了,就要用到噪聲畫畫這個概念,如同吃水果泥來辨別水果,噪聲預測器(Noise Predictor):這一步利用轉換器模型提供的信息,逐漸生成圖像。通過疊代過程,噪聲預測器會從粗糙的圖像開始,逐步細化細節。這就是為啥我們看到的Ai畫圖都是從模糊到清晰的過程。也像是一個畫家根據一段描述開始創作,先繪製大致輪廓,然後不斷添加細節,直至完成一幅畫作。

也可以理解為慢慢地去雕刻一塊巨石丨Midjourney丨Ai繪畫

接下來,我利用stable diffusion給大家展示一個小姐姐的生成過程,

給Ai輸入小姐姐的關鍵詞(prompt)

輸入一定的特定咒語,比如什麼高級渲染,8K渲染,HDR渲染之類的,還有一定的反面詞,比如不要奇怪的手部,不要畸形之類的。

開始繪圖,得到結果

如果在這過程中,我們中斷一下模型的進度就可以得到類似於帶有噪點的圖片

從繪圖過程中,我們可以看到繪圖一開始的過程中,Ai就是先生成一個比較模糊的人物形象,一個大致的輪廓,然後逐漸地去填充,在繪圖進度46%的時候就可以初見人物的雛形,後續都是把人物的細節進行糾正修改。

stable diffusion丨BRA V5

這就是可以以假亂真的小姐姐的誕生過程了,感興趣的小夥伴可以嘗試用SD來畫自己喜歡的小姐姐形象,但是請注意的是,目前國內的部分內容平台已經開始針對Ai生圖進行了掃描識別並下架部分涉嫌違規的內容。目前Ai領域的規則還是處於空白階段,所以針對版權保護等行為還沒有徹底上線。

stable diffusion丨BRA V5

希望各位在利用Ai工具的同時也要敬畏技術帶來的衝擊,我很喜歡老黃在NVIDIA 2023大會上提到的「我們處於Ai的iPhone時刻」,正如iPhone徹底顛覆了手機市場一般,我們也需要辯證地看待Ai將會帶來的改變。

技術沒有黑白之分,是一把達摩克利斯之劍。

文章來源: https://twgreatdaily.com/zh-cn/88094f9e379532019069378933e5a65c.html