【Ai時刻】Ai生圖原理，那些一眼心動的美女是如何騙你的？

作為一名自詡「賽博寫手」的無名小編，在完成每天的工作之餘，就是在各類Ai繪畫社群與某鳥上衝浪，最近一段時間ChatGPT的「Meme時刻」（就是常說的高光時刻）明顯已經過去了，與之伴隨的Ai整體熱度也開始下滑，沒有3月初期那種一刷信息流就全是Ai內容的「擁擠感」。

百度的Ai搜索指數

谷歌的Ai關鍵詞全球搜索指數（這越南有點東西啊）

其實這也是好事，任何獨特新鮮技術的「誕生時刻」都是惹人關注的，但想要真正有所建樹，還是需要時間的沉澱，哪怕是Ai技術的疊代是普通科技產品的指數級倍數。比如最近，谷歌的2023 IO開發者大會上，劍指微軟系（ChatGPT/Bing/copliot）的Palm2模型發布，不僅擁有與GPT4相抗衡的語言能力，同時還打了一套Ai組合拳來維繫谷歌科技龍頭的地位。

圖片源自網際網路

PaLM 2模型有四個版本，按照大小從小到大分別是Gecko、Otter、Bison和Unicorn。其中，輕量級的Gecko模型可以快速的在移動設備上運行，無需網絡連接。PaLM 2在超過100種語言的語料庫上進行訓練，因此它在處理多語言任務上表現優異，能理解、生成和翻譯更精細、多樣化的文本。在一些基準評估中，PaLM 2部分成績甚至超過了GPT-4。儘管PaLM 2的參數數量更少，但其性能卻優於上一代PaLM模型。

谷歌bard對話模型進步比較明顯，應該已經使用了PaLM 2模型

可見在短短的幾個月中，由算法、算力組織起來的Ai智慧樹已經從一棵小樹苗長成一棵碩果纍纍的巨樹，至於這棵樹會不會成為未來人類科技的「智慧之母」，還是要等待與辯證地看待。

Midjourney丨Ai繪畫

回歸到標題上，最近在C站發現了一個運行在stable diffusion上的新模型，名字叫做BRA(Beautiful Realistic Asians) V5直譯為美麗逼真的亞洲人，點擊查看其效果照片，非常驚艷，不少用戶展示出的作品都能達到照片級別，於是我就下載嘗試玩玩。

圖片源自網際網路

根據該模型的創作者介紹，該模型使用了大約 3 個月的訓練失敗以及訓練合併的結果。該作者是一位在新加坡的華人，會說一點點中文與日文。

使用Discord和該模型製作者交流一下使用心得

下面是我利用該模型配合一些特定的prompt產出的效果圖片，部分圖片由於原生精度與解析度不足，我利用NVIDIA推薦的ON1 Ai放大軟體進行了解析度擴展，大家可以來看看這些Ai產出的圖片是否很具有迷惑性。

stable diffusion丨BRA V5

部分prompt：8k, best quality, masterpiece, ultra highres_1.2) Photo of Pretty Japanese woman in the style of paul rubens and rebecca guay

stable diffusion丨BRA V5

部分prompt：A beautiful woman is setting up a stall in the street market,beautiful face,cinematic, Faint side light,fine details, 8k,

stable diffusion丨BRA V5

部分prompt：A lovely girl typing in front of the office computer, beautiful, lovely face, shot with Nikon Z7 full frame camera, 50mm lens,

stable diffusion丨BRA V5

部分prompt：girl at the bus stop on a rainy day, no umbrella, getting wet, cute face, short haircinematic，Faint side light,fine details

stable diffusion丨BRA V5

部分prompt：Cute girl at the beach, short hair, smile, sunset, with a bow, half body, film style，cinematic，Faint side light,fine details, 8k

stable diffusion丨BRA V5

部分prompt：girl in supermarket, young girl, bangs, cute face, 50mm, F1.2, shot by Nikon camera, faded film style,Faint side light,

stable diffusion丨BRA V5

部分prompt：Snowy girl with a scarf covering her nose, big eyes, eyelashes, black pupils, F1.2, shot by Nikon camera, faded film style

stable diffusion丨BRA V5

部分prompt：Urban girl, city neon as background, city night view from high above, neon flashing, with love, short hair, wearing glasses

是不是感到很驚艷，不僅僅是螢幕前的大家，就算訓練過千張Ai圖片的我，當看到光線、五官、表情與神態與照片幾乎無差別的Ai生圖時也是激動得不行，要知道就在20天前我們在做《NVIDIA顯卡Ai算力大比拼，想畫Ai女友該怎麼選？》時畫出的Ai女友也就僅僅長成這樣：

雖然也是非常美麗動人，但一眼就能覺得這是Ai出圖，在臉部與皮膚的生成上，Ai非常傾向給出非常完美的「光線效果」，讓皮膚的顏色、光感都處於絕佳狀態，眼睛與嘴唇的細節處理也偏向於極致，眼妝與口紅的色號也都是使用了「婚禮級別」，讓圖片中的女生雖然光彩動人，但是太過於「完美」，少了真實感。

但在BRA V5中，在生成人像時，Ai模型甚至會刻意避開臉部的細節光線，讓圖像中的臉部處於陰暗面或者側光面，同時在臉上加入了不少「瑕疵」，比如明顯的血管紋、痘痘、雀斑等來增加人像的真實感。

圖片中的女生甚至有抬頭紋，膚色也相對更偏向真實，另外人臉的骨骼結構也更偏向真人

在該張中，女生的眼袋與雀斑也是比較明顯，同時不會出現Ai經典的假笑

同樣的，臉部會出現一些血管紋、印記等瑕疵來烘托真實感

臉部會有明顯的高光與陰影區域，符合在真實光線與攝影環境中的出圖

這樣的照片也成功騙到了我的朋友們，雖然他們已經給我打上了「我發的女生99%都是Ai畫的」標籤，但依然這幾組成功唬到了不少人。

看來，在可預見的未來，喜歡好看妹妹的男生們不僅要防過度美顏大法還要警惕Ai美女的以假亂真，這也從側面反映了，當前的Ai生圖技術的強大，那麼目前流行的stable diffusion和midjourney的Ai繪圖軟體到底是怎麼理解文字，然後生成這樣的圖片的呢？

stable diffusion丨BRA V5

接下來就來為大家揭開Ai畫圖的奧秘，但其中會涉及大量的技術類名詞，為了更方便大家的理解，我會用大量的比喻來代替。

教學時刻

使用過stable diffusion和midjourney的小夥伴都應該清楚，Ai繪圖都一個從「模糊到清晰」的過程，不論是基於本地的stable diffusion還是基於線上高性能伺服器的midjourney。

這模糊到清晰的過程就是當前Ai繪畫的主流手段-Diffusion model（擴散模型），簡單點說，Ai繪畫會先把圖片進行「降維」然後訓練，這個降維的過程很像是大家平時使用的榨汁機，將一個蘋果放在榨汁機里去打碎了，變成蘋果泥，然後吃一口，記住蘋果泥的味道，從而知道這個味道的果泥就是蘋果。

Midjourney丨Ai繪畫

而Ai則是將圖片進行「嚼碎」（加噪點）來變成一組組的馬賽克圖片，這樣的用意是在有限的算力下儘可能地多學習幾組圖片，多生成幾組圖片。因為馬賽克的數據值是精確圖片的1/100甚至1/1000.

那現在知道了Ai是如何快速學習圖片的，那如何生成呢？還是拿蘋果泥舉例，在我們吃過了許多的果泥，比如蘋果的、西瓜的、哈密瓜的、香蕉的，我們即使蒙上眼睛，只需要通過一點點的果泥就能分辨這個水果，然後回答出來。

Midjourney丨Ai繪畫

Ai也是重複類似的過程，通過大量的圖片加噪點得到的馬賽克圖片，Ai也總結出了這個馬賽克是貓、那個馬賽克是狗之類的規則（具體邏輯比較深，不做贅述）。那就可以通過馬賽克來反向還原圖像，這一步就叫做Reverse diffusion 反向擴散。

那麼，Ai是如何理解我們的語言，並根據我們的想法畫出「我們想要的小姐姐」的呢？過程中需要將文本進行「分詞器Tokenizer」然後進行「clip」再進行「嵌入Embedding」，就可以讓機器學習、認識到了！謝謝大家！

好了，不鬧了。這些拗口且複雜的概念應該留給更加專業的小夥伴去學習，我們只需要知道，Ai（不管是繪圖的，還是GPT類型的）都是通過將文字「降維」的方式來理解並學習，有點像是上述提到的「蘋果泥」概念，Ai會將用戶輸入的文本拆分為更小的單元（詞或字符），然後將分詞後的文本轉換成數學向量，這樣模型才能更好地理解和處理。

Ai理解就是將文本碎片化、數字化丨Midjourney丨Ai繪畫

然後就要用到轉換器模型（Transformer Model）：這是一個能夠處理序列數據（如文本）的深度學習模型。它通過捕捉文本中的依賴關係和上下文信息，為生成圖像提供豐富的信息。類似於專業的語言學家來幫計算機處理文本的關係，比如用戶輸出「可愛的貓」，不至於出現「貓的愛可」這樣的計算機識別錯誤。

轉換器模型就是將成堆的拼圖碎片轉換成一張張完整的拼圖丨Midjourney丨Ai繪畫

理解完文本，就到了畫畫的過程了，就要用到噪聲畫畫這個概念，如同吃水果泥來辨別水果，噪聲預測器（Noise Predictor）：這一步利用轉換器模型提供的信息，逐漸生成圖像。通過疊代過程，噪聲預測器會從粗糙的圖像開始，逐步細化細節。這就是為啥我們看到的Ai畫圖都是從模糊到清晰的過程。也像是一個畫家根據一段描述開始創作，先繪製大致輪廓，然後不斷添加細節，直至完成一幅畫作。

也可以理解為慢慢地去雕刻一塊巨石丨Midjourney丨Ai繪畫

接下來，我利用stable diffusion給大家展示一個小姐姐的生成過程，

給Ai輸入小姐姐的關鍵詞（prompt)

輸入一定的特定咒語，比如什麼高級渲染，8K渲染，HDR渲染之類的，還有一定的反面詞，比如不要奇怪的手部，不要畸形之類的。

開始繪圖，得到結果

如果在這過程中，我們中斷一下模型的進度就可以得到類似於帶有噪點的圖片

從繪圖過程中，我們可以看到繪圖一開始的過程中，Ai就是先生成一個比較模糊的人物形象，一個大致的輪廓，然後逐漸地去填充，在繪圖進度46%的時候就可以初見人物的雛形，後續都是把人物的細節進行糾正修改。

stable diffusion丨BRA V5

這就是可以以假亂真的小姐姐的誕生過程了，感興趣的小夥伴可以嘗試用SD來畫自己喜歡的小姐姐形象，但是請注意的是，目前國內的部分內容平台已經開始針對Ai生圖進行了掃描識別並下架部分涉嫌違規的內容。目前Ai領域的規則還是處於空白階段，所以針對版權保護等行為還沒有徹底上線。

stable diffusion丨BRA V5

希望各位在利用Ai工具的同時也要敬畏技術帶來的衝擊，我很喜歡老黃在NVIDIA 2023大會上提到的「我們處於Ai的iPhone時刻」，正如iPhone徹底顛覆了手機市場一般，我們也需要辯證地看待Ai將會帶來的改變。

技術沒有黑白之分，是一把達摩克利斯之劍。

【Ai時刻】Ai生圖原理，那些一眼心動的美女是如何騙你的？

文章來源: https://twgreatdaily.com/zh-cn/88094f9e379532019069378933e5a65c.html

全新影馳RTX 4060/4060Ti系列顯卡正式發布

小水印，大作為，手機相機水印憑啥「玩出圈」？

三星量產12nm DDR5內存：功耗驟降23％、量產率提高 20%

小度進軍手機市場：5月22日正式發布旗下首款手機新品

【Ai時刻】當設計大佬遇上Ai：原來不管什麼領域都有專業的碾壓！

【Ai時刻】Ai生圖原理，那些一眼心動的美女是如何騙你的？

UFCS融合快充規範穩步推廣，統一快充協議未來可期？

創維電視×好好住：以「入畫好家」設計師定製案帶來家裝靈感庫

第七屆世界智能大會在天津隆重開幕，聚焦人工智慧新趨勢與全球領先科技成果

好長焦拍好人像，OPPO Reno10 系列首次搭載超光影潛望長焦

小米與聯發科聯合定義天璣8200-Ultra，打造影像特長芯

創維電視與仁豪家居達成戰略合作共同開啟家電家居一體化新征程

要問千元機中拍照誰強，這些手機申請出戰！

超神發揮，制霸賽場！雷克沙引爆PCGROUP潮品酷玩趴_遊戲硬體

ChatGPT之父出席聽證會，針對AI無序發展發出嚴重警告

「小摺疊終極形態」：摩托羅拉razr新機國行定檔6月1日

要問千元機中拍照誰強，這些手機申請出戰！

手機衛星通信要有中國標準！29家企業單位參與

谷歌計劃更新超50款應用，主要針對大屏設備UI進行優化

蘋果VR頭顯更多消息曝光：售價或高達3000美元，將於12月量產

視覺上的極樂凈土，這台手機讓你觀感得到新生

娛樂辦公兩不誤，顯示器助你暢享絲滑！

聯想商用產品放大招！昭陽煥新，大師旗艦，還要聯手阿斯頓馬丁?

ArKane真正的「恥辱」，《紅霞島》一周目體驗報告