AI語言大模型之後，AI圖像處理工具接連湧現

AI圖像處理工具，

眼見也不一定為實。

文 | 青崖白鹿

（VRPinea2023年5月22日訊）5月10日，Google I/O大會（谷歌年度開發者大會）正式召開，作為AI語言大模型熱潮後的第一次開發者大會，一直都被詬病沒有趕上AI發展大勢的谷歌。除了依例發布的Android 14公測版之外，一口氣推出了眾多搭載AI大模型的功能與應用，或者可以誇張一點，Google I/O大會上，除了AI還是AI。

Magic Editor是什麼，能做什麼

這場大會的開場，谷歌就放了大招——Magic Editor，這是一款結合語義理解和生成式AI的圖像處理工具。Magic Editor是Google打造多年的一款工具，早在2015年的Google I/O大會就曾介紹過該產品。據悉，谷歌將率先在Pixel上推出Magic Eraser，可使用AI驅動的計算攝影來消除不必要的干擾。今年晚些時候，Magic Editor將登陸Google Photo。

（2023 Google I/O大會Magic Editor介紹環節）

在現場演示環節中，谷歌分享了數個Magic Editor的實際應用範例。具體功能包括調整人物位置、調整天空顏色與狀態等，調整後的其他畫面將由AI根據圖片原信息進行生成和填充，以達到增加圖片整體構圖美感的效果。在一個範例中，谷歌展示了一張小孩坐在長凳上牽著氣球的照片，在使用Magic Editor進行美化後，AI將長凳、小孩和氣球截取了出來，並將其整體移動到了照片的中間位置，甚至同時還將背景的陰天變成了藍天。

（Magic Editor應用範例效果圖）

Magic Editor還遠遠稱不上完美，甚至存在一些肉眼可見的BUG，具體發布日期也沒有確定。但谷歌的最終目標還是非常明確的：用戶只需在螢幕上進行簡單的點擊和拖拽，就可以創造出完美的照片。換句話來說，谷歌試圖將Photoshop等剪輯軟體的高級編輯操作，統統打包整合進Magic Editor的簡單操作中。

Meta SAM是什麼，能做什麼

無獨有偶，今年4月初，Meta AI發布了Meta在CV（Computer Vision，計算機視覺）領域的最新項目，Segment Anything。該項目同時發布了大模型和數據集，大模型命名為Segment Anything Model（SAM），對應數據集為Segment Anything 1-Billion mask dataset（SA-1B）。其核心思想是開發出一個通用的分割模型，可以在用戶輸入的Prompts指導下分割一切。

（SAM的流程框架圖）

英偉達人工智慧科學家Jim Fan更是在其社交平台公開表示：「Meta的Segment Anything，我相信是計算機視覺領域的GPT-3時刻之一。它已經了解了物體的一般概念，即使對於未知對象、不熟悉的場景（例如水下圖像）和模稜兩可的情況也是如此。並且，模型和數據都是開源的。恕我直言，Segment Anything已經把所有事情都做對了。」

（Jim Fan社交平台截圖）

據相關學術報告研究，雖然SAM總體上表現良好，但並不完美。SAM分割模型與當前尖端的偽裝物體分割模型之間，依舊存在較大的差距。例如，在自然環境下，SAM模型不能很好地感知場景中的偽裝動物，在分割隱蔽動物方面存在一定問題。

實際上，除開以上兩者，類似的AI摳圖功能在iPhone上已經存在，去年的iOS更新後就可以直接使用，但是相較於谷歌的Magic Editor，iPhone的AI摳圖還停留在初級階段，並不會根據內容為用戶進行下一步的優化。三星的「Space Zoom」功能也能實現AI「增強」照片，北京智源更是和Meta前後腳發布類似產品，北京智源SegGPT。

Midjourney是什麼，能做什麼

在更廣義的範疇上去講，AI圖像處理工具屬於AIGC工具的一個子類。那麼，號稱AI繪畫天花板軟體的Midjourney（此處暫不討論Stable Diffution），自然應該有一席之地。Midjourney於2022年3月面世，只要輸入一些簡短的文字描述或相關提示詞，這款軟體就能通過AI算法生成相對應的圖片，在較短的耗時內將用戶的想像轉化為現實。有別於谷歌的Imagen和OpenAI的DALL.E，Midjourney是第一個快速生成AI製圖，並開放給大眾申請使用的平台。

（Midjourney生成圖片）

Midjourney前段時間推出了V5版本，更加強大的功能，讓它成為越來越多設計領域創作者的重要輔助工具，尤其是在遊戲行業，現在很多工作室都開始使用Midjourney直接生成原畫。當然了，Midjourney不僅可以作為輔助工具，它還能直接「平替」原畫師、設計師們的工作，近段時間以來，不少工作室都進行了相關崗位的裁員優化，對應的行業崗位招聘需求也有所縮減。

AIGC工具對於普通人意味著什麼

AIGC工具在技術領域的意義無疑是重大的，這裡就不做展開了。本文僅從普通人的視角出發，討論此類工具出現及普遍應用的意義。從正向的角度來看，此類工具降低了「修圖」「設計」等的專業性門檻，對於大眾來說，它們是可以讓照片變得更好的「神器」，是可以直接製造好看照片的「魔盒」。最簡單直白的應用場景就是，遊客照的「一鍵清屏」、抓拍瞬間的瑕疵修復以及好看壁紙的生成。

（AI圖像處理效果展示）

凡事都有兩面性，如果從消極的角度出發，AGC工具可能造成的後果就是，當假的越來越真，真的也會越來越假。相較於一般智慧型手機中內置的濾鏡而言，此類工具的「修改」能力完全稱得上究極進化版本。在AI的操作下，一張普通的照片可能在短短几秒之內發生翻天覆地的變化，讓人完全分不清孰真孰假。工具是沒有好壞屬性的，但使用工具的人有，將這樣功能強大的AIGC工具無限制地開源給所有人，可能導致的後果是誰也無法斷言的。

AI完全有能力成為生產力進步的推動者。針對普通從業者，藉助AI可以在工作流中進一步提高創造力和生產力，AI也可以通過賦能開發者和企業，幫助他們設計製造具有變革性的產品和服務。如此前微軟基於ChatGPT打造的Microsoft Copilot，就可以為用戶提供各方面的幫助，如一鍵生成工作郵件、一鍵撰寫提綱、一鍵生成文章、報告摘要、製作PPT等。

（微軟Microsoft Copilot宣傳圖）

在前些日子召開的第七屆世界智能大會上，百度CEO李彥宏發表了題為《大模型改變人工智慧》的演講，再次闡述他關於生成式人工智慧的思考：「對於人類來說，最大的危險，最大的不可持續，並不是創新帶來的不確定性。相反的，我們停止創新，不發明不創造不進步，按照慣性走下去，所帶來的各種各樣不可預知的風險，才是人類最大的威脅。」

（李彥宏第七屆世界智能大會演講畫面）

結語

過去的半年時間裡，由ChatGPT引發的AI熱潮，使生成式人工智慧受到了前所未有的關注。如今，AI語言大模型熱度依舊，AI圖像處理工具又開始湧現，尚且不知這一領域的「GPT」會花落誰家。但毋庸置疑的是，AI，真的「未來已來」了！

本文屬VRPinea原創稿件，轉載請洽：[email protected]

AI語言大模型之後，AI圖像處理工具接連湧現

一篇文章，讓你決定要不要購買蘋果Vision Pro

AR眼鏡的「iPhone」時刻？AI+AR的大蛋糕，誰能切下最大的一塊？

CES2024，消費電子的春晚，國產黑科技品牌成色如何？

2023年12月SteamVR活躍設備：Quest 3破繭成蝶，Quest 2跌落神壇

Vision Pro專題報道｜六合一精華版

Vision Pro專題報道｜XR陣營該如何邁出下一步

Vision Pro專題報道｜風口機遇篇

Vision Pro專題報道｜內容推演篇

Vision Pro專題報道｜交互邏輯分析篇

Vision Pro專題報道｜硬體分析篇

《博德之門 3》斬獲TGA 2023六項大獎，RPG遊戲VR化會是VR遊戲的新出路嗎？

平衡還是妥協？現階段「合理」的ARknovv A1

PICO裁員背後，做錯了哪些事？

Game Changer？超高端XR頭顯會是行業改變者嗎？

VR只是「中場休息」，不是「中道崩殂」

2023年的VR/AR設備都在哪些方面取得了進步？

這些功能，未來VR頭顯的殺手鐧？

一文詳知，2023年的VR市場到底怎麼了？

看完這篇，可別再搞不懂AR設備和VR設備的區別了

蘋果Vision Pro破局的關鍵會是虛擬社交嗎？

回顧：9月全球XR行業投融資信息匯總

對於真AR眼鏡而言，雷鳥X2邁出了關鍵性的一步

Unity收費哪李貴了？結果：公司CEO宣布辭職

一文速看，Meta Connect 2023上發布了哪些產品？（精編版）