AI語言大模型之後,AI圖像處理工具接連湧現

2023-05-22     VRPinea

原標題:AI語言大模型之後,AI圖像處理工具接連湧現

AI圖像處理工具,

眼見也不一定為實。

文 | 青崖白鹿

(VRPinea2023年5月22日訊)5月10日,Google I/O大會(谷歌年度開發者大會)正式召開,作為AI語言大模型熱潮後的第一次開發者大會,一直都被詬病沒有趕上AI發展大勢的谷歌。除了依例發布的Android 14公測版之外,一口氣推出了眾多搭載AI大模型的功能與應用,或者可以誇張一點,Google I/O大會上,除了AI還是AI。

Magic Editor是什麼,能做什麼

這場大會的開場,谷歌就放了大招——Magic Editor,這是一款結合語義理解和生成式AI的圖像處理工具。Magic Editor是Google打造多年的一款工具,早在2015年的Google I/O大會就曾介紹過該產品。據悉,谷歌將率先在Pixel上推出Magic Eraser,可使用AI驅動的計算攝影來消除不必要的干擾。今年晚些時候,Magic Editor將登陸Google Photo。

(2023 Google I/O大會Magic Editor介紹環節)

在現場演示環節中,谷歌分享了數個Magic Editor的實際應用範例。具體功能包括調整人物位置、調整天空顏色與狀態等,調整後的其他畫面將由AI根據圖片原信息進行生成和填充,以達到增加圖片整體構圖美感的效果。在一個範例中,谷歌展示了一張小孩坐在長凳上牽著氣球的照片,在使用Magic Editor進行美化後,AI將長凳、小孩和氣球截取了出來,並將其整體移動到了照片的中間位置,甚至同時還將背景的陰天變成了藍天。

(Magic Editor應用範例效果圖)

Magic Editor還遠遠稱不上完美,甚至存在一些肉眼可見的BUG,具體發布日期也沒有確定。但谷歌的最終目標還是非常明確的:用戶只需在螢幕上進行簡單的點擊和拖拽,就可以創造出完美的照片。換句話來說,谷歌試圖將Photoshop等剪輯軟體的高級編輯操作,統統打包整合進Magic Editor的簡單操作中。

Meta SAM是什麼,能做什麼

無獨有偶,今年4月初,Meta AI發布了Meta在CV(Computer Vision,計算機視覺)領域的最新項目,Segment Anything。該項目同時發布了大模型和數據集,大模型命名為Segment Anything Model(SAM),對應數據集為Segment Anything 1-Billion mask dataset(SA-1B)。其核心思想是開發出一個通用的分割模型,可以在用戶輸入的Prompts指導下分割一切。

(SAM的流程框架圖)

英偉達人工智慧科學家Jim Fan更是在其社交平台公開表示:「Meta的Segment Anything,我相信是計算機視覺領域的GPT-3時刻之一。它已經了解了物體的一般概念,即使對於未知對象、不熟悉的場景(例如水下圖像)和模稜兩可的情況也是如此。並且,模型和數據都是開源的。恕我直言,Segment Anything已經把所有事情都做對了。

(Jim Fan社交平台截圖)

據相關學術報告研究,雖然SAM總體上表現良好,但並不完美。SAM分割模型與當前尖端的偽裝物體分割模型之間,依舊存在較大的差距。例如,在自然環境下,SAM模型不能很好地感知場景中的偽裝動物,在分割隱蔽動物方面存在一定問題。

實際上,除開以上兩者,類似的AI摳圖功能在iPhone上已經存在,去年的iOS更新後就可以直接使用,但是相較於谷歌的Magic Editor,iPhone的AI摳圖還停留在初級階段,並不會根據內容為用戶進行下一步的優化。三星的「Space Zoom」功能也能實現AI「增強」照片,北京智源更是和Meta前後腳發布類似產品,北京智源SegGPT

Midjourney是什麼,能做什麼

在更廣義的範疇上去講,AI圖像處理工具屬於AIGC工具的一個子類。那麼,號稱AI繪畫天花板軟體的Midjourney(此處暫不討論Stable Diffution),自然應該有一席之地。Midjourney於2022年3月面世,只要輸入一些簡短的文字描述或相關提示詞,這款軟體就能通過AI算法生成相對應的圖片,在較短的耗時內將用戶的想像轉化為現實。有別於谷歌的Imagen和OpenAI的DALL.E,Midjourney是第一個快速生成AI製圖,並開放給大眾申請使用的平台。

(Midjourney生成圖片)

Midjourney前段時間推出了V5版本,更加強大的功能,讓它成為越來越多設計領域創作者的重要輔助工具,尤其是在遊戲行業,現在很多工作室都開始使用Midjourney直接生成原畫。當然了,Midjourney不僅可以作為輔助工具,它還能直接「平替」原畫師、設計師們的工作,近段時間以來,不少工作室都進行了相關崗位的裁員優化,對應的行業崗位招聘需求也有所縮減

AIGC工具對於普通人意味著什麼

AIGC工具在技術領域的意義無疑是重大的,這裡就不做展開了。本文僅從普通人的視角出發,討論此類工具出現及普遍應用的意義。從正向的角度來看,此類工具降低了「修圖」「設計」等的專業性門檻,對於大眾來說,它們是可以讓照片變得更好的「神器」,是可以直接製造好看照片的「魔盒」。最簡單直白的應用場景就是,遊客照的「一鍵清屏」、抓拍瞬間的瑕疵修復以及好看壁紙的生成。

(AI圖像處理效果展示)

凡事都有兩面性,如果從消極的角度出發,AGC工具可能造成的後果就是,當假的越來越真,真的也會越來越假。相較於一般智慧型手機中內置的濾鏡而言,此類工具的「修改」能力完全稱得上究極進化版本。在AI的操作下,一張普通的照片可能在短短几秒之內發生翻天覆地的變化,讓人完全分不清孰真孰假。工具是沒有好壞屬性的,但使用工具的人有,將這樣功能強大的AIGC工具無限制地開源給所有人,可能導致的後果是誰也無法斷言的。

AI完全有能力成為生產力進步的推動者。針對普通從業者,藉助AI可以在工作流中進一步提高創造力和生產力,AI也可以通過賦能開發者和企業,幫助他們設計製造具有變革性的產品和服務。如此前微軟基於ChatGPT打造的Microsoft Copilot,就可以為用戶提供各方面的幫助,如一鍵生成工作郵件、一鍵撰寫提綱、一鍵生成文章、報告摘要、製作PPT等。

(微軟Microsoft Copilot宣傳圖)

在前些日子召開的第七屆世界智能大會上,百度CEO李彥宏發表了題為《大模型改變人工智慧》的演講,再次闡述他關於生成式人工智慧的思考:「對於人類來說,最大的危險,最大的不可持續,並不是創新帶來的不確定性。相反的,我們停止創新,不發明不創造不進步,按照慣性走下去,所帶來的各種各樣不可預知的風險,才是人類最大的威脅。

(李彥宏第七屆世界智能大會演講畫面)

結語

過去的半年時間裡,由ChatGPT引發的AI熱潮,使生成式人工智慧受到了前所未有的關注。如今,AI語言大模型熱度依舊,AI圖像處理工具又開始湧現,尚且不知這一領域的「GPT」會花落誰家。但毋庸置疑的是,AI,真的「未來已來」了!

本文屬VRPinea原創稿件,轉載請洽:[email protected]

文章來源: https://twgreatdaily.com/zh/665e08163f8b8bee5bd3cda8049edeb3.html