從AI寫真到AI擴圖,圖像應用更易出圈?

2023-10-20     鋅刻度

原標題:從AI寫真到AI擴圖,圖像應用更易出圈?

未來AI的發展方向是什麼?

撰文/ 黎炫岐

編輯/ 李覲麟

不久前人們還忙著在妙鴨相機排隊生成寫真,轉眼間又開始到美圖秀秀使用AI擴圖了。

早在7月,美圖秀秀官方微博就曾發文,稱「AI 擴圖」功能現已上線,美圖秀秀 App 和 Wink App 均可以立刻體驗 AI 擴圖功能。而最近,妙鴨逐漸淡出網際網路,AI擴圖卻接替了討論熱度。

而近日,快手自研文生圖大模型「可圖」(Kolors) 也開啟內測。

事實上,從ChatGPT火爆全網後,國內的AI相關應用也相繼出現在大眾視野,但從此前的妙鴨,再到如今的美圖秀秀,在C端出圈的多以圖片生成類應用為主。

美圖秀秀「截胡」妙鴨,快手在後?

「AI擴圖也太牛了,直接拯救旅遊廢片」

「我真的要報警了,AI擴圖出來的效果又搞笑又離譜」

「AI擴圖擴得不錯,下次不擴了」

……

最近在各大社交媒體平台,不難見到類似的美圖秀秀AI擴圖分享。

據官方介紹,該功能基於 AI 算法智能識別,可根據圖像的上下文和紋理,預測、生成缺失的部分,能夠為原始圖片帶來更大畫幅、更廣視角。

目前在美圖秀秀 App 首頁可找到入口,每人每天有 5 次免費體驗機會,可對圖像進行 150%、200%、250%、300% 四種不同比例的擴圖,系統預設比例為 125%。

鋅刻度留意到,在微博、小紅書等社交媒體平台,已有不少網友發布自己的AI擴圖圖片。小紅書上#AI擴圖#話題已有高達 2128.4 萬的瀏覽量,而抖音上同樣的話題則有超兩百萬次播放量。其中在小紅書上,最熱的一篇相關筆記「被AI擴圖嚇暈,AI你的審美別太好」點贊量達3.3萬。

不過,AI擴圖出圈也呈現出兩極評論,大部分需求為「調整構圖,完善背景」的圖片之所以出圈是因為效果不錯,但也有不少令人直呼「離譜」的圖片催化了AI擴圖出圈,其中包括擴圖時被補充了奇怪的衣服、增加了奇怪的肢體、出現了陌生的臉龐、懸浮在水中的頭顱等等。

請輸入圖說

部分出圈的AI擴圖照片

事實上,AI擴圖並不算新鮮事物。早在今年五月底,Adobe Photoshop 測試版上線了一個名為 「Generative Fill」的 AI 圖像合成工具;今年七月份,Midjourney 則更新了「平移擴圖」功能,可以將圖片自由前後平移,相較於之前推出的 「Zoom Out」功能里只能固定的「擴圖 1.5 倍」或「擴圖 2 倍」,顯得更加人性化。

但對於國內的大部分人而言,對AI擴圖的應用還是從美圖秀秀開始的。目前對AI擴圖的討論也主要聚焦於美圖秀秀。

值得一提的是,上一次引發對AI圖片應用討論熱潮的,還是可以生成個人寫真的妙鴨相機和生成芭比寫真的「45AI」。然而,幾個月過去,在社交媒體上,這兩款小程序的討論度已然下跌,取而代之的是或離譜、或嚇人或「真香」的AI擴圖。

如果說目前美圖秀秀憑藉AI擴圖順利「截胡」妙鴨,那不得不提醒一句,還有快手在後。

9月,快手在短視頻評論開始內測「快手AI玩評」,而據官方介紹,快手「AI玩評」依託於快手自研文生圖大模型「可圖」(Kolors)強大的圖像生成能力,用戶可以通過輸入各種創意文字,一鍵生成海量風格圖片,可以更輕鬆、便捷地在評論區進行趣味互動。

不過,目前在各大社交媒體平台關於「可圖」的討論還較少。

為何圖片生成類應用更易出圈?

回溯近幾年來,國內 AIGC真正意義上破圈的現象級產品似乎大多都誕生在圖片這條賽道。

「AI對話類的也玩過,但總覺得對話很傻,也並不如想像中有趣。但是像妙鴨、AI擴圖我都用過,確實會經常收到意料之外的圖片啊,不管是離譜的還是效果不錯的,在社交平台發出來的討論度都還不錯。」20歲的桃子常年刷社交平台,對一切新鮮事物都很好奇,但相較於ChatGPT這一類的對話式AI,她更樂於嘗試圖片類應用。

請輸入圖說

「圖像相關的應用軟體確實更容易被用戶接受和使用,因為在應用層面,人們對圖像ai功能的要求偏工具化,用戶對ai的預期是很明確的。」 祁隋是國內一科技企業的算法工程師,他告訴鋅刻度,圖片類應用更容易出圈還有技術方面的原因,「從全球來看,近10年的AI浪潮是從2012年的一場名為ImageNet的圖像識別比賽中萌芽,所以AI模型結構也更適合在圖像上應用,效果和效率都比文字更好,而在文字上的應用一直到2018年 Transformer結構被發明出來後,才算勉強勢均力敵,應用領域離C端也相對較遠,直到最近找到了生成式AI這個突破口,被大眾所熟知。」

而在中國,文字內容生成比圖像內容生成的難度也更大,「因為文本訓練需要大量高質量的數據,中文數據從質和量上肯定都比英文數據更有挑戰性。尤其是對話式AI是開放式的,任務也更為多元,對於數據質量和數量的需求更是躍升了一個量級。」 祁隋稱。

不過,在祁隋看來,未來AI的發展方向是圖像+文本的多模態大模型。「36氪」此前也曾提到,想要更接近通用人工智慧,提高 AI 對圖像、語音、視頻等多模態內容的理解不可或缺。相較於注重文本交互的單模態語言模型,多模態模型能將 AI 領域拓展至識別、檢測等更廣泛的領域。

那麼,下一個引發現象級關注的AI應用又會是什麼呢?

文章來源: https://twgreatdaily.com/708ca96cb53655447247b007bff0763a.html