谷歌多模態大模型Gemini 1.0(雙子星)的發布,成功推動AI競賽往縱深發展,而多模態AI,成了兵家必爭之地。
01
「原生多模態」成Gemini核心價值
谷歌Gemini橫空出世,再次讓大家的目光聚焦在了多模態AI上。
Gemini起初就是以原生多模態的方式設計,從一開始就在不同模態上使用由谷歌設計的TPUs v4 和 v5e晶片接受預訓練,要具有處理不同形式數據(語言+聽力+視覺)的能力,一開始就在不同模態上進行預訓練,利用額外的多模態數據進行微調以提升有效性。
接著用更多額外的多模態數據對它進行不斷微調,以提升效能。這種方法使得Gemini在最初階段就能更自然地理解和推理各種類型的輸入內容在幾乎所有領域的能力都達到了前所未有的先進水平。
原生多模態是Gemini一大亮點
谷歌DeepMind執行長德米斯·哈薩比斯在接受媒體採訪時曾表示,「到目前為止,大多數模型都通過訓練單獨的模塊然後將它們拼接在一起來近似於多模態。」這似乎是在暗指OpenAI的技術,「對於某些任務來說這沒問題,但你無法在多模態空間中進行這種深層複雜的推理。」而Gemini處理不同形式數據的能力從一開始就是該項目願景的關鍵部分。
從Meta的SAM、OpenAI的GPT-4V到谷歌Gemini,AI大模型的多模態能力在過去數個月里實現了快速躍遷,多模態逐漸成為AI發展的重要方向和路徑。
02
生成式AI的下一站
模態(modal) 是事情經歷和發生的方式,我們生活在一個由多種模態 (Multimodal) 信息構成的世界,包括視覺信息、聽覺信息、文本信息、嗅覺信息等等,當研究的問題或者數據集包含多種這樣的模態信息時我們稱之為多模態問題,研究多模態問題是推動人工智慧更好的了解和認知我們周圍世界的關鍵。
多模態 AI 合併了許多數據模態,例如文本、照片、視頻和音頻,以提供對場景的更透徹的理解。多模式 AI 的目標是從多個來源編譯數據,以支持更準確和可信的決策。
如今,單模態數據在實際應用中存在局限性,需要採用多模態AI。舉個例子,一輛只有攝像頭系統的自動駕駛汽車很難在弱光下識別行人。如果加上雷射雷達、雷達和 GPS 就可以完美解決這些問題,可以為車輛提供更全面的周圍環境圖像,從而使駕駛更安全、更可靠。
多模態AI能夠幫助駕駛系統更準確地判斷周圍環境
為了更透徹地理解複雜事件,融合多種感官至關重要。文本、照片、視頻和音頻都可以使用多模態 AI 進行組合,以更全面地了解情況。多模態AI用於教育,通過結合評估、學習分析和社交互動等多種來源的信息,為學生量身定製學習體驗。
而文生視頻則成為多模態大模型下一步發展的重點,甚至被譽為「多模態AIGC的聖杯」。從視頻生視頻到文生視頻、圖生視頻,多模態的發展重視用更少的用戶輸入信息量實 現更豐富的AI生成結果。
自Runway推出Gen-1視頻生視頻工具後,AI處理視頻、圖 片功能在社交平台爆火,其背後即多模態大模型發展的表現之一,在眾多企業和創業者的推動下,當下多模態應用也出現了井噴的態勢。
03
多模態應用井噴
如果說谷歌Gemini離大家還有一些距離,那爆火出圈的Pika,以及三大圖片轉視頻神器——阿里的Animate Anyone、位元組跳動的Magic Animate、微軟的GAIA等多模態AI應用則多少讓人有些親近感。
作為對標Runway Gen-2的AI視頻生成平台Pika,成功攪動全球視頻產業鏈,用戶在對話框中輸入文字「馬斯克穿著太空服,3D動畫」,一個3D動畫版的「太空人」馬斯克就惟妙惟肖地出現在螢幕上,他身後噴著火焰的SpaceX火箭正騰空而起。
實現「文生視頻」的Pika迅速火爆全球
簡單、易用的文字-視頻轉換,讓每個人都能成為自己故事的導演,激發出每個人內心的創作熱情。而阿里的Animate Anyone和位元組跳動的Magic Animate同樣針對AI視頻應用,通過AI技術將靜態圖像變成動態視頻,極大降低了視頻內容創作門檻。
與此同時,多家科技公司在文生視頻領域取得新進展:Meta發布工具Emu Video,能夠基於文本和圖像輸入生成視頻剪輯;Runway在Gen2中上線Motion Brush動態筆刷功能,只需對著圖像任意位置一刷,就能讓靜止的一切物體動起來;Stable AI推出Stable Video Diffusion,可以從圖像中生成高品質的視頻剪輯。
開源證券表示,科技巨頭之間多模態大模型的競爭日益激烈,同時驅動著底層多模態大模型的能力不斷突破,疊加GPTs等AI應用形式的出現,AI應用有望迎來快速增長期。
04
算力成多模態發展「攔路虎」
以文生視頻為代表的多模態應用落地,究竟難在哪裡?從本質看,視頻是連續的多幀圖像,然而文生圖到文生視頻並非簡單的圖片組合,而文生視頻在文生圖的基礎上增加了時間維度,計算難度大、數據要求高、技術融合難度大等問題都成為多模態AI應用落地的阻礙,而真正的「攔路虎」則是算力。
多模態大模型的算力需求遠高於純文本模態。以Gemini為例,其強大的多模態能力背後,是龐大的算力需求。雖然沒有正式公布,但根據內部消息,Gemini有萬億參數,訓練所用的算力甚至達到GPT-4的五倍。
有別於傳統大模型對英偉達硬體及生態的依賴,Gemini訓練所需的算力基於谷歌自研的TPU v4和v5e等硬體。
在推出新模型的同時,谷歌順勢宣布推出迄今為止功能最強大、最高效、可擴展性最強的TPU系統Cloud TPU v5p,將用於開發更高層次的AI大模型。
谷歌一直有研發自己的TPU晶片
其TPU v5p的訓練性能是上一代TPU v4的2.8倍,內存帶寬提升3倍,晶片間互聯帶寬翻倍,達到4.8Tbps,同時,v5p單個POD中的晶片數量翻倍,達到8960顆。
顯然,想要在多模態AI時代拿到足夠的話語權,各大科技企業比拼算法的同時,更需要比拼算力資源,而這顯然是網際網路科技巨頭的優勢所在。從這個角度看,推動多模態AI落地,也是符合巨頭們利益的。
05
寫在最後:多模態,讓AI認識世界
「跨模態任務需求+跨模態數據融合 +對人類認知能力的模擬」是AI模型走向多模態必然性的三大因素,多模態AI能夠實現基於文本、語音、圖片、視頻等多模態數據的綜合處理應用,完成跨模態領域任務,這意味著搭載多模態AI的機器人能夠更「立體」地觀察和認知現實世界。目前阿里已在實驗將通義千問大模型應用到工業機器人。
未來5~10年,結合複雜多模態方案的大模型有望具備完備的與世界交互的能力,多模態GPT帶來泛化能力提升,讓機器人的通用性變高,屆時,AI將重新認識世界。