谷歌深夜放送：比肩GPT-4o的多模態助手、AI概述搜索結果、新視頻生成模型Veo

2024-05-15 新榜

面對OpenAI的貼臉開大，谷歌選擇原地回擊。

今天凌晨1點（北京時間），谷歌在2024年I/O大會上放出大招——

更強的多模態Agent助手Astra，能實時理解鏡頭內外的世界。

多模態和長文本是本次發布的關鍵詞，谷歌CEO桑達爾·皮查伊表示，多模態和長文本相結合，擴展了我們可以提出的問題類型，也擴展了我們可以得到的答案類型。

Gemini系列模型捲起了長文本，1.5 Pro的上下文窗口將擴展到200萬個token；新發布的Flash是輕量級模型，定價每100萬個token35美分，遠低於GPT-4o 5美元的價格。

搭載了Gemini的谷歌家族產品也華麗升級：谷歌搜索支持輸入視頻提問，還將上線「AI概述」的結果頁面；安卓系統手機內置AI助手，圖上畫個圈就能全局搜索。

AIGC方面，更逼真的圖像生成模型Imagen 3發布；全新的視頻生成模型Veo劍指Sora，可生成時長超60秒的高清視頻……

皮查伊稱目前有20億用戶在使用Gemini，Gemini時代剛剛拉開帷幕，谷歌希望最終讓AI造福每個人。

「頭號AI玩家」全程圍觀了直播，以下是我們梳理的本次主旨演講的要點。

多模態Agent來了，

Gemini精準打擊GPT-4o

眾所期待的Agent（AI智能代理）終於來了。

谷歌在I/O大會上分享了新項目Project Astra，一個不亞於GPT-4o的AI智能助手，可以像人一樣了解周遭的複雜世界，在日常生活中提供實時幫助。

比如在辦公室里開著攝像頭轉一圈，AI能識別出畫面中的物品，解釋正在寫的代碼，判斷所在的地理位置。

演示視頻中，官方還展示了如何將Astra與AR眼鏡相結合，這也成為其中一個亮點。戴上眼鏡後，Astra的回答會實時顯示在眼前，比如幫助修改白板上的流程圖時，會用箭頭指出修改位置。

不過，與昨天OpenAI推出的GPT-4o相比，後者在演示中展現了更多令人驚喜的情感豐沛的互動，雖然也有即刻網友評論，「感覺OpenAI想為每個人打造自己的專屬舔狗」。

此前谷歌剛發布Gemini時，其多模態交互演示視頻還需要經過剪輯，如今發布的Astra視頻特意強調了是「一次性實時拍攝的」。

Agent是一種智能系統，可以了解多模態信息，提前規劃多個步驟，並代表用戶採取行動。從演示來看，Astra延遲低、反應快、互動自然，仿佛就是身邊的一個專家助理。

此外，谷歌還公布了Gemini系列模型的最新進展。

Gemini 1.5 Pro的上下文窗口將擴展到200萬個token，可以處理數百頁文檔，並向開發人員提供私人預覽版。

面向全球開發者開放的Gemini Advanced則提供長達100萬token的上下文窗口，支持超過35種語言。

Gemini Advanced將在幾周內上線新的數據分析功能，晚些時候還會增加旅行計劃功能，通過高級推理創建個性化的行程。

Gemini 1.5 Flash是新推出的輕量級模型，針對低延遲和低成本任務進行了優化，可以更高效率地部署。開發人員即日起可在Google AI Studio和Vertex AI中使用，上下文窗口可達100萬token。

Gemini的Gems功能將在今年夏天推出，類似於GPTs，可通過Prompt設置為不同專長的AI助理。

同時，作為原生的多模態模型，Gemini的語音和視頻能力迎來升級，即將上線的「Live」功能，其逼真程度可以說是對標GPT-4o。

你能與Gemini進行更深入的雙向對話，回答中可以隨時打斷，打開攝像頭，Gemini就能看見和理解周遭發生的一切。看來AI頭號玩家們的理想AI助手都有電影《Her》的影子。

新增圖像視頻搜索，

AI一鍵聯網總結

隨著ChatGPT、Copilot等AI產品席捲全球，用戶獲取信息的方式正悄然改變，本次谷歌的當家產品「谷歌搜索」率先迎來了重大升級，集成了最新的智能代理助手。

在搜索時，你可以通過視頻提問，比如錄一段視頻問道：「為什麼這個放不上去？」

Gemini能理解問題是視頻中的唱片為什麼不能固定在唱片機上，並迅速搜索文章、論壇、視頻等全網信息，給出解決辦法。

相比傳統的搜索結果羅列，如今有了Gemini加持的谷歌搜索還將上線全新的搜索結果整合功能「AI概述」（AI Overviews）。

比如在現場演示中，當我們想要在波士頓找到最好的瑜伽或普拉提工作室，並在結果中顯示它們的入會優惠信息，以及與住址的距離。

Gemini一次搜索就能獲得所有信息，並組織呈現出有條理的搜索結果頁面。

據介紹，谷歌搜索升級後支持多步驟推理功能，可以將大問題分解為若干部分，並找出要解決的問題以及解決的順序，因此原本可能需要花費數分鐘甚至數小時才能得出的結果，現在可以在幾秒鐘內完成。

「AI搜索概述」功能將在美國率先推出，未來將覆蓋10億用戶。

此外，在手機端，谷歌相冊（Google Photos）即將推出的一項新功能「Ask Photos」。

在圖片上畫個圈，就能搜索指定的對象，比如搜索帶有車牌號的照片，或者問問「最近女兒游泳學得怎麼樣」，Gemini能理解複雜的語境，輕鬆找到對應的照片和視頻。

AIGC模型上新，

Veo可生成超60秒高清視頻

在圖像、音樂、視頻領域，谷歌都分別都發布了新的模型或產品。

圖像生成

谷歌推出了迄今為止最高質量的文本到圖像生成模型Imagen 3，生成的圖像細節更豐富、更真實，而且能理解複雜文本提示。

Imagen 3生成

音樂生成

谷歌和YouTube共同打造了Music AI Sandbox，這是一套專業的AI音樂創作工具，可以幫助創作者從0開始快速創作。

視頻生成

谷歌發布了最新的視頻生成模型Veo，只需一個文本、圖片或視頻提示，即可創建超過60秒的高質量1080p片段，支持多種電影風格，包括寫實主義、超現實主義、動畫等。或許未來每個人都會成為導演。

以上這些AIGC模型，目前都可以在labs.google上申請試用。

谷歌全家桶AI升級，

安卓手機搶先搭載AI助手

不出所料，升級後的Gemini 1.5 Pro將集成在更多的谷歌全家桶產品中，包括郵件、會議、文檔等軟體，以及手機等硬體設備。

比如Gmail中的Gemini能一鍵總結郵件內容，自己不用去多個郵件、附件中查閱，Gemini會根據語境分析，還會給出回復建議。

向Excel中的Gemini提問，不用再費力編寫公式，AI會自動進行數據分析，以圖表形式給出計算結果。

對於以AI為核心的手機，谷歌提到了三個關鍵應用：AI驅動搜索（上文提到的圖片畫圈搜索），系統自帶的AI助手（目前安卓系統可用），AI保護隱私和安全（提示詐騙風險）。

谷歌表示，今年晚些將拓展Gemini Nano的多模態功能，新增視覺、聲音、口語輸入，這意味著AI手機可以幫助更多視力障礙群體等用戶更好地交流和生活。

皮查伊近日在接受《The Circuit With Emily Chang》專訪時提到，在技術領域，如果你不持續創新以保持領先，那麼任何公司都將不可避免地走向衰敗。

自2016年起，人工智慧便一直是谷歌公司的核心焦點，谷歌的研究人員發明了Transformer，也就是GPT中的T。那時，OpenAI開發的ChatGPT尚處於起步階段。

而到了如今的生成式AI時代，谷歌卻屢次被OpenAI搶了風頭，同時還面臨著微軟等競爭對手的嚴峻挑戰。

從今年I/O大會主旨演講發布了這麼多新模型和產品升級來看，谷歌仍在堅持AI First的戰略方向，無論是搜索還是AIGC應用等，AI的前沿高地必有谷歌的位置。