面對OpenAI的貼臉開大,谷歌選擇原地回擊。
今天凌晨1點(北京時間),谷歌在2024年I/O大會上放出大招——
更強的多模態Agent助手Astra,能實時理解鏡頭內外的世界。
多模態和長文本是本次發布的關鍵詞,谷歌CEO桑達爾·皮查伊表示,多模態和長文本相結合,擴展了我們可以提出的問題類型,也擴展了我們可以得到的答案類型。
Gemini系列模型捲起了長文本,1.5 Pro的上下文窗口將擴展到200萬個token;新發布的Flash是輕量級模型,定價每100萬個token35美分,遠低於GPT-4o 5美元的價格。
搭載了Gemini的谷歌家族產品也華麗升級:谷歌搜索支持輸入視頻提問,還將上線「AI概述」的結果頁面;安卓系統手機內置AI助手,圖上畫個圈就能全局搜索。
AIGC方面,更逼真的圖像生成模型Imagen 3發布;全新的視頻生成模型Veo劍指Sora,可生成時長超60秒的高清視頻……
皮查伊稱目前有20億用戶在使用Gemini,Gemini時代剛剛拉開帷幕,谷歌希望最終讓AI造福每個人。
「頭號AI玩家」全程圍觀了直播,以下是我們梳理的本次主旨演講的要點。
眾所期待的Agent(AI智能代理)終於來了。
谷歌在I/O大會上分享了新項目Project Astra,一個不亞於GPT-4o的AI智能助手,可以像人一樣了解周遭的複雜世界,在日常生活中提供實時幫助。
比如在辦公室里開著攝像頭轉一圈,AI能識別出畫面中的物品,解釋正在寫的代碼,判斷所在的地理位置。
演示視頻中,官方還展示了如何將Astra與AR眼鏡相結合,這也成為其中一個亮點。戴上眼鏡後,Astra的回答會實時顯示在眼前,比如幫助修改白板上的流程圖時,會用箭頭指出修改位置。
不過,與昨天OpenAI推出的GPT-4o相比,後者在演示中展現了更多令人驚喜的情感豐沛的互動,雖然也有即刻網友評論,「感覺OpenAI想為每個人打造自己的專屬舔狗」。
此前谷歌剛發布Gemini時,其多模態交互演示視頻還需要經過剪輯,如今發布的Astra視頻特意強調了是「一次性實時拍攝的」。
Agent是一種智能系統,可以了解多模態信息,提前規劃多個步驟,並代表用戶採取行動。從演示來看,Astra延遲低、反應快、互動自然,仿佛就是身邊的一個專家助理。
此外,谷歌還公布了Gemini系列模型的最新進展。
Gemini 1.5 Pro的上下文窗口將擴展到200萬個token,可以處理數百頁文檔,並向開發人員提供私人預覽版。
面向全球開發者開放的Gemini Advanced則提供長達100萬token的上下文窗口,支持超過35種語言。
Gemini Advanced將在幾周內上線新的數據分析功能,晚些時候還會增加旅行計劃功能,通過高級推理創建個性化的行程。
Gemini 1.5 Flash是新推出的輕量級模型,針對低延遲和低成本任務進行了優化,可以更高效率地部署。開發人員即日起可在Google AI Studio和Vertex AI中使用,上下文窗口可達100萬token。
Gemini的Gems功能將在今年夏天推出,類似於GPTs,可通過Prompt設置為不同專長的AI助理。
同時,作為原生的多模態模型,Gemini的語音和視頻能力迎來升級,即將上線的「Live」功能,其逼真程度可以說是對標GPT-4o。
你能與Gemini進行更深入的雙向對話,回答中可以隨時打斷,打開攝像頭,Gemini就能看見和理解周遭發生的一切。看來AI頭號玩家們的理想AI助手都有電影《Her》的影子。
隨著ChatGPT、Copilot等AI產品席捲全球,用戶獲取信息的方式正悄然改變,本次谷歌的當家產品「谷歌搜索」率先迎來了重大升級,集成了最新的智能代理助手。
在搜索時,你可以通過視頻提問,比如錄一段視頻問道:「為什麼這個放不上去?」
Gemini能理解問題是視頻中的唱片為什麼不能固定在唱片機上,並迅速搜索文章、論壇、視頻等全網信息,給出解決辦法。
相比傳統的搜索結果羅列,如今有了Gemini加持的谷歌搜索還將上線全新的搜索結果整合功能「AI概述」(AI Overviews)。
比如在現場演示中,當我們想要在波士頓找到最好的瑜伽或普拉提工作室,並在結果中顯示它們的入會優惠信息,以及與住址的距離。
Gemini一次搜索就能獲得所有信息,並組織呈現出有條理的搜索結果頁面。
據介紹,谷歌搜索升級後支持多步驟推理功能,可以將大問題分解為若干部分,並找出要解決的問題以及解決的順序,因此原本可能需要花費數分鐘甚至數小時才能得出的結果,現在可以在幾秒鐘內完成。
「AI搜索概述」功能將在美國率先推出,未來將覆蓋10億用戶。
此外,在手機端,谷歌相冊(Google Photos)即將推出的一項新功能「Ask Photos」。
在圖片上畫個圈,就能搜索指定的對象,比如搜索帶有車牌號的照片,或者問問「最近女兒游泳學得怎麼樣」,Gemini能理解複雜的語境,輕鬆找到對應的照片和視頻。
在圖像、音樂、視頻領域,谷歌都分別都發布了新的模型或產品。
圖像生成
谷歌推出了迄今為止最高質量的文本到圖像生成模型Imagen 3,生成的圖像細節更豐富、更真實,而且能理解複雜文本提示。
Imagen 3生成
音樂生成
谷歌和YouTube共同打造了Music AI Sandbox,這是一套專業的AI音樂創作工具,可以幫助創作者從0開始快速創作。
視頻生成
谷歌發布了最新的視頻生成模型Veo,只需一個文本、圖片或視頻提示,即可創建超過60秒的高質量1080p片段,支持多種電影風格,包括寫實主義、超現實主義、動畫等。或許未來每個人都會成為導演。
以上這些AIGC模型,目前都可以在labs.google上申請試用。
不出所料,升級後的Gemini 1.5 Pro將集成在更多的谷歌全家桶產品中,包括郵件、會議、文檔等軟體,以及手機等硬體設備。
比如Gmail中的Gemini能一鍵總結郵件內容,自己不用去多個郵件、附件中查閱,Gemini會根據語境分析,還會給出回復建議。
向Excel中的Gemini提問,不用再費力編寫公式,AI會自動進行數據分析,以圖表形式給出計算結果。
對於以AI為核心的手機,谷歌提到了三個關鍵應用:AI驅動搜索(上文提到的圖片畫圈搜索),系統自帶的AI助手(目前安卓系統可用),AI保護隱私和安全(提示詐騙風險)。
谷歌表示,今年晚些將拓展Gemini Nano的多模態功能,新增視覺、聲音、口語輸入,這意味著AI手機可以幫助更多視力障礙群體等用戶更好地交流和生活。
皮查伊近日在接受《The Circuit With Emily Chang》專訪時提到,在技術領域,如果你不持續創新以保持領先,那麼任何公司都將不可避免地走向衰敗。
自2016年起,人工智慧便一直是谷歌公司的核心焦點,谷歌的研究人員發明了Transformer,也就是GPT中的T。那時,OpenAI開發的ChatGPT尚處於起步階段。
而到了如今的生成式AI時代,谷歌卻屢次被OpenAI搶了風頭,同時還面臨著微軟等競爭對手的嚴峻挑戰。
從今年I/O大會主旨演講發布了這麼多新模型和產品升級來看,谷歌仍在堅持AI First的戰略方向,無論是搜索還是AIGC應用等,AI的前沿高地必有谷歌的位置。