文 | 大模型之家
文 | 大模型之家
在前一天晚上被OpenAI狠狠「截胡」的谷歌,在2024 I/O大會上,終於給出了有力的「回擊」。
美國當地時間5月14日上午10點(北京時間5月15日凌晨1點),2024 Google I/O大會正式召開,本次大會的主題演講將圍繞人工智慧展開,谷歌公布了Gemini AI的最新進展,並圍繞谷歌核心業務和生成式人工智慧的融合展開分享。不僅帶來了「進階版」的Gemini Pro 1.5,還帶來了全面對標Sora文生視頻大模型的Veo。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)在活動現場表示,目前有超過1500萬開發者在使用Gemini做開發。而Gemini最近三個月時間達到了100萬訂閱用戶。
全新的Gemini大模型產品矩陣
首先,在本屆I/O大會上,谷歌宣布了多項技術能力的升級。
I/O大會上,Gemini 1.5 Pro進階版開放給開發者,進階後,最大支持上下文窗口從100萬Tokens升級到200萬,同時支持35種語言。現在可以分析比以前更長的文檔、代碼庫、視頻和音頻錄音。此外,Gemini 1.5 Pro還能夠實現處理更加複雜和細微的指示,包括指定產品級行為的指示,如角色、格式和風格等。
於此同時,為了滿足用戶對低延遲和低成本的需求,谷歌首先帶來輕量化模型Gemini 1.5 Flash。它基於「蒸餾」技術,專為大規模服務設計,速度更快、成本低至0.35美元/百萬Tokens。
Gemini 1.5 Flash依舊支持100萬和200萬Tokens兩個版本,適用於摘要、聊天應用、圖像和視頻字幕、長文檔和表格的數據提取等需要快速處理的任務。
為了反擊OpenAI,谷歌也在今日發布了多款多模態大模型,包括圖像大模型Image 3、視頻大模型Veo等。
Gemma大模型升級,開源大模型陣營再迎猛將
谷歌旗下開源大模型Gemma也在活動中迎來了重大升級。谷歌表示,即將於6月上線的Gemma 2中引入一個全新的、擁有270億參數的模型。這是Gemma模型的下一代升級,這個龐大的模型尺寸已經由Nvidia進行了優化,確保它能夠在最新的GPU上順暢運行,並且同樣在單個TPU主機和vertex AI平台上表現出色。除了這一巨大的270億參數模型外,谷歌還計劃推出PaliGemma視覺語言開放模型,這將進一步擴展Gemma 2的功能和應用範圍。
Imagen 3作為谷歌最新推出的文生圖大模型,進一步增強了文本生成圖片的技術能力,與其前身Imagen 2相比,Imagen 3能夠更準確地理解了它翻譯成圖像的文本提示,使得模型產生的「干擾性工件」和錯誤更少,並且在生成方面更「富有創造性和細緻」。谷歌還計劃很快將Imagen 3模型提供給使用谷歌企業生成式人工智慧開發平台Vertex AI的開發人員和企業客戶,以滿足更廣泛的用戶需求。
Veo是谷歌最新的視頻生成模型,正式對標Sora。Veo集成了谷歌旗下大量視覺模型的特性,具備高級的自然語言和視覺語義理解能力,可以生成長度超過1分鐘,解析度最高1080P的「高質量」視頻,並具有多種視覺和電影風格。
針對於學習領域,谷歌還推出了LearnLM,這是一系列全新的用於學習領域的生成式AI模型。此舉不僅標誌著Google在AI教育領域的重大突破,同時也是對OpenAI近日針對教學輔導場景所展示能力的有力「回應」。
LearnLM的誕生是Google DeepMind AI研究部門與谷歌研究部門深入合作的結晶。谷歌表示,LearnLM模型旨在通過「對話式」的方式,為學生提供個性化的學習指導,幫助他們深入理解並掌握各種主題。這不僅將提升學生的學習效率,也將為他們帶來更加豐富和有趣的學習體驗。
大模型賦能的產品與場景
在I/O大會上,谷歌發布了基於Gemini的對話式體驗產品——Gemini Live,它允許用戶在智慧型手機上與Gemini進行「深入」的語音聊天,用來反擊OpenAI日前的大模型對話演示。用戶可以在聊天機器人說話時打斷Gemini提出澄清問題,它將實時適應用戶的語音模式。此外,Gemini還可以通過智慧型手機攝像頭捕捉的照片或視頻看到並回應用戶的周圍環境。
在某種程度上,Gemini Live是Google Lens和Google Assistant的演變,前者是谷歌長期以來的計算機視覺平台,用於分析圖像和視頻,而後者是谷歌的人工智慧驅動的語音生成和識別虛擬助手,可在手機、智能音箱和電視上使用。
值得一題的是,Live將專屬於Gemini Advanced,其背後是谷歌One AI進階計劃,價格為20美元/月。
作為谷歌首個AI Agent產品,也是推動Gemini Live技術的創新部分,Project Astra旨在創建用於實時、多模態理解的人工智慧應用程式和智能體。
在多模態方面,基於全新的音頻概述功能,基於Gemini大模型打造的AI智能體,把多種內容改造成互動性的內容。例如進行沉浸式教育、智能填寫購物表單、生成旅遊規劃等。
有別於Gemini和其他特定任務模型,Astra通過持續編碼視頻幀、將視頻和語音輸入結合到事件時間線上,並緩存信息以便高效回憶,從而實現了對信息的快速處理。
現場,谷歌不僅演示了基於手機攝像頭的實時交互技術,同時還演示了利用類似於智能眼鏡的語音交互,為谷歌未來的空間計算交互打下基礎。
全新升級的AI搜索
谷歌正通過將Gemini大模型與其搜尋引擎深度集成,預示著搜索正逐漸從用完即走的工具服務,轉變為AI智能體的入口。現場,谷歌演示了通過AI搜索定製個人計劃,例如「創建一個易於準備的3天的健康食譜」,提升了搜索的實用性和便捷性。這些改動不僅改變了搜索的呈現方式和服務體驗,還影響了廣告方式,用來應對大模型技術,對於搜索流量格局的影響。
基於同樣的技術底座,全新推出的Ask Photo應用,結合谷歌Gemini,Google Photo能夠識別用戶對照片的深度問題,並且智能匹配基於深度理解的圖片,讓照片搜索體驗更智能、更簡單。
谷歌也在積極將AI技術融入安卓系統,通過集成Gemini Nano這一Google生成式AI的最小版本,該功能將在未來版本的安卓系統中實現全面升級。Gemini Nano完全可在設備上運行,實時監聽「與詐騙常見的對話模式」。現場還演示了當用戶收到不明詐騙電話時,AI系統將自動發出警報,保障用戶免受詐騙風險。總之,Gemini正在通過其強大的AI技術,為安卓用戶帶來更加智能、便捷的使用體驗。
同時,谷歌還在安卓平台上推出了一系列全新AI功能,如「Circle to Search」,它不僅能實現跨應用搜索,還能解答數學題、圖表等複雜問題。甚至可以在用戶的郵件App中進行郵件總結、智能回復等操作。
此外,Gemini還具備多模態能力,用戶在與朋友的信息對話中可隨時召喚它生成圖片,或針對YouTube教程視頻、PDF文檔等提出特定問題,Gemini將在數秒內給出解答。
更強大的AI開發工具
Project IDX是谷歌新一代以AI為中心的基於瀏覽器的開發環境,並已正式公測。隨著這一更新,IDE將與谷歌地圖平台集成,幫助為其應用添加地理定位功能,並與Chrome Dev Tools和Lighthouse集成,幫助調試應用程式。谷歌還將實現將應用程式部署到Cloud Run,這是Google Cloud的無伺服器平台,用於運行前端和後端服務。
作為這是Firebase平台的一個新成員,旨在使開發人員更輕鬆地在Java/Type中構建AI原生應用程式,作為一個開源框架,採用Apache 2.0許可證,使開發人員能夠快速將AI集成到新應用和現有應用中。
性能提升4.7倍,第六代TPU——Trillium
除了AI軟體方面的升級,谷歌還在本屆I/O大會上發布了第六代TPU——Trillium。據介紹Trillium TPU峰值計算性能較v5e高出4.7倍,同時實現了高帶寬內存(HBM)和晶片間互連(ICI)帶寬的翻倍。這一突破性的技術配備第三代SparseCore加速器,可加速基礎模型的訓練過程,同時降低延遲和成本。
在擴展性方面,Trillium TPU支持單個集群擴展到256個TPU,並可通過多切片技術和Titanium IPU進一步擴展至數百個集群。Trillium將優先開放給雲客戶用戶,以幫助他們實現AI超算效能的兩倍提升。
此外,谷歌還在大會上預告,將在2025年將提供英偉達Blackwell產品,為客戶提供更多選擇。
大模型之家觀點
在大模型之家看來,OpenAI在人工智慧領域的突破,無疑引領了一個全新的時代,堪稱人工智慧的「iPhone時刻」。他們不僅推動了技術的飛躍,更在用戶體驗和產品設計上實現了革命性的創新。正如iPhone在智慧型手機領域開啟了全新的篇章,一直以來都以其精湛的工藝和前沿的設計理念,將科技與創新完美結合,改變了人們的生活方式。而在這一點上,OpenAI同樣表現出色,甚至可以說在某些方面超越了谷歌。
與此同時,谷歌雖然在科技領域擁有舉足輕重的地位,但在人工智慧這一領域的「iPhone時刻」上,卻似乎略顯滯後。谷歌更像是「iPhone時刻」之後跟隨的Android,憑藉其強大的技術實力和廣泛的生態系統,為用戶提供了多樣化的選擇。然而,在引領行業變革和塑造用戶體驗方面,谷歌似乎還需向OpenAI這樣的企業學習。
谷歌全面升級的大模型、AI應用、以及開發工具中,AI搜索已經從簡單的回答進化到能夠為用戶制定計劃、滿足個性化需求、組織信息,乃至進行視頻搜索,為用戶提供了前所未有的全面解決方案。用戶只需簡單地提問,AI便能接手處理後續工作,實現了中間過程的極大簡化。
然而,這一技術的飛躍也不免引起人們對「AI支配人類」的擔憂。當AI在代辦過程中接觸到用戶的客戶資料、郵件、通訊錄等敏感信息時,無疑對用戶的隱私安全構成了潛在威脅。若AI的總結或代辦未能準確反映郵件的真實訴求,甚至有意誤導用戶的決策,那麼對實際的運營結果將產生嚴重後果。
雖然谷歌等服務提供商可能會建議用戶重新核實郵件等信息內容,但頻繁地反覆確認不僅耗時耗力,而且與AI技術追求的高效便捷原則背道而馳。更令人擔憂的是,一些服務商在用戶協議中巧妙地規避了責任,使得用戶在遭遇AI誤導時往往難以追究責任。
因此,儘管谷歌的AI產品看似功能強大,但用戶在使用時仍需保持警惕,避免被AI所「支配」。在享受AI帶來的便利的同時,我們也需要學會如何與AI共存,確保自身權益不受損害。最終,在AI時代,我們仍需要保持獨立思考和判斷能力,以應對可能出現的風險和挑戰。