IT之家 10 月 27 日消息,據 The Information 報道,谷歌計劃在 12 月預覽其大型動作模型「Project Jarvis」。知情人士透露,該項目將幫助用戶執行諸如「收集研究、購買產品或預訂航班」等任務。
圖源 Pexels
報道稱,「Jarvis」將由未來版本的谷歌 Gemini 驅動,專門針對 Chrome 瀏覽器進行優化。該工具旨在通過截取螢幕截圖、解析內容並自動點擊按鈕或輸入文本,幫助用戶「自動化日常的網頁任務」。目前,該工具在執行不同操作的時候,中間會有幾秒鐘的間隔時間。
IT之家注意到,目前所有大型 AI 公司都在研發類似功能的模型。微軟的 Copilot Vision 可以與用戶討論正在瀏覽的網頁;蘋果的 Apple Intelligence 預計將在明年具備跨多個應用程式的螢幕識別能力;Anthropic 剛剛推出的 Claude 測試版已能在計算機上執行操作;OpenAI 也在研發類似的功能。
報道稱,谷歌展示「Jarvis」的計劃也可能會有所變動,預計將首先向少量測試者發布,以幫助公司修復潛在的 Bug。