快GPT-4 10倍!這款賣瘋的AI Agent產品,撼動大模型!

2024-01-15     51CTO

原標題:快GPT-4 10倍!這款賣瘋的AI Agent產品,撼動大模型!

現在的大型語言模型(LLM)就像牙膏一樣雞賊,你必須非常用力地擠壓(正確地提示)才能得到適量的牙膏(答案)。

就像奧特曼形容現在的GPT4一樣:「如果你問 GPT-4 大部分問題 10000 次,這 10000 次中可能有一次回答得很好,但它不一定知道是哪一次。」

也就是說,當你拿出大模型這個牙刷開始刷牙時,你的牙齒可能已經被蛀掉了。

這個問題,似乎也是一個無解的問題。但就在前天,黑馬出現了!它直接把大語言模型比了下去,讓大家看到了「超級產品」的希望!

「幾乎以兔子的速度——比現有大型語言模型快10倍」,正如AI創業公司Rabbit的創始人Jesse Lyu(呂聘)在CES會上分享時所說。

Jesse 給出了一個嶄新的模型:大型動作模型(LAM),似乎可以解決這個問題。它可以通過擠牙膏的方式(通過文本或語音提示)迅速搞定一個大模型需要很久才能完成的任務。

1、一個小玩意,賣瘋了

本周二,一款口袋大小的橙色小設備,Rabbit R1迅速走紅網絡,這款設備在正式發布後的24小時內售出了10,000台,售罄。

這小東西外觀大小如同「小霸王」掌中機,觸摸屏、旋轉式攝像頭、滾動輪。然而指令上,優先考慮直觀的手勢和語音命令,而不是鍵盤和菜單。具體參數不妨看下:

Rabbit R1擁有2.88英寸的觸摸屏,由強大的2.3GHz MediaTek處理器提供動力,配備4GB RAM和128GB的存儲容量。

此外,它還配備了該公司自研的Rabbit OS作業系統,可以快速高效地導航所有應用程式,全程無需自己動手。

從體驗上講,Rabbit有兩個讓人驚艷叫好的能力,

首先,它能很好地在人和手機之間扮演一個非常智能的接口,無須切換應用程式和登錄,只要說出你的需求,就能讓它為你服務。不管是打車、訂餐、發消息、聽音樂,全都能通過一個介面來實現,並且售價非常親民:199美元。

同時有趣的是,Rabbit還引入了升級的「teach mode」,只需要用戶演示一遍工作流程,它就可以通過不同的介面進化,獲得新技能。會上,Jesse演示了現場教Rabbit學習如何使用Midjourney作圖。

Jesse表示,該公司使命是創造最簡單的計算機,簡單到甚至不需要學習如何使用。而最好的實現方法就是,擺脫目前智慧型手機使用的基於應用程式的作業系統。相反,我們設想了一種以自然語言為中心的方法。」他補充說。

這背後是如何做到的?

2、自研大動作模型(LAM)不依賴GPT,速度快10倍

首先,Rabbit沒有依賴OpenAI的模型,而是創建了自己的基礎模型,他們稱之為LAM(大型動作模型)。

Jesse說:「大型動作模型,我們稱之為LAM,是一種新的基礎模型,可以在計算機上理解和執行人類意圖。」

該模型背後基於神經符號系統的研究,「通過大型動作模型從根本上找到了解決應用程式、API或Agent面臨的挑戰的方法。」

具體什麼原理呢?不同於LLM,LAM的建模方法是基於模仿,即學習演示,目的在於讓AI系統像人類一樣看待和操作應用程式。通過「觀察和復刻」,它可以了解應用程式和服務是如何被用戶日常使用的,而無須依賴於應用程式的編程接口(API)。

換言之,LAM已經觀察學習了大多數網際網路App的交互,並且隨著用戶提供更多的行為數據,能力也會進化得更強。

這也是為什麼,LAM會比LLM響應速度更快的原因!

因為一旦為它提供了演示,新合成的指令就可以直接在目標應用程式上運行,而不需要「觀察」或「思考」的忙碌循環。LAM隨著時間的推移從演示中積累知識,它深入了解了應用程式所暴露的介面的各個方面,並創建了應用程式所提供的底層服務的「概念藍圖」。LAM可以被視為一座橋樑,通過應用程式的介面將用戶連接到這些服務。

此外,「LAM可以學習任何軟體的任何介面,無論它們在哪個平台上運行。簡而言之,LLM理解你說的話,而LAM模型則將事情付諸行動。我們使用LAM將AI從語言轉化為行動。」Jesse說。

與LLM相比,LAM的突破之處在於,它不僅超越了語言處理,還旨在根據文本指令在現實世界中執行操作。它接受指令並利用其語言理解力在數字環境中導航並完成任務,例如預訂航班、訂購食物或控制智能家居設備。

「大型語言模型,如ChatGPT,展示了AI理解自然語言的可能性;而我們的大型動作模型更進一步:它不僅根據人類輸入生成文本,還代表用戶生成行動以幫助我們完成任務。」Jesse提到。

LAM與Rabbit OS一起工作,該作業系統在安全的雲上運行應用程式。Rabbit Hole是一個一體化的網絡門戶,旨在管理與Rabbit OS和配套設備的各種關係。例如,如果有人想聽音樂,他們可以訪問Rabbit Hole Web門戶並登錄到第三方應用程式如Spotify。

具體分為三步:intention、inferface、interaction。

意圖:Rabbit OS將首先理解你所說的話是什麼意思。人類的意圖是非常個人化的,有層次性的,可能是不完整的,可能會一時興起而改變。rabbit OS利用其對用戶的長期記憶,將用戶的請求轉化為LAM可以實時利用的可操作步驟和響應。

接口:然後,LAM了解如何日常使用應用程式和服務,而不依賴於應用程式編程接口(API)。LAM可以像人類一樣學會在世界上觀察和行動。

交互:LAM是會在雲端的虛擬環境中完成這些任務,從預訂航班或預訂等基本任務到在Photoshop上編輯圖像或流媒體音樂和電影等複雜任務。不需要複雜的本地設置,例如安裝應用程式、Chrome插件或在命令行中鍵入代碼。只需與rabbit作業系統對話即可。

3、大模型的短板:不擅長理解原始文本的App

Rabbit做了一項研究,顯示大語言模型,即便強如GPT-4,在理解原始文本的應用程式方面,能力依舊不足。

Rabbit測量了在不同HTML快照中表示常見網絡應用程式所需的Token數。即便用GPT-4,使用其現有的分詞器,很難將原始文本應用程式的表示形式適應其上下文窗口。

神經語言模型在設計上並不適合單獨執行這些任務。儘管它們已經顯示出理解和利用應用程式編程接口的能力,但用戶介面與之非常不同,而且本質上不兼容文本。

這意味著任何操作用戶介面的神經語言模型都需要進行預處理步驟,將應用程式和在其上執行的操作轉換為原始文本、柵格化圖像或某種標記序列的過渡表示。然後,將使用測試時間自適應提示模板、指令驅動或基於強化學習的微調的某種推理形式。

這就說明,讓語言模型充當端到端(行動)推理器,目前還是一項難以出色完成的任務。

而通過利用符號算法,Rabbit做到了,可以實現可解釋性、快速推理,並執行滿足用戶意圖的行動。

據悉,受到機器學習和神經技術成功的啟發,PL/FM社區最近在神經符號方法方面取得了重大進展:通過將神經技術(如LLM)和符號技術相結合,人們最終將兩個世界的最佳部分結合在一起,使創建可擴展和可解釋的學習代理成為可行的任務。

然而,迄今為止,還沒有人將尖端的神經符號技術投入生產——LAM旨在開拓這一方向。

4、在網頁導航任務中LAM性能一騎絕塵

Web環境,以及移動和桌面環境,都是LAM的適用場景。MiniWoB++算法儘管最近在模擬環境中展示的網頁導航算法已經達到了人類水平的表現,但從實際效果上看,依然差強人意。在MindWeb基準數據集上測試時,最有效的方法僅在定位目標元素時達到70.8%的準確率。而LAM則可以做到89.6%!

Rabbit團隊使用內部基準對LAM進行了初步評估。該數據集包括283個事件,其中包含從14個不同的實際網站收集的17個任務,包括Airbb、Google Flights、Shein、Spotify等。團隊評估了純神經方法和神經符號方法。結果顯示,純神經方法在定位目標元素方面表現出競爭力,而整合符號方法可顯著提高準確性和延遲。

為了使AI能夠表現得像人類一樣,Rabbit構建了一個特殊的虛擬化環境集群來運行LAM,用於消費者應用程式。無論是在測試階段還是生產階段,它都提供了先進的安全性和可擴展性,進而快速構建出了LAM的原型。

5、為什麼不幹脆做成個App?Siri會跟進嗎?

不過也有人表示,確實看起來不錯,但為啥不幹脆做成一個App呢?

這個問題很快被網友回答了:首先蘋果或谷歌幾乎不可能允許平台上架這樣一個能隨意授權調用其它應用的App,並且R1就是奔著App去冗餘來的,自然會淘汰這種形式。更重要的是,R1的通用解決方案可以與不同服務進行交互,無論是網站、應用程式還是其他平台,而這正是它的獨特之處。

另外的聲音還有,覺得Siri和谷歌助手很快也會實現這些功能,它到底能占有多少市場?「人們為什麼需要一個新設備去做原來設備已經能做的事情呢?」話雖如此,這位網友還是表示,迫不及待看看R2會是什麼樣。

這個問題Jesse坦言,Rabbit R1並不是要取代手機,只是希望提供一種更快、更直接、更通用集成設備的途徑。畢竟基於App的交互介面已經存在了超過15年,而AI驅動的原生硬體才剛剛開始。

6、並不完美,回應質疑

Rabbit R1在雲端運行,不具備邊緣計算能力。同時,大多數科技巨頭都在嘗試將LLMs引入邊緣計算領域,包括蘋果、谷歌和三星。

Jesse聲稱,使用Rabbit OS,他的響應速度比大多數語音AI項目快10倍。「Rabbit在500毫秒內回答我的問題。」然而,Hacker News上的一位用戶質疑這一說法:「推理在哪裡運行?我不相信它在設備上。如果它在雲端,那麼為什麼聲稱它低於500毫秒?」

Rabbit認為,終端用戶手中的智能是可以在不需要強大的客戶端計算能力的情況下實現的。通過仔細且安全地將大部分計算工作負載卸載到數據中心,我們為性能和成本優化創造了機會,使得尖端的交互式AI體驗變得極其經濟實惠。

雖然LAM在雲端運行,但與其交互的硬體設備不需要昂貴和笨重的處理器,對環境非常友好,並且功耗很小。隨著與LAM相關的工作負載不斷整合,我們設想了一條通向專門構建的伺服器端和邊緣晶片的道路。

7、寫在最後:一款不錯的AI Agent

整體而言,對於Rabbit R1來說,魅力之處並不在於其硬體本身,它可能並不在最佳可用硬體之列。

但這是截止目前為止,讓我們看到AI Agent 發揮最大效用的一次不錯嘗試,讓大家看到它能夠有效地採取行動,帶來價值。

正如Hacker News上的另一位用戶寫道:「我認為硬體不是主要產品。我相信AI才是,但他們不想只是『一個應用程式』;他們的目標是成為新型計算方式的第一個作業系統。因此,他們設計了一款新設備。」

值得一提的是,該產品的發布人,Jesse Lyu,其實在國內網際網路創客圈內可謂人人熟悉,作為明星智能硬體公司渡鴉的創始人,呂騁,當年在大三時就創立了時間匹配的社交工具timeet,據說只用一分鐘就拿下了百萬融資。

2017年渡鴉被百度收購,26歲的呂騁加入百度出任智能家居硬體總經理,而一手推動完成這場收購的正是當時任百度集團總裁和營運長的陸奇。

文章來源: https://twgreatdaily.com/dc28368be9078bb0a8593c77071244ec.html