OpenAI、微軟押注,大模型應用的盡頭是AI Agent ?|對話面壁智能

2023-11-15   光錐智能

原標題:OpenAI、微軟押注,大模型應用的盡頭是AI Agent ?|對話面壁智能

文|郝 鑫

編|劉雨琦

你見過Agent們「吵架」麼?

「這個產品需要具備XX需求,為什麼沒有?」,「你提出的需求完全不合理,技術上達不到!」,現場頓時亂作一團,越來越多的「員工」也被卷進了這場大亂斗中。

激烈的爭吵聲越過了螢幕外,面壁智能的測試人員通過後台日誌,發現Agents正在上演一場「職場大戲」。

這家完全由AI Agents組成的軟體開發公司,是面壁智能基於其創新研發的開源框架ChatDev開發的SaaS產品,產品經理和技術開發的Agents們「繼承」了現實中的角色,在數字世界中也「Battle」了起來。

大模型之後,應用層到底駛向何方一直是創業公司討論的核心話題,在最近,這個問題似乎有了答案。

OpenAI再次成為了「行業模版」,通過GPTs打造Agent功能一經開放,一天內就湧現了2萬多個GPTs。

而早就發現Agent確定性機會的面壁智能,也終於不用再煞費苦心地給投資人解釋,究竟何為Agent,以及為什麼Agent潛力巨大。

目前,在行業內關於AI Agent達成一定共識的,主要是來自OpenAI的一篇博文。在裡面對AI Agent的定義為:大語言模型作為大腦,Agent有感知、規劃、記憶、和使用工具的能力,能自動化實現用戶複雜目標,這也奠定了AI Agent的基本框架。

(AI Agent的基本框架)

雖然AI Agent的概念早已有之,今年年初也冒出了一些曇花一現的構想,但因為底層大模型技術能力的不成熟、不完善,所以直到現在才得以爆發。

從結果來看,AI Agent發展分為兩個階段,一個是以OpenAI的GPTs為代表的單體智能,發展到後期,則進入了像面壁智能打造的ChatDev這種多智能體協作的群體智能階段。

幾乎與國外「史丹福小鎮」同期,面壁智能直接進入了群體智能的第二階段。

(史丹福小鎮示意圖)

(面壁智能ChatDev群體智能交流鏈示意圖)

「我們從一開始就從群體智能開始切入,發布了ChatDev多智能體協作開發框架 」,面壁智能產品負責人告訴光錐智能。

據了解,面壁智能的核心科研成員來自於今年大模型創業浪潮中的「半壁江山」——清華大學NLP實驗室,聯合創始人劉知遠是清華大學計算機系長聘副教授、智源青年科學家,其聯合創始人、CEO也是知乎的CTO李大海。

那麼,選擇了一條比OpenAI還難走的路,在大模型時代,作為國內最早一批深入AI Agent的公司,面壁智能如何思考AI Agent技術,對AI Agent未來發展又有怎樣的判斷?帶著重重疑惑,光錐智能對話面壁智能,尋找關於AI Agent的答案。

核心觀點如下:

1、AI Agent就是下個時代大模型賦能整個應用場景的一種新模態。

2、現階段,AI Agent呈現出的更多是一種「擬人化」的形式。它可被定義為「分身」、「員工」和任意「個體」。

3、Copilot和Agent不是同一個概念,Agent實現的是全自動化的決策、運行和反饋。

4、用Agent開發軟體,能夠把幾萬元的開發成本降至幾十元,甚至幾元。

5、大模型是Agent的「輸血泵」,賦能Agent原子化能力,決定其乾得好不好。

以下為對話實錄:

光錐智能:面壁一詞來源於《三體》中的面壁計劃,面壁智能是一家什麼樣的公司?與其他大模型公司相比,面壁智能有什麼特殊的地方?

面壁智能:面壁智能是一家集學術研究、技術開源和產品商業化為一體的公司。

整體上分為三個部分:首先是清華NLP實驗室,與我們共同進行底層前沿的科研探索;其次是開源社區OpenBMB,我們會把一些前沿的一些技術、科研成果開放給更多的開發者和行業;另外就是面壁智能,基於所有的科研沉澱和開源框架,進行應用研發和整體商業化落地,由此形成了以面壁智能為樞紐的產學研聯動「一體兩翼」的架構。

具體到面壁智能這家公司,公司的願景和理念是「智周萬物」(Internet of Agents),即讓 AI Agents連接萬物,實現從「萬物互聯」到「萬物智聯」。

以前有網際網路,後面有物聯網,面壁智能認為在當前這個時代,大模型以及以大模型孵化的AI能力,是下一個時代新的拐點,期望把我們在大模型、AI方面的基礎能力賦能到方方面面,從而讓整個行業、社會有一個新的提升。

光錐智能:為什麼一開始就選擇了AI Agent這個方向?有哪些契機和思考?

面壁智能:大模型想要落地到具體場景,AI Agent是重要路徑,它代表的是比「裸」模型更擬人的使用體驗。我們判斷未來會是Agent的世界,萬物都是Agent。

比如電飯鍋可以是Agent,放入食材後,我們跟它說要熬粥,它就會根據熬粥的邏輯,去設定相應的加熱方式。冰箱也會是Agent,如果它的冷卻劑漏了,它會跟我們對話,說自己需要維修了,或者它已經打完了維修電話,通知維修師傅上門時間;或者提醒我們上周蔬菜買多了,要趕緊吃掉,否則菜就壞了。

基於此,我們對於未來世界才有了「智周萬物」的設想以及面壁智能的定位:一家基於大模型驅動Agent技術的公司,技術研發方向從模型基座到Agent技術,再到最終的應用。

光錐智能:在行業內,對AI Agent的定義都還沒達成共識,面壁智能如何定義AI Agent?

面壁智能:現階段,AI Agent呈現出的更多是一種「擬人化」的形式。它可被定義為「分身」,也可以被定義成某個「員工」,也可以被定義成組織中的一個「個體」,甚至到高階階段,也可以連接「物體」。如果單獨的物體也不是最後的形態,那它的定義應該是一個完完全全新的東西。

我們認為在一個理想技術路線下,AI Agent至少應該具備以下幾個能力:第一是,應該具備超級高的智商,無論是學習使用工具、規劃,還是記憶、知識儲備,其實都是智商的一部分;第二是,應該具備超級高的情商,需要其能夠針對不同的場景和不同需求的用戶有較強的自然對話能力和理解能力;第三是自省和成長疊代能力;第四多模態能力,能夠模擬人的聽、說、看、想,具備跟整個自然世界交流的能力;第五是價值觀對齊能力,AI Agent也需要像人一樣受到社會價值觀和道德取向的約束;第六是可被定義的能力,根據人的需求和設定,隨時變化出一個特定的形態。

光錐智能:很多人分不清Copilot與Agent,或者將二者粗略的畫等號,您怎麼看?如果有差異,差異在哪?

面壁智能:這還是兩個不同理念的東西。假如說未來你可以去基於Agent搭建一個數字公司,對這個數字公司而言,95%的情況下可以自己運轉,但過程中他會反問你,公司的核心目標是什麼?期望達到的銷售額是多少?你在公司的投入有多少?在實際運行過程中,遇到難以決策的問題也會尋求你的幫助,你需要把知識、經驗、需求、預期等喂給它,在交互過程中實現自動化的公司經營;這跟基於人設定的邏輯,輔助處理問題的邏輯完全不一樣。類似ChatDev這種群體智能自動化創造的產品、就是奔著Agent自動化運轉的思路去做的實踐。

光錐智能:您認為AI Agent的確定性機會在哪?在這個十分不確定的大模型時代,為什麼認為這條路能行得通?

面壁智能:回顧幾次工業革命變遷,背後都是生產力的躍升。從蒸汽機、電力再到如今的人工智慧,生產力的變革帶來了整個社會生產關係、生產工具的重塑。在大模型時代,我們認為AI Agent就是這樣具有生產力性質的技術,其能力強、效率高的特性決定了,它可以在某種程度上模擬一個人、一個組織、一個公司,大幅提升生產效率和交互方式。雖然現在AI Agent發展仍在早期,但其未來的潛力卻是無窮的,本身的商業化路徑也十分清晰,從單體智能到群體智能,從技術到產品再到商業化,由此才堅定了我們確定AI Agent 方向的決心。

未來可能就是工程師去做構思,理解市場需求,然後將需求拆解交付給AI,讓AI去完成一些低水平的重複勞動、以及部分創造性的工作,解放人的生產力。這有助於未來千行百業都能把AI相關軟體應用起來,進而更好地推行全面數字化和信息化。

光錐智能:2023年至今,面壁智能在AI Agent這個方向,做了哪些探索?有哪些產品和思考?

面壁智能:基於AI Agent,我們打造了三個引擎,用以連接大模型和現實環境,它們分別是大模型驅動的AI智能體應用框架XAgent,智能體通用平台AgentVerse和多智能體協作開發框架ChatDev,以上三個引擎也被內部稱為AI Agent「三駕馬車」。

ToB方向AI Agent可能成為企業內部的不同工種,重塑企業組織流程,提效的同時,最後實現完全由AI Agent組建、運營起來的公司;ToC方向,AI Agent可能是智能助理等。

(XAgent數據分析示意圖)

  • XAgent大模型驅動的超強AI智能體應用框架

通過大模型打造一個像人一樣,具備一個高智商、情商、記憶力的超級智能體,在真實複雜任務的處理能力已全面超越AutoGPT。

  • AgentVerse大模型驅動的智能體通用平台

偏向通用化的Agent開發平台,在上面用戶可以自定義構造專屬Agent。

  • ChatDev大模型驅動的多智能體協作開發框架

AI Agent應用的具體開發框架,目前,已經跑出了落地的ChatDev產品,核心功能是允許用戶使用自然語言開發軟體。

光錐智能:能否以剛發布的ChatDev SaaS產品為例,更清晰地拆解面壁智能產品化的思路?

面壁智能:簡單概括就是,讓用戶能夠通過一句話的自然語言,去開發一款具體的軟體,這將大大降低軟體開發的門檻。

在這個軟體公司里,會有CEO、CTO、開發經理、產品經理、測試專員、監督員等,只要用戶把明確的需求告訴CEO角色的Agent,這個CEO就會基於用戶的需求,組織整個軟體開發流程。最後交付給用戶的包含了軟體產品和整個開發過程中的代碼,並且所有流程都是自動化的。

(ChatDev軟體開發過程)

這裡面留給用戶和開發者可自定義空間非常大,用戶可以針對已開發出的軟體提出新需求,也可以改變整個軟體的開發模式。比如我定義的軟體公司,跟別人默認的軟體公司不一樣,期望多幾個測試,把這款軟體變得更可信一些。那就根據這個具體的需求,多幾次測試,多增加幾個產品經理執行這個想法。

光錐智能:用Agent開發軟體能夠降低多少成本?

面壁智能:如果讓軟體工程師去開發,至少需要幾萬塊錢的人工費,時間兩周起步。但使用ChatDev開發,價格只需要幾元到幾十元,最快幾分鐘就能跑通一個應用。

目前,一些相對簡單的軟體開發流程已經完全跑通了,一個沒有代碼開發經驗的小白用戶,60%的場景應用都能完全實現。

光錐智能:怎麼去訓練一個ChatDev?

面壁智能:可以把這個事情理解成三步。

第一步是預設協作流程。在一個公司中,每個人都有固定的角色和分工。在群體智能場景中也需要一個預設的協作流程,比如在軟體開發的過程中,就可能涉及產品經理、技術研發人員、測試人員等,每個人需要在其中發揮作用,甚至有時還會出現像人一樣互相battle的情況。

第二步是指導和反饋機制。流程設計中有指導角色和執行角色,通過2個角色的互動溝通,減少執行幻覺的出現;同時任務完成後會有角色之間的反饋機制,類似現實世界中的跟老闆彙報,以此來增強運行的準確性。

第三步是大模型賦予Agent原子化能力。所有AI Agent的引擎和應用都長在大模型上,光創建工作的協作流程還不夠,每個人還得幹活兒,可以把大模型理解成「輸血泵」,AI Agent一旦有需求,大模型就把其需要的能力輸送給它。

光錐智能:ChatDev產品反過來對底層的大模型能力提出了哪些調整?

面壁智能:這很大程度取決於上層應用,拆解下來看的話,大致需要幾個基本的能力。

首先是複雜規劃指令遵循的能力,基於對話分析項目、拆解需求、提出正確的指令的能力。在一個協同的組織里,有不同的角色發布不同的指令特別是在複雜的生產環境中,指令可能不是簡單的一句話,對於複雜的指令AI Agent能不能夠有一個思維鏈的方法,完成一個個的拆解,並且基於這個拆解去進行實際落地,也是大模型本身要去解決的。

其次是編碼能力,因為最後追求的結果是要能在真實環境里跑通,反饋、測試、修改的前提都要基於完整的代碼流程。

再次是更長token的輸入窗口能力,以後需要做更複雜的軟體,就需要更複雜的任務理解、Prompt輸入和更複雜的上下文對話能力。

最後還有格式化輸出對接的能力,對知識內容的理解能力、精準的生成表達能力等大模型的綜合能力。

光錐智能:如何理解大模型和AI Agent的關係?就AI Agent而言,面壁智能現在發展到了哪個階段?

面壁智能:可以把大語言模型想像成一個哆啦A夢的魔法兜,現實中我需要的是怎麼從這個兜里拿出東西,跟現實世界的真實需求去連接。我們打造的「AI Agent三駕馬車」,有點像是魔法棒,將大模型的能力轉化成實際的應用。

在具體應用上:ChatDev已經走過了論文研究、開源產品上線的前兩個階段,現在進入了第三個階段——商業化產品孵化,會面向不同類型的用戶開放使用,以前更多是開發者討論的聲量,現在的產品開始正式面向普通用戶。同時,基於Agent產品面壁智能也在跟一些B端企業合作,嘗試去輔助他們完成一些更複雜的工作。

上面提到的「三駕馬車」可以視為未來誕生超級應用的土壤,現在AI Agent的基建已經逐步搭建起來;對於ChatDev產品中的哪些場景或者軟體應用能夠跑出來,我們也希望在用戶使用過程中再去沉澱下來一些垂直的場景需求,探索更多商業化的空間。

光錐智能:如何看待OpenAI上線的「GPTs」功能?

面壁智能:OpenAI開發的GPTs,實際上屬於單體智能,OpenAI開放出來的是基礎Agent的構建能力,如說工具調用、基於知識庫文件記憶能力。而ChatDev進化到了群體智能階段,通過多Agent協同能去實現更複雜、貼近真實需求的應用。

光錐智能:AI Agent的未來應該是怎樣的?

面壁智能:總體上來看,可能是更深層次的智能連接。我們說「智聯網」發展到後面也需要把物理連接納入進去,單體智能再往前發展也會擴展到物的智能、機器人的聯動。從群體智能角度來看,ToC或許是更大的社區化的虛擬組織,每個人的Agent都能通過虛擬數據連接在一起;ToB則是虛擬的組織、企業,不同的企業和員工都能通過智能體納入到網絡當中。發展至最後,整個社會將變成一個巨大的虛實結合的網絡,形成「智聯網」——IoA(Internet of Agent)。

通過不同的智能體,提供了更強的生產力,重新塑造整個生產關係,整個社會的產能也會有一個很大的提升。