新V觀海外:全球AI智能體正進入黃金髮展期

2024-10-15     經濟觀察報

陳沛/文 OpenAI近期接連發布了兩項與AI智能體(Agent)有關的研究成果,分別是智能體的測試基準MLE-Bench和多智能體協調框架Swarm。

OpenAI的發布引發了很多關注和討論,也將人們的視線又拉回到了能夠自行分析、規劃、決策、執行的智能體上。

實際上,整個AI應用領域今年在智能體賽道已經取得了很多進展,特別是模型的函數調用能力和智能體框架已經日趨成熟。

其中,模型的函數調用能力對於智能體自行分析問題並執行實際任務至關重要,能幫助智能體準確完成發送郵件、提交文檔、比價下單等實際任務。

對此美國加州大學伯克利分校今年提出了BFCL測試排行榜,從多個維度評估模型的函數調用能力,包括Single Turn和Multi Turn、Non-Live和Live、AST總結和Exec總結、幻覺評估、模型成本和延遲等。

該排行榜的測試難度比較大,例如OpenAI的GPT-4系列模型、Anthropic的Claude-3.5系列模型、谷歌的Gemini-1.5系列模型的測試結果最高只有50多分。

不過,美國AI公司Writer不久前剛剛宣布其新發布的Palmyra X 004模型取得了78分的高分。Writer重點提升了新模型調用外部資料庫和應用程式並採取行動的能力、獲取SKU數據並與內置RAG自動集成的能力、代碼生成與部署能力、結構化輸出和執行能力(包括郵件、CRM、XML、日誌等),從而顯著增強了函數調用能力。

雖然這一初步結果還沒有正式進入BFCL測試排行榜單,但是已經表明,要進一步提高函數調用能力不僅涉及模型本身,還要求對於實際應用開發和真實業務場景的理解有者更深刻的理解。

與此同時,智能體的各類自動化框架此前已經有了一些早期的實踐,主要聚焦幫助模型理解環境、規劃推理、執行任務的工具框架和協調流程。

例如在這次OpenAI的MLE-Bench中,為了評估智能體在機器學習工程任務上的能力,OpenAI便重點分析了由WecoAI開發的AIDE框架、在MLAgentBench項目中提出的MLAB框架以及由多家機構開發的OpenHands框架。

隨著函數調用能力和智能體自動化框架逐步推進,今年來已經有各個細分領域的智能體公司競相湧現。

投資過很多AI公司的老牌投資機構Felicis Ventures不久前專門盤點了各個垂直領域和職能方向的智能體,都已經出現了有代表性的公司。

例如客服領域的Sierra、銷售領域的11x、營銷領域的Jasper、招聘領域的Mercor、法務領域的Harvey、運營領域的Brevian、合規領域的Norm Ai、稅務領域的taxgpt以及房產領域的reAlpha。

在實際中,相關領域和其它行業的AI智能體還有更多,正出現百花齊放的態勢。在這波AI浪潮下,AI應用並不會局限於聊天機器人,而智能體可能才是更合適的產品形態和付費模式。

文章來源: https://twgreatdaily.com/ad0226fac9da2202d1df131f5dec670d.html