清華&智譜AI推出CogAgent:支持1120解析度圖像多輪對話,具備GUI Agent能力

2023-12-26     科訊天下

原標題:清華&智譜AI推出CogAgent:支持1120解析度圖像多輪對話,具備GUI Agent能力

隨著國內外GPT-4V、Gemini、CogVLM、Qwen-VL等模型的發布,基於大模型的圖像理解可謂是打得火熱。近日,清華KEG實驗室&智譜AI又聯合推出了新一代圖像理解大模型——CogAgent [1]。該團隊在此前推出了CogVLM [2]圖像理解模型,具備圖像多輪問答、視覺定位等多種能力,在推特上小火了一把,飽受稱讚;而短短兩個月後,同一團隊又推出了CogAgent模型,將識別能力一下提升到了1120*1120的超高解析度,不僅視覺問答、視覺定位能力有了大幅提升,且具備基於視覺的GUI Agent能力。

論文名稱:CogAgent: A Visual Language Model for GUI Agents

論文連結:https://arxiv.org/pdf/2312.08914.pdf

GitHub項目地址:https://github.com/THUDM/CogVLM

在GitHub Repo中,還提供了在線的網頁版Demo可供大家體驗~模型具備視覺問答、視覺定位、GUI Agent等多種能力。 (小提示:Demo中的CogAgent-chat和CogAgent-agent均使用了同一個模型,其中後者會貼心地提供Agent功能的模板)

什麼是視覺GUI Agent

想必大家對基於語言大模型(LLM)的GUI agent並不陌生。受限於LLM的模態,它只能接受語言形式的輸入。拿網頁agent為例,WebAgent [3] 等工作將網頁HTML連同用戶目標(例如「Can you search for CogAgent on google」)作為LLM的輸入,從而獲得LLM對下一步動作的預測(例如點擊按鈕,輸入文本)。

然而,一個有趣的觀察是,人類是通過視覺與GUI交互的。比如,面對一個網頁,當給定一個操作目標時,人類會先觀察他的GUI介面,然後決定下一步做什麼,而不是去扒它冗長的HTML源碼(不排除有高手突發奇想挑戰一下...)與此同時,GUI天然是為了人類便捷而設計的。也就是說,在GUI場景下,視覺是一種更為直接、本質的交互模態,能更高效完整提供環境信息;更進一步地,很多GUI介面並沒有對應的源碼,也難以用語言表示。因此,如果能將GUI介面以視覺的形式直接輸入大模型中,是不是能達到更好的性能?

CogAgent就是這樣一款基於視覺的GUI Agent。下面的示例展現了其工作路徑與能力。用戶只需把操作目標「search for the best paper in CVPR 2023」連同當前截圖一起丟給模型,CogAgent就能預測出詳細的動作,甚至能夠把操作元素的精準定位也一同輸出!(讓位置輸出能力堪憂的GPT-4V在一旁瑟瑟發抖...)

又比如,面對CogAgent的開源倉庫THUDM/CogVLM,應該如何點star呢?CogAgent可以告訴你答案:

把問題和截圖丟給CogAgent後,他會給出回答:

(甚至貼心地標出了點star的位置!這還不快去點?)

當然,CogAgent不只能用在網頁上。受益於GUI Agent的可泛化性,CogAgent可以成功應用於包括電腦、手機的各種場景,論文中的例子就覆蓋了PPT, 手機地圖、社交軟體,

甚至...原神...!

User:Who are the teammates on the current mission? 當前任務中的隊友是誰?

CogAgent:The teammates on the current mission are Raiden Shogun, Bennett, and Kaedehara Kazuha. 當前任務中的隊友是Raiden Shogun, Bennett, and Kaedehara Kazuha。

User:I'm looking for guidance on how to "Find out how to view a detailed map"? 我想知道如何「查看詳細地圖」?

CogAgent:Plan: 1. Identify the map icon on the screen. 2. Click on the map icon to open the detailed map view. 計劃:1. 確定螢幕上的地圖圖標。2. 點擊地圖圖標打開詳細地圖視圖。

Next Action: Move the cursor over the top left corner of the screen and click on the compass-like icon with 'N' inside it. 下一步操作:將光標移動到螢幕左上角,點擊內有「N」的類似指南針的圖標。

(什麼,連玩遊戲的資格都要被取代了嗎?)

在電腦、手機等GUI Agent的數據集上,CogAgent具有較大的優勢,大幅超過基於LLM的Agent:

• 在網頁Agent數據集Mind2Web上的性能

• 在手機Agent數據集AITW上的性能

全面提升的圖像理解綜合能力

除了全新推出的GUI Agent能力,CogAgent在圖像理解的綜合能力上可謂是全面提升,再度刷新榜單。

先來看看在經典VQA數據集上的通用性能,在涵蓋常識、OCR、圖表、文檔等7個經典的圖像理解數據集上取得了通用性能第一:

在MM-VET(對話形式的多維度視覺理解評測),POPE(幻覺性評測)上也取得了第一:

模型結構及訓練方法

CogAgent的模型結構基於CogVLM [2]。為了使模型具備對高解析度圖片的理解能力,可以看清~720p的GUI螢幕輸入,CogAgent將圖像輸入的解析度大幅提升至1120×1120(以往的模型通常小於500×500,包括CogVLM,Qwen-VL等)。然而,解析度的提升會導致圖像序列急劇增長,帶來難以承受的計算和顯存開銷——這也是現有多模態預訓練模型通常採用較小解析度圖像輸入的原因之一。對此,CogAgent設計了輕量級的「高解析度交叉注意力模塊」,在原有低解析度大圖像編碼器(4.4 B)的基礎上,增加了高解析度的小圖像編碼器(0.3 B),並使用交叉注意力機制與原有的VLM交互。在交叉注意力中,CogAgent也使用了較小的hidden size,從而進一步降低顯存與計算開銷。

在消融實驗中,作者將該結構 vs 直接暴力提升CogVLM的解析度進行了計算量的比較。結果表明,當解析度提升時,使用文中提出的方案(with cross-module,橙色)將會帶來極少量的計算量增加,並與圖像序列的增長成線性關係。特別的,1120×1120解析度的CogAgent的計算開銷(FLOPs),甚至比490×490解析度的CogVLM的1/2還要小。在INT4單卡推理測試中,1120×1120解析度的CogAgent模型占用約12.6GB的顯存,相較於224×224解析度的CogVLM僅高出不到2GB。

關於訓練數據,在論文的2.2和2.3部分用一頁多詳細介紹了預訓練和微調數據的生成方法,可謂是工作量滿滿。值得一提的是,CogAgent構建了不少OCR、網頁的預訓練數據,從而著重提升了GUI Agent場景下的性能。

未來展望

1120*1120的解析度,再度提升的圖像理解能力,全新推出的GUI Agent能力……CogAgent給予了我們對許許多多應用場景的想像。美中不足的是,目前CogAgent-18B是一個英文模型,但可以通過接入翻譯器構建中文系統(事實上官方網頁端demo就做了這個嘗試,同學們可以試試使用中文輸入)我們也期待著,CogAgent能被有才華的同學們使用或是二創,進一步地幫助我們的生活。

參考文獻

[1] Hong, Wenyi, et al. "CogAgent: A Visual Language Model for GUI Agents." arXiv preprint arXiv:2312.08914 (2023).

[2] Wang, Weihan, et al. "Cogvlm: Visual expert for pretrained language models." arXiv preprint arXiv:2311.03079 (2023).

[3] Gur, Izzeddin, et al. "A real-world webagent with planning, long context understanding, and program synthesis." arXiv preprint arXiv:2307.12856 (2023).

文章來源: https://twgreatdaily.com/zh-mo/fe9177cb837ed9682dc53bfea003f877.html