DeepSeek等秒變操控電腦AI智能體,微軟開源工具OmniParser V2.0發(fā)布
IT之家 2 月 17 日消息,微軟 OmniParser 是一款基于純視覺的 GUI 智能體解析和識別屏幕上可交互圖標的 AI 工具,此前搭配 GPT-4V 可顯著增強識別能力。
2 月 12 日,微軟在官網(wǎng)發(fā)布了 OmniParser 最新版本 V2.0,可將 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模型,變成可以操控計算機的 AI 智能體。
與 V1 版本相比,OmniParser V2 使用了更大規(guī)模的交互元素檢測數(shù)據(jù)和圖標功能標題數(shù)據(jù)進行了訓(xùn)練,在檢測較小的可交互 UI 元素時準確率更高、推理速度更快,延遲降低了 60%。
在高分辨率 Agent 基準測試 ScreenSpot Pro 中,V2+GPT-4o 的準確率達到了 39.6%,而 GPT-4o 原始準確率只有 0.8%。
為了能夠更快地實驗不同的智能體設(shè)置,微軟還開源了 OmniTool,這是一個集成了智能體所需一系列基本工具的 Docker 化 Windows 系統(tǒng),涵蓋屏幕理解、定位、動作規(guī)劃和執(zhí)行等功能,也是將大模型變成智能體的關(guān)鍵工具。
IT之家附開源地址:
https://github.com/microsoft/OmniParser
最新推薦
閱讀排行榜
欄目索引
相關(guān)內(nèi)容