青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

DeepSeek等秒變操控電腦AI智能體,微軟開源工具OmniParser V2.0發(fā)布

IT之家 2 月 17 日消息,微軟 OmniParser 是一款基于純視覺的 GUI 智能體解析和識別屏幕上可交互圖標的 AI 工具,此前搭配 GPT-4V 可顯著增強識別能力。

2 月 12 日,微軟在官網(wǎng)發(fā)布了 OmniParser 最新版本 V2.0,可將 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模型,變成可以操控計算機的 AI 智能體。

與 V1 版本相比,OmniParser V2 使用了更大規(guī)模的交互元素檢測數(shù)據(jù)和圖標功能標題數(shù)據(jù)進行了訓(xùn)練,在檢測較小的可交互 UI 元素時準確率更高、推理速度更快,延遲降低了 60%。

在高分辨率 Agent 基準測試 ScreenSpot Pro 中,V2+GPT-4o 的準確率達到了 39.6%,而 GPT-4o 原始準確率只有 0.8%。

為了能夠更快地實驗不同的智能體設(shè)置,微軟還開源了 OmniTool,這是一個集成了智能體所需一系列基本工具的 Docker 化 Windows 系統(tǒng),涵蓋屏幕理解、定位、動作規(guī)劃和執(zhí)行等功能,也是將大模型變成智能體的關(guān)鍵工具。

IT之家附開源地址:

https://github.com/microsoft/OmniParser


相關(guān)內(nèi)容