美國初創(chuàng)公司OpenAI周四突然舉行直播活動,發(fā)布市場期待已久的首款AI代理工具Operator(意為操作員),能夠代理用戶執(zhí)行基于網(wǎng)頁的操作。
言簡意賅的解釋,就是Operator能夠像人類一樣使用網(wǎng)頁瀏覽器。
與“問一句、答一句”的聊天機器人不同,AI代理能夠在人類有限監(jiān)督的情況下按照設(shè)定完成任務(wù),也被普遍視為AI生產(chǎn)力的下一個里程碑。在OpenAI通往通用人工智能(AGI)的五個步驟中,AI代理是繼聊天機器人、推理機器人之后的第三步,也是全新的一步。
山姆·奧爾特曼介紹稱,從周四開始,美國的ChatGPT Pro用戶(一個月交200美元)將能使用“研究預覽版”的Operator。未來將拓展到更多區(qū)域的Pro用戶,幾個月后ChatGPT Plus用戶也能用上。同時在未來幾周、幾個月里,還會發(fā)布更多的AI代理。
什么是Operator?
Operator由一個名為CUA(計算機使用代理)的新模型驅(qū)動,結(jié)合了GPT-4o的視覺能力,以及通過強化學習實現(xiàn)的高級推理。Operator能夠“看見”網(wǎng)頁(截圖),并使用鼠標和鍵盤允許的所有操作與網(wǎng)頁進行互動。在操作中如果碰到困難,模型會調(diào)用推理能力進行自我糾正,若依然無法解決問題則會把控制權(quán)交還給人類。
要理解這種新事物,還得靠新鮮生動的案例。
Operator的界面與聊天機器人ChatGPT類似,最大的區(qū)別是調(diào)用“AI代理”完成用戶吩咐的事情。
在演示案例中,Operator被要求預訂某家飯店。用戶只需要在對話框中輸入“給我訂一個XX飯店今晚19點的桌子”,然后AI代理就會自己打開網(wǎng)頁,進入預訂網(wǎng)站,搜索餐廳并完成預訂。
如果用戶所需的時段已經(jīng)被訂完,AI會詢問“19點的桌子訂完了,19點45分的桌子還有,要不要訂?”
在另一個案例中,用戶上傳了一張寫有“雞蛋、菠菜、蘑菇”等雜貨的購物清單,要求Operator去買菜網(wǎng)站上進行操作。隨后AI就會打開瀏覽器,順著清單逐一搜索并加入購物車。
完成任務(wù)后,Operator會告訴用戶總共需要多少錢,以及騎手送達的時間,然后將瀏覽器的控制權(quán)交還給人類。
OpenAI也提醒使用者,雖然Operator已經(jīng)是市面上最強的AI代理,但與人類相比依然差得很遠。例如在使用瀏覽器的基準測試中,OpenAI CUA模型能拿到58.1%的評分,但人類的水平可以達到78%。所以這項新技術(shù)仍有可能犯錯,但會在未來數(shù)月里持續(xù)改進。