▲OpenAI最近推出了全新代理AI工具「Operator」。(示意圖/pexels)
圖文/鏡週刊
OpenAI最近推出了全新代理AI工具「Operator」,讓ChatGPT能夠自動執行網路上的各種任務。Operator是基於「電腦使用代理(Computer-UsingAgent,CUA)」這個全新模型開發,結合了GPT-4o的視覺辨識能力與強化學習的進階推理功能。這個模型能夠像人類一樣與螢幕上的圖形介面(如按鈕、選單、文字欄位等)互動,並且能夠在不需要額外API支援的情況下,靈活執行各種數位任務。
Operator能夠完成許多重複性高的工作,如填寫網頁表單、訂外送或購買票券等。使用者只需給出指令,Operator就會自動操作網頁,像是代替使用者在StubHub購票網站購買NBA球票,或是在Booking查找機票等。如果遇到需要使用者確認的操作,例如結帳、登入帳號或是處理CAPTCHA驗證,Operator會將控制權交還給使用者。
這款代理AI工具目前在美國只提供給ChatGPTPro訂閱用戶使用,並計畫逐步擴展到其他地區和使用者。OpenAI也正在與各大平台合作,包括DoorDash、Instacart、OpenTable、Priceline、Uber等,讓Operator能夠在各種服務中發揮作用。
CUA模型的核心是讓AI能夠進行多步驟的任務計劃並在遇到挑戰時自我修正,這使得Operator能夠處理從簡單到複雜的各種任務。儘管目前CUA仍處於測試階段,並且功能有限,但其在操作各種數位環境中的表現已經達到新的技術標準。
在性能測試中,CUA在「OSWorld」的全電腦使用任務中達到了38.1%的成功率,在WebArena中達到了58.1%,而在WebVoyager測試中則達到了87%。這些結果表現出CUA能夠使用螢幕、滑鼠和鍵盤等通用介面來執行各種網頁任務。
更多鏡週刊報導
4年砸16兆! 川普宣布合作OpenAI、軟銀、甲骨文啟動AI基礎建設
吵架啦!馬斯克嗆AI「星際之門」沒錢 奧特曼狠回:你錯了
川普要打造美國「成為AI世界之都」 撤銷拜登當年風險管控命令