先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI发布了一个AI agent,名字为Operator。目前仅开放给ChatGPT的Pro用户。Operator可以自主浏览网页并执行相关任务。(AI Agent:人工智能的下一个风口,2025年将迎来爆发)
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
奥特曼和他的团队介绍了Operator,并通过预定餐厅、购买生活用品、订票、找清洁工、订披萨等示例对Operator的功能进行了演示,此外还介绍了背后强大的CUA原理以及其安全控制。以下为作者添加了中英文字幕的demo视频,视频时长约23分钟:
以下为Operator官网介绍内容的AI译文:
今天我们发布了Operator,这是一个可以上网为您执行任务的代理。它使用自己的浏览器查看网页,并通过输入、点击和滚动与网页进行交互。目前它处于研究预览阶段,这意味着它有一些局限性,并将根据用户反馈进行改进。Operator是我们首批agent之一,这些agent是能够独立为您工作的AI——您给它一个任务,它就会执行。
Operator可以处理各种重复性的浏览器任务,例如填写表格、订购杂货,甚至创建表情包。使用人类日常交互的相同界面和工具的能力,扩大了AI的实用性,帮助人们在日常任务中节省时间,同时为企业开辟了新的参与机会。
为了确保安全和逐步推出,我们从小的范围开始。从今天开始,Operator在美国的Pro用户可以在operator.chatgpt.com上使用。这个研究预览使我们能够从用户和更广泛的生态系统中学习,逐步完善和改进。我们的计划是扩展到Plus、Team和Enterprise用户,并在未来将这些功能集成到ChatGPT中。
Operator如何工作
Operator由一种名为计算机使用代理(CUA)的新模型驱动。CUA结合了GPT-4o的视觉能力和通过强化学习实现的高级推理能力,经过训练可以与图形用户界面(GUI)进行交互——这些界面是人们在屏幕上看到的按钮、菜单和文本字段。
Operator可以通过截图“看到”并通过鼠标和键盘允许的所有操作与浏览器“交互”,从而使其能够在不需要自定义API集成的情况下在网络上采取行动。
如果遇到挑战或犯错误,Operator可以利用其推理能力进行自我纠正。当它遇到困难需要帮助时,它会简单地将控制权交还给用户,确保流畅和协作的体验。
虽然CUA仍处于早期阶段并有一些局限性,但它在WebArena和WebVoyager这两个关键的浏览器使用基准测试中设定了新的最先进标准。在我们的研究博客文章中了解更多关于评估和Operator背后的研究。
如何使用
要开始使用,只需描述您想要完成的任务,Operator可以处理其余的事情。用户可以随时选择接管远程浏览器的控制权,Operator经过训练,会在需要登录、支付详细信息或解决验证码时主动要求用户接管。
用户可以通过添加自定义指令来个性化他们在Operator中的工作流程,这些指令可以适用于所有网站或特定网站,例如在Booking.com上设置航空公司偏好。Operator允许用户在主页上保存提示以便快速访问,非常适合重复任务,如在Instacart上补充杂货。类似于在浏览器中使用多个标签页,用户可以通过创建新的对话让Operator同时运行多个任务,例如在Etsy上订购个性化搪瓷杯的同时在Hipcamp上预订露营地。
生态系统与用户
Operator将AI从被动工具转变为数字生态系统中的积极参与者。它将简化用户的任务,并为希望提供创新客户体验和提高转化率的公司带来代理的好处。我们正在与DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber等公司合作,确保Operator在尊重既定规范的同时满足现实世界的需求。除了这些合作,我们还看到了提高某些工作流程的可访问性和效率的巨大潜力,特别是在公共部门应用中。为了进一步探索这些用例,我们正在与Stockton市等组织合作,使注册城市服务和计划变得更加容易。
安全与隐私
- 任务限制: Operator经过训练,会拒绝某些敏感任务,例如银行交易或需要高风险决策的任务,如对工作申请做出决定。
- 监视模式: 在特别敏感的网站上,如电子邮件或金融服务,Operator需要对其操作进行密切监督,允许用户直接发现任何潜在的错误。
接下来,我们使在Operator中管理数据隐私变得容易。
- 选择退出训练: 在ChatGPT设置中关闭“为所有人改进模型”意味着Operator中的数据也不会用于训练我们的模型。
- 透明的数据管理: 用户可以在Operator设置的隐私部分一键删除所有浏览数据并注销所有网站。Operator中的过去对话也可以一键删除。
最后,我们建立了防御机制,以应对可能试图通过隐藏提示、恶意代码或钓鱼尝试误导Operator的敌对网站:
- 谨慎导航:Operator设计用于检测并忽略提示注入。
- 监控:专门的“监控模式”会监视可疑行为,并在出现异常时暂停任务。
- 检测管道: 自动和人工审查流程持续识别新威胁并快速更新保障措施。
我们知道不良行为者可能会试图滥用这项技术。这就是为什么我们设计了Operator来拒绝有害请求并阻止不允许的内容。我们的审核系统可以发出警告,甚至在多次违规时撤销访问权限,并且我们集成了额外的审查流程以检测和处理滥用行为。我们还提供了有关如何遵守我们的使用政策与Operator互动的指导。
虽然Operator设计了这些保障措施,但没有系统是完美的,这仍然是一个研究预览;我们致力于通过现实世界的反馈和严格测试进行持续改进。有关我们的方法的更多信息,请访问Operator研究博客的安全部分。
局限性
Operator目前处于早期研究预览阶段,虽然它已经能够处理各种任务,但它仍在学习和进化中,可能会犯错误。例如,目前在处理复杂界面(如创建幻灯片或管理日历)时遇到挑战。早期用户反馈将在提高其准确性、可靠性和安全性方面发挥重要作用,帮助我们为所有人改进Operator。
下一步
API中的CUA: 我们计划很快在API中公开支持Operator的模型CUA,以便开发人员可以使用它构建自己的计算机使用代理。
增强功能: 我们将继续改进Operator处理更长和更复杂工作流程的能力。
更广泛的访问: 我们计划将Operator扩展到Plus、Team和Enterprise用户,并在未来一旦我们对其安全性和可用性有信心时,将其功能直接集成到ChatGPT中。