先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
摘要:OpenAI 网站源码中意外泄漏了与 ChatGPT 相关的关键信息,这一事件引发了广泛关注。泄漏内容可能涉及一些未公开的技术细节或内部开发计划,尽管 OpenAI 尚未正式回应,但这一事件已引发了对 AI 模型安全性和透明度的讨论。业内人士推测,此次泄漏可能会对 ChatGPT 的未来更新和功能开发产生影响,同时也提醒了科技公司在代码管理和网络安全方面的重要性。OpenAI 或将采取措施加强内部安全防护,以避免类似事件再次发生。
OpenAI的网站上悄然出现了关于「Operator」的重要信息。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
OpenAI的网站上悄然出现了「Operator」系统的技术评估数据,这个全新的计算机使用代理(Computer Use Agent)在多项基准测试中展现出惊人的性能。
这或将成为下一个革命性突破!
Lead Engineer Tibor Blaho发现,OpenAI官网已经包含了多个关键评估数据表格。
Operator System Card Table」显示:在文本编辑基准测试中,Operator获得了92.3%的高分,而Claude 3.5 Sonnet为89.1%,Google Mariner则为85.6%。
在「Operator Research Eval Table」中,系统在命令行操作方面的表现更是亮眼。无辅助模式下达到了87.5%的准确率,辅助模式下更是高达95.8%,相比之下,GPT-4O在相同测试中的得分为100%。
「Operator Refusal Rate Table」则显示,该系统在处理潜在危险指令时的拒绝率为98.2%,展现出极高的安全性。
这个消息一经曝光,立即引发了热烈讨论。
Taher Dhanerawala(@taherdhanera) 认为这项技术即将要发布了:
> Operators coming soon :)
不过,也有专家对数据提出了质疑,人工智能研究员Igor Kotenkov分析指出两种可能性:
1、operator可能更便宜更快(不太可能)
2、他们在微调过程中特意过滤了与模型(自我)扩散相关的轨迹,因此他们可以说「这个模型不比现有模型更危险」(可能性较大)
🥇🥈🇩🇪🥉Darth thromBOOzyt📯(@krasmanalderey) 则表达了他的怀疑:
> 这些结果看起来很奇怪,GPT-4O不可能在现实世界中所有项目都达到100%
关于Operator的具体功能,Allahoum zeyd(@zeydou) 给出了一个重要解释:
> Operator是自主的,GPT-4O with vision是告诉你如何做事情。
Sir Mr Meow Meow(@SirMrMeowmeow)更关心其实际应用场景:
> 如何解读这些指标?Operator是否在某些特定屏幕任务上表现更好?而4O则更擅长控制台相关任务?那么对于自定义GUI呢,比如个人麦当劳模拟器或各种游戏?
Jo(@JoJrobotics)则从模型基础角度分析道:
> 除非它使用完整的O3模型,如果上述分数是基于o3 mini或gpt-4o作为基础模型,那么这个结果已经很好了。
Frieren(@Frieren_white)也对这个开端表示肯定:
> 作为起步来说还不错。
从首批披露的技术指标来看,Operator系统虽然在某些方面略逊于GPT-4O,但其自主操作能力和安全性都达到了相当高的水平。
这个专注于计算机控制的AI代理系统,很可能为人机交互带来新的突破。
相关信息来源:
- archive.is/ykM1U
- archive.is/gLM6Q
已删除所有广告信息、推广链接和作者联系方式。