先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
OpenAI 深度研究(2025年2月1日)的总结
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
深度研究是什么:
深度研究 是一个先进的、自动化的研究工具,旨在进行复杂的研究任务。它可以访问大量的在线信息,包括搜索结果、网页内容、图像(PDF)等,并独立地搜索、汇总和分析信息。
该工具包含了详细的报告功能,将研究结果整合到一个清晰的引文和推理过程中。
可用性:
已在OpenAI的网站上以预发布形式推出。
2025年2月和团队用户可以获得访问权限,计划在未来扩展到更多的Plus用户和企业用户。
自动化研究:
独立地搜索、汇总和分析信息。
包含详细的报告功能。
高级工具与多模态整合:
由即将推出的OpenAI o3模型提供动力。
可以与Python集成,允许用户使用Python进行自动化任务。
支持多种文件格式,包括图像。
任务灵活性:
适应其研究路径以适应新的信息或在研究过程中遇到的新问题。
专业与学术研究:
针对金融、法律、科技和其他知识密集型领域的用户进行了定制。
帮助自动化劳动密集型研究任务。
消费者决策制定:
协助用户做出关于购买产品(如电子产品、家用电器、个人护理产品)的明智决策。
使用基于数据的深入报告进行培训。
训练方法:
使用基于强化学习和挑战性任务的训练方法。
基于OpenAI早期模型(如OpenAI o1)的改进。
设计用于执行复杂任务,如预测、模拟和基于新数据的调整。
工具使用:
整合了网络浏览、文件分析和Python驱动的数据可视化功能。
提供了一个多功能的输出。
人类最后的考验:
完成了一个复杂的26.6%的任务集合。
涵盖了人类智能的各个方面,包括火箭科学和量子计算等领域。
GAIA基准测试:
展示了在多个不同领域的表现。
特别强调了跨领域的泛化能力。
专家评估:
研究表明,Deep Research 在揭示非直观信息方面表现出色。
准确性与推理:
可能偶尔会产生幻觉或不正确的输出。
随着时间的推移,准确性有所提高。
展示问题:
早期版本的报告可能包含格式错误和引用不一致性。
由于计算限制,任务的初始速度可能较慢。
当前访问:
提供给Plus用户,每月限额100次查询。
计划扩展到Team和Enterprise用户,以及更广泛的区域用户。
即将推出的改进:
更高效的版本,减少开发时间,提供更高的查询限制。
将适用于所有付费用户。
未来整合:
计划集成到更多的应用程序和工作流程中。
与内部资源和外部服务集成,以增强其功能。
解读
OpenAI 的“深度研究”模型,在人类的最后考试中取得了 o3-mini 分数的两倍,甚至可以执行一些博士专家需要 10 多个小时才能完成的任务!
一些关于其含义的想法:深度研究除了是一个令人难以置信的代理之外,还可以被视为互联网的新界面。我们人类目前使用互联网的方式相当笨拙——搜索和点击需要时间,我们受到时间和注意力的限制,而且我们不知道那里所有的网站。
另一方面,人工智能永远不会感到疲倦,可以同时浏览多个网站,并且拥有几乎无限的世界知识。有了能够如此出色地浏览网页的深度研究模型,我们正在进入一个新世界,在这个世界中,任何人类需要数小时才能收集的信息,人工智能都可以在几分钟内为您合成。
我们现在有幸拥有:
- 人工智能将为我们综合所有相关信息,而不必梳理数百条评论来决定选择哪家酒店、餐厅或产品
- 当我们旅行时,我们会从网络的各个角落获得最好的建议,甚至是来自小众论坛的建议
- 对于任何新的科学想法,我们都可以快速获得所有相关文献、相关想法和人员的列表,以便联系
它基本上就像是互联网的一个版本,可以根据您想要了解的内容进行个性化设置。这种模式将非常强大,以至于将来通过浏览器手动浏览互联网将成为“老式做法”,就像手动进行算术计算而不是使用计算器一样。
Humanity's Last Exam(人类最后的考试):
在最近发布的 “人类最后的考试”评估中,深度研究模型的准确率达到 26.6%,创下新高。这项测试包括 3,000 多道选择题和简答题,涉及从语言学到火箭科学、从古典文学到生态学等 100 多个学科。与 OpenAI o1 相比,化学、人文和社会科学以及数学的准确率提高幅度最大。为深度研究提供动力的模型通过在必要时有效地寻找专业信息,展示了一种类似于人类的方法。
1.考虑到我多次发现模型出现幻觉、细节错误或完全编造事情,我不会相信它在没有完全验证所有内容的情况下研究一些关键的东西——这意味着我最好自己研究它。
2.这真是一项了不起的成就!您能详细说明一下它可以执行哪些类型的任务,而这些任务需要专家花费 10 多个小时才能完成吗?
3.这不是模型,这是代理。区别很大。
4.祝贺这一突破性的成就!
5.如果我可以访问订阅科学期刊的图书馆。。。深度研究可以使用它们吗。。。?
6.AGI的实现依赖于多个Agent的有机结合,就像人体内的器官一样。
7.他们在考试前泄露了试题吗?我现在不相信 OpenAI 的任何东西了。
8.这不会消灭那些依赖广告的网站吗?
9.深度研究基于o3或o3-mini?回复:可能基于o1。
10.与没有浏览和工具的模型进行比较是不公平的
11.为什么示例总是旅行、预订餐厅或酒店?不重要,没用。Alexa 犯了同样的错误,试图迎合普通人。唯一重要的是它能否做好深度的技术工作。
回复1:我完全同意操作员演示,但对此不同意。他们展示了深入的财务和生物学报告,以防你错过。
回复2:因为使用人工智能预订酒店比使用谷歌预订略好一些。从事技术工作会加速新技术的发展。
12.你们干得好,而且深度搜索已经发布,但对不搜索的模型和搜索的模型,这样的比较实在是太糟糕了
13.深度研究模型带来激动人心的新可能性!彻底改变我们获取信息的方式。
14.哈哈,深度研究模型?听起来就像我的猫在吃了几口猫薄荷之后就能做的事情🐱💻 。拥有一个可以在 10 分钟内完成博士专家需要 10 小时才能完成的任务的模型有什么意义?这只会让所有聪明人失去工作🤖💸
15.到目前为止我只参与了一天,但 openai 的深度研究和 o3 的价值已经超过了我支付给私人研究团队的 15 万美元,用于研究我女儿的颅咽管瘤治疗方法。每月 200 美元的投资回报率太疯狂了。
许多学术文章都是需要付费的,现在我订阅了几乎所有主要的医学期刊。如果我能将我的所有凭证与深入研究联系起来,以便能够访问原始论文,那么游戏规则将会改变。
奥特曼回复:我们确实需要想办法
16.OpenAI 深度研究的重要突破是,模型经过训练,可以将行动作为其 CoT 的一部分。代理的问题一直是它们无法在长时间内采取连贯的行动。它们会分心并停止进步。现在已经修复。