2025年2月2日,OpenAI发布会上正式推出基于o3版大模型“Deep Research”的新功能

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

2025年2月2日,OpenAI在一次临时宣布的线上发布会上正式推出了一项名为“Deep Research”的新功能。消息在当天下午4点27分传出,8点准时开始直播,场面虽小却引起了学术界和工业界的极大关注。这个功能基于o3版大模型,可在联网环境下对海量数据与资源进行深度搜索与推理,被寄予“将研究分析师级别的工作流程自动化”的厚望。
深度研究在上线后很快经历了两大权威测试,第一项是被称为“人类最后的考试”的超大规模测验,覆盖了3000多个多选和简答题,内容涉及语言学、火箭科学、化学、人文社会科学到数学等100多个学科;第二项是GAIA,对AI在现实世界问题上的能力进行了评估。Deep Research在这两项测试中均取得了创新的高分,尤其在化学、人文与社会科学以及数学领域表现出超出此前O3-mini高推理设置一倍的成果。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

由于这两项测试的结果极具引领作用,OpenAI并未公布最后答案,只公布了Deep Research的搜索过程,以保护评测的公平与基准。值得注意的是,新功能将在随后对Pro、Plus和Team用户开放测试,并可通过升级的方式,让免费用户获得极少量的使用额度。

快速揭幕:从临时通知到正式亮相

最初的版本基于o3模型开发,Pro用户(每月20美元)大约可以使用10次Deep Research,而团队版本则有更大的可用上限。免费用户能获得少量的临时使用额度,这让不少对先进人工智能工具感兴趣的开发者与研究者纷纷涌入。
现场演示时,OpenAI展示了Deep Research如何在短短30分钟内完成数小时的人类专家研究任务。例如某个问题需要浏览几十甚至上百条网页、论文和数据库资料,Deep Research都能自动爬取、提炼并输出一份结构化且富有洞见的报告。官方强调,这是一种适配多种复杂场景的研究“Agent”体验,也是OpenAI朝着通用人工智能(AGI)迈出的又一步。
紧接着,官方提到Deep Research在“GAIA”现实世界问题评估中三种难度等级均刷新了记录。这些成果为Deep Research的实际应用提供了有力背书。不过,OpenAI也坦言,它在识别谣言等信息真伪方面还存在不足,自信度校准部分也有待提升,而且在多步骤的研究任务中仍会出现偶发的事实幻觉。随着技术不断迭代,这些问题将持续得到改进。

AI大脑如何思考:Deep Research的秘密配方

Deep Research的原理建立在大模型的推理能力之上,通过强化学习、动态规划以及多工具协同搜索,把网络上零碎的信息自动整合成高价值的统一报告。隐含在这个过程中的数学和技术要点可以分为两部分:

深度搜索的概率魔法

深度搜索需要基于动态概率模型对各个数据源进行融合,通过Bayes公式或变分推断方法,综合考量不同信息之间的关联度,从而大幅减少“无效信息检索”带来的时间浪费。一个常见的推导可能包括:

当Observations与Result之间的相关性越强,Deep Research就越有把握对目标问题给出更符合实际的判断。为了适配多领域多维度的数据源,系统会依赖更多的先验知识库和自适应的概率更新机制来完成自我强化。

多轮追问的马尔可夫战术

复杂的联机研究往往需要多轮追问和分步推理。Deep Research借鉴了马尔可夫决策过程(MDP)的思想,将每一次搜索与提问视为一个状态-动作-奖励的循环:

在这些运算背后,Deep Research会根据搜索到的最新资料更新后验概率或得分函数,将无效信息剔除,转而集中火力对高质量内容进行深度检索。这种方法与强化学习训练相辅相成,使得多轮搜索与推理能够以自动化方式迭代收敛到相对准确且有效的结论。

动手尝鲜:一段代码搞定深度搜索

为了让研究者和开发者更直观地了解Deep Research的运作方式,可以将它看作一种可以编程调用的服务。下面是一个简化的Python示例,展示如何使用Deep Research发起一次基于o3模型的深度查询。示例仅为演示思路,真实调用或需结合OpenAI官方SDK:

这种方式相当于以编程的方式调用Deep Research,让它自动进行多轮搜索、结果汇总与推理分析,然后在指定的令牌(token)限制内输出足量的调研报告。这在金融、制造、医疗等需要深入收集与严谨分析的场景里尤为实用。

亲身试炼:用户的真实反馈

随着Deep Research的发布,一些早期测试者也分享了自己的体验:
·有研究机构让它连续检索并归纳整理《战争与和平》第一章内容,探讨托尔斯泰对于人物和人性的观点。
·有团队将近10份上市公司10-K财报作为输入,尝试挖掘潜在的财务违规行为,Deep Research用了不到半小时就筛选了其中的异常数据与可疑段落。
·还有用户反映,在使用“o3-mini-high+Deep Research”的模式时,系统会多次追问问题细节,并进行批量搜索,继而合并整理出上万字的研究产物。
每个人都看到了它的潜力,但也提出了一些不足,比如在引用来源时偶尔会缺失链接或标注,另外一旦搜索方向错误,需要从头开始,暂时没有“停止”按钮可以立即打断并重启任务。

前路未尽:深度研究的潜力与挑战

OpenAI研发团队强调,Deep Research只是他们打造AGI进程中一颗关键的基石。后续版本将扩展移动端与桌面端,并连接到更多的专业数据库,实现从科学研究到公共政策、从企业市场调研到医学诊断的深层应用。尤其在联合DeepSeek这类第三方AI搜索工具时,Deep Research可以将搜索能力扩展到跨语言、跨领域的信息中,进一步增强多学科、多语言合作的效率。
官方还提到,与Operator类执行Agent结合之后,将为ChatGPT带来更多“现实行动力”,使之不仅能收集并整合信息,还能帮助执行一些后续任务,如自动下单采购、自动标记文件、自动发送目标邮件等。
除了官方团队,来自Every团队和其他第三方开发者也在积极探索更多可能性。在他们的测试中,Deep Research有时能输出超过一万字的综合报告,涵盖经济、社会、环境等多方面知识,为那些需要进行宏观分析或跨学科研究的人群提供了极大助力。
当然,随着数据规模与模型复杂度的不断提升,Deep Research还会面临事实幻觉、信息甄别能力不足等挑战,因而OpenAI也在逐步改进其自信度校准、信息溯源与实时纠错机制。

亲情与科技:Deep Research背后的感动

OpenAI的ToG业务负责人Felipe Millon谈到了自己家庭在面临癌症治疗方案抉择时,如何借助Deep Research来检索前沿的研究和临床案例。这个功能不仅聚合了全球各地的医学研究数据,还能在追问和分析之间给予科学化的建议参考,让他们在重大的医学决策中多了一分底气和指导,深刻体现了Deep Research在现实问题上的实用价值。

与此同时,其他早期体验者如Jason Wei、Dan Shipper等,也在社交媒体上表示,这项AI深度搜索功能可能预示着未来人们使用互联网的方式将发生根本性变革,像手动浏览网页或手动在搜索引擎中查找资料的模式,将逐渐被可持续自动搜索、批量检索与精确推理的AI所取代。网络将不再只是信息的集合,而变成一个可由AI自动执行多步研究的动态智库。

遥想未来:当AI成为研究的中流砥柱

回到发布会当天所带来的震撼,一切都和Deep Research在“人类最后的考试”与GAIA测试中的优异表现分不开。它在短时间里,为多学科知识的整合和深度挖掘提供了全新的思路,既可以为个人研究提供细致入微的洞见,也可以替代部分枯燥耗时的研究流程,让真正的创造力发挥在更高层次的工作上。
随着这项技术的不断演进,更多第三方团队正基于Deep Research开发插件与应用,融合统计学、计算机编程与多学科知识,打造出完整的数字化智能研究平台。未来,无论是分析宏观经济数据、追踪学术前沿,还是为医学、金融或人文等领域提供深入的研究支持,都有可能在“深度研究”功能的进一步迭代中见到更多可能性。

chatgpt plus(GPT4)代充值

本文链接:https://lechangxia.cc/gpt4/2408.html

Deep Research

相关文章