​OpenAI最近推出的一个新功能,叫做 Deep Research (深度研究)

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

OpenAI最近推出的一个新功能,叫做 Deep Research (深度研究)。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

一听这个名字,是不是立刻就想到了谷歌Gemini之前发布的Deep Research呢?  没错,它们的功能有点类似,都是主打深度信息检索和分析。  但OpenAI的Deep Research到底有什么特别之处? 又能为我们带来什么惊喜? 赶紧跟着我一起深入了解一下吧!

一、Deep Research 初印象:更像一个“研究助理”


首先,我们来看看Deep Research的界面。 整体设计非常简洁,左侧输入你的问题,右侧就会实时显示它的工作进程,有点像之前介绍过的“Operator”操作面板。

输入问题后,Deep Research不像传统搜索引擎那样直接丢给你一堆链接,而是更像一个智能研究助理,它会一步一步地执行任务:

  • 进行一系列搜索:它会根据你的问题,智能规划搜索策略,访问多个网站寻找答案。
  • 阅读网页内容:找到相关网页后,它会像人一样认真阅读网页内容,提取关键信息。

整个过程可视化,让你清晰地看到AI是如何一步步进行“研究”的。

二、谁是Deep Research的“目标用户”?

OpenAI官方表示,Deep Research 对 知识工作者 尤其有用。

  • Pro 用户: 今天晚些时候就可以体验到 Deep Research,每月有 100次 查询机会。
  • Plus 用户: 大概需要等待 一个月左右 的时间,每月有 10次 查询机会。

OpenAI还透露,未来一个月内,Deep Research 将会推广到移动和桌面应用,并且会推出更迅速、更具成本效益的版本。 届时可能会采用更小的模型,但OpenAI强调会努力保持高质量的研究水准。 (当然,模型变小,质量是否会受影响,这点我们还需要持续观察。)

OpenAI的愿景是将 Deep Research 和 Operator 功能结合,实现一个 “一步到位”的现实世界研究和执行工具

Deep Research 的目标用户群体非常广泛:

  • 专业人士: 各行各业需要进行深入研究的专业人士。
  • 研究人员: 学术研究、市场调研等领域的科研人员。
  • 需要深度分析的消费者:  需要进行复杂购买决策的消费者等。

OpenAI 甚至发现,他们内部员工都非常喜欢用 Deep Research 来辅助各种购买决策!

三、Deep Research 的“独门绝技”

Deep Research 由即将推出的 OpenAI o3 模型 的优化版本驱动。 这个版本非常特别,它是 专为网络浏览和数据分析设计 的。

相比其他模型,它有以下几个显著特点:

  • “幻觉”更少:  专为网络信息检索优化,信息来源更可靠,减少了“一本正经胡说八道”的情况。
  • 输出可溯源: 每个输出结果都提供清晰的引用来源和思维总结,方便用户参考和验证信息,提升研究的严谨性。
  • 发现“小众”信息:  能够深入挖掘,发现更深层次、更细致的信息,帮助用户节省大量信息搜集和整理时间。
四、应用场景示例对比

1. 市场分析 (商业案例)

查询:  “帮我查找过去 10 年 iOS 和 Android 的采用率、想学习另一种语言的百分比,以及移动设备普及率的变化,针对 GDP 排名前 10 的发达国家和发展中国家。将这些信息整理成表格,按列分隔统计数据,并根据 ChatGPT 目前活跃的市场,为新的 iOS 翻译应用程序提供目标市场建议。”

GPT-4o 的回应 (快速总结和初步建议):

  • 提供了基于现有知识的初步分析和建议,但承认数据存在局限性。
  • 列出了 GDP 排名前 10 的发达国家和发展中国家。
  • 提供了 iOS 和 Android 采用率、语言学习兴趣和移动设备普及率的全球趋势洞察。
  • 基于有限的数据,推荐了美国、英国、加拿大、中国、印度和巴西作为目标市场。

Deep Research 的回应 (深度分析和详细数据):

  • 生成了包含详细数据的表格,针对每个国家列出了:
    • iOS 市场份额
    • Android 市场份额
    • 学习新语言的兴趣(百分比或显著统计数据)
    • 移动设备普及率变化 (2013-2023)
  • 提供了针对发达国家和发展中国家的并排数据,便于比较。
  • 基于数据,提供了更详细的市场进入建议,重点推荐日本、美国、英国、加拿大和澳大利亚等市场,并解释了原因。
  • 明确区分了第一梯队和第二梯队目标市场,并提供了更细致的市场策略建议。

结论: Deep Research 提供了更深入、数据更丰富、更可操作的市场分析报告。

2. 查找特定剧集 (信息检索案例)

查询: “我很久以前看过一部电视剧。我忘记名字了,但我记得其中一集的情节。你能帮我找到剧名吗?我记得其中一集的情节:两个人玩扑克。一个人在另一个人叫他下注后弃牌。弃牌的那个人实际上牌很好,但被诈唬了。第二局,同一个人又弃牌了,但这次牌很差。一个人被锁在房间里,然后他的女儿敲门。两个男人去了一家肉店,一个人带了一瓶伏特加作为礼物。请深入浏览网络,找到完全符合这些情节的电视剧集。”

GPT-4o 的回应 (初步猜测):

  • 猜测可能是电视剧《Servant》。
  • 泛泛地提及了该剧的一些情节,与用户描述的情节有相似之处。

Deep Research 的回应 (精确匹配):

  • 准确识别出电视剧《Counterpart》第一季第四集 "Both Sides Now"。
  • 详细描述了该集中扑克牌诈唬、房间锁门和肉店送伏特加的三个情节,并引用了剧情概要来源。
  • 证明了 Deep Research 在处理模糊查询和查找精确信息方面的能力。

结论: Deep Research 在处理模糊查询和进行深入网络搜索方面表现更出色,能够找到人类难以找到的精确答案。

3. 文献综述 (科研案例)

查询: “深入研究通过直接修改四种山中因子蛋白序列来提高 OSKM 重编程效率的尝试。列出你找到的所有相关论文、作者、使用的方法和结果。研究论文中蛋白质变化和相应结果的模式,并列出科学家修改以提高效率的前 3 个结构域,以及他们认为这些变化有效的原因。”

GPT-4o 的回应 (简要总结):

  • 提供了关于 Klf4 亚型、重组 OSKM 蛋白和 Oct4 变体的三个研究示例。
  • 总结了蛋白质修饰和重编程效率的模式。
  • 列出了 DNA 结合域、转激活域和核定位信号作为修改以提高效率的三个主要结构域。
  • 对每个结构域的修改原因和有效性进行了简要解释。
  • 信息较为概括,缺乏深入的文献引用和细节。

Deep Research 的回应 (全面深入的文献综述):

  • 提供了全面的文献综述,列出了 11 篇关键论文,并按时间顺序排列。
  • 详细介绍了每篇论文的作者、方法和结果。
  • 深入分析了蛋白质修饰策略和发现,例如融合转激活域、点突变和结构域内部删除。
  • 总结了研究趋势和有效策略,例如增强转录激活能力和优化 DNA 结合相互作用。
  • 明确列出了最常被修改的三个结构域:转激活域、DNA 结合域和 Myc 的 N 端 Myc Box 结构域。
  • 详细解释了修改这些结构域的原因和有效性,并引用了具体的论文和研究结果。
  • 提供了详细的参考文献列表,方便用户进一步查阅。

结论: Deep Research 能够进行深入的文献调研,提供更全面、细致、有据可依的科研信息,更接近于专业研究人员的文献综述水平。

4. 用户界面可用性研究 (设计案例)

查询: “找到证据表明,带有图标和标签的按钮比没有标签的按钮或没有图标的标签更易于使用。我知道有很多用户研究对此进行了研究,希望看到一份详细的报告以及一个关于有效性的明确答案。”

GPT-4o 的回应 (简洁结论):

  • 简要总结了带有图标和文本标签的按钮通常比仅包含其中一个元素的按钮更有效。
  • 指出图标单独使用时可能存在歧义。
  • 引用了 Steve McCarthy 的一项研究,强调了文本标签的重要性。
  • 承认在用户非常熟悉特定图标的情况下,可以省略标签。
  • 总体结论是,图标与文本标签相结合可以提高可用性。

Deep Research 的回应 (详尽的可用性分析报告):

  • 提供了全面的可用性分析报告,详细比较了图标+标签、仅图标和仅标签按钮的有效性。
  • 从任务完成时间、错误率、用户满意度、可访问性和不同用户群体等多个维度进行了深入分析。
  • 引用了大量的用户研究和权威 UX 来源,例如 Nielsen Norman Group、UIE Research 等。
  • 在每个维度下都进行了详细的论证和数据支持,例如,在“用户错误率”部分,详细解释了图标歧义导致的错误,以及标签如何降低错误率。
  • 最终得出明确结论:带有图标和文本标签的按钮总体上最有效。
  • 提供了详细的参考文献列表,方便用户查阅原始研究。

结论: Deep Research 能够进行深入的可用性研究,提供更全面、细致、有证据支持的分析报告,更接近于专业的可用性研究报告水平。

5. 产品推荐 (购物案例)

查询: “我正在寻找完美的单板滑雪板。冬季我主要在北海道滑雪,大约每月两次。我喜欢压雪雪道,但也想要一块偶尔可以应对新雪的滑雪板。我喜欢多功能的全山或自由式滑雪板,中等弹性,在刻滑时稳定,但在多变条件下灵活。我想要一个颜色鲜艳、柑橘色调的滑雪板,在雪坡上能引人注目。我的预算是中等到略微高端,我想要在日本可以买到的具体品牌和型号的建议。请解释每块推荐的滑雪板如何满足我的要求。另外,请包括任何关于在北海道独特雪况下骑行的技巧或注意事项。包括物品的图片,并以易于阅读的表格形式排版。”

GPT-4o 的回应 (基本推荐):

  • 推荐了五款滑雪板型号,并提供了简要描述。
  • 包括 Jones Mountain Twin, K2 Passport, Gentemstick Mantaray, Moss Snowstick Performance Quad, Burton Custom Flying V。
  • 提供了价格范围和在日本的可用性信息。
  • 简要提及了北海道的雪况和一些注意事项。
  • 没有提供图片,表格格式相对简单。

Deep Research 的回应 (详尽的产品推荐和滑雪指南):

  • 推荐了五款滑雪板型号,并提供了更详细的描述,包括品牌、型号、图片和关键规格表。
  • 推荐了 CAPiTA Defenders of Awesome (D.O.A.), Salomon Assassin, RIDE Algorhythm, YES. Typo, GNU Riders Choice。
  • 详细解释了每款滑雪板如何满足北海道的需求,例如弹性、形状、外形和特点。
  • 提供了两个表格:
    • 推荐滑雪板表:包含滑雪板图片、品牌型号、为什么适合北海道(弹性、形状、轮廓、特点)等详细信息。
    • 关键规格比较表:包含滑雪板型号、弹性评级、形状、外倾角轮廓、显著技术/特点和价格范围(日元)。
  • 提供了更详细的北海道滑雪技巧,包括:
    • 深雪天设置站姿
    • 为寒冷干燥的雪打蜡
    • 利用滑雪板技术
    • 能见度和识别
    • 享受漂浮感
  • 提供了更全面的产品信息和滑雪指南,更贴近用户需求。

结论: Deep Research 能够进行更深入的产品调研,提供更详尽、更专业、更个性化的产品推荐和使用指南,更贴近用户实际需求。

6. 平均退休年龄查询 (常识问答案例)

查询: “NFL 踢球手的平均退休年龄是多少?”

GPT-4o 的回应 (简单推断):

  • 给出了 NFL 踢球手的平均年龄约为 29 岁。
  • 指出许多踢球手会一直踢到 30 多岁甚至 40 岁出头。
  • 推断 NFL 踢球手的平均退休年龄在 35 岁到 40 岁之间。
  • 信息相对简单,缺乏深入分析和数据支持。

Deep Research 的回应 (深入分析和背景信息):

  • 不仅给出了平均退休年龄,还深入分析了影响踢球手职业生涯长度的因素。
  • 指出踢球手的职业生涯平均长度 (4.8 个赛季) 比 NFL 球员的平均水平 (3.3 个赛季) 更长。
  • 提供了退休年龄范围,从 20 多岁到 40 多岁,并解释了原因。
  • 列举了多位长寿踢球手的例子,例如 George Blanda, Morten Andersen, Adam Vinatieri 等。
  • 解释了踢球手职业生涯更长的原因,例如身体需求较低、技术性更强等。
  • 提供了更深入的背景信息和分析,更全面地回答了用户的疑问。

结论: Deep Research 能够进行更深入的常识问答,提供更全面、更细致、更有解释性的答案,而不仅仅是简单的数字或结论。

五、Deep Research 的性能表现:更精准、更强大


OpenAI 官方也给出了 Deep Research 的性能数据:

  • 人类水平考试评估: Deep Research 的准确率高达 26.6%,远超 OpenAI O3 Mini High 模式,也比之前的 OpenAI o1 模型更准确。
  • 平均分评估: Deep Research 的平均分达到了 72.57分,相比之前的最佳表现 63分 左右,有了显著提升。

这些数据表明,Deep Research 在信息检索和分析方面,确实拥有更强大的性能。

六、Deep Research 的局限性


当然,Deep Research 目前还处于早期阶段,也存在一些局限性:

  • 事实准确性:  虽然“幻觉”减少,但仍需注意信息来源的可靠性,进行交叉验证。
  • 格式错误:  报告格式可能存在一些细微错误,需要用户自行调整。
  • 启动时间:  深度研究需要更长的处理时间,需要耐心等待。

七、实测体验:Deep Research 体验

我也进行了实测体验,发现有些问题可能不会触发 Deep Research,而是直接使用 GPT-4o 回答。

我让 Deep Research 对比分析两家音乐流媒体平台,比较订阅价格、曲库大小、音质、离线播放功能、用户界面设计等,并总结各自优缺点。

Deep Research 在 5分钟 内,调用了 21个来源,进行了对比分析、搜索、阅读、再搜索、再阅读等一系列操作,最终给出了详细的对比报告,包括价格对比表格、音质对比、离线下载功能对比、用户界面设计评价、优缺点总结等,信息非常全面且有条理,报告末尾还附上了引用来源链接,方便用户验证信息。

八、用户评价与真实案例

最后分享一些用户评价和真实案例,进一步展现了 Deep Research 的价值:

  • 免疫学教授评价:  Deep Research 帮助他 两天内完成了过去几个月的研究工作量,极大地提升了科研效率。
  • 专家对比 Google Deep Research:  认为 OpenAI 的 Deep Research 更像一个 “参与讨论的、博士级别的研究者”,而 Google 的更偏向于信息摘要。 OpenAI 的方法更主动深入,Google 的更适合快速概览。
  • OpenAI 员工的真实故事:  一位员工的妻子被诊断出乳腺癌,在咨询多位专家意见不统一的情况下,他尝试使用 Deep Research 上传妻子的病理报告,询问放疗是否有益。  Deep Research 的分析结果不仅证实了肿瘤科医生的观点,而且更深入、更细致,引用了员工从未听说过的研究,并结合年龄、遗传因素等细节进行了调整。  这个案例让这位员工大为惊叹,认为 Deep Research 让他感受到了 AGI (通用人工智能) 的时刻

chatgpt plus(GPT4)代充值

本文链接:https://lechangxia.cc/gpt4/2404.html

Al插件如何升级到chatgpt4.0chatgpt要开通会员才能用吗chatgptplus如何充值chatgpt注册后如何应用

相关文章