OpenAI发布新模型OpenAI o1，像人类一样思考，会完善自己的思维过程，并认识到自己的错误

GPT42024-09-13 02:46:24151

OpenAI o1-preview

OpenAI发布了一系列新的 AI 模型，旨在花更多时间思考后再做出反应。它们可以推理复杂的任务，解决比以前的科学、编码和数学模型更难的问题。

工作原理

OpenAI训练的这些新模型可以花更多时间思考问题，然后再做出反应，就像人类一样。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在测试中，下一代模型在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。除此之外还发现它在数学和编码方面表现出色。在国际数学奥林匹克 (IMO) 资格考试中，GPT-4o 仅正确解决了 13% 的问题，而新的推理模型达到 83%。他们的编码能力在比赛中得到了评估，并在 Codeforces 比赛中达到了89% 。

作为早期模型，它还不具备 ChatGPT 的许多实用功能，例如浏览网页获取信息以及上传文件和图片。对于许多常见情况，GPT-4o 将在短期内变得更加强大。但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。鉴于此，OpenAI将计数器重置为 1，并将该系列命名为 OpenAI o1。

适合对象

解决科学、编程、数学和类似领域的复杂问题，这些增强的推理能力可能特别有用。例如，医疗研究人员可以使用 o1 来注释细胞测序数据，物理学家可以使用 o1 来生成量子光学所需的复杂数学公式，各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

OpenAI o1-mini

o1 系列模型擅长准确生成和调试复杂代码。为了给开发人员提供更高效的解决方案，OpenAI o1-mini，这是一种速度更快、成本更低的推理模型，在编程方面尤其有效。作为一款较小的模型，o1-mini 比 o1-preview 便宜 80%，使其成为一款功能强大、经济高效的模型，适用于需要推理但不需要广泛世界知识的应用程序。

o1 在广泛的基准测试中都比 GPT-4o 有所改进，包括 54/57 个 MMLU 子类别。图中显示了七个子类别以供说明。

思路链（Chain-of-Thought）

与人类在回答难题之前会长时间思考的方式类似，o1 在尝试解决问题时会使用思路链。通过强化学习，o1 学会磨练其思路链并改进其使用的策略。它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。

编程（Coding）

OpenAI训练的一个模型，该模型在 2024 年国际信息学奥林匹克 (IOI) 比赛中获得 213 分，排名在49 个百分点，从 o1 开始初始化，然后进行训练以进一步提高编程技能。该模型在与人类参赛者相同的条件下参加了 2024 年 IOI 比赛。它有10 个小时来解决六个具有挑战性的算法问题，每个问题允许提交 50 份答案。

对于每个问题，系统都会抽取许多候选提交，并根据测试时间选择策略提交其中的 50 个。提交是根据 IOI 公共测试用例、模型生成的测试用例和学习的评分函数的表现来选择的。如随机提交，平均只能得到 156 分，这表明在比赛限制下，这种策略值近 60 分。

OpenAI发现，在放宽提交限制后，模型性能显著提高。当允许每个问题提交 10,000 次时，即使没有任何测试时间选择策略，该模型也能获得 362.14 分，高于金牌门槛。

最后，模拟了 Codeforces 主办的竞争性编程竞赛，以展示该模型的编码技能。模型的评估方法与竞赛规则非常接近，允许提交 10 份作品。GPT-4o 的 Elo 评级为3 分（808 分），位于人类竞争对手的第 11 个百分位。o1-ioi模型远远超过了 GPT-4o 和 o1——它的 Elo 评级为 1807 分，表现优于 93% 的竞争对手。

来源OpenAI官网

本文链接：http://lechangxia.cc/gpt4/870.html

OpenAI-o1 ChatGPTPlus OpenAI o1 chatgpt 中文 OpenAIo1 OpenAI01 chatgpt o1