OpenAI突然发布传说中“草莓”模型的部分预览版——OpenAI o1

GPT42024-09-14 15:01:10150

9月13日凌晨，OpenAI突然发布传说中“草莓”模型的部分预览版——OpenAI o1预览版。

在AI的热度消失许久之后，这个掀起AI浪潮的公司，再次交出他们的答卷。这是一套全新AI模型，能推理复杂的任务，解决比以前科学、编程、数学模型更难的问题。

毫无疑问，全新模型的功能再次出现了升级，但这一次更为强调模型的推理能力。

OpenAI o1是全新系列AI模型的第一款。与以往模型不同的是，它拥有进化的推理能力，会在回答前进行缜密思考，生成一个长长的内部思维链，在竞争性编程问题上排名第89位，在美国数学奥林匹克预选资格赛中排名前500，在物理、生物、化学问题的基准测试中准确度超过了人类博士水平！

新发布的另一款o1 mini是一款更快、更小的模型，使用与o1类似的框架进行训练。o1 mini擅长理工学科，尤其是数学和编程，其成本比o1预览版便宜80%。这两款模型被OpenAI视为复杂推理任务的重大进步，因此被命名为o1，重置计数器，而非作为GPT系列的延续。

OpenAI今天发布的o1模型虽然名字上与此前泄露的“草莓”不同，但功能、推理、性能等方面与外界揣测的基本一致。据了解，o1的推理模式的特别之处在于，在回答用户问题之前，o1会进入拟人化思考模式，将问题分解成更小的步骤，逐一解决，然后生成一个较长的内部思维链，这一推理模式也使得回答的内容更加准确。

由于这一次升级模型的推理逻辑会更像一个人。与人类类似，o1在回答难题之前会进行长时间思考，且尝试解决问题时会使用思维链（Chain of Thought）。

通过强化学习，o1学会了改进思维链和使用策略。它能够识别和纠正错误，将棘手的步骤分解为更简单的步骤，并且在当前方法不起作用时尝试不同的方法。这一过程极大地提高了模型的推理能力。

具体来说，o1模型引入了推理标记（Reasoning Tokens）。这些推理标记被用于进行“思考”，分解对提示的词理解，并考虑多种生成响应的方法。推理标记生成后，模型会将答案生成为可见的完成标记（Completion Tokens），并从其上下文中丢弃推理标记。

从性能来说，根据OpenAI对o1模型的介绍表示：“在我们的测试中，下一个模型（o1模型）更新在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中，GPT-4o仅正确解决了13%的问题，而推理模型得分为83%。他们的编码能力在比赛中得到了评估，并在Codeforces比赛中达到了第89个百分位。”

在国际数学奥林匹克（IMO）资格考试中，OpenAI的上一代模型GPT-4o正确率为13%，而OpenAI o1则达到83%。在编程比赛Codeforces中，OpenAI o1的分数为89，而GPT-4o仅有11。即使是预览版的o1-preview模型，性能也比GPT-4o要好数倍。在大多数基准测试中，o1的表现都比GPT-4o要好得多，覆盖57个MMLU子类别中的54个。在启用视觉感知功能后，o1在MMLU上的得分为78.2%，成为第一个与人类专家相媲美的模型。