开启 Pre-AGI 时代——OpenAI o1（草莓）模型发布

GPT42024-09-13 08:14:27189

刚看到一篇文章的作者说他收到了theinformation的邮件，“爆料”OpenAI的草莓模型本周末前发布，结果正准备睡觉，o1模型的核心研发者之一的NoamBrown就发了重磅推文——草莓来了：

Today, I’m excited to share with you all the fruit of our effort at @OpenAI to create AI models capable of truly general reasoning: OpenAI's new o1 model series! (aka 🍓) Let me explain...

上面3个图分别是GPT-4o、o1 preview和o1模型在数学竞赛、编程竞赛以及物理问题中的准确率表现。

OpenAl o1在回答之前会思考，并且能够在回应用户之前产生一个较长的内部思路链。根据上面的数据，o1在编程比赛里获得89分，在美国数学奥林匹克资格赛中跻身美国前500名学生之列，准确率达到了83.3%，并且在物理、生物和化学问题基准测试中的准确度超过了人类博士的平均水平（69.7）。

一时间，有点接受不了了...

这可太牛x了...无论是什么自然科学测试，超过人类博士平均水平，都意味着是通往AGI的重大里程碑。

o1相比于GPT-4o，在PhD-Level Science问题上的提升是质的飞跃，在物理领域的准确率居然达到了92.8的评分...妥妥的985水平...在数学领域的提升更加夸张，达到了94.8。

总之，o1去考个博看起来并不是什么不可能的事情。

更可怕的是，o1在o1-preview 和 o1-mini 模型的基础上，又有了进步，这才几天？OpenAI向世界展示了o1不是一次性的改进，草莓是一种新的扩展范例，推理的神奇才刚刚起步。

o1 经过强化学习训练，在通过个人思维链做出反应之前会“思考”。思考的时间越长，它在推理任务上的表现就越好（下图）。这为扩展开辟了一个新的维度。

NoamBrown说“这意味着我们不再受预训练的瓶颈限制，我们现在也可以扩展推理计算了。”

不过Noam也提到 o1 模型并不总是比 GPT-4o 更好。许多任务不需要推理，有时等待 o1 响应与快速的 GPT-4o 响应相比是不值得的。之前他们发布 o1-preview 的一个动机是看看哪些用例会流行，以及模型需要在哪些方面发挥作用。

下图就说明了在个人写作、文本编辑、计算任务、数据分析、数学计算上o1并不总是优于GPT-4o。

但是，这些工作对应于人类的工作，要么是需要有灵感和创意的，要么是“机械性”的基础劳动...

所以，在GPT-4o逐步替代人类基础工作之后，o1模型要开始在高阶工作，例如PhD程度的工作，逐步和人类竞争了。

Noam说：“好在OpenAI o1-preview 并不完美。它有时甚至在小游戏和某些问题上会出错。”这可太好了，作为人类，我们可以轻松地在小游戏上碾压o1...

例如，上个月在 2024 年计算语言学协会会议上， @rao2z 的主题演讲题为“LLM可以推理吗？”在演讲中，他展示了一个让所有LLM都犯难的问题。但 o1-preview 可以正确回答，而 o1 几乎每次都能正确回答。

这个问题是这样的：

有点秀的，我一开始看到这个问题也想了一下，感觉超过了19秒，光读题读了2遍...

这个问题里，o1 思考了19秒钟，但OpenAI的目标是让未来的版本对于某个问题可以思考几个小时、几天甚至几周。这样的推理成本虽然会更高，但你会为一种新的抗癌药物付出什么代价？为了突破性的电池？为了黎曼假设的证明？人工智能可以不仅仅是聊天机器人...

高端，太高端了...才1年时间，AI就已经进展到如此地步了？这个该死的模型要去证明黎曼假设，在几个星期的思考后。

Noam基本上介绍了核心内容，剩下的内容在OpenAI官网上可以看到（文末有链接）。

我大致看完整个内容，还没有尝试o1（还没收到推送），但是有3点基础结论是毋庸置疑的：

1、OpenAI展示了自ScalingLaw以来最重要的数据曲线，关键是两条曲线完美协同，而不是孤零零的一条。

这两张图非常关键，这意味着训练和推理的高度一致性，意味着整个模型的可扩展性以及未来的智能潜力是指数级的。我们一直通过预训练扩展规模来推动LLM能力的增长，但现在发现推理能力的持续提升才是真正战胜收益递减的因素。更多的RL强化学习计算将使模型的能力超越人类平均水平。

2、o1模型的发布，意味着AI领域的商业化奇点到了。

OpenAI同时还发布了 o1-mini，这是一个非常智能的mini模型。在给出答案之前可以进行推理，但是o1-mini能让高智能得到更广泛普及，因为成本非常可观。

左上方的天蓝色折线，意味着o1 mini可以用相对非常低的 Inference Cost 推理成本来实现很好的数学表现。

o1-mini重新定义了高阶智能和成本边界，这意味着未来我们可以在有限的算力资源下获得更加多的智能涌现。

那么这也意味着，智能会更加的快速的普及，OpenAI等巨头公司将会开启营收的第二次爆炸性增长，而这个营收又将投入新一轮的算力资源建设里，用以提供更多的智能。

整个商业逻辑形成了闭环。

今夜之后，AI将进入 pre-AGI 时代，无论如何，我们中国也要迎头赶上，留给我们的时间不多了。

模型文章：https://openai.com/openai-o1-contributions/

本文链接：http://lechangxia.cc/gpt4/871.html

OpenAI-o1 ChatGPTPlus OpenAI o1 chatgpt 中文 OpenAIo1 OpenAI01 chatgpt o1

开启 Pre-AGI 时代——OpenAI o1（草莓）模型发布

相关文章

如何使用GPT-4语音包为体育生提供个性化训练建议？

哪个GPT-4性价比最高？全面比较与推荐

如何在GPT上开通虚拟卡服务？

怎么给gpt4传图

GPT-4采用了谁的声音？揭秘背后的语音技术