刚看到一篇文章的作者说他收到了theinformation的邮件,“爆料”OpenAI的草莓模型本周末前发布,结果正准备睡觉,o1模型的核心研发者之一的NoamBrown就发了重磅推文——草莓来了:
Today, I’m excited to share with you all the fruit of our effort at @OpenAI to create AI models capable of truly general reasoning: OpenAI's new o1 model series! (aka 🍓) Let me explain...
上面3个图分别是GPT-4o、o1 preview和o1模型在数学竞赛、编程竞赛以及物理问题中的准确率表现。
OpenAl o1在回答之前会思考,并且能够在回应用户之前产生一个较长的内部思路链。根据上面的数据,o1在编程比赛里获得89分,在美国数学奥林匹克资格赛中跻身美国前500名学生之列,准确率达到了83.3%,并且在物理、生物和化学问题基准测试中的准确度超过了人类博士的平均水平(69.7)。
一时间,有点接受不了了...
这可太牛x了...无论是什么自然科学测试,超过人类博士平均水平,都意味着是通往AGI的重大里程碑。
o1相比于GPT-4o,在PhD-Level Science问题上的提升是质的飞跃,在物理领域的准确率居然达到了92.8的评分...妥妥的985水平...在数学领域的提升更加夸张,达到了94.8。
总之,o1去考个博看起来并不是什么不可能的事情。
更可怕的是,o1在o1-preview 和 o1-mini 模型的基础上,又有了进步,这才几天?OpenAI向世界展示了o1不是一次性的改进,草莓是一种新的扩展范例,推理的神奇才刚刚起步。
o1 经过强化学习训练,在通过个人思维链做出反应之前会“思考”。思考的时间越长,它在推理任务上的表现就越好(下图)。这为扩展开辟了一个新的维度。
NoamBrown说“这意味着我们不再受预训练的瓶颈限制,我们现在也可以扩展推理计算了。”
不过Noam也提到 o1 模型并不总是比 GPT-4o 更好。许多任务不需要推理,有时等待 o1 响应与快速的 GPT-4o 响应相比是不值得的。之前他们发布 o1-preview 的一个动机是看看哪些用例会流行,以及模型需要在哪些方面发挥作用。
下图就说明了在个人写作、文本编辑、计算任务、数据分析、数学计算上o1并不总是优于GPT-4o。
但是,这些工作对应于人类的工作,要么是需要有灵感和创意的,要么是“机械性”的基础劳动...
所以,在GPT-4o逐步替代人类基础工作之后,o1模型要开始在高阶工作,例如PhD程度的工作,逐步和人类竞争了。
Noam说:“好在OpenAI o1-preview 并不完美。它有时甚至在小游戏和某些问题上会出错。”这可太好了,作为人类,我们可以轻松地在小游戏上碾压o1...
例如,上个月在 2024 年计算语言学协会会议上, @rao2z 的主题演讲题为“LLM可以推理吗?”在演讲中,他展示了一个让所有LLM都犯难的问题。但 o1-preview 可以正确回答,而 o1 几乎每次都能正确回答。
这个问题是这样的:
有点秀的,我一开始看到这个问题也想了一下,感觉超过了19秒,光读题读了2遍...
这个问题里,o1 思考了19秒钟,但OpenAI的目标是让未来的版本对于某个问题可以思考几个小时、几天甚至几周。这样的推理成本虽然会更高,但你会为一种新的抗癌药物付出什么代价?为了突破性的电池?为了黎曼假设的证明?人工智能可以不仅仅是聊天机器人...
高端,太高端了...才1年时间,AI就已经进展到如此地步了?这个该死的模型要去证明黎曼假设,在几个星期的思考后。
Noam基本上介绍了核心内容,剩下的内容在OpenAI官网上可以看到(文末有链接)。
我大致看完整个内容,还没有尝试o1(还没收到推送),但是有3点基础结论是毋庸置疑的:
1、OpenAI展示了自ScalingLaw以来最重要的数据曲线,关键是两条曲线完美协同,而不是孤零零的一条。
这两张图非常关键,这意味着训练和推理的高度一致性,意味着整个模型的可扩展性以及未来的智能潜力是指数级的。我们一直通过预训练扩展规模来推动LLM能力的增长,但现在发现推理能力的持续提升才是真正战胜收益递减的因素。更多的RL强化学习计算将使模型的能力超越人类平均水平。
2、o1模型的发布,意味着AI领域的商业化奇点到了。
OpenAI同时还发布了 o1-mini,这是一个非常智能的mini模型。在给出答案之前可以进行推理,但是o1-mini能让高智能得到更广泛普及,因为成本非常可观。
左上方的天蓝色折线,意味着o1 mini可以用相对非常低的 Inference Cost 推理成本来实现很好的数学表现。
o1-mini重新定义了高阶智能和成本边界,这意味着未来我们可以在有限的算力资源下获得更加多的智能涌现。
那么这也意味着,智能会更加的快速的普及,OpenAI等巨头公司将会开启营收的第二次爆炸性增长,而这个营收又将投入新一轮的算力资源建设里,用以提供更多的智能。
整个商业逻辑形成了闭环。
今夜之后,AI将进入 pre-AGI 时代,无论如何,我们中国也要迎头赶上,留给我们的时间不多了。
模型文章:https://openai.com/openai-o1-contributions/
本文链接:http://lechangxia.cc/gpt4/871.html
OpenAI-o1ChatGPTPlusOpenAI o1chatgpt 中文OpenAIo1OpenAI01chatgpt o1