OpenAI突然发布传说中“草莓”模型的部分预览版——OpenAI o1

GPT42024-09-14 15:01:10150

913日凌晨,OpenAI突然发布传说中草莓模型的部分预览版——OpenAI o1预览版

AI的热度消失许久之后,这个掀起AI浪潮的公司,再次交出他们的答卷。这是一套全新AI模型,能推理复杂的任务,解决比以前科学、编程、数学模型更难的问题。


毫无疑问,全新模型的功能再次出现了升级,但这一次更为强调模型的推理能力。

OpenAI o1是全新系列AI模型的第一款。与以往模型不同的是,它拥有进化的推理能力,会在回答前进行缜密思考,生成一个长长的内部思维链,在竞争性编程问题上排名第89位,在美国数学奥林匹克预选资格赛中排名前500,在物理、生物、化学问题的基准测试中准确度超过了人类博士水平

新发布的另一款o1 mini是一款更快、更小的模型,使用与o1类似的框架进行训练。o1 mini擅长理工学科,尤其是数学和编程,其成本比o1预览版便宜80%。这两款模型被OpenAI视为复杂推理任务的重大进步,因此被命名为o1,重置计数器,而非作为GPT系列的延续。

OpenAI今天发布的o1模型虽然名字上与此前泄露的“草莓”不同,但功能、推理、性能等方面与外界揣测的基本一致。据了解,o1的推理模式的特别之处在于,在回答用户问题之前,o1会进入拟人化思考模式,将问题分解成更小的步骤,逐一解决,然后生成一个较长的内部思维链,这一推理模式也使得回答的内容更加准确。

由于这一次升级模型的推理逻辑会更像一个人。与人类类似,o1在回答难题之前会进行长时间思考,且尝试解决问题时会使用思维链(Chain of Thought)

通过强化学习,o1学会了改进思维链和使用策略。它能够识别和纠正错误,将棘手的步骤分解为更简单的步骤,并且在当前方法不起作用时尝试不同的方法。这一过程极大地提高了模型的推理能力。

具体来说,o1模型引入了推理标记Reasoning Tokens)。这些推理标记被用于进行思考,分解对提示的词理解,并考虑多种生成响应的方法。推理标记生成后,模型会将答案生成为可见的完成标记(Completion Tokens),并从其上下文中丢弃推理标记。

从性能来说,根据OpenAIo1模型的介绍表示:“在我们的测试中,下一个模型(o1模型)更新在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。他们的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。”


在国际数学奥林匹克(IMO)资格考试中,OpenAI的上一代模型GPT-4o正确率为13%,而OpenAI o1则达到83%。在编程比赛Codeforces中,OpenAI o1的分数为89,而GPT-4o仅有11。即使是预览版的o1-preview模型,性能也比GPT-4o要好数倍。在大多数基准测试中,o1的表现都比GPT-4o要好得多,覆盖57个MMLU子类别中的54个。在启用视觉感知功能后,o1在MMLU上的得分为78.2%,成为第一个与人类专家相媲美的模型


OpenAI表示,对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,OpenAI将计数器重置为1,并将该系列命名为OpenAIo1

自从AI火起来之后。随着越来越多的厂商进入这个赛道,当其他厂商还在卷多模态、卷长文本的情况下,OpenAI发布纯文本模型o1,也许会再次将大众的目光拉向底层模型能力的提升。大模型格局是否会在o1的影响下重构,或许值得我们期待。


本文链接:http://lechangxia.cc/gpt4/877.html

chatgpt4.0训练chatgpt会员怎么向chatgpt提问chatgpt写出来的论文查重率高吗如何使用chatgpt4.0付款chatgpt4.0安装chatgpt需要会员chatgpt会员开通教程chatgpt 支持的充值方式注册chatgpt账户一般人会么

相关文章