OpenAI 发布了新模型 OpenAI o1

GPT42024-09-13 22:14:39202

一觉醒来，OpenAI 发布了新模型 OpenAI o1。

原本传说中的strawberry草莓，改名叫 o1-preview 和 o1-mini，目前，Plus用户全量更新。

o1 未延续过往 GPT 系列的命名规则，重新起了一个o系列，寓意从新开始。

奥特曼你终于知道隔壁Claude超你家了吗

我已经一段时间没有订阅GPT Plus了，原本是没有资格体验o1，无奈朋友给力啊，此处感谢@所罗门无偿提供的Plus账号。

ChatGPT官网界面已更新，GPT-4o mini 和GPT4 都只能排最后，o1模型应该很快会替代原有的4o成为主流。

在本文，我将分几个章节，展开个人对OpenAI o1的解读，包括：

特性与功能

价格与限制

实操体验

01

o1特性

o1 和 o1-mini能花更多时间思考，然后再做出响应。他们可以推理完成复杂的任务并解决比以前的科学、编码和数学模型更难的问题。
采用了一种新的安全培训方法，该方法利用他们的推理能力使他们遵守安全和对齐准则。在越狱测试中，o1 和 o1-mini 都显示出比 GPT-4o 更高的安全性。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

o1 在广泛的基准测试中表现优于 GPT-4o，涵盖了 54/57 的 MMLU 子类别。

在众多推理密集型基准测试中，O1 的性能能够与人类专家的性能相媲美。

目前Open o1处于半成品状态，尚未完全工程化。在 ChatGPT 官网中不支持联网、画图、上传文件分析等功能，只支持文字对话；

在 2024 年 AIME 考试中，GPT-4o 平均仅解决了 12%（1.8/15）的问题。O1 平均为 74%（11.1/15），且每个问题仅有一个样本。在 64 个样本中，83%（12.5/15）达成一致。当使用学习评分函数对 1000 个样本进行重新排名时，93%（13.9/15）。取得 13.9 分的成绩可跻身全国前 500 名学生之列，该成绩高于美国数学奥林匹克竞赛的分数线。

Chain of Thought 思维链

o1 模型在尝试解决问题时会使用思维链，将棘手的步骤分解为更简单的步骤（类似Agent），此过程显著提高了模型的推理能力。

可以理解为，o1 内部处理问题默认会采用思维链的方式来思考，一步到位。

山姆·奥特曼非常满意本次的更新。

02

价格&次数限制

ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型，o1-preview 限制在了 30 条/周，o1-mini 限制在了 50 条/周。

价格相对而言较为昂贵。

o1-preview

128k 上下文，32k 最大输出，训练数据截止于2023年10月

o1-mini

128k 上下文，64k 最大输出，训练数据截于2023年10月

03

实测 o1

有一说一，o1 更多提升了大模型的推理能力，并非全方面碾压所有大模型，可能很强，但不要尬吹。

OpenA I引入了 self-play，很难说他就是最好的，毕竟claude也不弱。

o1最明显的表现就是思考时间更长了，经典问题9.11和9.9，哪个数字大，终于回答正确了。

这就是思维链思考的魅力，大模型会先把9.9转化为9.90，然后再和9.11比较。

o1 提供了一些默认的问题，比如“单词 strawberry 中有多少个字母 r？”

可将此问题置于其他大型模型中进行提问，然而所得到的答案往往难以确保正确性。

其他大模型回复结果

OpenAI o1回复

对于这种简单的的问题，以往大模型经常会出错，o1总算有所长进。

在网上找了一道稍微有一点点难度的逻辑思考题：

A、B、C、D四个学生参加一次数学竞赛，赛后他们四人预测名次如下：

A说：“C第一，我第三。”

B说：“我第一，D第四。”

C说：“我第三，D第二。”

D没有说话。

等到最后公布考试成绩时，发现他们每人预测对了一半，请说出他们竞赛的排名次序。

回答是正确的，可以看看o1思考的过程，从思考过程探讨原理。

这也是为什么 o1 强调花更多时间思考，完成复杂的任务。

处理问题过程中，o1会用Agent的方式，把问题拆分成多个小任务，小问题，并按顺序去执行，比如这道题，o1会先检查题目的目的，然后规划整个处理流程。

收集信息 > 探求排名 > 确定首位 > 初步分析 > 重新分析Rank > 核实预测正确性

比如这道题：

中国2024年9月9日（星期一）开始到10月13日的放假调休安排:

上6休3上3休2上5休1上2休7再上5休1。

正常的放假安排：普通的周末，9月份有一个中秋节放假1天和国庆节法定假期放假7天

请你告诉我除了我本来该休的周末，我因为放假多休息了几天？

这是o1的答案：

这是网友的答案：

四舍五入等于多放7天，真爽。

其实再深入思考了一下，大模型有可能不理解放假的规则，如果我把具体的规则和细节告诉大模型，是否就能得到完整的答案。

可是，到这里，次数已经用完了，别说一周30次，一天30次也不够用啊。

只能换成o1-mini了。

这是中国2024年9月9日（星期一）开始到10月13日的放假调休安排:

上6休3上3休2上5休1上2休7再上5休1。

正常的放假安排：普通的周末放假，9月份有一个中秋节放假1天和国庆节法定假期放假7天

请注意：假期可能与周末重叠的情况

请你告诉我除了我本来该休的周末和法定假期，我因为放假多休息了几天？

有一说一，同样的提示，在其他大模型上没有得到正确的回复。

04

一点思考

最后，我觉得o1在思考推理这个维度非常强，但目前来说和大部分人来说，并没有太大的关系。

别的不说，价格非常贵，如果平日用来写写文案，写写代码，还用不上。

但站在科研发展的角度上，OpenAI 又一次走到了前面，某一个领域，可以基于o1的强大推理思考能力，或许能够实现重大飞跃。

特别鸣谢所罗门提供的Plus账号。

本文链接：http://lechangxia.cc/gpt4/874.html

ChatGPT小红书 chatgpt4.0要开会员吗 edge浏览器的chatgpt4.0插件 AI女友 chatgpt充值以后用不了 gpt充值和不充值的区别 chatgpt下载及注册方法 chatgpt还能注册吗 chatgpt注册好了怎么使用 chatgpt能用什么邮箱注册

相关文章

如何使用GPT-4语音包为体育生提供个性化训练建议？
大家好！今天我们将探讨如何利用GPT-4语音包为体育生提供个性化的训练建议，GPT-4是一种先进的人工智能技术，通过语音包的形式，可以帮助体育生更高效地进行训练和提升表现，以下是使用GPT-4语音包为...
GPT资讯2024-11-233gpt4语音包体育生
哪个GPT-4性价比最高？全面比较与推荐
大家好，今天我们要探讨的话题是“哪个GPT-4性价比最高”，这是一个许多人工智能爱好者和专业人士都非常关心的问题，随着人工智能技术的快速发展，GPT系列模型已经发展到了第四代，即GPT-4，这是一个强...
GPT资讯2024-11-235哪个gpt4性价比高
如何在GPT上开通虚拟卡服务？
大家好，今天我们将介绍如何在GPT（即ChatGPT）平台上开通虚拟卡服务，虚拟卡是一种在线支付工具，可以在不暴露实际银行信息的情况下进行交易，增加了交易的安全性，以下是详细的开通步骤：步骤一：注册G...
GPT资讯2024-11-226gpt4虚拟卡怎么开通
怎么给gpt4传图
如何给GPT-4上传图片？简单步骤教程大家好！今天我们来聊一个非常实用的话题：怎样给GPT-4上传图片，GPT-4是人工智能领域中的一个高度先进的大型语言模型，它不仅可以理解和生成文本，还可以处理图像...
GPT资讯2024-11-227怎么给gpt4传图
GPT-4采用了谁的声音？揭秘背后的语音技术
大家好，今天我们来聊聊一个很多小白用户可能关心的问题：GPT-4，这款最新的人工智能语言模型，它采用了谁的声音？我们将揭开这个谜团，并解释背后的技术和原因，GPT-4是OpenAI公司开发的一系列语言...
GPT资讯2024-11-229gpt4采用谁的声音