OpenAI刚刚发的o1模型，已超越人类专家！吊打GPT4o

GPT42024-09-13 19:56:47179

OpenAI 又放大招了，这次真的把大语言模型的天花板给掀了！

昨晚半夜，OpenAI 正式发布了全新AI 大模型o1-preview以及o1-mini，不叫草莓，也不是GPT5。而是直接从全新代号开始，这也标志者它的实力，相当逆天。

目前已上线，plus订阅用户可用！

o1模型到底有多牛？

OpenAI 在一系列人类考试和机器学习基准测试中进行了测试。

在很多需要强大推理能力的基准测试中，o1 的表现已经可以和人类专家媲美。看下方柱状图，可以说全面吊打GPT4o

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 只答对了 13% 的问题，而 o1 答对了 83%！

在 2024 年 AIME（美国高中数学竞赛）考试中，GPT-4o 平均只解决了 12% 的问题，而 o1 在每个问题只尝试一次的情况下，平均解决了 74%！

OpenAI 还在 GPQA Diamond 基准上评估了 o1，这是一项测试化学、物理和生物学专业知识的困难基准。结果显示，o1 超越了人类专家，成为首个达到这个效果的大模型。

OpenAI o1有什么不一样？

o1 是经过强化学习训练的新型语言模型，专门用于执行复杂的推理任务。特点是，在回答之前会先思考——它会在回应用户前，产生一条长长的内部思维链。

模型在反应前，会像人类一样花时间思考。通过训练，它学会了完善自己的思维过程，尝试不同策略，从不断的自我试错、反思中，逐步中找到最优解，进行自我学习和进化。

并且，o1 让大模型的规模和性能提升曲线出现了飞跃。重现了当年 AlphaGo 强化学习的成功——给它越多算力，就能输出更强智能，直到超越人类。

也就是说，这让模型不再局限于训练语料，能够通过自我反思和推理，去解决未知的问题。比如去探索证明哥德巴赫猜想，探索量子物理背后的微观规律。

试试看，让它证明哥德巴赫猜想

连续问了几次，OpenAI-o1都一直拒绝我，并表示，以它训练时掌握的数据信息（2023/10），这是一个世界难题，暂时无解。

经过斗智斗勇，终于说服o1尝试证明。

这个证明过程，咱也看不懂，大概率是瞎说。我其实也没指望它能解决困扰科学家几百年的世纪难题。

现在才刚刚开始，别着急。不过，我自己实测，推理能力已经比GPT4o强不少。现在的模型也不够完善，还有很多问题。

OpenAI 表示，o1目前还只是预览版，还不具备 ChatGPT 的许多实用功能，比如浏览网页、上传文件和图片等。

而且，新模型的推理成本高的吓人，使用延迟和限制也更多。

o1-preview 每周 30 条消息，o1-mini 每周 50 条消息。

通过 API 访问的用户，如果已经消费了 1000 美元以上，并且是超过 1 个月的付费用户，现在就能使用这两个模型开发应用原型。但同样被限速：每分钟 20 次请求。

使用中，发现处理反馈的等待时间更长了。可见，目前的模型对算力要求，远超GPT4o，也难怪之前会有传闻，会员涨价到100倍，2000刀。

通用人工智能，也许真的快来了

总的来说，OpenAI 这次的 o1 大模型，真的让人眼前一亮。不仅技术上有重大突破，实际应用中也展示了强大潜力。等o1正式版出来，能力会更强，假以时日，也许真的会出现能帮我们解决科学研究级的AI智能。

如何使用GPT-4语音包为体育生提供个性化训练建议？