OpenAI刚刚发的o1模型,已超越人类专家!吊打GPT4o

GPT42024-09-13 19:56:47179

OpenAI 又放大招了,这次真的把大语言模型的天花板给掀了!

昨晚半夜,OpenAI 正式发布了全新AI 大模型o1-preview以及o1-mini,不叫草莓,也不是GPT5。而是直接从全新代号开始,这也标志者它的实力,相当逆天。
目前已上线,plus订阅用户可用!

o1模型到底有多牛?

OpenAI 在一系列人类考试和机器学习基准测试中进行了测试。
在很多需要强大推理能力的基准测试中,o1 的表现已经可以和人类专家媲美。看下方柱状图,可以说全面吊打GPT4o


在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只答对了 13% 的问题,而 o1 答对了 83%!
在 2024 年 AIME(美国高中数学竞赛)考试中,GPT-4o 平均只解决了 12% 的问题,而 o1 在每个问题只尝试一次的情况下,平均解决了 74%!
OpenAI 还在 GPQA Diamond 基准上评估了 o1,这是一项测试化学、物理和生物学专业知识的困难基准。结果显示,o1 超越了人类专家,成为首个达到这个效果的大模型。

OpenAI o1有什么不一样?

o1 是经过强化学习训练的新型语言模型,专门用于执行复杂的推理任务。特点是,在回答之前会先思考——它会在回应用户前,产生一条长长的内部思维链。
模型在反应前,会像人类一样花时间思考。通过训练,它学会了完善自己的思维过程,尝试不同策略,从不断的自我试错、反思中,逐步中找到最优解,进行自我学习和进化。
并且,o1 让大模型的规模和性能提升曲线出现了飞跃。重现了当年 AlphaGo 强化学习的成功——给它越多算力,就能输出更强智能,直到超越人类。
也就是说,这让模型不再局限于训练语料,能够通过自我反思和推理,去解决未知的问题。比如去探索证明哥德巴赫猜想,探索量子物理背后的微观规律。

试试看,让它证明哥德巴赫猜想

连续问了几次,OpenAI-o1都一直拒绝我,并表示,以它训练时掌握的数据信息(2023/10),这是一个世界难题,暂时无解。

经过斗智斗勇,终于说服o1尝试证明。

这个证明过程,咱也看不懂,大概率是瞎说。我其实也没指望它能解决困扰科学家几百年的世纪难题。

现在才刚刚开始,别着急。不过,我自己实测,推理能力已经比GPT4o强不少。现在的模型也不够完善,还有很多问题。

OpenAI 表示,o1目前还只是预览版,还不具备 ChatGPT 的许多实用功能,比如浏览网页、上传文件和图片等。

而且,新模型的推理成本高的吓人,使用延迟和限制也更多。

o1-preview 每周 30 条消息,o1-mini 每周 50 条消息。
通过 API 访问的用户,如果已经消费了 1000 美元以上,并且是超过 1 个月的付费用户,现在就能使用这两个模型开发应用原型。但同样被限速:每分钟 20 次请求。
使用中,发现处理反馈的等待时间更长了。可见,目前的模型对算力要求,远超GPT4o,也难怪之前会有传闻,会员涨价到100倍,2000刀。

通用人工智能,也许真的快来了

总的来说,OpenAI 这次的 o1 大模型,真的让人眼前一亮。不仅技术上有重大突破,实际应用中也展示了强大潜力。等o1正式版出来,能力会更强,假以时日,也许真的会出现能帮我们解决科学研究级的AI智能。

本文链接:http://lechangxia.cc/gpt4/876.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

相关文章