先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
Sam Altman刚刚宣布:GPT-4.5 准备好了。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
![]()
好消息: 这是第一个让他感觉像在和一个真正会思考的人对话的模型。有几次他甚至惊讶于AI给出的建议竟然如此中肯。坏消息: 这是个超大且昂贵的模型。本想同时向Plus和Pro用户开放,但因为用户增长太快,GPU不够用了。他也承认这不是理想的运营方式,但用户增长潮和GPU短缺确实难以完美预测。这不是一个注重推理的模型,不会在基准测试中创造记录。但它展现了一种不同的智能,有种Sam从未感受过的魔力。他很期待大家能试用这个模型。"![]()
GPT-4.5虽然不是最前沿的模型,但它是OpenAI目前最大的语言模型。比起GPT-4,它的计算效率提升了10倍以上。
和其他模型相比,表现很有特点:
强项:
- 多语言能力(MMMLU multilingual): 85.1%,领先其他模型
- 多模态任务(MMMU multimodal): 74.4%,比GPT-4o提升明显
- 科学问答(GPQA science): 71.4%,比4o提升显著
- 数学能力(AIME '24): 36.7%,远低于o3-mini的87.3%
- 编程能力(SWE-Bench): 38%,比不上o3-mini的61%
在SWE-Lancer Diamond测试(OpenAI最近开源的一个软件工程评估基准)中,GPT-4.5(32.6%) 表现最好:Grok还没热,OpenAI就来新基准:百万美元测试,Claude竟拿下40万!SimpleQA测试结果很有意思。虽然叫'Simple',但这个测试其实挺难的,专门用来考察模型的事实准确性。在SimpleQA测试中,GPT-4.5表现最好:准确率62.5%,幻觉率37.1%。o3-mini则表现最差:准确率只有15%,幻觉率高达80.3%。看来o3-mini虽然在数学和编程上很强,但在事实性问答上还有很大提升空间。GPT-4.5特别是幻觉率大幅降低,比GPT-4o降低了近24个百分点。这似乎说明GPT-4.5在'真实性'方面有明显提升,能给出更准确、更可靠的回答。这可能就是Sam Altman说的'不同类型的智能'的一个体现。而就我目前个人的体验来说,Deepseek R1的幻觉率也不低,尤其是联网搜索的时候,一本正经的捏造事实。特斯拉人工智能总监、OpenAI 创始团队成员@EurekaLabsAI表示:回顾一下GPT家族的进化:GPT-1: 勉强能写出通顺的文字;GPT-2: 还是个玩具级别;GPT-3: 开始变得有趣了;GPT-3.5: 首次达到可商用水平,催生了ChatGPT;每个0.5版本意味着训练算力增加10倍。那么GPT-4.5表现如何? 特点:与GPT-4相比,这又是一次“全面小提升”。改进依然很微妙,不容易具体指出,主要在“情商”相关任务上有进步: 但要注意:这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,不如o1。OpenAI可能会用强化学习进一步提升它的思考能力。此外,OpenAI用内部题库测试了GPT-4.5的编程能力。题目包括18道编程题和97道选择题。
从图表看,GPT-4.5在编程题上得分79%,和deep research持平,但比o3-mini差了一些。o3-mini在这项测试中拿到了92%的高分。而从SWE-bench Verified的测试结果来看,GPT-4.5在软件工程能力上的提升并不明显,甚至可以说是令人意外的低:
GPT-4.5 Pre得分35%, Post得分38%,比GPT-4o只提升了2-7%。- deep research更是达到68%,差距接近30%
- 和Claude 3.5/3.7的成绩相比就更不用说了(Claude 3.7 Sonnet达到了70.3%)
" Pre/Post " 主要指的是安全对齐前(Pre-mitigation)和安全对齐后(Post-mitigation),也就是安全微调(safety tuning)之前和之后的状态。
在 OpenAI 这类大模型的文档里,“安全对齐”通常涉及:
- 1. Pre-mitigation(对齐前):模型未经安全微调,可能存在较多风险,比如幻觉、偏见、不符合安全标准的回答等。
- 2. Post-mitigation(对齐后):经过安全微调(Safety Tuning),包括强化学习(RLHF)和安全策略微调,以减少有害输出、增加可控性,使模型更符合安全标准。
此外,GPT-4.5在agentic tasks上的表现并不理想。它的得分仅为40%,远低于deep research的76%,甚至比o1的36%还要差。
MMLU零样本语言测试结果显示:
o1在所有语言上表现最好,英语得分0.923。GPT-4.5整体略低于o1,但高于GPT-4o。主流语言如英语、法语、西班牙语表现较好。小语种如Yoruba和Swahili得分相对较低。如果光看后面的基准测试的话,不少网友表示:预训练看起来没什么效果
看看参数规模:- GPT-4.5是OpenAI最大的模型,参数量应该超过2T
但是性能提升呢? 仅仅1-3%。这也许能解释为什么:这个结果似乎在暗示:单纯堆参数量的方法可能已经遇到瓶颈了。模型规模从200B增加到2T+,性能提升却如此有限,确实值得深思。"网友调侃:直播后,同时某伟达:
然而,Devin官方表示,GPT-4.5代码能力有巨大改进。并且适合架构任务,可以多个代理一起工作:
可是,当你看了GPT4.5 这价格就觉得这也没什么意义了。。。
输出价格是GPT-4o的15倍,是GPT-4o mini的250倍。
输入价格也是天价:75/1Mtokens,比GPT−4o贵30倍。即使是缓存输入也要37.5/1M tokens,比GPT-4o贵30倍。即使是缓存输入也要37.50/1M tokens。看来超大模型的推理成本确实很高,但这个定价还是让人难以接受。不过,正如一位网友所说:很多人只盯着基准测试的数据,却忽略了最重要的一点:在日常使用中,AI如何与人互动,以及它给用户带来什么样的感受。它的目标不是在基准测试上拿高分,而是让AI变得更贴心,更懂人。GPT4.5 是GPT-4o的改进版本,采用了SFT、RLHF等成熟技术,也引入了新的对齐方法。在技术上,改进了语言处理和推理能力,优化了训练流程,扩充了数据来源。安全性方面与GPT-4o相当,经过了偏见和误用风险评估。主要提升是:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。目前以GPT-4.5-preview发布,后续改进将基于实际使用反馈。发布计划:今天起,ChatGPT Pro 用户可以在网页、手机和电脑上试用(研究预览版);下周,向 Plus 和 Team 用户开放;再下周,企业版和教育版用户可用。ChatGPT 中的功能:支持搜索,可以上传文件和图片,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。开发者 API:支持函数调用、结构化输出、流式传输、系统消息和视觉能力。以及,更新 Cursor,你已经拥有 GPT-4.5-preview 了。
本文链接:https://lechangxia.cc/gpt4/2517.html
GPT4.5GPT-4.5CHATGPT4.5ChatGPT ProGPT Pro