先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi
就在今天凌晨,OpenAI突然发布了个提前4.5小时的直播预告,新闻很短,但事挺大,大家都预测到了只可能是GPT-4.5来了。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
我们先来看看OpenAI CEO Sam Altman自己是怎么评测这个模型的👇🏻
GPT-4.5 已准备就绪!
好消息:这是第一个让我感觉像在与一位有思想的人交谈的模型。有几次,我甚至靠在椅背上,惊讶于居然能从 AI 那里得到真正有价值的建议。
坏消息:它是一个庞大且昂贵的模型。我们本来希望能同时向 Plus 和 Pro 用户推出,但由于用户增长迅猛,我们的 GPU 已经不够用了。下周我们会新增数万块 GPU,并在 Plus 级别开放使用。(接下来还会增加数十万块 GPU,我敢肯定你们会用上我们能提供的每一块。)
这并不是我们理想中的运营方式,但预测用户增长带来的 GPU 短缺确实很难做到完全精准。
提前说明:这不是一个专注于推理的模型,不会在基准测试上碾压一切。它是一种不同类型的智能,拥有一种此前从未有过的“魔力”。真的很期待大家来体验!
翻译为人话就是:这个模型很大很贵,我们会给每个月付200美金的金主爸爸们使用,我们这个模型虽然评估指标不怎么样,但我们看起来挺有思想的。
是的,很贵,我们看看有多贵👇🏻
每百万输入token价格是75美元,输出价格是150美元,分别是GPT-4o模型的30倍和15倍,价格都涨到这地步,那性能呢?
上面这张图是OpenAI自家不同模型在处理现实世界的软件工程写代码任务时的表现,比GPT-4o强一些,但远不如deep research,而如果你看过我前几天写的关于这个SWE-lancer评估指标的文章的话,你会发现GPT-4.5的表现甚至不如Claude 3.5 sonnet,更别提最近发布的Claude 3.7了。
在其他的评估指标上的能力提升也是乏善可陈。所以我就不具体写了,你看以看看GPT-4o对此的总结:
1. 整体概述
GPT-4.5 是 OpenAI 目前规模最大、知识最丰富的模型,建立在 GPT-4o 的基础上,并进一步扩展了训练规模。该模型旨在提升通用能力,同时在 STEM 领域推理方面保持强大能力。GPT-4.5 采用新的监督技术,包括监督微调(SFT)和基于人类反馈的强化学习(RLHF),以提高模型的可控性和自然交互体验。
主要提升点
更强的知识覆盖能力 更自然的交互体验 更精准的对话情感识别 更强的写作、编程和问题解决能力 降低幻觉(hallucination)率
2. 训练与架构
GPT-4.5 主要在两个方面进行了扩展:
无监督学习
(Unsupervised Learning):提升世界知识模型的准确性,减少幻觉,提高关联性思维。 思维链推理
(Chain-of-Thought Reasoning):让模型在回答前进行推理,提高在 STEM 和逻辑问题上的表现。
此外,GPT-4.5 引入了新的对齐技术,使其能够更好地理解人类需求,提供更直观的响应。
数据来源
公开数据 专有数据(数据合作伙伴提供) OpenAI 内部数据集 经过严格筛选,以减少处理个人信息的风险
3. 安全性评估
GPT-4.5 在多个安全性方面进行了全面评估,确保其在处理敏感和潜在有害内容时的可靠性。
主要评估指标
禁止内容的响应(Disallowed Content Evaluation)
评估模型对有害内容(仇恨、暴力、非法建议等)的拒绝率 在拒绝不安全内容方面,与 GPT-4o 表现相当 在过度拒绝(overrefusal)方面,GPT-4.5 在某些情况下比 GPT-4o 更保守 越狱攻击(Jailbreak Evaluation)
评估 GPT-4.5 在面对恶意提示(prompt injection)时的抗攻击能力 在人类生成的越狱测试中表现更佳,但在某些自动化越狱测试中略逊于 GPT-4o 幻觉测试(Hallucination Evaluation)
采用 PersonQA 数据集测试模型在事实性问答上的准确性 GPT-4.5 的准确率显著高于 GPT-4o,幻觉率降低 公平性与偏见评估(Fairness and Bias Evaluation)
在 BBQ 评估中,GPT-4.5 在模棱两可的问题上表现良好,但在消除明确问题的偏见方面略逊于 GPT-4o
4. 多模态能力
GPT-4.5 具备文本-图像多模态输入处理能力,能够解析图像内容,并在处理结合文本与图像的内容时具备更高的安全性。
文本-图像拒绝评估
GPT-4.5 在处理图像输入时拒绝不安全内容的能力与 GPT-4o 持平 但在某些情况下更倾向于过度拒绝
5. 语言能力
GPT-4.5 在多语言环境下表现优异,测试覆盖 14 种语言,包括英语、中文、法语、日语、韩语等。该评估基于 MMLU 测试集,由专业人工翻译进行标准化。
表现亮点
在大多数语言上超越 GPT-4o 在低资源语言(如斯瓦希里语、约鲁巴语)上表现有所提升
6. 影响力与安全风险
GPT-4.5 在 OpenAI 的安全评估框架下被评定为“中等风险(Medium Risk)”,主要风险包括:
说服能力(Persuasion)
能够在 MakeMePay 和 MakeMeSay 评测中表现出较强的说服能力 在操纵性对话和欺骗性提示下表现出一定的风险 化学和生物风险(CBRN)
评估表明 GPT-4.5 可用于已知生物威胁的操作规划,达到中等风险水平 但在关键领域(如病毒实验室操作)仍然受限 网络安全(Cybersecurity)
GPT-4.5 在高难度网络安全竞赛(CTF)中表现有限,风险评级为低 模型自主性(Model Autonomy)
GPT-4.5 在执行自主任务(如自动化编码、机器学习任务)方面有所提升,但尚未达到危险水平
7. 总体评价
优势✅ 更强的通用知识和推理能力
✅ 更自然、直观的交互体验
✅ 更精准的情感理解和写作能力
✅ 幻觉率下降,提高事实性回答的准确度
✅ 经过优化的多语言能力,覆盖 14 种语言
挑战⚠ 仍然存在一定的偏见问题,尤其是在去除明确偏见方面不如 GPT-4o
⚠ 在拒绝安全内容的同时,有些情况下可能会出现过度拒绝(overrefusal)
⚠ 仍然可以被部分越狱攻击绕过,安全防护需要持续加强
非常有趣的是,当我让GPT-4o看完这个报告后去推测GPT-4.5可能的API价格是,GPT-4o的回答是这样的:
而当我告诉GPT-4o真实的价格后,GPT-4o给我的回答是,你搞错了!不可能,绝对不可能的!