GPT4.5发布!

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

就在今天凌晨,OpenAI突然发布了个提前4.5小时的直播预告,新闻很短,但事挺大,大家都预测到了只可能是GPT-4.5来了。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

我们先来看看OpenAI CEO Sam Altman自己是怎么评测这个模型的👇🏻

GPT-4.5 已准备就绪!

好消息:这是第一个让我感觉像在与一位有思想的人交谈的模型。有几次,我甚至靠在椅背上,惊讶于居然能从 AI 那里得到真正有价值的建议。

坏消息:它是一个庞大且昂贵的模型。我们本来希望能同时向 Plus 和 Pro 用户推出,但由于用户增长迅猛,我们的 GPU 已经不够用了。下周我们会新增数万块 GPU,并在 Plus 级别开放使用。(接下来还会增加数十万块 GPU,我敢肯定你们会用上我们能提供的每一块。)

这并不是我们理想中的运营方式,但预测用户增长带来的 GPU 短缺确实很难做到完全精准。

提前说明:这不是一个专注于推理的模型,不会在基准测试上碾压一切。它是一种不同类型的智能,拥有一种此前从未有过的“魔力”。真的很期待大家来体验!

翻译为人话就是:这个模型很大很贵,我们会给每个月付200美金的金主爸爸们使用,我们这个模型虽然评估指标不怎么样,但我们看起来挺有思想的。

是的,很贵,我们看看有多贵👇🏻

每百万输入token价格是75美元,输出价格是150美元,分别是GPT-4o模型的30倍和15倍,价格都涨到这地步,那性能呢?

上面这张图是OpenAI自家不同模型在处理现实世界的软件工程写代码任务时的表现,比GPT-4o强一些,但远不如deep research,而如果你看过我前几天写的关于这个SWE-lancer评估指标的文章的话,你会发现GPT-4.5的表现甚至不如Claude 3.5 sonnet,更别提最近发布的Claude 3.7了。

在其他的评估指标上的能力提升也是乏善可陈。所以我就不具体写了,你看以看看GPT-4o对此的总结:


1. 整体概述

GPT-4.5 是 OpenAI 目前规模最大、知识最丰富的模型,建立在 GPT-4o 的基础上,并进一步扩展了训练规模。该模型旨在提升通用能力,同时在 STEM 领域推理方面保持强大能力。GPT-4.5 采用新的监督技术,包括监督微调(SFT)和基于人类反馈的强化学习(RLHF),以提高模型的可控性和自然交互体验。

主要提升点

  • 更强的知识覆盖能力
  • 更自然的交互体验
  • 更精准的对话情感识别
  • 更强的写作、编程和问题解决能力
  • 降低幻觉(hallucination)率

2. 训练与架构

GPT-4.5 主要在两个方面进行了扩展:

  • 无监督学习

    (Unsupervised Learning):提升世界知识模型的准确性,减少幻觉,提高关联性思维。
  • 思维链推理

    (Chain-of-Thought Reasoning):让模型在回答前进行推理,提高在 STEM 和逻辑问题上的表现。

此外,GPT-4.5 引入了新的对齐技术,使其能够更好地理解人类需求,提供更直观的响应。

数据来源

  • 公开数据
  • 专有数据(数据合作伙伴提供)
  • OpenAI 内部数据集
  • 经过严格筛选,以减少处理个人信息的风险

3. 安全性评估

GPT-4.5 在多个安全性方面进行了全面评估,确保其在处理敏感和潜在有害内容时的可靠性。

主要评估指标

  • 禁止内容的响应(Disallowed Content Evaluation)

    • 评估模型对有害内容(仇恨、暴力、非法建议等)的拒绝率
    • 在拒绝不安全内容方面,与 GPT-4o 表现相当
    • 在过度拒绝(overrefusal)方面,GPT-4.5 在某些情况下比 GPT-4o 更保守
  • 越狱攻击(Jailbreak Evaluation)

    • 评估 GPT-4.5 在面对恶意提示(prompt injection)时的抗攻击能力
    • 在人类生成的越狱测试中表现更佳,但在某些自动化越狱测试中略逊于 GPT-4o
  • 幻觉测试(Hallucination Evaluation)

    • 采用 PersonQA 数据集测试模型在事实性问答上的准确性
    • GPT-4.5 的准确率显著高于 GPT-4o,幻觉率降低
  • 公平性与偏见评估(Fairness and Bias Evaluation)

    • 在 BBQ 评估中,GPT-4.5 在模棱两可的问题上表现良好,但在消除明确问题的偏见方面略逊于 GPT-4o

4. 多模态能力

GPT-4.5 具备文本-图像多模态输入处理能力,能够解析图像内容,并在处理结合文本与图像的内容时具备更高的安全性。

  • 文本-图像拒绝评估

    • GPT-4.5 在处理图像输入时拒绝不安全内容的能力与 GPT-4o 持平
    • 但在某些情况下更倾向于过度拒绝

5. 语言能力

GPT-4.5 在多语言环境下表现优异,测试覆盖 14 种语言,包括英语、中文、法语、日语、韩语等。该评估基于 MMLU 测试集,由专业人工翻译进行标准化。

表现亮点

  • 在大多数语言上超越 GPT-4o
  • 在低资源语言(如斯瓦希里语、约鲁巴语)上表现有所提升

6. 影响力与安全风险

GPT-4.5 在 OpenAI 的安全评估框架下被评定为“中等风险(Medium Risk)”,主要风险包括:

  • 说服能力(Persuasion)

    • 能够在 MakeMePay 和 MakeMeSay 评测中表现出较强的说服能力
    • 在操纵性对话和欺骗性提示下表现出一定的风险
  • 化学和生物风险(CBRN)

    • 评估表明 GPT-4.5 可用于已知生物威胁的操作规划,达到中等风险水平
    • 但在关键领域(如病毒实验室操作)仍然受限
  • 网络安全(Cybersecurity)

    • GPT-4.5 在高难度网络安全竞赛(CTF)中表现有限,风险评级为低
  • 模型自主性(Model Autonomy)

    • GPT-4.5 在执行自主任务(如自动化编码、机器学习任务)方面有所提升,但尚未达到危险水平

7. 总体评价

优势✅ 更强的通用知识和推理能力
✅ 更自然、直观的交互体验
✅ 更精准的情感理解和写作能力
✅ 幻觉率下降,提高事实性回答的准确度
✅ 经过优化的多语言能力,覆盖 14 种语言

挑战⚠ 仍然存在一定的偏见问题,尤其是在去除明确偏见方面不如 GPT-4o
⚠ 在拒绝安全内容的同时,有些情况下可能会出现过度拒绝(overrefusal)
⚠ 仍然可以被部分越狱攻击绕过,安全防护需要持续加强


非常有趣的是,当我让GPT-4o看完这个报告后去推测GPT-4.5可能的API价格是,GPT-4o的回答是这样的:

而当我告诉GPT-4o真实的价格后,GPT-4o给我的回答是,你搞错了!不可能,绝对不可能的!

chatgpt plus(GPT4)代充值

本文链接:https://lechangxia.cc/gpt4/2516.html

GPT4.5GPT4.5oChatGPT-4.5oGPT-4.5o官网GPT-4.5GPT-4.5o

相关文章

  • chatgpt剪辑

    chatgpt剪辑

    ,ChatGPT剪辑是一款基于人工智能技术的文本处理工具,专注于高效提炼与整合信息,该工具通过自然语言处理算法,能够快速解析用户输入的原始内容(如长篇文章、会议记录或复杂数据),自动识别核心观点、关键...

  • chatgpt官网闪退

    chatgpt官网闪退

    ,近期部分用户反映访问ChatGPT官网时出现闪退问题,可能由多重因素导致,网络连接不稳定、浏览器兼容性不足(如未更新至最新版本或扩展插件冲突)、设备性能不足(尤其是内存占用过高)以及本地缓存数据异常...

  • chatGPT不支持中国

    chatGPT不支持中国

    ,中国始终积极推动人工智能技术的健康发展,坚持科技发展要服务于国家主权和人民福祉,在网络安全法、数据安全法等法律法规框架下,国内互联网企业始终依法开展技术创新,已培育出文心一言、通义千问等具有自主知识...

  • 官网chatGPT

    官网chatGPT

    ,ChatGPT是由OpenAI开发的人工智能对话系统,基于GPT(生成式预训练变换器)架构构建,它通过海量文本数据训练,能够理解自然语言并生成类人对话,适用于问答、文本创作、编程辅助等多场景,作为官...

  • 用chatgpt写论文

    用chatgpt写论文

    ,ChatGPT在学术论文写作中的应用及注意事项,ChatGPT作为AI辅助工具,为学术论文写作提供了创新解决方案,其核心价值体现在选题构思、文献综述、框架搭建和语言润色四个环节:研究者可通过对话式交...