GPT-4.5登场!一个让Sam感到真实的AI,下周向ChatGPT Plus和Pro用户开放

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

Sam Altman刚刚宣布:GPT-4.5 准备好了。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

好消息: 这是第一个让他感觉像在和一个真正会思考的人对话的模型。有几次他甚至惊讶于AI给出的建议竟然如此中肯。
坏消息: 这是个超大且昂贵的模型。本想同时向Plus和Pro用户开放,但因为用户增长太快,GPU不够用了。
不过:
  • 下周会增加数万个GPU,先向Plus用户开放
  • 很快会再增加几十万个GPU
  • Sam觉得这些GPU肯定会被用户用到极限
他也承认这不是理想的运营方式,但用户增长潮和GPU短缺确实难以完美预测。
特别提醒:
这不是一个注重推理的模型,不会在基准测试中创造记录。但它展现了一种不同的智能,有种Sam从未感受过的魔力。他很期待大家能试用这个模型。"

GPT-4.5虽然不是最前沿的模型,但它是OpenAI目前最大的语言模型。比起GPT-4,它的计算效率提升了10倍以上。

和其他模型相比,表现很有特点:

强项:

  • 多语言能力(MMMLU multilingual): 85.1%,领先其他模型
  • 多模态任务(MMMU multimodal): 74.4%,比GPT-4o提升明显
  • 科学问答(GPQA science): 71.4%,比4o提升显著
弱项:
    • 数学能力(AIME '24): 36.7%,远低于o3-mini的87.3%
    • 编程能力(SWE-Bench): 38%,比不上o3-mini的61%
    有趣的是:
    在SWE-Lancer Diamond测试(OpenAI最近开源的一个软件工程评估基准)中,GPT-4.5(32.6%) 表现最好:Grok还没热,OpenAI就来新基准:百万美元测试,Claude竟拿下40万!
    SimpleQA测试结果很有意思。虽然叫'Simple',但这个测试其实挺难的,专门用来考察模型的事实准确性。
    在SimpleQA测试中,GPT-4.5表现最好:准确率62.5%,幻觉率37.1%。o3-mini则表现最差:准确率只有15%,幻觉率高达80.3%。
    看来o3-mini虽然在数学和编程上很强,但在事实性问答上还有很大提升空间。
    GPT-4.5特别是幻觉率大幅降低,比GPT-4o降低了近24个百分点。
    这似乎说明GPT-4.5在'真实性'方面有明显提升,能给出更准确、更可靠的回答。这可能就是Sam Altman说的'不同类型的智能'的一个体现。
    而就我目前个人的体验来说,Deepseek R1的幻觉率也不低,尤其是联网搜索的时候,一本正经的捏造事实。
    真实性足够高,我觉得是很有必要的。
    特斯拉人工智能总监、OpenAI 创始团队成员@EurekaLabsAI表示:
    这让我们能看到大模型发展的一个重要趋势。
    回顾一下GPT家族的进化:GPT-1: 勉强能写出通顺的文字;GPT-2: 还是个玩具级别;
    GPT-3: 开始变得有趣了;GPT-3.5: 首次达到可商用水平,催生了ChatGPT;
    GPT-4: 整体提升约20%,但改进比较微妙。
    每个0.5版本意味着训练算力增加10倍。那么GPT-4.5表现如何?  
    特点:与GPT-4相比,这又是一次“全面小提升”。改进依然很微妙,不容易具体指出,主要在“情商”相关任务上有进步:  
    - 世界知识更丰富  
    - 创造力提升  
    - 类比更准确  
    - 幽默感增强  
    - 理解能力更强  
    但要注意:这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,不如o1。OpenAI可能会用强化学习进一步提升它的思考能力。

    此外,OpenAI用内部题库测试了GPT-4.5的编程能力。题目包括18道编程题和97道选择题。

    从图表看,GPT-4.5在编程题上得分79%,和deep research持平,但比o3-mini差了一些。o3-mini在这项测试中拿到了92%的高分。

    而从SWE-bench Verified的测试结果来看,GPT-4.5在软件工程能力上的提升并不明显,甚至可以说是令人意外的低:

    GPT-4.5 Pre得分35%, Post得分38%,比GPT-4o只提升了2-7%。
    远低于其他模型:
    • o1达到48%
    • o3-mini达到61%
    • deep research更是达到68%,差距接近30%
    • 和Claude 3.5/3.7的成绩相比就更不用说了(Claude 3.7 Sonnet达到了70.3%)

    " Pre/Post " 主要指的是安全对齐前(Pre-mitigation)和安全对齐后(Post-mitigation),也就是安全微调(safety tuning)之前和之后的状态。

    在 OpenAI 这类大模型的文档里,“安全对齐”通常涉及:

    1. 1. Pre-mitigation(对齐前):模型未经安全微调,可能存在较多风险,比如幻觉、偏见、不符合安全标准的回答等。
    2. 2. Post-mitigation(对齐后):经过安全微调(Safety Tuning),包括强化学习(RLHF)和安全策略微调,以减少有害输出、增加可控性,使模型更符合安全标准。

    此外,GPT-4.5在agentic tasks上的表现并不理想。它的得分仅为40%,远低于deep research的76%,甚至比o1的36%还要差。

    MMLU零样本语言测试结果显示:

    o1在所有语言上表现最好,英语得分0.923。GPT-4.5整体略低于o1,但高于GPT-4o。
    主流语言如英语、法语、西班牙语表现较好。小语种如Yoruba和Swahili得分相对较低。

    如果光看后面的基准测试的话,不少网友表示:预训练看起来没什么效果

    看看参数规模:
    • GPT-4o大约是200B参数
    • GPT-4是1.76T参数
    • GPT-4.5是OpenAI最大的模型,参数量应该超过2T
    但是性能提升呢? 仅仅1-3%。这也许能解释为什么:
    • Claude 3.5 Opus 没有如期发布
    • 业界开始转向关注推理时的优化
    这个结果似乎在暗示:单纯堆参数量的方法可能已经遇到瓶颈了。模型规模从200B增加到2T+,性能提升却如此有限,确实值得深思。"

    网友调侃:直播后,同时某伟达:

    然而,Devin官方表示,GPT-4.5代码能力有巨大改进。并且适合架构任务,可以多个代理一起工作:

    可是,当你看了GPT4.5 这价格就觉得这也没什么意义了。。。

    输出价格是GPT-4o的15倍,是GPT-4o mini的250倍。

    输入价格也是天价:75/1Mtokens,比GPT−4o贵30倍。即使是缓存输入也要37.5/1M tokens,比GPT-4o贵30倍。即使是缓存输入也要37.50/1M tokens。
    看来超大模型的推理成本确实很高,但这个定价还是让人难以接受。
    不过,正如一位网友所说:很多人只盯着基准测试的据,忽略了最重要的一点:在日常使用中,AI何与人互动,以及它给用户带来什么样的感
    可以说,GPT-4.5是一次'情感升级':
    让AI互动更自然
    更懂得共情
    像一个有'情商'的助手
    它的目标不是在基准测试上拿高分,而是让AI变得更贴心,更懂人。
    最后,总结一下:
    GPT4.5 是GPT-4o的改进版本,采用了SFT、RLHF等成熟技术,也引入了新的对齐方法。
    在技术上,改进了语言处理和推理能力,优化了训练流程,扩充了数据来源。安全性方面与GPT-4o相当,经过了偏见和误用风险评估。
    主要提升是:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。
    目前以GPT-4.5-preview发布,后续改进将基于实际使用反馈。
    发布计划:今天起,ChatGPT Pro 用户可以在网页、手机和电脑上试用(研究预览版);下周,向 Plus 和 Team 用户开放;再下周,企业版和教育版用户可用。
    ChatGPT 中的功能:支持搜索,可以上传文件和图片,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。
    开发者 API:支持函数调用、结构化输出、流式传输、系统消息和视觉能力。
    以及,更新 Cursor,你已经拥有 GPT-4.5-preview 了。

    chatgpt plus(GPT4)代充值

    本文链接:https://lechangxia.cc/gpt4/2517.html

    GPT4.5GPT-4.5CHATGPT4.5ChatGPT ProGPT Pro

    相关文章

    • chatgpt剪辑

      chatgpt剪辑

      ,ChatGPT剪辑是一款基于人工智能技术的文本处理工具,专注于高效提炼与整合信息,该工具通过自然语言处理算法,能够快速解析用户输入的原始内容(如长篇文章、会议记录或复杂数据),自动识别核心观点、关键...

    • chatgpt官网闪退

      chatgpt官网闪退

      ,近期部分用户反映访问ChatGPT官网时出现闪退问题,可能由多重因素导致,网络连接不稳定、浏览器兼容性不足(如未更新至最新版本或扩展插件冲突)、设备性能不足(尤其是内存占用过高)以及本地缓存数据异常...

    • chatGPT不支持中国

      chatGPT不支持中国

      ,中国始终积极推动人工智能技术的健康发展,坚持科技发展要服务于国家主权和人民福祉,在网络安全法、数据安全法等法律法规框架下,国内互联网企业始终依法开展技术创新,已培育出文心一言、通义千问等具有自主知识...

    • 官网chatGPT

      官网chatGPT

      ,ChatGPT是由OpenAI开发的人工智能对话系统,基于GPT(生成式预训练变换器)架构构建,它通过海量文本数据训练,能够理解自然语言并生成类人对话,适用于问答、文本创作、编程辅助等多场景,作为官...

    • 用chatgpt写论文

      用chatgpt写论文

      ,ChatGPT在学术论文写作中的应用及注意事项,ChatGPT作为AI辅助工具,为学术论文写作提供了创新解决方案,其核心价值体现在选题构思、文献综述、框架搭建和语言润色四个环节:研究者可通过对话式交...