在未来几周内，OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha

GPT42024-05-14 17:10:03508

作者|刘萌萌

就在刚刚，5 月 14 日凌晨，OpenAI在首次「春季新品发布会」上，发布了最新一代旗舰大模型GPT-4o，与之前只能打文字相比，变得更智能，可横跨语音、文本和视觉，超低时延的语音助手和翻译，并且可以感知人类情绪。

让外界期待的正在测试的GPT-5和搜索引擎并没有出现，但 OpenAI 还是放了一个大招，GPT-4o免费用户也可以直接用。

GPT-4o的文本和图像功能将于发布会当天在 ChatGPT 中推出，免费用户就可以使用，不过 Plus 付费用户能享受高达 5 倍的消息容量。

在未来几周内，OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

整场发布会时长仅30分钟，OpenAI CTO米拉·穆拉蒂（MiraMurati）在开头表示，这是我们第一次在易用性方面真正迈出一大步，这种互动变得更加自然，也更加容易。

此外，OpenAI还发布了桌面版的ChatGPT和新的用户界面。

GPT-4o主要亮点：

1、多模态，可横跨语音、文本和视觉，是一个端到端地训练的新模型

2、GPT-4o的价格是GPT-4-turbo的一半，速度却是GPT-4-turbo的两倍，速率限制也高5倍

3、超低时延的语音助手和翻译，并且可以感知人类情绪，可根据指令提供更丰富语音语调或不同风格

大模型在多模态的演变中正变得越来越复杂，GPT-4o此次升级了ChatGPT的视觉能力和语音能力，并且懂情绪，这也开启新的人机交互方式，语音助手不再是冷冰冰的，大幅提升了大模型的实用性。

GPT-4o让重新颠覆了语音助手，能听、能看、能说，最重要的是开始理解人类的表情和懂得人类的情绪，让美版电影《她》照进现实。

值得注意的是，此次发布会OpenAI CEO萨姆·奥尔特曼并未现身。奥尔特曼也在X上表示：“GPT-4o是我们最好的模型。”

在文本方面，据OpenAI 的技术报告，GPT-4o 在 MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评测指标上，都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本)，以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上，GPT-4o 创下了 88.7% 的新高分。

在此次OpenAI 推出基于 GPT-4o 的「超级智能助理」之后，这或将对苹果的个人语音助理 Siri 带来颠覆性影响，此外，也有人担心客服可能彻底失业了。

依然让外界惊讶

在所有语言的基准测试中，GPT-4o都比 GPT-4 更强。另外在视觉理解评估上，GPT-4o 在视觉感知基准上都实现了最先进的性能。

OpenAICEO奥特曼都惊叹：就像美剧《她》要照进现实。

《她》讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后，他爱上了电脑操作系统里的女声，这个叫“萨曼莎”的姑娘不仅有着一把略微沙哑的性感嗓音，并且风趣幽默、善解人意，让孤独的男主泥足深陷。

《她》的情节中，有一幕也让现实中的我们需要深思。有一次，萨曼莎无缘无故从电脑上消失了，西奥多恐慌极了。萨曼莎解释自己是去参加了一次OS系统的升级活动。西奥多进一步询问，萨曼莎最终坦白，她总共有8316位人类交互对象，而且与其中的641位发生了爱情，而西奥多只是其中的一位。

最终，萨曼莎告诉西奥多，她和其他的OS系统已经高度进化，并且将离开人类伴侣。

值得注意的是，根据OpenAI的安全评估,GPT-4o在网络安全等风险维度上都控制在中等水平以下。但其语音模态带来一些新的安全挑战,需要持续迭代改进。目前向公众开放的是文本和图像输入,以及文本输出。语音输出将限定为预设的声音。

OpenAI官网博客显示，GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步。它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

在与GPT-4o语音实时对话过程中，三人与其对话，可随意打断，GPT-4o反应极快，并且语气相当丰富，像极了在跟人类聊天，可根据需求，改变声音和满足不同风格的情感需求。

GPT-4o 还拥有 3D 视觉内容生成的能力，能够从 6 个生成的图像进行 3D 重建：

GPT-4o除了有很强的文生图能力和设计海报能力，还可以只需要输入几段文字，就能得到一组连续的漫画分镜。

GPT-4o 还拥有有趣的设计思维：

一个端到端新模型

在API定价方面，GPT-4o的价格是GPT-4-turbo的一半，速度却是GPT-4-turbo的两倍，速率限制也高5倍，语音、视频输入能力将率先对部分可信任的API用户开放。

OpenAIGPT-4o核心亮点是在现场的展示，在与GPT-4o语音实时对话过程中，可实时存档，具有实时响应能力和极强的语音理解能力。演示人员用大口的呼吸，缓解紧张。GPT-4o在接受到呼吸后，立刻反馈呼吸的声音不对，还调侃声音像吸尘器。并且用语音方式引导正确的呼吸方式。

三人与其对话，可随意打断，GPT-4o反应极快，并且语气相当丰富，像极了在跟人类聊天，可根据需求，改变声音和满足不同风格的情感需求。

GPT-4o的运行速度大大提升，最大亮点在于其语音交互模式采用了全新技术，让人机对话的响应速度大幅提升。

OpenAI官网博客显示，GPT-4o在谈话中对音频输入的平均响应时间为320毫秒，最短的响应时间为232毫秒，在GPT-4o 发布之前，体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

而在GPT-4o 上，是单独训练的新模型，可以端到端地处理文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。

英伟达科学家 Jim Fan 表示，从技术角度来看，OpenAI 已经找到了一种方法，可以将音频直接映射到音频作为一级模态，并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究，但总体来说是一个数据和系统优化问题（大多数事情都是如此）。

GPT-4o还有超高的“语言天赋”，包括可以指令出机器人的声音，能支持50种语言，并显着提高了非英语语言的性能，包括改进分词器以更好地压缩其中的许多语言。

GPT-4o采用全新的tokenizer,大幅提高了对各种语言的编码效率,比如古吉拉特语的token数减少了4.4倍，这其中包括20种语言，如英语、法语、德语、葡萄牙语、西班牙语等，其中也包括中文。

在三人对话中，GPT-4o在现场充当实时翻译，意大利语和英语即听即翻，感觉同传要失业了

可以说GPT-4o，打开了新世界，当我们打开手机摄像头，GPT-4o的视频模式还可以实时看着图表的内容和数据变化，快速回答问题。并且正确理解人类的面部情绪，是开心，还是不开心。

编程方面，在GPT-4o看不见的屏幕任何内容情况下，人只需要highlight一下代码，GPT-4o就可以开始作答。

对于大模型未来走向，可以说，越来越打破原有认知，特别是在迭代速度方面，相信在不远的将来，外星人看了，也会惊讶。

本文链接：http://lechangxia.cc/gpt4/798.html

ChatGPT提示词 chatgpt网页版提问入口 StockGPT chatgpt4能通过图灵测试吗人工智能chatgpt4.0小程序 depay能充值chatgpt吗 chatgpt 支持的充值方式在国内如何注册chatgpt chatgpt注册方法步骤 chatgpt注册后总是跳转登录界面

如何使用GPT-4语音包为体育生提供个性化训练建议？
大家好！今天我们将探讨如何利用GPT-4语音包为体育生提供个性化的训练建议，GPT-4是一种先进的人工智能技术，通过语音包的形式，可以帮助体育生更高效地进行训练和提升表现，以下是使用GPT-4语音包为...
GPT资讯2024-11-233gpt4语音包体育生
哪个GPT-4性价比最高？全面比较与推荐
大家好，今天我们要探讨的话题是“哪个GPT-4性价比最高”，这是一个许多人工智能爱好者和专业人士都非常关心的问题，随着人工智能技术的快速发展，GPT系列模型已经发展到了第四代，即GPT-4，这是一个强...
GPT资讯2024-11-235哪个gpt4性价比高
如何在GPT上开通虚拟卡服务？
大家好，今天我们将介绍如何在GPT（即ChatGPT）平台上开通虚拟卡服务，虚拟卡是一种在线支付工具，可以在不暴露实际银行信息的情况下进行交易，增加了交易的安全性，以下是详细的开通步骤：步骤一：注册G...
GPT资讯2024-11-226gpt4虚拟卡怎么开通
怎么给gpt4传图
如何给GPT-4上传图片？简单步骤教程大家好！今天我们来聊一个非常实用的话题：怎样给GPT-4上传图片，GPT-4是人工智能领域中的一个高度先进的大型语言模型，它不仅可以理解和生成文本，还可以处理图像...
GPT资讯2024-11-227怎么给gpt4传图
GPT-4采用了谁的声音？揭秘背后的语音技术
大家好，今天我们来聊聊一个很多小白用户可能关心的问题：GPT-4，这款最新的人工智能语言模型，它采用了谁的声音？我们将揭开这个谜团，并解释背后的技术和原因，GPT-4是OpenAI公司开发的一系列语言...
GPT资讯2024-11-229gpt4采用谁的声音