在未来几周内,OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha

GPT42024-05-14 17:10:03508
 作者|刘萌萌
就在刚刚,5 月 14 日凌晨,OpenAI在首次「春季新品发布会」上,发布了最新一代旗舰大模型GPT-4o,与之前只能打文字相比,变得更智能,可横跨语音、文本和视觉,超低时延的语音助手和翻译,并且可以感知人类情绪。

让外界期待的正在测试的GPT-5和搜索引擎并没有出现,但 OpenAI 还是放了一个大招,GPT-4o免费用户也可以直接用。

GPT-4o的文本和图像功能将于发布会当天在 ChatGPT 中推出,免费用户就可以使用,不过 Plus 付费用户能享受高达 5 倍的消息容量。

在未来几周内,OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

整场发布会时长仅30分钟,OpenAI CTO米拉·穆拉蒂(MiraMurati)在开头表示,这是我们第一次在易用性方面真正迈出一大步,这种互动变得更加自然,也更加容易。

此外,OpenAI还发布了桌面版的ChatGPT和新的用户界面。

GPT-4o主要亮点:

1、多模态,可横跨语音、文本和视觉,是一个端到端地训练的新模型

2、GPT-4o的价格是GPT-4-turbo的一半,速度却是GPT-4-turbo的两倍,速率限制也高5倍

3、超低时延的语音助手和翻译,并且可以感知人类情绪,可根据指令提供更丰富语音语调或不同风格

大模型在多模态的演变中正变得越来越复杂,GPT-4o此次升级了ChatGPT的视觉能力和语音能力,并且懂情绪,这也开启新的人机交互方式,语音助手不再是冷冰冰的,大幅提升了大模型的实用性。

GPT-4o让重新颠覆了语音助手,能听、能看、能说,最重要的是开始理解人类的表情和懂得人类的情绪,让美版电影《她》照进现实。

值得注意的是,此次发布会OpenAI CEO萨姆·奥尔特曼并未现身。奥尔特曼也在X上表示:“GPT-4o是我们最好的模型。”

在文本方面,据OpenAI 的技术报告,GPT-4o 在 MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本),以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上,GPT-4o 创下了 88.7% 的新高分。

在此次OpenAI 推出基于 GPT-4o 的「超级智能助理」之后,这或将对苹果的个人语音助理 Siri 带来颠覆性影响,此外,也有人担心客服可能彻底失业了。

    依然让外界惊讶      

在所有语言的基准测试中,GPT-4o都比 GPT-4 更强。另外在视觉理解评估上,GPT-4o 在视觉感知基准上都实现了最先进的性能。

OpenAICEO奥特曼都惊叹:就像美剧《她》要照进现实。

《她》讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后,他爱上了电脑操作系统里的女声,这个叫“萨曼莎”的姑娘不仅有着一把略微沙哑的性感嗓音,并且风趣幽默、善解人意,让孤独的男主泥足深陷。

《她》的情节中,有一幕也让现实中的我们需要深思。有一次,萨曼莎无缘无故从电脑上消失了,西奥多恐慌极了。萨曼莎解释自己是去参加了一次OS系统的升级活动。西奥多进一步询问,萨曼莎最终坦白,她总共有8316位人类交互对象,而且与其中的641位发生了爱情,而西奥多只是其中的一位。

最终,萨曼莎告诉西奥多,她和其他的OS系统已经高度进化,并且将离开人类伴侣。

值得注意的是,根据OpenAI的安全评估,GPT-4o在网络安全等风险维度上都控制在中等水平以下。但其语音模态带来一些新的安全挑战,需要持续迭代改进。目前向公众开放的是文本和图像输入,以及文本输出。语音输出将限定为预设的声音。

OpenAI官网博客显示,GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步。它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

在与GPT-4o语音实时对话过程中,三人与其对话,可随意打断,GPT-4o反应极快,并且语气相当丰富,像极了在跟人类聊天,可根据需求,改变声音和满足不同风格的情感需求。

GPT-4o 还拥有 3D 视觉内容生成的能力,能够从 6 个生成的图像进行 3D 重建:

GPT-4o除了有很强的文生图能力和设计海报能力,还可以只需要输入几段文字,就能得到一组连续的漫画分镜。

GPT-4o 还拥有有趣的设计思维:

   一个端到端新模型    

在API定价方面,GPT-4o的价格是GPT-4-turbo的一半,速度却是GPT-4-turbo的两倍,速率限制也高5倍,语音、视频输入能力将率先对部分可信任的API用户开放。

OpenAIGPT-4o核心亮点是在现场的展示,在与GPT-4o语音实时对话过程中,可实时存档,具有实时响应能力和极强的语音理解能力。演示人员用大口的呼吸,缓解紧张。GPT-4o在接受到呼吸后,立刻反馈呼吸的声音不对,还调侃声音像吸尘器。并且用语音方式引导正确的呼吸方式。

三人与其对话,可随意打断,GPT-4o反应极快,并且语气相当丰富,像极了在跟人类聊天,可根据需求,改变声音和满足不同风格的情感需求。

GPT-4o的运行速度大大提升,最大亮点在于其语音交互模式采用了全新技术,让人机对话的响应速度大幅提升。

OpenAI官网博客显示,GPT-4o在谈话中对音频输入的平均响应时间为320毫秒,最短的响应时间为232毫秒,在GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

而在GPT-4o 上,是单独训练的新模型,可以端到端地处理文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。

英伟达科学家 Jim Fan 表示,从技术角度来看,OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。

GPT-4o还有超高的“语言天赋”,包括可以指令出机器人的声音,能支持50种语言,并显着提高了非英语语言的性能,包括改进分词器以更好地压缩其中的许多语言。

GPT-4o采用全新的tokenizer,大幅提高了对各种语言的编码效率,比如古吉拉特语的token数减少了4.4倍,这其中包括20种语言,如英语、法语、德语、葡萄牙语、西班牙语等,其中也包括中文。

在三人对话中,GPT-4o在现场充当实时翻译,意大利语和英语即听即翻,感觉同传要失业了

可以说GPT-4o,打开了新世界,当我们打开手机摄像头,GPT-4o的视频模式还可以实时看着图表的内容和数据变化,快速回答问题。并且正确理解人类的面部情绪,是开心,还是不开心。

编程方面,在GPT-4o看不见的屏幕任何内容情况下,人只需要highlight一下代码,GPT-4o就可以开始作答。

对于大模型未来走向,可以说,越来越打破原有认知,特别是在迭代速度方面,相信在不远的将来,外星人看了,也会惊讶。

本文链接:http://lechangxia.cc/gpt4/798.html

ChatGPT提示词chatgpt网页版提问入口StockGPTchatgpt4能通过图灵测试吗人工智能chatgpt4.0小程序depay能充值chatgpt吗chatgpt 支持的充值方式在国内如何注册chatgptchatgpt注册方法步骤chatgpt注册后总是跳转登录界面

相关文章