OpenAI震撼发布GPT-4o，可免费使用

GPT42024-05-15 22:18:41416

现在的 OpenAI 发布会就如同乔布斯在世时的苹果发布会一样，每次都能引爆整个科技圈。

北京时间 5 月 14 日凌晨 1 点，OpenAI 今年首场发布会如约而至。但与以往不同，本次发布会的主持人不是我们熟悉的山姆·奥特曼（Sam Altman），而是 OpenAI 的 CTO 米拉·穆拉蒂（Mira Murati）。

穆拉蒂上台也是没藏着掖着，直接宣布了三件大事：

1.OpenAI 的使命是让全世界任何地方的每个人都能使用 AI，因此未来 OpenAI 的产品首先考虑的是免费。

2.发布桌面版 ChatGPT 以及全新 UI，让使用更简单、更自然。

3.最后也是最重要的，推出全新旗舰模型 GPT-4o。

或许之前很多人对 OpenAI 的发布会有所预期，但可能绝大多数观看本场发布会的观众，甚至现场的嘉宾都不会想到，27 分钟后世界将再次被 OpenAI 所颠覆。

01.

发布会内容全记录

语音交互惊艳世人

首先 GPT-4o 名字中的 o，代表着「omnimodel」，意为「全知全能」。

根据穆拉蒂的描述，GPT-4o 能够提供 GPT-4 级别的智能，并且速度更快，此外最重要的是在文本、视觉与音频等方面有着重要提升，而这些功能将在未来几周内逐步推出。

本次 GPT-4o 最重要的提升点就在于人机交互上，穆拉蒂将其称作是将「范式转变为未来的协作方式」。

以往的语音交互需要转录、智能和文本转语音三种模型协同工作才能实现，但这样会造成延迟，同时破坏了沉浸感，并且无法直接区分音调变化、多个说话者以及背景噪音，也无法输出笑声、歌声或者表达情感。

相比之下，GPT-4o 则能够支持文本、音频和图像的任意组合的输入与输出，其中最优秀的特点就在于，与人类对话时，可以在平均 320ms、最短 232ms 的时间内响应音频输入。

与平均延迟为 2.8s 的 GPT-3.5 和 5.8s 的 GPT-4 相比，GPT-4o 的语音响应速度堪称奇迹。为了实现这一功能，OpenAI 则训练了一个跨文本、视觉和音频的端到端原生模型，所有一切均由同一神经网络处理。

在英语文本和代码性能方面，GPT-4o 与 GPT-4 Turbo 相匹配，同时在非英语文本上，性能更是有着显著提高。

同时，GPT-4o 的 API 的速度也将更快，成本降低了近 50%。

在介绍了 GPT-4o 的基本性能之后，穆拉蒂又将产品负责人 Mark Chen 与 Barrett Zoph 上台，来为观众展示 GPT-4o 的强大能力。

接下来就是 GPT-4o 的表演时刻了。

实时语音对话

Mark Chen 先是对着 ChatGPT 说「我是第一次参加直播发布会，有点紧张」，ChatGPT 回复，你要不要尝试一下深呼吸。

Mark Chen 随后夸张地大口呼吸，这时 ChatGPT 打断并说，你喘得太大了。这样的模型实时响应能力是此前任何一个语音助手从未有过的。

接着 Mark 又让 ChatGPT 讲一个睡前故事，并且随时打断让它切换情绪与音调，甚至让它把故事唱出来，最终 ChatGPT 还能出色完成，甚至有一丝不情愿的感觉。

视觉理解和交互

Barrett 在纸上写好了「3x=3」的线性方程，让 ChatGPT 得出 x 的解。依靠着 ChatGPT 最新推出的视觉理解功能和强大的多模态能力，ChatGPT 很快引导着 Barrett 解出了答案。

随后，Barrett 在纸上写了「I ♥ChatGPT」，结果ChatGPT成功地读了出来，并夸奖「你真是太可爱了」。

代码与图表理解

此刻 Mark 打开了电脑，给 ChatGPT 分享了一段代码，并让 ChatGPT 描述。ChatGPT 成功解释了代码的功能，并且在追问了代码中函数意义的情况下，能够成功解读出来。

接着 Barrett 分享了函数生成的图标，并问 ChatGPT 图表中的具体内容，ChatGPT 随后根据图表内容回答出了答案。

实时翻译

接着，穆拉蒂为了展示这些不是提前设计好的，于是从现场观众提出的问题中抽取，让 ChatGPT 进行尝试。她用意大利进行询问，随后 ChatGPT 也用意大利语进行了快速回答响应，并实时作出翻译。

面部情绪识别

发布会最后，Barrett 也通过新的相机功能进行自拍，并让 ChatGPT 判断他的情绪。ChatGPT 表示，你看起来非常愉快，并回复你能分享一下高兴的源泉吗？此时 Barrett 回答是因为我在做一个演示，展示你有多么的有用和惊人。

此时 ChatGPT 则娇羞地回复：「哦，别这么说，你都让我脸红了。」瞬间引起全场观众的笑声与掌声。

而上面所有的一切，只仅仅花了 27 分钟。

科幻电影《她》（Her）中，男主与 AI 谈了一场恋爱。而从今天开始，这一切将成为可能。

未在发布会现身，而是一直在发布会前排更新社媒的山姆·奥特曼也是在第一时间用「Her」向 GPT-4o 的表现致敬。

正如发布会预告一样尽管没有发布 GPT-5 与搜索引擎，但 GPT-4o 的语音交互确实足够神奇。

02.

效果不止发布会

GPT-4o 还有更多惊喜

当发布会结束，还在所有人意犹未尽之时，OpenAI 也带来了关于 GPT-4o 的更多信息。

首先就是由 OpenAI 科学家 William Fedus 直接公布了此前在大模型竞技场上出现的神秘大模型「im-also-a-good-gpt2-chatbot」正是本次公布的 GPT-4o，并且在 ELO 胜率表现上断层领先，与 GPT-4 Turbo 的 2024-04-09 相比，直接领先了 100 分。

而在 GPT-4o 的介绍博文当中，OpenAI 又介绍了更多发布会中未提及的隐藏能力。

比如文本渲染 3D 模型：

‍

在图像中添加清晰准确的文本内容‍：‍

用文本设计艺术字体：

用文本实现生成图像微调，输入两张人像照片来做一张海报：

而这些神奇的、几乎吊打其他 AI 生成图像产品的更新功能，甚至 OpenAI 都来不及在发布会中提及。

与此同时，OpenAI 官方还放出了多个演示视频，并表示：「视频没有任何加速！」来与今年一月的 Gemini 演示造假事件划清界限。

首先是 OpenAI 四巨头之一、总裁 Greg Brockman 让两个 GPT-4o 进行实时交流，并让它们根据先前看到的场景来即时创作一首合唱的小曲：

可汗学院创始人萨尔曼·可汗这次更是带着自己的儿子为 GPT-4o 站台，让 GPT-4o 教孩子怎么计算直角三角形中角的 sin 值：

除此之外还有在线面试：

让 GPT-4o 充当在线客服：

以及与英国 BeMyEyes 项目合作，为视障人士提供「第三只眼睛」；

OpenAI 也坦率表示这个全新训练的模型仍然存在着诸多不稳定性，接着还放出了众多失败案例，其中就包括让老外学中文，效果差强人意。

但毕竟这是一套前所未有的交互体验，也许很快将为 GPT-4o 的应用带来全新的使用可能。

此外，官方公布的众多基准测试结果中，GPT-4o 也在文本、推理和编码智能方面实现了与 GPT-4 Turbo 类似级别的性能，继续保持领先位置。

而在多语言、音频和视觉方面，GPT-4o 更是创下了大模型领域的数据新高。

可以设想的是，GPT-4o 出现后其他厂商的大模型的追赶 OpenAI 之路将会变得无比漫长。

03.

KOL 分享使用体验

奥特曼暗示下一步进展

发布会结束后，众多科技 KOL 也是第一时间发布了自己的感想。

英伟达科学家 Jim Fan 的分析较为专业。他认为在技术层面，OpenAI 已经找到了直接将音频映射到音频的方法，并实时将视频流传输到 transformer 模型中。这需要在 tokenization 和架构方面进行一些新的研究，但总体上是一个数据和系统优化问题。

而高质量的数据可以有两个来源，一种是来自如 YouTube、播客、电视剧、电影等自然对话，一种是使用了的合成数据。而从 speech1->text1 (ASR)、text1->text2 (LLM)、text2->speech2 (TTS)，经过了三重管线的蒸馏，将带有基于最后一个阶段数据的可选辅助损失函数。

在系统方面，他认为 OpenAI 可能开发了自己的神经网络优先的流式视频编解码器，以传输动作增量 token，同时通信协议和神经网络推理则必须共同优化。

他猜测，GPT-4o 将在很大程度上与 GPT-5 接近，是一个尚未完成训练的 checkpoint。同时语音助手的生动程度过高，甚至有一丝「调情」意味，将直接吞食 Character.AI 的市场。而若真如传言所说，苹果最终会与 OpenAI 合作来取代 Siri，那苹果将最终迎来大获全胜。

AI 科学家吴恩达也表示，GPT-4o 的出现将会极大缩短智能体工作流的时间，原本10分钟的智能体运算将缩减到5分钟。

OpenAI 在发布会结束之后不久，就正式推送了 GPT-4o，并且由于开启了灰度测试，已经有好多人免费体验到了 GPT-4o。据了解，每个免费用户可以在一段对话当中交流 10 次。

最直观的体验就是与 GPT-4 Turbo 相比，速度太快了。

斯坦福大学 AI 研究专家 Andrew Gao 则发现，GPT-4o 的声音模拟不仅可以模拟人声，甚至包含物理声响。

但使用过程中，许多人也发现了缺点。根据测试，GPT-4o 上下文长度只有 128k，其实不如现在绝大多数商用大模型。另外有网友发现，GPT-4o 的中文语料库则是被严重污染，让人哭笑不得。

但对于编程等相关工作而言，许多人士反馈效果有着明显地提高。许多创业者也适时地更新了自己的产品，跟上 GPT-4o 的步伐。

后续 OpenAI 也预告了将持续更新 GPT-4o 的性能，或许我们还能期待更多开发者带来更多有趣的体验。

而发布会期间一直坐在现场前排，与大家在 X 上激情互动的 OpenAI CEO 山姆·奥特曼也在第一时间发表了对 GPT-4o 发布的感言。

内容简单来讲可分为两点，第一点是再次重申使命，即让强大的 AI 工具免费，让所有人都能使用。奥特曼现在很骄傲 ChatGPT 依旧是世界上最好的模型，并且没有任何广告（暗戳戳阴阳小扎）。

第二点则是新推出的语音功能是他用过的最好的计算机交互，这感觉就像科幻电影中所设想的 AI 一样，能够与计算机如此自然对话，而现实 OpenAI 确实也做到了。奥特曼还表示未来随着更新（可选的）个性化、访问用户信息、代表用户采取行动等功能后，我们将看到一个令人激动的未来。

淼翰实验室曾在此前介绍 Sora 的那篇文章当中所提及的，能够接管用户桌面的 AI Agent（智能体）项目，或许这次表态也是奥特曼对于这则消息的印证。

但如果这就是 OpenAI 想要的未来的话，这也是你们想要的未来吗？

04.

总结

最后，我们也将整场发布会的完整内容分享给了 GPT-4o，让它给我们对这次 GPT-4o 进行技术上的分析，同时展望一下未来 AI 的发展方向。它是这么说的：

GPT-4o 技术分析
GPT-4o 的主要特性:
1.智能和速度的提升:
a.GPT-4o 不仅保持了 GPT-4 的智能水平，还显著提升了速度。
b.在文本、视觉和音频方面都有所改进，能够更高效地进行推理和处理。
2.用户体验的优化:
a.更新了用户界面，使交互体验更加自然和简单。
b.通过减少体验中的延迟，增强了与 ChatGPT 协作的沉浸感。
3.语音模式的改进:
a.之前的语音模式需要三个模型协同工作（转录、智能和文本到语音转换），GPT-4o 将这些功能整合到了一个模型中，减少了延迟，提升了体验的流畅度。
4.多模态推理能力:
a.GPT-4o 能够在语音、文本和视觉上进行推理，这使得它在处理复杂任务时更加高效。
5.广泛的用户覆盖:
a.将 GPT-4o 的智能带给了免费用户，扩大了使用者的范围。
b.支持超过 50 种语言，提高了多语言支持的质量和速度。
6.API 集成:
a.GPT-4o 也提供了 API 接口，开发者可以利用其构建和部署人工智能应用。
技术创新:
· 实时处理: 实现了实时音频和视觉处理，增强了交互的即时性和自然性。
· 效率提升: 相比 GPT-4 Turbo，GPT-4o 的速度更快，成本降低了 50%，速率限制提高了 5 倍。
· 安全性: 针对实时音频和视觉处理的新安全挑战，OpenAI 制定了缓解措施，防止滥用。
未来 AI 行业的发展方向
1. 多模态 AI 的普及:
· 随着 GPT-4o 等模型在文本、语音和视觉上的多模态能力不断增强，未来的 AI 将更加擅长处理和理解复杂的多模态数据。这将推动 AI 在更多领域的应用，如教育、医疗、娱乐等。
2. 实时交互和协作:
· 实时处理能力的提升将使 AI 更加适合用于实时交互和协作工具。这将改变人机交互的方式，使 AI 成为日常工作和生活中的重要助手。
3. 普惠化和无缝集成:
· AI 技术的普惠化趋势将继续，更多的免费用户将能够使用先进的 AI 工具。同时，AI 将更容易集成到各种应用和平台中，提供无缝的用户体验。
4. 安全与伦理:
· 随着 AI 技术的进步，安全和伦理问题将变得更加突出。如何有效防止 AI 滥用，确保数据隐私和安全，将成为行业的重要议题。
5. 定制化和个性化服务:
· AI 将能够提供更加定制化和个性化的服务，满足不同用户的特定需求。这将推动 AI 在定制教育、个性化医疗和智能家居等领域的发展。
6. 数据分析与决策支持:
· 高级数据分析功能的提升将使 AI 在商业决策、科学研究和公共政策制定中发挥更大作用。AI 将成为重要的决策支持工具，帮助人们做出更明智的选择。
总结
GPT-4o 的发布标志着 AI 技术在智能、速度和用户体验方面的重大进步。未来，AI 行业将继续朝着多模态处理、实时交互、普惠化、安全性、定制化和高级数据分析等方向发展。OpenAI 的努力不仅推动了技术前沿的发展，也为更多人带来了先进的 AI 工具，促进了 AI 技术的广泛应用和普及。

编译：刘嘉禾

本文链接：http://lechangxia.cc/gpt4/803.html

GPT-4O后续影响 OpenAI GPT-40发布 QpenAI发布GPT-4o全能模型 GPT-40 penAl重磅发布GPT-40 GPT-40免费试用

如何使用GPT-4语音包为体育生提供个性化训练建议？
大家好！今天我们将探讨如何利用GPT-4语音包为体育生提供个性化的训练建议，GPT-4是一种先进的人工智能技术，通过语音包的形式，可以帮助体育生更高效地进行训练和提升表现，以下是使用GPT-4语音包为...
GPT资讯2024-11-233gpt4语音包体育生
哪个GPT-4性价比最高？全面比较与推荐
大家好，今天我们要探讨的话题是“哪个GPT-4性价比最高”，这是一个许多人工智能爱好者和专业人士都非常关心的问题，随着人工智能技术的快速发展，GPT系列模型已经发展到了第四代，即GPT-4，这是一个强...
GPT资讯2024-11-235哪个gpt4性价比高
如何在GPT上开通虚拟卡服务？
大家好，今天我们将介绍如何在GPT（即ChatGPT）平台上开通虚拟卡服务，虚拟卡是一种在线支付工具，可以在不暴露实际银行信息的情况下进行交易，增加了交易的安全性，以下是详细的开通步骤：步骤一：注册G...
GPT资讯2024-11-226gpt4虚拟卡怎么开通
怎么给gpt4传图
如何给GPT-4上传图片？简单步骤教程大家好！今天我们来聊一个非常实用的话题：怎样给GPT-4上传图片，GPT-4是人工智能领域中的一个高度先进的大型语言模型，它不仅可以理解和生成文本，还可以处理图像...
GPT资讯2024-11-227怎么给gpt4传图
GPT-4采用了谁的声音？揭秘背后的语音技术
大家好，今天我们来聊聊一个很多小白用户可能关心的问题：GPT-4，这款最新的人工智能语言模型，它采用了谁的声音？我们将揭开这个谜团，并解释背后的技术和原因，GPT-4是OpenAI公司开发的一系列语言...
GPT资讯2024-11-229gpt4采用谁的声音