现在的 OpenAI 发布会就如同乔布斯在世时的苹果发布会一样,每次都能引爆整个科技圈。
北京时间 5 月 14 日凌晨 1 点,OpenAI 今年首场发布会如约而至。但与以往不同,本次发布会的主持人不是我们熟悉的山姆·奥特曼(Sam Altman),而是 OpenAI 的 CTO 米拉·穆拉蒂(Mira Murati)。
穆拉蒂上台也是没藏着掖着,直接宣布了三件大事:
1.OpenAI 的使命是让全世界任何地方的每个人都能使用 AI,因此未来 OpenAI 的产品首先考虑的是免费。
2.发布桌面版 ChatGPT 以及全新 UI,让使用更简单、更自然。
3.最后也是最重要的,推出全新旗舰模型 GPT-4o。
或许之前很多人对 OpenAI 的发布会有所预期,但可能绝大多数观看本场发布会的观众,甚至现场的嘉宾都不会想到,27 分钟后世界将再次被 OpenAI 所颠覆。
01.
发布会内容全记录
语音交互惊艳世人
首先 GPT-4o 名字中的 o,代表着「omnimodel」,意为「全知全能」。
根据穆拉蒂的描述,GPT-4o 能够提供 GPT-4 级别的智能,并且速度更快,此外最重要的是在文本、视觉与音频等方面有着重要提升,而这些功能将在未来几周内逐步推出。
本次 GPT-4o 最重要的提升点就在于人机交互上,穆拉蒂将其称作是将「范式转变为未来的协作方式」。
以往的语音交互需要转录、智能和文本转语音三种模型协同工作才能实现,但这样会造成延迟,同时破坏了沉浸感,并且无法直接区分音调变化、多个说话者以及背景噪音,也无法输出笑声、歌声或者表达情感。
相比之下,GPT-4o 则能够支持文本、音频和图像的任意组合的输入与输出,其中最优秀的特点就在于,与人类对话时,可以在平均 320ms、最短 232ms 的时间内响应音频输入。
与平均延迟为 2.8s 的 GPT-3.5 和 5.8s 的 GPT-4 相比,GPT-4o 的语音响应速度堪称奇迹。为了实现这一功能,OpenAI 则训练了一个跨文本、视觉和音频的端到端原生模型,所有一切均由同一神经网络处理。
在英语文本和代码性能方面,GPT-4o 与 GPT-4 Turbo 相匹配,同时在非英语文本上,性能更是有着显著提高。
同时,GPT-4o 的 API 的速度也将更快,成本降低了近 50%。
在介绍了 GPT-4o 的基本性能之后,穆拉蒂又将产品负责人 Mark Chen 与 Barrett Zoph 上台,来为观众展示 GPT-4o 的强大能力。
接下来就是 GPT-4o 的表演时刻了。
实时语音对话
Mark Chen 先是对着 ChatGPT 说「我是第一次参加直播发布会,有点紧张」,ChatGPT 回复,你要不要尝试一下深呼吸。
Mark Chen 随后夸张地大口呼吸,这时 ChatGPT 打断并说,你喘得太大了。这样的模型实时响应能力是此前任何一个语音助手从未有过的。
接着 Mark 又让 ChatGPT 讲一个睡前故事,并且随时打断让它切换情绪与音调,甚至让它把故事唱出来,最终 ChatGPT 还能出色完成,甚至有一丝不情愿的感觉。
视觉理解和交互
Barrett 在纸上写好了「3x=3」的线性方程,让 ChatGPT 得出 x 的解。依靠着 ChatGPT 最新推出的视觉理解功能和强大的多模态能力,ChatGPT 很快引导着 Barrett 解出了答案。
随后,Barrett 在纸上写了「I ♥ChatGPT」,结果ChatGPT成功地读了出来,并夸奖「你真是太可爱了」。
代码与图表理解
此刻 Mark 打开了电脑,给 ChatGPT 分享了一段代码,并让 ChatGPT 描述。ChatGPT 成功解释了代码的功能,并且在追问了代码中函数意义的情况下,能够成功解读出来。
接着 Barrett 分享了函数生成的图标,并问 ChatGPT 图表中的具体内容,ChatGPT 随后根据图表内容回答出了答案。
实时翻译
接着,穆拉蒂为了展示这些不是提前设计好的,于是从现场观众提出的问题中抽取,让 ChatGPT 进行尝试。她用意大利进行询问,随后 ChatGPT 也用意大利语进行了快速回答响应,并实时作出翻译。
面部情绪识别
此时 ChatGPT 则娇羞地回复:「哦,别这么说,你都让我脸红了。」瞬间引起全场观众的笑声与掌声。
而上面所有的一切,只仅仅花了 27 分钟。
科幻电影《她》(Her)中,男主与 AI 谈了一场恋爱。而从今天开始,这一切将成为可能。
未在发布会现身,而是一直在发布会前排更新社媒的山姆·奥特曼也是在第一时间用「Her」向 GPT-4o 的表现致敬。
正如发布会预告一样尽管没有发布 GPT-5 与搜索引擎,但 GPT-4o 的语音交互确实足够神奇。
02.
效果不止发布会
GPT-4o 还有更多惊喜
当发布会结束,还在所有人意犹未尽之时,OpenAI 也带来了关于 GPT-4o 的更多信息。
首先就是由 OpenAI 科学家 William Fedus 直接公布了此前在大模型竞技场上出现的神秘大模型「im-also-a-good-gpt2-chatbot」正是本次公布的 GPT-4o,并且在 ELO 胜率表现上断层领先,与 GPT-4 Turbo 的 2024-04-09 相比,直接领先了 100 分。
而在 GPT-4o 的介绍博文当中,OpenAI 又介绍了更多发布会中未提及的隐藏能力。
比如文本渲染 3D 模型:
在图像中添加清晰准确的文本内容:
用文本设计艺术字体:
用文本实现生成图像微调,输入两张人像照片来做一张海报:
而这些神奇的、几乎吊打其他 AI 生成图像产品的更新功能,甚至 OpenAI 都来不及在发布会中提及。
与此同时,OpenAI 官方还放出了多个演示视频,并表示:「视频没有任何加速!」来与今年一月的 Gemini 演示造假事件划清界限。
首先是 OpenAI 四巨头之一、总裁 Greg Brockman 让两个 GPT-4o 进行实时交流,并让它们根据先前看到的场景来即时创作一首合唱的小曲:
可汗学院创始人萨尔曼·可汗这次更是带着自己的儿子为 GPT-4o 站台,让 GPT-4o 教孩子怎么计算直角三角形中角的 sin 值:
除此之外还有在线面试:
让 GPT-4o 充当在线客服:
以及与英国 BeMyEyes 项目合作,为视障人士提供「第三只眼睛」;
OpenAI 也坦率表示这个全新训练的模型仍然存在着诸多不稳定性,接着还放出了众多失败案例,其中就包括让老外学中文,效果差强人意。
但毕竟这是一套前所未有的交互体验,也许很快将为 GPT-4o 的应用带来全新的使用可能。
此外,官方公布的众多基准测试结果中,GPT-4o 也在文本、推理和编码智能方面实现了与 GPT-4 Turbo 类似级别的性能,继续保持领先位置。
而在多语言、音频和视觉方面,GPT-4o 更是创下了大模型领域的数据新高。
可以设想的是,GPT-4o 出现后其他厂商的大模型的追赶 OpenAI 之路将会变得无比漫长。
03.
KOL 分享使用体验
奥特曼暗示下一步进展
发布会结束后,众多科技 KOL 也是第一时间发布了自己的感想。
英伟达科学家 Jim Fan 的分析较为专业。他认为在技术层面,OpenAI 已经找到了直接将音频映射到音频的方法,并实时将视频流传输到 transformer 模型中。这需要在 tokenization 和架构方面进行一些新的研究,但总体上是一个数据和系统优化问题。
而高质量的数据可以有两个来源,一种是来自如 YouTube、播客、电视剧、电影等自然对话,一种是使用了的合成数据。而从 speech1->text1 (ASR)、text1->text2 (LLM)、text2->speech2 (TTS),经过了三重管线的蒸馏,将带有基于最后一个阶段数据的可选辅助损失函数。
在系统方面,他认为 OpenAI 可能开发了自己的神经网络优先的流式视频编解码器,以传输动作增量 token,同时通信协议和神经网络推理则必须共同优化。
他猜测,GPT-4o 将在很大程度上与 GPT-5 接近,是一个尚未完成训练的 checkpoint。同时语音助手的生动程度过高,甚至有一丝「调情」意味,将直接吞食 Character.AI 的市场。而若真如传言所说,苹果最终会与 OpenAI 合作来取代 Siri,那苹果将最终迎来大获全胜。
AI 科学家吴恩达也表示,GPT-4o 的出现将会极大缩短智能体工作流的时间,原本10分钟的智能体运算将缩减到5分钟。
OpenAI 在发布会结束之后不久,就正式推送了 GPT-4o,并且由于开启了灰度测试,已经有好多人免费体验到了 GPT-4o。据了解,每个免费用户可以在一段对话当中交流 10 次。
最直观的体验就是与 GPT-4 Turbo 相比,速度太快了。
斯坦福大学 AI 研究专家 Andrew Gao 则发现,GPT-4o 的声音模拟不仅可以模拟人声,甚至包含物理声响。
但使用过程中,许多人也发现了缺点。根据测试,GPT-4o 上下文长度只有 128k,其实不如现在绝大多数商用大模型。另外有网友发现,GPT-4o 的中文语料库则是被严重污染,让人哭笑不得。
但对于编程等相关工作而言,许多人士反馈效果有着明显地提高。许多创业者也适时地更新了自己的产品,跟上 GPT-4o 的步伐。
后续 OpenAI 也预告了将持续更新 GPT-4o 的性能,或许我们还能期待更多开发者带来更多有趣的体验。
而发布会期间一直坐在现场前排,与大家在 X 上激情互动的 OpenAI CEO 山姆·奥特曼也在第一时间发表了对 GPT-4o 发布的感言。
内容简单来讲可分为两点,第一点是再次重申使命,即让强大的 AI 工具免费,让所有人都能使用。奥特曼现在很骄傲 ChatGPT 依旧是世界上最好的模型,并且没有任何广告(暗戳戳阴阳小扎)。
第二点则是新推出的语音功能是他用过的最好的计算机交互,这感觉就像科幻电影中所设想的 AI 一样,能够与计算机如此自然对话,而现实 OpenAI 确实也做到了。奥特曼还表示未来随着更新(可选的)个性化、访问用户信息、代表用户采取行动等功能后,我们将看到一个令人激动的未来。
淼翰实验室曾在此前介绍 Sora 的那篇文章当中所提及的,能够接管用户桌面的 AI Agent(智能体)项目,或许这次表态也是奥特曼对于这则消息的印证。
但如果这就是 OpenAI 想要的未来的话,这也是你们想要的未来吗?
04.
总结
最后,我们也将整场发布会的完整内容分享给了 GPT-4o,让它给我们对这次 GPT-4o 进行技术上的分析,同时展望一下未来 AI 的发展方向。它是这么说的:
GPT-4o 技术分析
GPT-4o 的主要特性:
1.智能和速度的提升:
a.GPT-4o 不仅保持了 GPT-4 的智能水平,还显著提升了速度。
b.在文本、视觉和音频方面都有所改进,能够更高效地进行推理和处理。
2.用户体验的优化:
a.更新了用户界面,使交互体验更加自然和简单。
b.通过减少体验中的延迟,增强了与 ChatGPT 协作的沉浸感。
3.语音模式的改进:
a.之前的语音模式需要三个模型协同工作(转录、智能和文本到语音转换),GPT-4o 将这些功能整合到了一个模型中,减少了延迟,提升了体验的流畅度。
4.多模态推理能力:
a.GPT-4o 能够在语音、文本和视觉上进行推理,这使得它在处理复杂任务时更加高效。
5.广泛的用户覆盖:
a.将 GPT-4o 的智能带给了免费用户,扩大了使用者的范围。
b.支持超过 50 种语言,提高了多语言支持的质量和速度。
6.API 集成:
a.GPT-4o 也提供了 API 接口,开发者可以利用其构建和部署人工智能应用。
技术创新:
· 实时处理: 实现了实时音频和视觉处理,增强了交互的即时性和自然性。
· 效率提升: 相比 GPT-4 Turbo,GPT-4o 的速度更快,成本降低了 50%,速率限制提高了 5 倍。
· 安全性: 针对实时音频和视觉处理的新安全挑战,OpenAI 制定了缓解措施,防止滥用。
未来 AI 行业的发展方向
1. 多模态 AI 的普及:
· 随着 GPT-4o 等模型在文本、语音和视觉上的多模态能力不断增强,未来的 AI 将更加擅长处理和理解复杂的多模态数据。这将推动 AI 在更多领域的应用,如教育、医疗、娱乐等。
2. 实时交互和协作:
· 实时处理能力的提升将使 AI 更加适合用于实时交互和协作工具。这将改变人机交互的方式,使 AI 成为日常工作和生活中的重要助手。
3. 普惠化和无缝集成:
· AI 技术的普惠化趋势将继续,更多的免费用户将能够使用先进的 AI 工具。同时,AI 将更容易集成到各种应用和平台中,提供无缝的用户体验。
4. 安全与伦理:
· 随着 AI 技术的进步,安全和伦理问题将变得更加突出。如何有效防止 AI 滥用,确保数据隐私和安全,将成为行业的重要议题。
5. 定制化和个性化服务:
· AI 将能够提供更加定制化和个性化的服务,满足不同用户的特定需求。这将推动 AI 在定制教育、个性化医疗和智能家居等领域的发展。
6. 数据分析与决策支持:
· 高级数据分析功能的提升将使 AI 在商业决策、科学研究和公共政策制定中发挥更大作用。AI 将成为重要的决策支持工具,帮助人们做出更明智的选择。
总结
GPT-4o 的发布标志着 AI 技术在智能、速度和用户体验方面的重大进步。未来,AI 行业将继续朝着多模态处理、实时交互、普惠化、安全性、定制化和高级数据分析等方向发展。OpenAI 的努力不仅推动了技术前沿的发展,也为更多人带来了先进的 AI 工具,促进了 AI 技术的广泛应用和普及。
本文链接:http://lechangxia.cc/gpt4/803.html
GPT-4O后续影响OpenAI GPT-40发布QpenAI发布GPT-4o全能模型GPT-40penAl重磅发布GPT-40GPT-40免费试用