OpenAI放出大招GPT-4o，GPT-4o可以支持文字、语音、图片和文件等

GPT42024-05-16 21:01:18514

OpenAI举行了名为“春季更新”的线上发布会，宣布推出GPT-4的升级款模型GPT-4o。

这场发布会的条件并不是像雷军发布小米SU7那样高大上，发布会的时间不到半个小时，既没有大屏PPT，AI明星Sam Altman也没有出现，核心环节就是由首席技术官Mira Murati带着两位员工在现场展示新模型。

但浓缩就是精华，这次发布会非常硬核，又一次突破人们对AI的想象，GPT-4o中的“o”（omn，意为全能），GPT-4o开始有了“眼睛”“嘴巴”，在全知全能方面更进一步了。不少网友用了之后惊呼，科幻电影的想象已经离我们不远了，感叹AI惊人的能力。

OpenAI的首席执行官Sam Altman，俗称奥特曼，在社交媒体上发帖，仅有一个字her。

her 是一部2013年的科幻爱情电影，讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后，他爱上了电脑操作系统里的女声，这个叫“萨曼莎”的姑娘不仅有着一把略微沙哑的性感嗓音，并且风趣幽默、善解人意，让孤独的男主泥足深陷。

在GPT-4o之前，我们用的还是GPT3.5，只支持文字与语音输入，但GPT-4o可以支持文字、语音、图片和文件等。

为了了解GPT-4o能做什么事，我们直接就问它，它回答称：可以回答问题，写作和编辑，提供建议，数学计算和写代码，数据分析，生成图像，实时信息查询等。

我们在使用之前的AI工具的时候，很多时候的信息都不是实时的，或者查不出来最新的数据，这很烦人。

比如输入杭州今天的天气

我们就看到3.5版本完全查不出来了，但是4和4o版本就可以查出来了。

又比如我们拍一张照片，让AI来生成描述。

GPT-4o输出的信息更为详细，也更为全面。

实时对话

我们说GPT-4o已经有了嘴巴，那么她也就有了互动交流的能力了，比如实时对话交互、语音多样化（可以使用不同情绪和语调回答等）、视频指导做题、视频识别环境和人（比如人的情绪）、以桌面应用形式远程辅助编程、实时翻译等。

上图是在视频指导做题。

并且她还会唱歌，辩论battle等能力，发布会演示了两个GPT-4o交流和对唱、唱摇篮曲、毒舌讽刺、视频识物和狗互动等。

识别情绪

说实话，人类对自己情绪的识别往往容易出错，情绪表达是一种比较微妙的。但是GPT-4o也可以通过眼睛看来识别情绪。

借助镜头自拍，ChatGPT可以识别用户的情绪，如“看起来很难过，甚至可以说是抑郁情绪”

识别周围环境

还能从用户背后的画面判断其身处的环境，如“看起来你在一个摄影棚拍戏中，背后有一些灯光，可能在录制视频之类的”。当另一个人进入镜头并且做其他表情的时候，ChatGPT也可以识别出这微妙的变化，并加以描述。

在与她交流的过程当中，你不觉得对方是一个机器，就觉得对方是一个人，交互体验非常流畅自然。因为GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应输入，与人类的响应时间相差无几。

GPT-4o的横空出世给未来应用带来了丰富的想象空间，随着应用的深入，可能成为超级私人秘书。在人类生活的方方面面，她都可以快速地定制化生成对应的解决方案。

如何使用GPT-4语音包为体育生提供个性化训练建议？