多模态ChatGPT—AGI更进一步

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gpthuiyuan

我们认为，大模型向智能终端侧部署是模型应用的重要方向之一。从OpenAI官方介绍视频和文档看，多模态ChatGPT已能够较为全面的覆盖用户的生活和工作场景。未来随着模型多模态能力的迭代完善，或能赋能机器人、汽车等更加复杂的智能终端，AGI更进一步。

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

核心观点

新版ChatGPT：落地语音对话和识图功能

9月25日，OpenAI官宣即将在ChatGPT中推出语音和多模态功能，支持用户直接与ChatGPT进行语音对话和多模态图像问答。未来两周，新功能将向ChatGPT Plus和Enterprise用户开放，其中语音对话（需开启设置）将在手机的iOS和Android客户端推出，识图功能将面向包含网页端的所有平台。OpenAI在3月提出的GPT-4多模态识图能力正式落地。安全性上，OpenAI通过Red Team测试模型在极端主义和科学领域的风险，且拒绝对图片中的人进行分析，从而实现负责任的AI。完整版的多模态ChatGPT将在手机端率先实现，或将开启智能终端时代。

情理之中：复盘OpenAI的多模态之路

3月14日，OpenAI官宣GPT-4，并在演示和技术报告中展示了多模态识图能力（仅展示了单图识别）。9月18日，据The Information信息，出于视觉功能可能被不良利用等安全原因，多模态功能早期仅向Be My Eyes公司提供，近期OpenAI正准备将其广泛推出。9月25日，OpenAI官宣验证了该信息。值得注意的是，The Information还指出OpenAI正在训练新的多模态模型Gobi来抗衡Google即将推出的多模态模型Gemini，而本次的GPT-4V(ison)并非多模态的Gobi模型。此外，5月18日，ChatGPT iOS发布时，已支持语音多模态，即Whisper语音转文本输入。

意料之外：多图识别、聚焦分析和语音对话

结合官方发布的视频和博客，我们总结了新版ChatGPT超预期的多模态能力：1）支持用户同时上传多张图像，并以自然语言的方式提问，ChatGPT将结合文字与图像多模态进行理解和回答，帮助用户分析日常生活中的问题和工作中的图表等复杂数据。2）ChatGPT手机App内置了绘图工具，支持用户标注图像中的具体对象，让ChatGPT聚焦性的推理作答。3）赋予了ChatGPT语音输出能力，结合之前已集成的Whisper语音识别能力，实现了ChatGPT和用户的完整语音对话，并支持5种音色。

技术解析：语音新模型+多模态涌现能力

语音模态，语音输出功能基于新的文本到语音模型，能够从文本和样本语音中生成人类音频。图像模态，OpenAI公开了GPT-4V的system card：1）GPT-4V于2022年训练完成。2）GPT-4V训练方式与GPT-4相同，先使用互联网图像和文本数据进行混合预训练，来预测下一个单词；然后通过InstructGPT沿用至今的RLHF（基于人类反馈的强化学习）技术来用额外数据对模型进行微调，实现与人类的对齐。3）在文本和图像多模态的混合，以及大规模模型提供的智能和推理能力下，模型能够涌现新的能力。

未来布局：多模态ChatGPT开启智能终端时代，AGI更进一步

我们认为，大模型向智能终端侧部署是模型应用的重要方向之一。本次ChatGPT更新，完整的语音和多模态识图能力率先在手机端实现，而PC端的语音功能将被延后，智能终端对多模态的支持能力优势开始显现。从OpenAI官方介绍视频和文档看，多模态ChatGPT已能够较为全面的覆盖用户的生活和工作场景。未来随着模型多模态能力的迭代完善，或能赋能机器人、汽车等更加复杂的智能终端，AGI更进一步。

风险提示：宏观经济波动，技术进步不及预期。本报告内容均基于客观信息整理，不构成投资建议。