多模态ChatGPT上线,ChatGPT 现在可以看到、听到和说话

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gpthuiyuan

昨天,Open AI发布了多模态功能上线公告。

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

chatgpt Plus和企业用户将在未来两周内体验语音和图像。我们很高兴不久之后将这些功能推出给其他用户组,包括开发人员。

真的眼见着之前胡思乱想的自动驾驶哔哔功能,就快成为现实。

让我们看下OpenAI这次发布的新功能内容。

ChatGPT 现在可以看到、听到和说话

我们开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面类型,允许您进行语音对话或向 ChatGPT 展示您在说什么。

与ChatGPT交谈

可以进行多轮来回对话,无需唤醒词。使用场景例如在旅途中与它交谈,为家人讲睡前故事,参与餐桌辩论等。

1 用户准备说话

2 ChatGPT在倾听

3 ChatGPT在思考

4 ChatGPT在回答

值得注意一下这里的UI交互设计,使用了抽象液态设计理念来表征参与者及其状态。

  • 黑白色简洁风格。
  • 一个大圆代表用户,四个横列的椭圆代表chatGPT。
  • 图形的变化表示活跃状态(听或说), chatGPT的思考态是漫画中的对话框形式(抽象云朵)。

什么是液态设计

液态设计整体视觉给人一种光滑、梦幻、轻盈、透亮、流动的感觉,在设计中使用液态设计元素,可以增加产品的空间感、运动感、时尚感和科技未来感。在设计中,设计师通过使用多种特效,如模糊、折射、渐变等,通常搭配色彩大胆的配色和抽象、简约的概念图形,凸显液体设计随机变化的特点,使产品视觉更加具有生命力。

液态设计因其独特的未来感和科技感,可以随机地发生各种各样的变化,在AI场景中经常被使用,尤其是语音产品页面,如siri的唤醒界面设计就是一种液态设计的体现。

从UI界面可以看出,OpenAI的语音功能是为移动端而设计。开启语音功能,需要在移动应用上的“设置”→“新功能”,然后选择加入语音对话。

在新模型和新技术加持下,Whisper提供了语音识别功能,而且文本转语音提供了五种不同的声音可供选择。想必后期推出用户自定义的类人声音也不是难事,能够从几秒钟的真实语音中制作出逼真的合成语音。

考虑到这些功能带来了的风险,例如恶意行为者冒充公众人物或实施欺诈的可能性,OpenAI目前只把这项技术支持特定的用例 - 语音聊天,这些声音是与合作的配音演员共同创建。

五种语音风格

与ChatGPT图文聊天

向 ChatGPT 显示一个或多个图像。例如,排查烤架无法启动的原因,探索冰箱中的内容以计划用餐,或分析与工作相关的数据的复杂图表。如果要聚焦图像的特定部分,可以使用移动应用程序中的绘图工具。

下面示例展示了调整自行车车座的过程。

发送图文问题

标识关注部分

手册和工具箱

结果确认

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

为了应对极端主义和科学熟练程度等领域的风险,OpenAI在更广泛部署之前,进行了广泛的测试验证,保证安全性。

合作项目

Spotify正在利用OpenAI的语音技术来试点语音翻译功能,该功能通过将播客翻译成播客自己声音的其他语言来帮助播客扩大他们讲故事的范围。

与Be My Eyes正在合作开发一款面向盲人和低视力人士的免费移动应用程序。

这次的多模态功能发布,意味着更加自然、友好、智能的人机交互逐渐走入大众视野,意味着我们能够更加方便快捷地使用技术带来的辅助作用,也意味着重复性强、缺少创造力的”狗屁工作”将逐渐减少,也意味着人类或许将面临新的机遇和挑战。

当AI能够做到更多任务时,人应该如何调整自己的角色,找到自己的定位,会越发成为一个显性问题。

现在全球性的问题是,人找不着目的,找不着人生的意义在哪里,于是无所适从,尤其今天网络媒体,每个人彼此影响,但是难得有人自己想,听到的讯息很多,不一定知道怎么拣选。--- 许倬云

chatgpt plus(GPT4)代充值

本文链接:https://lechangxia.cc/gpt4/580.html

相关文章