从 OpenAI 的 Sora 说开去

GPT42024-02-18 10:24:06518

美国时间2月16日，OpenAI 爆炸性地发布了AI视频生成模型 Sora，该模型可以根据用户的提示自动生成长达一分钟的高清视频。目前官网更新了几十个视频DEMO，这些视频具有极为逼真的现实世界模拟效果，能实现复杂的多角度的镜头转换，还可以真实表现角色的情感细节。

例如给出一段提示（Prompt）：“一位时尚女性，穿梭于充满温暖霓虹灯光和动感城市标志的东京街道”。Sora 生成的视频如下：

再看看视频中人物细节，毛发、肤质、表情、光线、墨镜的反射等等。

如果把这段视频拿给一个还不知道这事的朋友看，应该会认为这是某人手拍的一段真实的短视频，而不会相信这完全是由AI自动生成的。

再例如给出一段提示：“在白雪皑皑的美丽东京，镜头穿过熙熙攘攘的城市街道，跟随几个人享受着雪景，在附近的摊位上购物，绚丽的樱花与雪花一起在风中飘舞”。Sora 生成的视频如下：

视频中樱花和雪花的细节都非常到位，落在黑色衣服上的痕迹、被行人踩过的痕迹等等都能清晰捕捉到，如同无人机真实俯拍一般。

再看看其他视频片段动图，看原视频你几乎无法分辨这到底是人工拍摄的还是AI自动生成的。

看完后不禁感叹，以后的视频可能都不用我们亲临现场来拍摄，只需要一段富有想象力的描述就能搞定我们需要的素材。

Sora 甚至还可以生成一些创意的视频，例如：人们在大教堂里冲浪、蝴蝶在海中飞翔、鲸鱼在城市中遨游等，这些视频完全可以达到“以假乱真”的效果。

从目前了解到的信息看，现阶段的 Sora 基本可以实现几个功能：

1、文字描述生成视频；

2、参考图片衍生视频；

3、视频拓展生成视频；

从功能3开始，Sora 就已经和其他公司已发布的模型拉开了差距，Sora 可以根据提供的视频来重新生成更符合我们需求或想象力的视频内容，比如改变场景、主题，又或者是对视频进行向前、向后的扩展补充，甚至把多个视频进行融合（类似蝴蝶在水中飞）等等，更为恐怖的是，Sora生成的视频极具真实感，镜头的切换或者其他内容的运动/阻挡后都不会影响主题的质感，甚至还有很贴近现实的物理交互反馈（人吃食物留下真实咬痕）等等，这些让AI生成的视频看起来有种真实合理的感觉，难辨真假。

OpenAI表示，他们正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。未来还会把 Sora 不断的加强，让他表现能更加真实。Runway 和 Pika 等公司想必得换个发展思路了。

从Chat GPT 的横空出世到 Sora 的降维打击，这些AI技术未来将对小说、电影、动漫、教育、游戏、自媒体等很多的行业造成不可忽视的深远影响；从文学创作到图片设计，再到视频制作，AI技术直接将行业门槛移除。

仅凭我这匮乏的想象力的小脑袋都不难预计，未来我们可以仅用几个创意描述就能生成一部短文、小说、图片，再通过文字、图片内容生成短视频、动画甚至电影或电视剧，进而根据创意需要对视频进行创造性的改编，就能最终完成一部专属个人的作品。

那么，对于视频生产者而言，需要的将不再是演员、服化道亦或是打光运镜等拍摄技巧，最需要的将会是想象力和创造力，人人都可以是导演，大大的提高产业的效率，也几何级的增加了视频内容的体量。

谈到想象力和创造力，我是感到很悲哀的，本人就是在咱们教育体制下成长起来的一代，非常缺乏想象力和创造力，更多的是模仿和跟随，这像极了咱们整个国内市场大的产业格局，一直处在学和“抄”的状态，然后拼命的内卷完了卷外面，重复干着低附加值的事情。而这样现状的根源还是咱们从基础教育到高阶人才培养环节出了问题，刷题、考分、考级、评级....都没法往深了讲，这样的环境下，想象力、创造力从何而来。

从去年3月份开始，国内的人工智能行业也发展的如火如荼，据说国内已经有了上百个AI大模型，但即便是文心一言、讯飞火星这些，我们这边真正拿得出手来东西和 OpenAI 的 Chat GPT、Google 的 Gemini 比起来，差的那可不是一星半点，这完全是代际级的差距。

而且，从仅一年的时间里 OpenAI 对 Sora 的这个进化速度来看，AI产业的发展升级也许并不是线性的，而是跳跃式、涌现式的迭代，而我最为深深担忧是，这一跃或许就再也追不上了。

想想，为什么Apple、Microsoft、Google、Amazon、Nvidia、Meta/Facebook、Tesla 这些全球重量级的科技公司都在漂亮国，而风景这边独好的咱们只有银行和酱香科技。2019年到2023年，差距越来越大。

咱们A股现在也给了很多科技型企业上市融资发展的机会，但看看那些所谓科技企业的实控人和高管们解禁就减持的骚操作，投资人能对这些公司抱有长远的信心吗？

科学技术的发展绝非一朝一夕之事，国家也在重视科技领域的投入，但从根本上的问题不解决，想要追赶几乎就是痴人说梦，更遑论有些无德的“专家”口口声声说的3年实现追赶，5年实现超越。

咱们小屁民没有啥话语权，声量微不足道，但还是想大声疾呼，赶紧在教育制度上改革吧，赶紧在股市制度上改革吧，再不改革真就没机会实现中华民族的伟大复兴了；也别再喊什么“遥遥领先”了，脚踏实地干点正事要紧。刘慈欣的三体里说：“弱小和无知不是生存障碍，傲慢才是。”

说回来，人工智能和机器人这两个产业的高速发展，未来还将替代多少人工现在没法下定论，但是趋势已来、未来已来，我们需要思考的是如何驾驭和应用AI，从而不被AI取代。

此外，从个人的认知来看，Sora 的发布将内容生成从文字、图片升级到了视频，这种多模态大模型已成为AI发展的重点方向，这将必然带来算力需求的进一步增长，以及数据传输、存储的巨量需求。而算力方面，我们的CPU和GPU差距确实有点大，当然也不排除市场非要炒概念，离我们相对较近、更真实的机会可能还在传输和存储这方面；如此看来，半导体板块的机会相对较为确定，今天点到为止，后期的文章找机会重点聊聊。

本文链接：http://lechangxia.cc/gpt4/714.html

chatgpt4.0 参数华佗GPT chatgpt4.0手机端 chatgpt4和chat gpt区别 gpt充值还可以用虚拟信用卡吗 chatgpt国内注册流程 chatgpt注册邮箱要求 chatgpt注册流程攻略 gpt账号充值如何给gpt充值

如何使用GPT-4语音包为体育生提供个性化训练建议？
大家好！今天我们将探讨如何利用GPT-4语音包为体育生提供个性化的训练建议，GPT-4是一种先进的人工智能技术，通过语音包的形式，可以帮助体育生更高效地进行训练和提升表现，以下是使用GPT-4语音包为...
GPT资讯2024-11-233gpt4语音包体育生
哪个GPT-4性价比最高？全面比较与推荐
大家好，今天我们要探讨的话题是“哪个GPT-4性价比最高”，这是一个许多人工智能爱好者和专业人士都非常关心的问题，随着人工智能技术的快速发展，GPT系列模型已经发展到了第四代，即GPT-4，这是一个强...
GPT资讯2024-11-235哪个gpt4性价比高
如何在GPT上开通虚拟卡服务？
大家好，今天我们将介绍如何在GPT（即ChatGPT）平台上开通虚拟卡服务，虚拟卡是一种在线支付工具，可以在不暴露实际银行信息的情况下进行交易，增加了交易的安全性，以下是详细的开通步骤：步骤一：注册G...
GPT资讯2024-11-226gpt4虚拟卡怎么开通
怎么给gpt4传图
如何给GPT-4上传图片？简单步骤教程大家好！今天我们来聊一个非常实用的话题：怎样给GPT-4上传图片，GPT-4是人工智能领域中的一个高度先进的大型语言模型，它不仅可以理解和生成文本，还可以处理图像...
GPT资讯2024-11-227怎么给gpt4传图
GPT-4采用了谁的声音？揭秘背后的语音技术
大家好，今天我们来聊聊一个很多小白用户可能关心的问题：GPT-4，这款最新的人工智能语言模型，它采用了谁的声音？我们将揭开这个谜团，并解释背后的技术和原因，GPT-4是OpenAI公司开发的一系列语言...
GPT资讯2024-11-229gpt4采用谁的声音