

OpenAI发布视频模型Sora，科技与狠活儿鹿死谁手

瞻澜Zland

2024-02-19

导读：革命性工具Sora发布，AI或将迎来新纪元

本文阅读时长约4分钟

背景

2024年2月16日凌晨，OpenAI发布了革命性工具Sora，简单来说就是可以让人工智能直接通过文字或者人类语言的方式生成的视频大模型，这款工具能根据文字提示生成60秒的超高清视频，不仅改变了人类与数字内容的互动方式，也标志着创造性表达方式的新纪元，Sora通过对物理规律的深刻理解，展示了AI从执行简单任务道具备深层次理解和创造能力的转变，为自动驾驶、机器人技术等多个领域打开了新的可能性。

OpenAI官方并没有单纯的将Sora称为视频模型，而是将其称为“世界模拟器”，视频模型是一种专门用于生成或处理视频的模型，它可以对视频中的内容、场景、物体等进行识别和分析，例如视频剪辑、特效添加、自动翻译等，而“世界模拟器”模型则是一种用于模拟现实世界中物理过程的模型，例如天气预测、交通流模拟、分子动力学模拟等。也就是说从这一刻起，人工智能系统可以拟合更多真实物理定律的数字孪生世界走进人类世界。

Sora视频，必出精品

时长延长、自然运镜、世界模型成为本次OpenAI官方发布的Sora的主流特点。首先是时长延长，在Sora之前也有类似生成视频的模型工具，例如Pika、Runway等，但生成的视频时长仅有20秒，而Sora可直接使用语言或者文字生成长达60秒的超清视频，并且具有良好的连贯性；然后是多镜头切换，Sora可在同一个视频中切换多个镜头，大幅提高观感的同时还能保持视觉风格一致，而其他相关模型仅仅只能实现单镜头视频；最后Sora的世界模型除了继承了AI理解提示用语的功能，还能够极大参考物理规律，实现AI物理仿真。

Sora能从众多模型中脱颖而出源于其改变了底层逻辑，首先是不同于其他模型采用的经典U-Net架构，Sora使用的transformer架构极大程度上提高了模型的扩展性；然后是Sora选择在原始数据上进行训练，不对数据进行删减，是模型训练更加充分；最后Sora选择使用DALL·E3和GPT的研究成果，为训练视频模型生成更详细的语言文字描述，提升模型预测精准性。

影视遭遇颠覆，传媒或将改革

继当年的ChatGPT突破了文字和图片两大防线之后，现在的Sora只需一句话就可以生成一个视频了，比如在日本京东街头的视频一经播出火遍全网，因为从视频观看效果上来看，视频的人物、画面和背景完全看不出来是由人工智能生成的，或许未来将一本小说交给Sora，一部大片即可诞生，例如现在制作成本动辄数亿资金的电影以后或将可以视为“零”成本了，摄像、后期、特效、导演等等流程可以全部被Sora替代，相应的明星演员也就失业了，以后只需一个好的想法便可以低成本地实现全套流程，或许在短期内全权由视频大模型人工智能技术生成的电影即将走入我们的生活。

此外，随着视频大模型AI技术的引入，版权问题也随之浮出水面。由于AI技术能够根据给定的提示生成与人类创作极其相似的视频内容，这就可能导致原创内容的版权归属问题变得复杂化。例如，如果一个团队使用AI技术生成了一段视频，那么这段视频的版权应该归属于谁？是AI技术的开发者，还是输入提示的用户，或者是实际进行操作的团队？这是一个待解决的问题。

自动化驾驶技术加快脚步

人工智能技术，特别是视频生成和图像识别的技术，正在对自动化驾驶产生深远影响。通过对大量的图像和视频数据的学习，人工智能能够实现对车辆和行人的准确识别和行为预测。这种技术的增强使得驾驶的安全性得到了提升，优化了驾驶体验，使驾驶变得更加轻松和愉悦。

目前自动化驾驶技术存在一些瓶颈。例如，环境感知技术需要通过传感器获取大量的周围环境信息，如障碍物的类型、道路标志及标线、行车车辆的检测、交通信息等数据的语言分类。同时，高精度定位技术、决策与规划技术和控制与执行技术也是实现自动驾驶的关键，而Sora的诞生大幅加快了自动驾驶中信息捕捉能力不足的痛点，自动驾驶有望从L2到快速升级为L3。

具体来说，“视频生成”技术可以用于创建更为真实的模拟环境，帮助自动驾驶系统更好地学习和理解复杂的交通场景。而图像识别技术则可以让自动驾驶汽车更好地识别路标、行人和其他车辆，从而做出更准确的决策。

此外，自动驾驶汽车的发展也面临成本、数据、基础设施等方面的制约和挑战。例如，现在车厂已经在销售内置 L2 级自动驾驶功能的车型，此类功能可以控制行驶速度、保持与前方车辆的安全距离、将车辆保持在其车道内，并提供其他各种形式的辅助功能，然而，这些功能的实施和维护都需要大量的成本投入，如果Sora模型能够大规模商用化，相关成本将会肉眼可见的下降。

机器人技术突飞猛进

通用人工智能崛起

相比于依靠预先设定参数和数据来运行特定任务的人工智能（AI），通用人工智能（AGI）更能媲美人类的智慧。通用智能也被称为强人工智能，是指在人类专业领域内具类似人类智慧的AI，也就是说通用人工智能不仅可以执行特定任务，而且具有类似人类的创造力与自学能力，能够执行训练或开发目的之外的任务。

通用人工智能对机器人技术的突破在于其强大的对真实世界的理解能力，简单来讲就是AGI能够使机器人像人类一样学习、理解和适应环境，并解决问题，例如，Sora模型的诞生，展现的不仅仅是一个视频制作的能力，而是对真实物理世界有了理解之后带来新的成果和突破，AGI技术将极大地提升机器人的智能化程度，使其在各种环境中都能表现出类人的智能和行为。

挑战？质疑？不足？
是风口更是新机遇

在这场AI浪潮中，伴随着更多的投资机遇，自Sora一经推出，OpenAI的估值达800亿美元，然而在9个月之这个数字还是270亿美元，目前OpenAI并没有透露关于是否上市的消息，可能除了Sora，OpenAI还憋了其他大招，也可能在考虑为人工智能建立更全面的安全措施，目前Sora在震撼我们的同时，业存在一定局限性，例如无法模拟复杂的物理场景以及因果关系，还有也会像其他人工智能模型一样误解用户提示词中细节信息，所以算法还有待完善。

除了国外市场，国内市场也伴随着机遇，2023年中国大模型市场规模为147亿元，同比增长110%，预计2024年和2025年的市场规模分别为216亿元和318亿元，目前大模型在国内的应用渗透率偏低，市场发展前景广阔，相信再过不久就会出现国内自研的相关视频大模型。

最后，在文字、图片和视频都人工智能被突破的AI爆炸时代，未来企业之间的较量本质是底层逻辑和前沿技术的较量，未来的世界500强企业中，科技类企业将占据半壁江山，及时采用相关前沿技术的企业将成为重点关注的投资对象，同时对业务类企业创新能力提出新的挑战，未来企业的同质化、逆时代、转型不及时等将成为被淘汰企业的主要特点，能够快速且多次完成“0—1”的企业将从新时代中脱颖而出。