
JIC投资观察原创文章
中国建投成员企业建投华科
作者:朱国泰
本文4786字,阅读时间约12分钟
全球最火的人工智能机构OpenAI,掀起了一波又一波的舆论热潮,甚至搅动了A股龙年春节开市后的首波行情。近日,OpenAI推出文生视频模型 Sora,这是继ChatGPT之后的第二枚重磅炸弹。
Sora是OpenAI使用超大规模视频数据训练出的一个视频生成模型,可以理解和模拟运动中的物理世界,生成长达一分钟的高保真视频。它代表了人工智能在视频内容创作领域的一次重大突破。相较于此前的Pika、Runway,Sora生成的60秒视频更流畅,也更逼真。
一位行走在东京街头的时尚女性的视频几乎成了Sora的代表作。这段一分钟的视频里,从主要人物到背景人物,从近景到远景,细致、逼真的画面和流畅转换的镜头几乎做到以假乱真。
在OpenAI的展示中,只需要一段简单的文本指令,Sora就可以直接输出长达60秒的视频,包含高度细致的背景、复杂的多角度镜头以及富有情感的多个角色。以至于外界毫不吝啬地形容其具有颠覆性。
当然,目前Sora还存在着一些不足,比如无法准确地模拟复杂场景的物理原理,且无法理解这其中的因果关系。比如,在生成的视频里,可能会出现一个人咬了一口饼干后,饼干并没有咬痕的情况。不过,随着算力的增强和算法的演进,人们将会获得更加完善、先进的视频生成功能。
01
Sora的技术突破

文生视频早已有之,但OpenAI发布的大模型Sora实现了多项突破,成为超越行业的领先AI应用。据悉,OpenAI在随后发布的技术研究文档中高度评价了Sora的意义,认为视频模型的持续扩展是一条构建物理世界和数字世界高性能模拟器的有效途径。Sora实现了非常大的突破,无论是视频时长的指数级提升,还是生成视频对真实世界的模拟程度,均实现了跨越式创新。
首先,视频可长达60秒,且输出视频的准确性和多样性均有所提升,Sora可以保持视频主体与背景的高度流畅和稳定。
其次,可生成视频内容,亦可以将多个无关的视频无缝连接到一起,也可以向前拓展生成视频,且与视频的结尾保持一致。
第三,单视频可多角度镜头,在一个视频内实现多角度镜头切换,并在多角度的镜头切换中保持人物、背景、逻辑等一致性,而且这种镜头的运用十分流畅。
第四,能理解和模拟真实世界和物理规律,视频更接近于人类现实拍摄。Sora对于物理逻辑、光影反射、运动方式、镜头移动及切换等细节处理得非常优秀,已经十分接近真实拍摄视频。
Sora要做到这些,这涉及到算法的复杂性。与文生文和文生图相比,文生视频技术不仅涉及文本到图像的转换,还需要处理时序信息和音频同步,需要在连续的时间序列中保持场景的一致性、物体的动态关系和光影的变化等,这需要复杂的深度学习模型具备更为强大的时空建模能力及计算复杂程度。
相比较之前的视频生成模型,Sora在算法和底层模型上都进行了很多创新。
其一,采用Transformer架构的扩散模型。不同于Runway Gen1、Stable Video Diffusion 等扩散模型主要采用经典的U-Net架构,Sora用Transformer架构替换U-Net架构,大幅提升模型扩展性。
其二,训练视频数据保持原始大小。不同于其他视频生成模型通常预先将视频调整裁剪或修剪为标准大小,Sora在原始大小的数据上进行训练。一方面数据采样更灵活,可以直接以原始宽高比为不同设备创建内容。另一方面可以改善构图和取景,Sora生成的视频取景得到了明显改善。
其三,为训练视频生成详细的文字描述。Sora采用了DALL-E3和 GPT的研究成果,通过为视频训练数据生成或补充详细的文字描述,提升训练效果,使模型预测更准确。
从技术角度看,Sora是OpenAI技术积累的结果,可看做是技术的持续迭代。OpenAI利用DALL-E3给训练用的视频素材都加上高质量文本描述,通过ChatGPT先将用户输入的提示词精准详尽扩写,再将扩写后的提示词交给Sora。该模型的震撼效果得益于 OpenAI已有技术的延续性。
当然,在底层基础技术的原理上,也有人认为,Sora并不算有实质性的颠覆。作为大模型路线的佼佼者,其优秀的基础,还是算法、数据和算力。这其中,更为重要的,是OpenAI拥有的强大人才储备,这是一群想要改变世界的人。
02
Sora为全球AI行业又添了一把火

Sora的发布带火了A股相关上市公司。
龙年A股开市后,Sora概念股持续大涨,多股实现涨停。截至2024年2月22日收盘,万得多模态模型板块近五日涨幅23.47%,人工智能板块近五日涨幅15.39%,AI算力板块近五日涨幅14.99%。
火的不止股价,还有国内公司如火如荼的多模态大模型的研究和应用。
去年12月至今,已有包括易点天下、汉王科技、当虹科技、东方国信等在内的十余家上市公司,在投资者互动平台披露过文生视频模型领域的业务情况。比如当虹科技,在2023年3月,就与中国移动咪咕公司联合发布跨模态AIGC产品,以静态照片生成三维体积视频。又如因赛集团,去年12月在互动平台称,旗下InsightGPT行业应用层垂类模型目前可生成20秒以上的视频。以上公司近日股价均出现大涨。
另外,国内视频分析行业的龙头公司也已在多模态大模型研究和商业应用落地方面进行了大量研究。比如,海康威视的多模态大模型包括视觉、语音、文本等多模态信号的融合训练及处理,海康观澜大模型已经在其AI开放平台上线。大华股份发布的星汉大模型,融合图像、点云、文本、语音等多模态数据,大幅提升了视觉解析能力。
不止国内,海外AI厂商们也在Sora这只蝴蝶翅膀的煽动下,纷纷抢滩。
以Sora为代表的多模态大模型将激发和加速AI方向产品的持续迭代。同时,Sora所代表的新技术路线的出现,可能会让资本市场发生变化,其同赛道的公司价值也将被市场重新评估。
近日,英伟达也正式发布了Chat With RTX聊天机器人,适用于Windows平台,由TensorRT-LLM提供支持,并在本地运行。此次Chat With RTX的发布,加速了AI的普及和应用,同时该应用改变了人与AI的交互方式。
在最近的季度电话会议上,苹果CEO表示,苹果正接近完成AI软件开发工具,将作为其旗舰编程软件Xcode新版本的一部分。苹果正在全力加码人工智能,下一代iPhone和iPad软件更新有望包括一系列新的AI功能。
据外媒报道,OpenAI一直在开发网络搜索服务,其下一步目标很有可能是开发一个新的搜索引擎,OpenAI 的搜索类产品由微软的搜索引擎 Bing提供支持。
2024年2月,Meta表示,截至2024年底,Meta的运算基础设施将需要35万个NVIDIA H100 GPU。为减少对NVIDIA GPU的依赖并控制成本以及支持自身AI芯片的需求,Meta今年将在数据中心部署第二代自研AI芯片Artemis。
以Sora为代表的多模态大模型必将拉动算力需求提升。
OpenAI没有公布Sora视频数据细节,据国信证券在其研报中的计算,假设Youtube每分钟大约上传500小时视频,则可以得到Youtube一年增量视频数据。以英伟达H100为例,在假设芯片利用率的情况下,完成对以上增量视频数据的训练需使用约157万张H100 训练一个月。
在如今全球AI 产业快速发展的背景下,算力硬件重要性日益凸显,英伟达等行业巨头公司持续进行新品迭代,台积电业绩回暖,HPC业务增长迅速。
根据最新业绩报告,台积电2023年Q4总营收为6255.3亿新台币,达指引上限;归母净利润为2387.1亿新台币。2023年Q4的HPC业务增长迅速,占总营收43%,增长17%。市场分析认为,随着视频模型Sora的发布,对HPC需求量大增,公司业务将持续增长。
美国当地时间2月21日盘后,英伟达发布财报,成绩亮眼。2024财年第四季度,英伟达实现营收221亿美元,同比增长265%,单季度收入高于2021年全年。毛利率76%,远高于AMD的40%和英特尔的46%。实现净利润123亿美元,同比增长769%。营收和利润已经连续三个季度创纪录,股价也是迭创新高。
另一AI芯片大厂AMD在去年12月底Advancing AI大会上发布了Instinct MI300X和MI300A两款芯片,前者是专为生成式AI打造的数据中心GPU,对标英伟达H100,后者则是为超算场景设计的升级版APU。据悉,MI300X的晶体管数量超过英伟达H100,内存容量也超过了后者。
另据报道,OpenAI拟筹资5-7万亿美元,打造庞大的芯片制造厂网络,这些制造厂将由多家代工厂运营,到时不仅为OpenAI生产芯片,还为其他公司生产芯片,此项资金目标为实现通用人工智能。
国产厂商同样把握机遇快速发展。尽管国内厂商起步较晚,产品性能整体落后于英伟达等当前主流产品,但同时也要看到国内厂商的追赶和进步。比如华为昇腾910B等产品性能已可比肩英伟达A100 的参数性能。目前昇腾产品线共有两个系列产品,昇腾310 和昇腾910,其中昇腾910是基于自研华为达芬奇架构3D Cube 技术,在算力方面完全达到设计规格,半精度(FP16)算力320 TFLOPS,整数精度(INT8)算力640 TOPS,功耗310W。
产品迭代与国产化需求催生先进算力企业。目前国内AI先进算力厂商在产品迭代、产能建设、获得大额订单方面发展迅速,其中产品迭代以及产能建设主要集中在算力核心硬件以及AI相关芯片。同时,从部分公司目前的在手订单情况看,主要集中在国产化算力相关项目。
通过以上可以看出,以Sora为代表的多模态大模型将加速推进AI方向的持续产品迭代和庞大的算力需求。
03
Sora的商业化及行业颠覆效应

Sora的商业化需要相应的使用场景,同时也给监管提出了挑战。
保证知识和创意的通畅传播,同时又使相关的知识成果、人格权等权利得到有效保护,让新的技术不被滥用,变成某些人的不当牟利工具,是我们面对像Sora这种新应用时所要解决的基本问题,也是该类应用进行规模商业化的条件。如果世界可以被模拟,那么我们看到的真实世界和模拟世界的边界如何辨别。不少业内人士担心,Sora将为深度伪造技术推波助澜。
去年4月,ChatGPT迎来诸多质疑后,OpenAI在其官网中发布了题为《Our approach to AI safety》的文章,介绍了该公司确保AI模型安全性的部署,欧美相关的监管体系也在日趋成熟。不过OpenAI也承认,即便进行了广泛的研究和测试,仍无法预测人们使用其技术的所有有益方式和滥用其技术的所有方式。
Sora这一现象级应用一旦大面积落地,势必面临一些现行法律规定的空白。比如用Sora生成他人拥有著作权的作品,生成视频与其他作者作品内容高度贴合,让人很容易将两者联系在一起,这是否涉及侵犯改编权。即使生成视频与其他作者作品文字内容看不出明显关联,但这种使用他人作品的行为,是否会构成侵权。诸如此类的问题,都值得我们审慎对待。只有尽早将其纳入法律框架内,才能让这样的新应用在阳光下成长。
不止Sora,整个人工智能的迅速发展,都给我们的规范体系提出新的要求。AI可以被用来模仿政要人物发表演讲,散布虚假信息干扰选举,滥用个人信息,甚至涉足军事冲突,这让我们越来越感觉到何谓双刃剑。虽然法律有一定滞后性,但在AI科技飞速发展的同时,我们还是要从人类命运的整体着眼,推动其朝着科技向善的方向发展。
随着Sora的推出,公众不仅看到AI大模型所蕴含的无限潜能,在某种程度上也引发了关于Sora是否会颠覆传统行业的关注。
讨论最多的,是Sora对影视行业及相关视频行业的冲击。Sora发布的次日,主营图像处理、视频制作软件的Adobe公司股价下跌超过7%。
Sora等文生视频技术的出现,会对传统影视业产生显著的影响,Sora生产影视片可能替代一部分人工。之前好莱坞演员和编剧工会发生的大罢工,其中争议焦点之一即为生成式AI在影视行业的应用。它会直接减少影视作品对人类演员、导演以及其他创意角色的需求,从而影响到这个行业的就业,甚而可能影响传统的影视制作流程和商业模式。
但谓之为完全颠覆还尚远。Sora可以为影视创作者提供更多的创作工具和选择。比如可以通过AI技术辅助剧本创作、场景渲染等,提高创作效率和质量,同时大大降低了视频拍摄、剪辑的技术门槛。但它更可能是作为一种辅助工具存在。传统影视行业的核心竞争来自于创意、创作,真人真感受、情感表达、艺术审美作为传统影视行业的独特魅力所在,AI技术尚无法替代。
另外,教育、传媒、游戏等行业,未来可以更加高效、快捷、低成本地运用Sora推广业务,更直观的将其服务以生成视频的方式展现在消费者面前。对于这些行业,Sora给他们提供了更先进、更高效的工具,提高制作效率,降低推广成本。
OpenAI表示,目前仅主要向一些设计师和电影制作人等特定人群提供Sora访问权限,以获取有关改进该模型的反馈,目前没确定何时面向公众发布。当Sora类似应用被广泛使用的时候,作为一种先进工具的推广使用,各行各业可能多少都会受到一些影响。我们乐见一种新的表达工具推广应用的同时,应心存谨慎之心,善恶不在工具,在使用的人。
参考资料:
1. 2024.02,华金证券,《OpenAI重磅发布Sora,视频生成领域的里程碑》。
2. 2024.02,国信证券,《OpenAI发布首款文生视频大模型Sora,训练算力需求大幅提升》。
3. 2024.02,方正证券,《Sora开启AIGC新纪元,海外龙头AI指引乐观》。
图片来源:unsplash.com/pexels.com
文章为作者独立观点,不代表JIC投资观察立场。


