在AI视频生成领域,快手旗下的可灵大模型近日完成了一次具有里程碑意义的技术升级——全面接入DeepSeek-R1推理模型。
这一技术整合不仅革新了用户与AI的交互方式,更标志着AI视频创作正式进入“零门槛”时代。通过将DeepSeek-R1的强大推理能力与可灵的视频生成技术深度融合,用户只需输入简单关键词,即可自动生成专业级提示词,让创意转化为视频的过程变得前所未有的高效。
可灵作为快手AI团队自研的视频生成大模型,自2024年6月上线以来便以其卓越的性能备受关注。其采用类Sora的DIT结构,通过Transformer取代传统卷积网络,并以Flow模型作为扩散模型基座,不仅实现了1080p高清视频的流畅生成,更具备强大的物理世界模拟能力和概念组合想象力。而DeepSeek-R1作为新一代推理模型,通过大规模强化学习训练,在数学、代码和推理任务中展现出媲美OpenAI-O1的性能。
两者的结合产生了化学反应:在可灵的视频生成界面,DeepSeek-R1被赋予了自动优化提示词的核心功能。用户只需输入“猫”这样的简单词汇,DeepSeek-R1便会基于内置的场景化提示词库,自动补充主体特征、动作描述、光影效果等细节。这种智能化处理不仅解决了普通用户撰写专业提示词的难题,更通过对视频生成特性的深度理解,将提示词长度控制在最优范围,确保生成效率与质量的平衡。
实测数据显示,可灵与DeepSeek-R1的组合在多种场景下表现优异。面对抽象概念时,系统展现出强大的转化能力。以成语“对牛弹琴”为例,未经优化的提示词生成结果往往偏离主题,而DeepSeek-R1通过补充“书生”“古琴”“茅屋”等文化符号,成功构建出符合成语意境的画面。这种优化能力在古诗词处理中尤为突出,当输入王维“九天阊阖开宫殿,万国衣冠拜冕旒”的诗句时,系统不仅还原了宏大的宫廷场景,更通过运镜设计和光影渲染,精准传达出诗句的庄重与华丽。
在处理非具象化内容时,DeepSeek-R1的优势更加明显。针对岳飞《满江红》中“三十功名尘与土,八千里路云和月”的抽象意境,系统通过构建战场、征程等意象,将诗意转化为可视化的镜头语言。即便是英文诗句如泰戈尔“生如夏花之绚烂,死如秋叶之静美”,DeepSeek-R1也能准确解析其内涵,拆分为两个具象化场景,确保跨语言文化的精准表达。
在接入DeepSeek-R1的同时,可灵团队在学术研究上也取得重要突破——推出镜头重建工具ReCamMaster。这一基于生成式视频再渲染框架的创新技术,能够在给定源视频的基础上,通过相机轨迹重定义生成全新视角的视频。其支持的10种镜头操作涵盖平移、旋转、缩放等维度,甚至能实现复杂的4D重建,将抖动影像转化为稳定画面。
ReCamMaster的应用场景十分广泛:在影视创作领域,它为导演提供了全新的叙事视角;在自动驾驶和具身智能领域,其数据增强能力可有效提升模型的环境感知能力。尽管该模型尚未完全开放,但通过GitHub项目页的申请机制,开发者已能初步体验其强大功能。
可灵的发展历程堪称AI视频生成领域的缩影。自2024年6月上线以来,其已实现从基础模型到会员体系的全面升级,并与李少红、贾樟柯等知名导演合作推出AI生成电影短片,推动AI技术与艺术创作的深度融合。此次接入DeepSeek-R1,不仅是技术层面的突破,更折射出快手在AI生态布局上的深远考量。
通过整合DeepSeek-R1的推理能力,可灵进一步降低了AI视频创作的技术门槛,使更多普通用户能够参与到内容创作中来。这种“去专业化”的趋势,正在重塑视频内容生产的格局。
随着可灵与DeepSeek-R1的持续优化,AI视频创作或将迎来爆发式增长。未来,当创意不再受限于技术门槛,当每个人都能轻松将灵感转化为影像,我们或将见证一个全民创意的新时代。而可灵,正以其不断进化的技术实力,引领着这场AI视频创作的革命浪潮。
END

