一水 发自 凹非寺
量子位 | 公众号 QbitAI
全球视频模型新标杆诞生:天工AI最新发布的SkyReels-V4,正式登顶Artificial Analysis文生视频(含音频)全球排行榜首位,超越Veo 3.1与Sora 2。
一个月前,其Preview版本尚居该榜单全球第2;此次升级后直接跃升至榜首,标志着模型能力实现质的跨越。
实际内测体验表明:此次跃升并非小幅优化,而是整体生成能力的系统性跃迁。
尤为关键的是,SkyReels-V4已突破“片段生成”局限,迈向可控、连续、逻辑自洽的完整视频“生产”阶段。
时隔一月,SkyReels-V4再进化
短短30天内,SkyReels-V4完成两大核心升级:
- 全模态强化学习体系全面升级
- 新增关键帧参考与网格参考能力
二者共同指向一个目标:让AI视频既“讲得通”,又“按你想的来”。
让视频“讲得通”:语义理解与阶梯训练双驱动
以提示词“演员在雨中奔跑,情绪从紧张到释然,最后停下抬头微笑”为例:旧模型易出现动作跳跃、情绪断裂等逻辑问题;而V4通过以下技术实现根本改善:
- 全模态语义Reward模型:建立全局评判标准,兼顾单帧质量与整段视频合理性;
- 阶梯式课程强化学习路径:按分辨率、时长、任务复杂度与数据难度,由简入繁训练——如先学生成5秒静物,再进阶至15秒复杂剧情。
实测案例《龙虾军团占领你的电脑》印证了这一能力:1080p/15秒成片,音画同步,分镜逻辑清晰,黑屏收尾配合尖锐蜂鸣,留白有力。提示词中“鼓胀眼睛睁开”“赛博龙虾撬开机箱”“赤色潮水涌入硬盘”等关键意象均被准确还原,衔接自然、观感统一。
让生成“按你想的来”:关键帧与网格参考双轨可控
关键帧参考支持多图输入,用户可指定多个关键动作节点(如喂狗、受惊、抚摸等),模型自动补全中间过渡,保障节奏与连贯性。
网格参考面向短剧等叙事场景,支持一次性上传最多9张关键帧,稳定锁定角色特征、服装风格与场景一致性,确保整段视频角色不崩、画风统一。
根据@图片-1中的动漫情节,按从上到下、从左到右顺序自然过渡展开,生成动画短片。
二者分工明确:关键帧参考侧重时序控制与动作逻辑,网格参考聚焦身份与风格一致性。
当逻辑理解力与生成可控性同步增强,视频生成便从“概率抽卡”迈入可设计、可复现、可规模化的工业级生产阶段。“生成”到“生产”,一字之差,标志着视频AI进入新纪元。
据悉,SkyReels-V4将于本月底中关村论坛年会期间正式发布。
从技术到应用:构建视频工业化底座
天工AI的演进路径清晰:不追求单项指标堆叠,而是以“原生多模态”为锚点,系统搭建从底层技术到商业落地的全栈能力。
技术层面,SkyReels-V4采用两大核心设计:
- 自研对称双流MMDiT架构:音、视频底层深度融合,实现同步生成;
- 全模态参考框架:统一支持文本、图像、视频、音频、遮罩等多类型输入,大幅降低工程复杂度。
叠加1080p高清、15秒时长、高帧率与强逻辑性,视频输出已具备直接商用基础——不再是零散片段,而是结构完整、观感统一的内容成品。
当前最成熟的落地场景是AI短剧。短剧具有高频更新、标准化程度高、对绝对画质要求适中但强依赖剧情连贯与角色一致等特点,天然契合AI工业化生产逻辑。
天工AI已将SkyReels-V4深度集成至自有海外短剧平台DramaWave(“AI版Netflix”)。该平台自2024年10月上线,当前月活跃用户超8000万,验证了“技术→产品→商业化”的正向闭环。
这套多模态视频底座同样适用于游戏过场动画、音乐视频(MV)、营销短视频等更广泛内容形态,短剧只是起点。
“龙虾”当道,为何仍深耕视频?
在当前大模型热点纷繁的背景下,天工AI坚持视频方向,背后是清晰的战略定力:
- 早期聚焦文生图、图生图,夯实画面生成与指令对齐能力;
- 推出SkyReels系列,将能力延展至动态视频(文生视频/图生视频);
- 引入自研音乐模型Mureka,补齐音频模态,“看”与“听”并重。
如今,SkyReels-V3/V4已实现音画同步生成、多模态条件统一接入、生成与编辑同构于一套架构——“多模态”正从概念变为可用、可复用、可规模化的基础设施。
△ 图片由AI生成
以DramaWave为例:视频来自SkyReels-V4,配乐调用Mureka,全部环节闭环于天工AI生态。商业化反哺研发,用户行为沉淀反馈数据,持续驱动模型迭代——形成可持续自我强化的正向循环。
真正的多模态时代,不是单一模态的胜利,而是图像、视频、音频与交互方式的整体协同。SkyReels-V4的登顶,是昆仑万维All in AGI与AIGC战略下,“原生多模态”长期投入的一次关键兑现。所有能力终将沉淀为统一底座,在其之上持续生长出多样化应用。
榜单地址:https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true
API地址:https://www.skyreels.ai/api-platform
论文地址:https://arxiv.org/abs/2602.21818

