极市导读
快手Keye-VL-1.5模型通过慢-快双轨视频编码策略和渐进式四阶段预训练方法,解决了视频理解中的空间分辨率与时间覆盖范围的平衡难题。该模型不仅在视频理解任务上表现卓越,还保持了在通用多模态基准测试中的竞争优势,为下一代多模态模型的发展提供了新的方向。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
主页: https://kwai-keye.github.io/
huggingface: https://huggingface.co/Kwai-Keye
github链接: https://github.com/Kwai-Keye/Keye
近年来,大语言模型(LLMs)的发展取得了显著进展,通过多模态大语言模型(MLLMs)将其能力扩展至多模态任务领域。然而,由于视频动态性强且信息密集的特性,视频理解仍然是一个充满挑战的领域。现有模型在处理视频内容时难以平衡空间分辨率与时间覆盖范围之间的矛盾。本文提出Keye-VL-1.5模型通过三项关键创新解决了视频理解中的根本性难题。
01 亮点直击
首创了慢-快双轨视频编码策略:基于帧间相似性动态分配计算资源,对视觉变化显著的关键帧采用高分辨率处理(慢通路),而对相对静态的帧则通过低分辨率处理提升时间覆盖密度(快通路)。 实现了渐进式四阶段预训练方法,系统地将模型上下文长度从8K词元扩展至128K词元,使其能够处理更长视频和更复杂的视觉内容。 构建了专注于推理能力增强与人类偏好对齐的后训练流程,包含5步思维链数据构建过程、针对困难案例采用渐进提示迭代的GSPO强化学习算法以及对齐训练。 通过公开基准测试的广泛评估,Keye-VL-1.5相比现有模型展现出显著提升,尤其在视频理解任务中表现卓越,同时在通用多模态基准测试中保持竞争优势。
架构与慢-快视频编码技术:提出新颖的慢-快双轨视频编码策略,基于帧间相似性动态分配计算资源。具有显著视觉变化的关键帧通过高分辨率慢通路处理,而相对静态的帧则通过低分辨率但高时间覆盖度的快通路处理。这种由基于图像块的相似度函数引导的自适应方法,有效解决了空间细节与时间跨度之间的权衡难题。
渐进式长上下文扩展预训练:我们的预训练方法包含四个精心设计的阶段,逐步构建多模态能力。从跨模态对齐和多任务学习开始,在退火阶段系统地将模型上下文长度从8K词元扩展至128K词元,使其能够处理更长视频和更复杂视觉内容。这种渐进方式在确保训练稳定性的同时,最大程度利用扩展的上下文窗口来增强视频理解能力。最终通过模型融合阶段整合不同数据组合训练的模型,提升鲁棒性并减少偏差。
面向推理与人类偏好的后训练:我们的后训练流程聚焦两个关键方面:增强推理能力和对齐人类偏好。我们开发了包含三大核心组件的综合 pipeline。首先设计五步思维链推理数据构建流程,生成高质量的冷启动数据。其次采用GSPO算法进行可验证的基于奖励的强化学习训练,包含处理困难样本的渐进式提示采样技术——对于模型在多次尝试中持续失败的样本,我们在提示中提供不同级别的线索以提高尝试效率。利用RL模型生成更好的SFT数据,继而基于SFT模型进行下一轮RL训练,形成持续迭代。最后实施对齐强化学习训练,增强指令遵循、响应格式化和偏好对齐能力。这种系统化方法确保Keye-VL-1.5在取得优异基准测试性能的同时,能生成符合人类期望与偏好的响应。
通过在公开基准测试上的评估和严格的内部人工评估,我们验证了Keye-VL-1.5相比现有模型具有显著提升,尤其在视频理解任务中表现突出。本研究为构建能够实现复杂视频理解与推理的下一代多模态模型提供了实用解决方案。
02 模型架构
图2展示了Keye-VL-1.5的整体架构,该模型遵循经典的多模态大语言模型(MLLM)架构,包含三个核心组件:视觉Transformer(ViT)、MLP投影器和语言解码器。视觉编码器采用开源的SigLIP-400M-384-14模型提取视觉信息;语言解码器选用广泛使用的Qwen3-8B模型,提供通用语义知识理解能力;投影器参数随机初始化并在第一阶段预训练中完整训练。下面介绍关键升级点、数据流程和训练方案。
03 原生分辨率视觉编码器
近年来多数MLLM采用固定分辨率的预训练ViT作为视觉编码器(如ViT-bigG、SigLIP-400M等)。然而,与仅处理粗粒度图文匹配任务的CLIP系列ViT不同,MLLM需处理各种细粒度生成任务,存在显著能力差距。因此,本文期望视觉编码器能保持图像/视频的结构完整性并保留所有细节。
近期已有先驱工作探索原生分辨率ViT(如Qwen2.5-VL、Seed-VL-1.5、Kimi-VL等)。Keye-VL-1.5同样实现原生分辨率ViT,直接处理原始分辨率图像,避免复杂冗余的图像拼接/分割操作(如MiniCPM2的方案)。具体而言,我们的ViT基于SigLIP-400M-384-14初始化——该模型使用固定分辨率且采用可学习绝对位置嵌入来注入空间信息。首先通过插值技术将固定长度位置嵌入扩展为分辨率自适应的位置嵌入,在保持预训练工作流的同时实现基础原生分辨率建模。为进一步增强视觉维度位置编码的外推能力,我们引入二维旋转位置嵌入(2D RoPE)以强化视觉信息建模。实验表明,加入2D RoPE能显著提升模型在高分辨率图像上的性能。最后,基于两种位置嵌入方案,我们结合NaViT打包技术与FlashAttention加速技术,在不同分辨率的图像上持续训练ViT。
在ViT预训练过程中,通过SigLIP损失函数(文本塔同样采用SigLIP-400M-384-14)优化原生分辨率改进方案。训练数据分布与下游MLLM保持一致,共使用5000亿词元的开源数据(包括DataComp、LAION、CC12M、PD12M、COCO)及内部数据。
04 视觉编码策略
为确保语言解码器能感知足够视觉信号以理解图像和视频细节,我们为其设计差异化建模策略:
原生分辨率图像编码:针对不同分辨率图像,为每张图像设置20,480个词元配额(语言模型侧),可覆盖数千万像素的超高清图像,充分保障模型对图像细节的感知能力。
慢快双轨视频编码:针对不同帧率、分辨率与时长的视频,线性增加任一维度都会导致语言模型侧词元预算激增,使性能与成本难以平衡。现有MLLM通常采用固定帧数并降低每帧分辨率以满足词元限制。Qwen-2.5-VL进一步提出二维卷积技术合并相邻帧,试图在固定帧数下让解码器感知更多视频信号。然而在均匀采帧策略下,尽管相邻帧可能高度相似,但仍存在连续帧差异显著的情况(如大采样间隔、人物运动或视角切换时)。粗糙的二维卷积合并技术依赖过强假设,可能不利于有效视频理解。
基于视频相邻帧多数相似、偶尔突变的特性,提出慢快双轨视频编码策略:
-
慢通路:专注于捕捉快速变化帧的视觉信息,以较低帧数但更高分辨率处理 -
快通路:捕获相对静态帧的细微视觉变化,以较高帧数但较低分辨率处理
为识别视频中的慢/快帧,设计基于图像块的相似度函数进行提取:(1)首帧始终定义为慢帧;(2)后续帧若与最新慢帧的图像块相似度超过95%则标记为快帧,否则标记为新慢帧。获得慢快帧后,将快帧词元预算设为慢帧的30%以平衡帧数与总词元预算。随后采用二分搜索技术精确计算总词元预算(如Keye-VL-1.5的75,000词元)下每慢帧的词元数量。同时,为更清晰区分慢快帧边界和时间戳信息,引入特殊标记与绝对时间戳指导模型学习(如图3所示)。
本研究提出了Keye-VL-1.5——一款显著增强视频理解与视觉-语言任务能力的先进多模态模型。通过采用创新的慢快双轨视频编码策略,该模型有效平衡了时间覆盖度与空间分辨率。渐进式预训练方案扩展了上下文长度,使其能够处理更长视频和复杂视觉内容,而专注于推理能力与人类偏好对齐的后训练方法则提升了指令遵循和推理能力。评估结果表明,Keye-VL-1.5在视频理解能力上取得显著突破,同时在通用视觉-语言任务中保持强劲性能。
原文目录如下,更多详情见原文。
05 目录结构



06 参考文献
[1] Kwai Keye-VL 1.5 Technical Report
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

