字节跳动刚刚发布了一个让视频编辑行业震动的AI模型。Vidi2是一个120亿参数的多模态大语言模型,专门用于视频理解。它能处理数小时长的原始素材,理解其中的故事脉络,然后根据简单提示生成完整的TikTok或电影片段。
这个突破的关键在于视频理解能力。Vidi2在第二版中新增了精细的时空定位(STG)功能,能够同时识别视频中的时间戳和目标对象的边界框。给定一个文本查询,它不仅能找到对应的时间段,还能在这些时间范围内标记出具体物体的位置。
技术细节
Vidi2通过联合处理文本、视觉和音频来理解和创建视频,专注于解决两个难题:精确的时空目标定位和基于自然语言查询的准确片段检索。
在时空定位方面,模型返回"管道"(时间索引边界框),以一秒粒度跟踪指定对象和人物。这种格式可直接编辑,支持在人群中跟踪特定人物或在不连续镜头中分离道具等任务。
技术架构上,Vidi2升级了视觉编码器,使用Gemma-3作为主干网络,加上重新设计的自适应标记压缩技术,在保持长视频处理效率的同时不丢失关键细节。图像被处理为一秒钟的静默视频,统一了跨模态的处理流程。
训练过程强调真实、多样化的视频数据,结合合成的定位数据和精心策划的标注,在大规模上对齐空间和时间推理。这产生了更强的长时间跟踪和更准确的片段检索能力。
性能表现
Vidi2建立了两个现实基准来衡量进展:VUE-STG(用于长时间精细定位)和VUE-TR-V2(用于开放式时间检索)。在STG任务上,Vidi2实现了vIoU 32.57和tIoU 53.19的最佳性能。在检索任务上,总体IoU达到48.75,在超长视频(>1小时)上比商业模型领先17.5个百分点。
在视频问答任务上,尽管主要针对定位和检索进行优化,Vidi2仍表现出色:VideoMME得分63.5,Long VideoBench得分54.7。
从模型到产品
基于Vidi2模型的强大能力,字节跳动已经开发出多个实用工具。这种统一的定位+检索管道支持实用的自动化编辑功能:高光提取、故事感知剪切、内容感知重构图和多视角切换,这些都可以在消费级硬件上运行。
字节跳动已经将相关技术应用到实际产品中:TikTok的Smart Split功能能自动剪辑、重构图、添加字幕,并将长视频转录成适合TikTok的短片段。
另一个AI Outline工具则帮助创作者将简单提示或热门话题转化为结构化的标题、开头和大纲。
小结
风水轮流转,刚刚登顶的gemini3 又迎来了新的挑战者。与Google拥有的平台优势一样,字节跳动的优势在于拥有TikTok这个10亿日活用户平台,能获得海量视频数据进行训练,还能实时收集用户反馈优化模型。随着大平台公司的飞轮转起来,原生的AI公司将面临巨大的挑战,Sam Altman不得不在“威胁”备忘录里再添加一个公司名字。
目前Vidi2还处于研究阶段,官方表示Demo即将发布。展望未来,扩展STG数据、改进对齐机制以及推进高效注意力和标记路由技术,可能进一步提升开放式问答能力,实现更丰富的实时视频生成和操作。
论文:https://arxiv.org/abs/2511.19529
关注公众号回复“进群”入群讨论。

