EIT-NLP团队 投稿量子位 | 公众号 QbitAI
当前大型视觉语言模型(VLM)在离线视频分析中表现优异,但在实时场景下存在明显短板:视频持续播放,模型却仍在“补作业”。
监控告警、机器人交互、自动驾驶等任务依赖的是边看边想,而非看完再想。
为提升实时性,业界普遍采用“帧文交错”流式推理——即“看一会,说一会”。但该方式仅适用于简单任务;一旦引入Chain-of-Thought(CoT)多步推理,系统便陷入两难:持续推理会阻塞新帧输入,强行中断又导致思维链断裂或证据过时。
宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队提出TaYS(Think-as-You-See),指出:要实现真正意义上的实时视频推理,必须从“帧文交错”转向并行架构。
相关论文《Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models》已被CVPR 2026接收。

为什么现有推理系统不适用于实时视频?
主流VLM视频推理沿用统一范式:完整视频→统一编码→开始推理→输出答案。该流程在离线任务中可行,但在流式场景下存在两大瓶颈:
- 延迟不可控:视频越长,首字输出时间(TTFT)越久,交互体验严重下降;
- 证据错配:推理滞后导致早期关键线索被长序列稀释,易引发漂移与幻觉。
虽有工作尝试“帧文交错”以提升实时性,但多数仍为串行流水——一帧一推理,算力利用率低,难以支撑复杂任务。
复杂视频理解离不开Chain-of-Thought
目标识别类任务对推理时长不敏感,但因果推断、行为意图理解、长时序事件归纳、复杂交互分析等任务需生成连续的多步推理过程,CoT已成为文本、图像及离线视频理解的核心能力。
然而,在流式场景中直接应用CoT面临现实障碍:
- 新视频帧难以及时融入上下文;
- 强制插入会打断推理链;
- 不插入则推理基于过时信息。
结果便是:视频持续流动,模型却困于一次长时间思考中,CoT在实时场景下基本失效。

TaYS核心设计:构建“随帧增长”的流式推理机制
TaYS并非局部优化,而是从工程底层重构“边看边想”能力,聚焦三大关键技术:
1. 流式注意力掩码:保障真实时间因果
确保每个推理token仅能关注已到达的视频帧,杜绝“偷看未来”,解决动态输入下传统因果掩码失效问题。
2. 解耦式位置编码:分离时间轴与逻辑轴
视频帧按物理时间排序,推理token按生成逻辑排序。TaYS为视觉与文本token分配独立位置索引,避免跨模态干扰,提升时序推理稳定性。
3. 双KV-Cache:实现视觉编码与文本推理完全并行
这是TaYS的核心引擎:
- 视觉KV-Cache:持续接收并缓存新帧特征;
- 推理KV-Cache:独立运行CoT生成与答案输出。
视觉模块作为“生产者”,LLM推理作为“消费者”,二者并行运行,显著压缩TTFT与端到端延迟。

实验结果:更快、更准、更稳
在Qwen2.5-VL等主流模型上,TaYS验证效果明确:
- 准确性:在事件动态建模、因果推断、主题理解等视频CoT任务中,全面优于批处理与朴素交错流式基线;
- 延迟控制:首字生成时间(TTFT)大幅下降,端到端延迟更低且波动更小;
- 消融分析:
- 移除双KV-Cache,延迟显著反弹——证实并行设计是关键;
- 移除解耦位置编码,时序理解易错位;
- 移除流式掩码,出现不符合部署实际的“未来帧泄露”。
总结而言:TaYS实现了“边看边想”不降质,反而更稳定、更高效。


VLM迈向在线智能:从离线分析到实时决策
TaYS的价值不仅在于性能提升,更在于推动VLM走向真实落地场景:
- 机器人/具身智能:观看动作演示的同时生成下一步指令,消除交互卡顿;
- 安防监控:由事后检索升级为事中预警,异常发生即可触发动态推理;
- 直播与教育:实时总结内容、解答疑问、解释画面,强化人机协同互动。
这标志着一种范式转变:Streaming reasoning有望成为下一代多模态系统的默认推理形态。
当行业聚焦于让模型“更会想”时,TaYS提醒我们:让模型“想得更及时”,同样至关重要。
论文标题:
Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models
第一作者:张家亮
通讯作者:沈晓宇(宁波东方理工大学)
arXiv:https://arxiv.org/abs/2603.02872
GitHub:https://github.com/EIT-NLP/StreamingLLM/tree/main/TaYS
作者简介:张家亮为宁波东方理工大学/宁波数字孪生研究院沈晓宇团队实习生,研究方向为流式多模态大模型推理优化,成果发表于CVPR、TGRS等会议期刊。

