大数跨境
0
0

融合多模态大模型的视频分析技术探索与实践

融合多模态大模型的视频分析技术探索与实践 亚信科技新技术探索
2025-11-04
12
导读:传统视频分析依赖单帧图像,存在持续行为理解不足、准确率低、定制成本高、边缘误报频发的痛点。本文介绍融合多模态大模型的视频分析技术,通过跨模态对齐与上下文推理提升视频语义理解能力,旨在为新一代AI视频分



编者荐语


传统视频分析技术依赖静态图像分析,存在持续行为理解不足、准确率低、定制成本高、边缘误报频发的痛点。本文提出融合多源信息的多模态大模型,通过跨模态对齐与上下文推理破局,显著提升视频语义理解能力,以期为构建新一代AI视频分析基础设施提供可行路径,助力企业在行为检测、智能监控、视频检索等复杂场景高效落地,适配边缘部署需求、实现降本提效。


融合多模态大模型的视频分析技术探索与实践


亚信科技(中国)有限公司


摘要:传统视频分析技术依赖单帧图像识别,难以有效理解持续行为与复杂事件,存在准确率低、定制成本高的问题,且在边缘环境中易受干扰导致误报频发。多模态大模型通过融合视频、音频、文本等多源信息,在统一语义空间中实现跨模态对齐与上下文推理,显著提升了视频语义理解的准确率和泛化能力。本文从实际痛点出发,系统阐述了融合多模态大模型的视频分析技术原理,重点介绍了相关技术的探索和优化实践,并探讨了其在行为检测、智能监控、视频检索等场景中的应用前景,为构建新一代视频分析基础设施提供了可行的技术路径。


技术演进与产业背景


(一)视频分析技术发展历程


1.人工设计的特征阶段


在深度学习技术成熟之前,视频分析主要依赖手工制作的特征提取技术和传统的机器学习算法。这些技术实现了基础的视觉内容分析,其价值在于让计算机能够自动识别视频中的特定物体或简单场景。


2.深度学习阶段(2013~2020年)


这一阶段的核心技术是使用卷积神经网络(CNN)来自动学习视频的空间特征。其价值在于能够自动学习样本数据中的丰富特征表示,应用场景扩展到大规模视频分类与检索,例如人脸识别、各类目标识别等。


3.视觉大模型阶段(2020~2023年)


基于Transformer架构的视觉大模型出现,显著提升了模型的精度和泛化能力,使得少量样本数据即可识别新事物。


4.多模态大模型阶段(2023年开始)


预训练的多模态大模型通过自监督学习和多任务训练,获得了上下文理解和逻辑推理能力,为视频分析带来了推理和生成能力。


(二)产业现状


当前产业界较为成熟的商用方案主要采用深度学习(CNN)技术,头部厂商已开始探索使用视觉大模型(Vision Transformer,ViT)提升识别准确率和泛化能力。


• 2025年3月,海康威视推出视觉大模型摄像机,不仅成像画质更优,在零样本情况下也能进行识别,检测目标种类更丰富。


• 2025年3月,大华全面升级推出星汉大模型2.0,通过三大垂直能力协同构建行业智能体,重塑产业格局,推动产业价值从“经验驱动”向“认知智能驱动”的质变。


• 2025年3月,宇视科技推出新一代基于视觉大模型的事件检测摄像机和分析终端及服务器


(三)当前技术的局限性


1.静态识别局限:单帧分析的“短视”


当前普遍使用的视频分析技术(如CNN、ViT等)依赖单帧图像分析,缺乏对时间维度(即连续多帧构成的时序信息)的上下文理解,导致对行为与事件的识别准确率普遍不到80%。以安防监控为例,当发生“持械挥拳→击打头部→摔倒”这一连续行为时,单帧模型仅能识别某一瞬间的状态(如“持械”或“倒地”),而无法关联并推断出完整的攻击行为链条。


2.任务定制低效:模型迭代“高成本”


在实际行业落地中,高昂的场景定制成本是项目推进的主要障碍。传统模型严重依赖特定场景下的数据标注与训练,每新增一项异常事件检测任务(如“未佩戴安全帽作业”),需完成数据采集、人工标注、模型微调、部署上线等一系列流程,耗时通常达2–4周。对于样本稀少的场景(如某些罕见故障检测),难以获取足够的标注数据,若依赖合成数据则往往存在泛化能力差的问题。


3.边缘端困局:复杂环境下的“精准度折损”


在边缘设备部署环境中,受复杂外部条件(如强烈光照、大雨、沙尘、物体快速移动等)干扰,传统模型的误报率常常超过30%。例如,过度曝光可能被误判为火情;夜间低照度环境下,工人安全帽的反光易被错误识别为“未佩戴安全帽”。


技术原理


(一)多模态大模型技术


视频本质上是时空交织的多模态数据流,融合了画面、语音、字幕、背景音等多种信息,共同构成复杂的语义网络。多模态大模型可视为AI领域的“全能翻译官”,通过统一架构整合多种感知模态,能够同步理解视频(视觉)、音频(听觉)、文本(语言)等信息,并在统一语义空间中进行关联推理。



图1:多模态大模型结构


1.多模态大模型组成部分


多模态大模型一般包含以下三个部分:(参见图1)


· 特征提取:使用多模态编码器提取视觉特征、音频特征和其他多模态特征;


· 特征映射:利用多层感知机、Q-Former(Querying Transformer)和多头注意力等模块,将多模态特征映射到语义空间;


· 语义推理:利用大语言模型对多模态特征进行深度分析和处理,基于用户指令生成最终结果。


2.多模态大模型技术方向


目前主流的多模态大模型技术方向有三类(参见图2):



图2:三类技术方向


· 视频分析器+大语言模型:视频分析器将视频处理为文本(含视频标签、密集视频标签和目标跟踪结果等信息),大语言模型对用户指令和分析器文本统筹分析后输出反馈。代表的有IG-VLM、ChatVideo、VideoTree、VideoAgent等;


· 视频编码器+大语言模型:视频编码器将视频帧编码为视觉特征并映射到语义空间,与用户指令一同输入大模型进行分析响应。代表的有Qwen-VL、CogVLM、GPT-4V、LLaVA、PPLLaVA等;


· 视觉分析器+视觉编码器+大语言模型:同时使用视频编码器和视频分析器处理视频信息,大模型作为总结和解码器,混合接受文本和视觉特征后对用户指令做出响应。代表的有MM-VID、SUM-shot、VideoChat、Uni-AD等。


(二)融合多模态大模型的视频分析技术


尽管多模态大模型能够直接处理视频流数据,但视频通常包含海量帧数(例如1小时视频约216万帧),逐帧处理将消耗大量计算资源。在传统视频分析框架基础上,需根据监控需求对视频流进行实时处理,使大模型仅针对关键视频片段进行识别,在保障准确率的同时提升推理效率。以StreamMind框架为例(参见图3):



图3:StreamMind 工作流


1.事件门控LLM调用


采用感知-认知交错范式,通过引入认知门,仅在视频流中发生与用户查询相关的事件时才触发LLM响应,大幅减少计算开销。认知门采用浅层转移方法,重用LLM的浅层网络进行二值决策(响应或沉默),平衡实时性和语义理解能力。


2.事件保留特征提取器


基于状态空间模型,以恒定计算成本提取视频的时空特征,生成单个感知令牌用于表示事件级语义。EPFE能长期保持事件特征的一致性,即使面对噪声帧或无关事件也能重新聚焦于关键事件,支持长视频序列处理。


3.端到端分析框架


整合CLIP(空间特征提取)、EPFE(时空特征提取)、认知门和LLM,通过两阶段训练策略(特征对齐和认知门微调)优化模型,解决流式视频中数据不平衡问题(如沉默-响应比例失衡)。


技术优化与实践


亚信科技研发团队对融合多模态大模型的视频分析技术进行了实践探索,并针对视频分析任务对多模态大模型进行了优化,验证了其对行业AI视频监控业务的适用性以及应用在边缘智算一体机产品的可行性。


(一)多模态大模型优化方案


1.视频数据思维链(Chain of Thought, CoT)


思维链技术可增强视频大模型的推理可解释性并提升其深度推理能力。该方法能够适配多行业场景数据,为领域大模型提供高质量训练语料,显著节省标注周期。具体流程如下:首先根据视频长度与帧率确定采样帧数;将采样帧与提示词输入开源图像大模型生成思维链内容;随后对生成结果进行准确性校验与内容过滤,最终获取高质量思维链数据(参见图4)。



图4:视频数据思维链生成过程


2.视频任务的分组相对策略优化(Group Relative Policy Optimization, GRPO)


GRPO在文本模态任务中已取得突破性进展,但其在视频理解领域的应用效果仍有待深入研究。将GRPO引入视频理解任务,旨在通过赋予模型更强的深度推理与思维能力,进一步提升视频大模型性能。具体实现包括:首先使用思维链数据对模型进行少量监督微调(冷启动阶段);随后引入具备时空一致性的GRPO机制,通过空间准确性奖励、时间准确性奖励和思维链一致性奖励优化模型训练过程(参见图5)。



图5:视频任务的分组相对策略优化过程


3.实验室验证结果


视频编码器+大语言模型方向因其结构统一、性能好、训练便捷受到各大AI企业的青睐。我们选取了完全开源且性能相对领先的PPLLaVA模型进行优化,并在实验室验证(参见图6):


(1)思维链数据重在质量:通过优化思维链生成逻辑,得到3个版本数据。实验表明,高质量思维链数据能明显提升模型推理精度(MSVD数据集的思维链精度从54.9%提升至69.12%)。


(2)GRPO进一步提升模型思维链能力:采用GRPO算法训练PPLLaVA-SFT-v3模型,精度从69.12%提升至76%,超越原论文不启用思维链的精度(75.8%)。


(3) GRPO需因地制宜改进:MvBench数据集涉及空间和时序细粒度分析,传统GRPO算法较难捕捉高价值模型行为,需结合数据增强和思维链分析等算法进一步优化。


表1:多模态大模型优化结果评估表



(4)后续优化方向


· GRPO稳定训练:调和参考模型的KL散度和分组优势的梯度,使模型训练更稳定,获得一致性奖励提升和性能增益。


· 视频任务定制优化:结合视频任务特点,引入时空奖励、思维链一致性奖励及奖励驱动的数据增强等技术,提升GRPO对思维链训练的增益。


· 大规模验证:在更广泛的评估数据集上进行验证。


(二)实时视频分析可行性验证


在亚信科技边缘智算一体机(Standard版本)上部署多模态大模型(PPLLava7B),搭建实时视频分析组件和流程,与基于CNN的精调小模型对比准确率(参见图7)。结果显示,融合多模态大模型(MLLM)的视频分析在图片理解、行为识别、长时序理解及视频检索任务上均有提升。


表2:基于CNN和融合MLLM的视频分析准确率比较



在实际应用场景中,有充足样本时,基于CNN的视频分析技术在静态分类、单帧推理等任务中优势显著,准确率通常比融合多模态大模型的视频分析高3-5%。而融合多模态大模型的视频分析在动态时序建模、多模态融合任务中表现更优,准确率通常比图片分析高10-15%。可将两种技术混合使用,优势互补,满足行业场景中各种复杂识别需求。


适用场景


融合多模态大模型的视频分析能力可同步处理文本、图像、音频等多模态信息,凭借强大的跨模态关联与深度语义理解,提供更优的准确性与泛化能力。在实际应用中,对于精度要求较高的静态识别场景,可继续沿用传统图像识别技术;而在行为识别、事件趋势判断及高泛化需求场景中,采用多模态大模型视频分析技术更为适合。


(一)行为/事件趋势检测


多模态大模型能够结合时序信息理解事件演变过程,对视频中的人员行为与事件趋势提供更精准的检测能力。例如,在打架斗殴、吸烟等行为识别中误报率显著下降;火情、人员聚集等持续性事件的识别,也不再因瞬间的光线、角度等环境干扰而产生误报。


(二)自定义AI监控场景


借助多模态大模型所提供的泛化识别能力,视频监控场景无需逐一定制开发。通过简单的提示词配置,用户即可自定义需监测的异常事件,快速实现AI监控功能,大幅降低开发成本、缩短上线周期。


(三)视频智能管理和高效检索


针对不同业务场景,可选用合适的提示词对视频中的人、车、物、行为等内容生成描述信息并存储。依托泛化的视频结构化信息,系统可提供智能视频分类、描述生成、高效检索等功能。


未来展望


融合多模态大模型的视频分析技术已展现出突破传统范式瓶颈的巨大潜力,为构建新一代智能视频分析基础设施奠定了坚实基础。展望未来,该技术将持续向更智能、更普适的方向演进:


(一)从“感知智能”迈向“具身智能” 。


未来的视频大模型将不仅能描述“发生了什么”,更能理解“为何发生”,并基于时序规律预测“即将发生什么”。视频分析系统将不再是被动的“观察者”,而是能主动干预的“智能体”。通过与大语言模型深度结合,系统可生成复杂的决策链,并驱动执行模块(如自动报警、语音提醒、设备控制)完成闭环处理,形成“感知-分析-决策-行动”的自主运行体系。


(二) 从“垂直场景”扩展到“开放世界” 


未来模型的泛化能力会呈现指数级提升,视频分析的应用场景将实现跨越式增长。随着模型压缩、量化、硬件加速技术的成熟,参数量达数十亿的模型将能稳定运行于功耗极低的端侧设备(如摄像头、无人机、机器人等),实现无处不在的智能。在工业元宇宙、智慧城市、自动驾驶等领域,多模态大模型将作为统一的“世界模型”,融合视频、音频、传感器数据、知识图谱等多源信息,实现对宏观态势和微观细节的同步洞察,支撑高阶的自主决策。


结语


融合多模态大模型的视频分析技术,正将视频数据从需要人工解读的“录像”,转变为机器可直接理解并与之交互的“语义流”。这一变革将彻底释放视频数据的价值,为各行各业带来前所未有的智能化水平与运营效率。尽管在模型效率、实时性、成本控制等方面仍面临挑战,但其发展方向已然清晰,即最终构建一个能真正“看懂”世界、并与人类智能协同的视觉智能系统。


参考资料:


[1] Xin Ding, Hao Wu, Yifan Yang, Shiqi Jiang, Qianxi Zhang, Donglin Bai, Zhibo Chen, Ting Cao, STREAMMIND: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition, 28 Mar 2025.

[2] Yuxuan Yan, Shiqi Jiang, Ting Cao, Yifan Yang, Qianqian Yang, Yuanchao Shu, Yuqing Yang, Lili Qiu, Empowering Agentic Video Analytics Systems with Video Language Models,16 May 2025.

[3] Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, et al. Qwen2.5-vl technical report. arXiv preprint arXiv:2502.13923, 2025.

[4] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Peiyuan Zhang, Yanwei Li, Ziwei Liu, et al. LLaVA-OneVision: Easy visual task transfer. arXiv preprint arXiv:2408.03326, 2024.

[5] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[6] Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, and Mike Zheng Shou. Videollm-online: Online video large language model for streaming video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18407–18418, 2024.

[7] Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, et al. Videollama 2: Advancing spatial-temporal modeling and audio understanding in video-llms. arXiv preprint arXiv:2406.07476, 2024.

[8] Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu, Yuanhan Zhang, Di Fu, Chunyuan Li, Alexander Hauptmann, Yonatan Bisk, et al. Direct preference optimization of video large multimodal models from language model reward. arXiv preprint arXiv:2404.01258, 2024b.

[9] Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, and Xiaojie Jin. Flash-vstream: Memory-based real-time understanding for long video streams. arXiv preprint arXiv:2406.08085, 2024a.

[10] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv preprint arXiv:2306.02858, 2023.

[11] Zuxuan Wu, Ting Yao, Yanwei Fu, and Yu-Gang Jiang. Deep learning for video classification and captioning. In Frontiers of multimedia research, pp. 3–29. ACM, 2017.

[12] Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Haozhe Chi, Xun Guo, Tian Ye, Yanting Zhang, et al.  Moviechat: From dense token to sparse memory for long video understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 18221–18232, 2024.

[13] Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, and Lu Hou. Timechat: A time-sensitive multimodal large language model for long video understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 14313–14323, 2024.

[14]Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv preprint arXiv:2306.05424, 2023.

[15] Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra, LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding,22 Oct 2024.

[16] Minghao Qin, Xiangrui Liu, Zhengyang Liang, Yan Shu, Huaying Yuan, Juenjie Zhou, Shitao Xiao, Bo Zhao, Zheng Liu, Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification,  24 Jun 2025.

[17] Ye Liu, Kevin Qinghong Lin, Chang Wen Chen, Mike Zheng Shou, VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning, 1 Apr 2025.


#多模态   #大模型   #视频分析技术  #AI智能监控  #行为检测  #语义理解 #边缘计算   #技术优化   #智能视频检索

【声明】内容源于网络
0
0
亚信科技新技术探索
1234
内容 230
粉丝 0
亚信科技新技术探索 1234
总阅读958
粉丝0
内容230