全文5352字,预计阅读时间14分钟
随着短视频的快速发展和安全管理需求的提升,视频智能标签、剪辑、内容分析、行为识别等AI技术正广泛应用于体育、互联网、医疗、媒体和安全等领域。传统人工处理方式已难以满足高效、精准的内容理解与生产需求。
视频理解技术通过人工智能实现对视频内容的深度解析,在动作识别、文本检索、智能打标签、内容审核等方面展现出巨大价值。百度飞桨PaddleVideo作为产业级视频开发套件,持续推动视频AI技术的开源与落地应用。
PaddleVideo本次主要升级包括:
- 发布10个覆盖体育、互联网、医疗、媒体、安全等行业的产业级应用场景案例;
- 首次开源5项冠军级或顶会论文算法,涵盖视频-文本学习、视频分割、深度估计等前沿方向;
- 配套完整文档、教程及技术交流支持,助力开发者快速上手。
十大视频场景化应用详解
1. 足球场景:开源FootballAction精彩片段智能剪辑解决方案
FootballAction融合PP-TSM行为识别、BMN动作定位与AttentionLSTM序列模型,可准确识别进球、角球、黄牌、红牌等8类动作,并精确定位其起止时间,识别准确率超90%。
2. 篮球场景:开源BasketballAction精彩片段智能剪辑解决方案
BasketballAction框架与足球方案类似,支持三分球、两分球、扣篮、罚球等7类动作识别,准确率同样超过90%,适用于赛事集锦自动生成。
3. 乒乓球场景:开源大规模数据训练的动作分类模型
联合北京大学发布的乒乓球动作识别模型,基于500G以上比赛视频构建训练集,涵盖发球、拉球、摆短等8大类动作,回合起止识别准确率达97%以上,动作识别准确率超80%。
4. 花样滑冰动作识别
采用姿态估计算法提取关节点数据,输入时空图卷积网络(ST-GCN)进行分类,支持30种动作识别。飞桨联合CCF举办相关赛事,吸引超3800人参与,Top3方案已开源,精度较基线提升12个百分点。
5. 知识增强的视频大规模/多模态分类打标签
VideoTag支持3000个源自实际业务的实用标签,适用于国内短视频分类场景,准确率达89%。MultimodalVideoTag融合视频、音频与文本三模态信息,提供25个一级标签和200+二级标签,准确率超85%,显著提升语义理解能力。
6. 视频内容智能生产
基于PP-TSM模型实现新闻视频拆条与智能封面生成两大功能。新闻拆条为广电媒体提供高效素材处理方案;智能封面则在直播、互娱等平台有效提升点击率与推荐效果。
7. 视频交互式标注工具开源
基于MA-Net的交互式视频分割(VOS)工具,仅需用户标注少量帧即可完成全视频分割,并可通过多次交互持续优化结果,兼顾效率与精度,适用于高成本标注场景。
8. 基于时空动作检测单模型实现87类通用行为识别
利用时序信息解决单帧检测局限,支持AVA数据集中80类动作及7种异常行为(如打架、摔倒、追逐等)识别,整体性能远超传统目标检测方法,适用于公共安全监控等场景。
9. 无人机检测
针对无人机目标微小、速度快、易被遮挡等挑战,飞桨开源专用检测模型,可在复杂环境中实现稳定识别,适用于禁飞区监管、空域安全管理等应用。
10. 医疗影像的分类鉴别
联合浙江大学医学院附属第二医院及百度研究院,基于公开3D-MRI脑影像数据集(含帕金森患者与正常人群共378例),开源帕金森分类项目。提供2D/3D基线模型及预训练模型,PP-TSN、PP-TSM准确率超91%,AUC超97.5%,TimeSformer准确率超92.3%。
五大冠军级、顶会算法首次开源
1. CVPR 2020 顶会论文:多模态预训练模型ActBERT首次开源
ActBERT融合视频、图像与文本三模态信息,创新性引入纠缠编码模块,在动作信息引导下增强视觉与语言的交互。在文本视频检索、视频问答等5项任务中表现领先,尤其在MSR-VTT数据集上性能突出。
2. CVPR 2021 顶会论文:文本视频检索模型T2VLAD首次开源
T2VLAD采用全局-局部对齐机制,自动学习共享语义中心,实现文本与视频局部特征的精细化匹配。同时将声音、OCR、人脸等多模态信息统一映射至同一空间,提升跨模态理解能力,在三大标准数据集上均取得优异成绩。
3. CVPR 2020 视频分割模型MA-Net首次开源
MA-Net面向交互式视频目标分割任务,通过统一框架实现高效传播与用户交互,结合记忆存储机制更新多轮标注信息,兼顾实时性与准确性,在DAVIS2017数据集上表现优异。
4. ECCV 2020 Spotlight模型CFBI及CVPR2021竞赛冠军方案开源
CFBI提出前背景整合式分割思路,通过隐式学习增强前景与背景特征对比度,显著提升复杂场景下的分割精度。后续升级版CFBI+引入多尺度与空洞匹配策略,进一步优化性能。该系列模型在DAVIS-2017上保持单模型最高精度记录,并在CVPR2021国际竞赛两项任务中夺冠。
5. ICCV 2021 无监督单目深度估计模型ADDS首次开源
ADDS利用白天与夜晚图像的互补特性,缓解光照变化带来的域偏移问题,实现全天候单目深度估计。在牛津RobotCar数据集上达到业界领先水平,适用于自动驾驶等对环境感知要求高的场景。
项目地址:https://github.com/PaddlePaddle/PaddleVideo
官网地址:https://www.paddlepaddle.org.cn