十大视频场景化应用工具+五大视频领域冠军/顶会算法重磅开源！- 大数跨境

首页

十大视频场景化应用工具+五大视频领域冠军/顶会算法重磅开源！

百度Geek说

2022-01-17

197

导读：PaddleVideo正式发布！覆盖体育、教育、医疗、互联网多行业

全文5352字，预计阅读时间14分钟

随着短视频的快速发展和安全管理需求的提升，视频智能标签、剪辑、内容分析、行为识别等AI技术正广泛应用于体育、互联网、医疗、媒体和安全等领域。传统人工处理方式已难以满足高效、精准的内容理解与生产需求。视频理解技术通过人工智能实现对视频内容的深度解析，在动作识别、文本检索、智能打标签、内容审核等方面展现出巨大价值。百度飞桨PaddleVideo作为产业级视频开发套件，持续推动视频AI技术的开源与落地应用。 PaddleVideo本次主要升级包括：

发布10个覆盖体育、互联网、医疗、媒体、安全等行业的产业级应用场景案例；
首次开源5项冠军级或顶会论文算法，涵盖视频-文本学习、视频分割、深度估计等前沿方向；
配套完整文档、教程及技术交流支持，助力开发者快速上手。

十大视频场景化应用详解

1. 足球场景：开源FootballAction精彩片段智能剪辑解决方案

FootballAction融合PP-TSM行为识别、BMN动作定位与AttentionLSTM序列模型，可准确识别进球、角球、黄牌、红牌等8类动作，并精确定位其起止时间，识别准确率超90%。

2. 篮球场景：开源BasketballAction精彩片段智能剪辑解决方案

BasketballAction框架与足球方案类似，支持三分球、两分球、扣篮、罚球等7类动作识别，准确率同样超过90%，适用于赛事集锦自动生成。

3. 乒乓球场景：开源大规模数据训练的动作分类模型

联合北京大学发布的乒乓球动作识别模型，基于500G以上比赛视频构建训练集，涵盖发球、拉球、摆短等8大类动作，回合起止识别准确率达97%以上，动作识别准确率超80%。

4. 花样滑冰动作识别

采用姿态估计算法提取关节点数据，输入时空图卷积网络（ST-GCN）进行分类，支持30种动作识别。飞桨联合CCF举办相关赛事，吸引超3800人参与，Top3方案已开源，精度较基线提升12个百分点。

5. 知识增强的视频大规模/多模态分类打标签

VideoTag支持3000个源自实际业务的实用标签，适用于国内短视频分类场景，准确率达89%。MultimodalVideoTag融合视频、音频与文本三模态信息，提供25个一级标签和200+二级标签，准确率超85%，显著提升语义理解能力。

6. 视频内容智能生产

基于PP-TSM模型实现新闻视频拆条与智能封面生成两大功能。新闻拆条为广电媒体提供高效素材处理方案；智能封面则在直播、互娱等平台有效提升点击率与推荐效果。

7. 视频交互式标注工具开源

基于MA-Net的交互式视频分割（VOS）工具，仅需用户标注少量帧即可完成全视频分割，并可通过多次交互持续优化结果，兼顾效率与精度，适用于高成本标注场景。

8. 基于时空动作检测单模型实现87类通用行为识别

利用时序信息解决单帧检测局限，支持AVA数据集中80类动作及7种异常行为（如打架、摔倒、追逐等）识别，整体性能远超传统目标检测方法，适用于公共安全监控等场景。

9. 无人机检测

针对无人机目标微小、速度快、易被遮挡等挑战，飞桨开源专用检测模型，可在复杂环境中实现稳定识别，适用于禁飞区监管、空域安全管理等应用。

10. 医疗影像的分类鉴别

联合浙江大学医学院附属第二医院及百度研究院，基于公开3D-MRI脑影像数据集（含帕金森患者与正常人群共378例），开源帕金森分类项目。提供2D/3D基线模型及预训练模型，PP-TSN、PP-TSM准确率超91%，AUC超97.5%，TimeSformer准确率超92.3%。

五大冠军级、顶会算法首次开源

1. CVPR 2020 顶会论文：多模态预训练模型ActBERT首次开源

ActBERT融合视频、图像与文本三模态信息，创新性引入纠缠编码模块，在动作信息引导下增强视觉与语言的交互。在文本视频检索、视频问答等5项任务中表现领先，尤其在MSR-VTT数据集上性能突出。

2. CVPR 2021 顶会论文：文本视频检索模型T2VLAD首次开源

T2VLAD采用全局-局部对齐机制，自动学习共享语义中心，实现文本与视频局部特征的精细化匹配。同时将声音、OCR、人脸等多模态信息统一映射至同一空间，提升跨模态理解能力，在三大标准数据集上均取得优异成绩。

3. CVPR 2020 视频分割模型MA-Net首次开源

MA-Net面向交互式视频目标分割任务，通过统一框架实现高效传播与用户交互，结合记忆存储机制更新多轮标注信息，兼顾实时性与准确性，在DAVIS2017数据集上表现优异。

4. ECCV 2020 Spotlight模型CFBI及CVPR2021竞赛冠军方案开源

CFBI提出前背景整合式分割思路，通过隐式学习增强前景与背景特征对比度，显著提升复杂场景下的分割精度。后续升级版CFBI+引入多尺度与空洞匹配策略，进一步优化性能。该系列模型在DAVIS-2017上保持单模型最高精度记录，并在CVPR2021国际竞赛两项任务中夺冠。

5. ICCV 2021 无监督单目深度估计模型ADDS首次开源

ADDS利用白天与夜晚图像的互补特性，缓解光照变化带来的域偏移问题，实现全天候单目深度估计。在牛津RobotCar数据集上达到业界领先水平，适用于自动驾驶等对环境感知要求高的场景。

项目地址：https://github.com/PaddlePaddle/PaddleVideo

官网地址：https://www.paddlepaddle.org.cn

【声明】内容源于网络

百度Geek说

1234

内容 347

粉丝 0

百度Geek说 1234

总阅读5.9k

粉丝0

内容347