大数跨境
0
0

AAAI 2026 Oral | 浙大&上海AI实验室发布RacketVision:首个跨多种运动的球拍分析基准

AAAI 2026 Oral | 浙大&上海AI实验室发布RacketVision:首个跨多种运动的球拍分析基准 极市平台
2025-11-25
2
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

RacketVision首次为乒乓、网球、羽毛球三大拍类运动同时标注球轨迹与球拍3D姿态,并给出“Cross-Attention>简单拼接”的实证洞察,为复杂人-物交互的多模态融合提供可直接复现的数据与方法论。>>加入极市CV技术交流群,走在计算机视觉的最前沿

  • 论文标题: RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis
  • 作者: Linfeng Dong, Yuchen Yang, Hao Wu, Wei Wang, Yuenan HouZhihang Zhong, Xiao Sun
  • 作者机构:浙江大学, 上海人工智能实验室,复旦大学, 中国科学技术大学
  • 论文地址https://arxiv.org/abs/2511.17045
  • 项目主页https://github.com/OrcustD/RacketVision
  • 录用信息: AAAI 2026 (Oral)

大家好!今天想和大家聊一篇非常有意思的论文,来自浙江大学、上海人工智能实验室、复旦大学和中国科学技术大学的研究者们,并被人工智能顶级会议AAAI 2026接收为Oral-Presentation。这篇文章推出了一个名为 RacketVision 的全新基准,旨在让AI更深入地理解乒乓球、网球和羽毛球这类持拍运动。

不同于以往只关注“球”的轨迹,RacketVision首次引入了对“球拍”姿态的大规模、精细化标注,试图解开球与球拍之间复杂的互动关系。更有趣的是,研究发现,简单地把球拍信息“喂”给模型,效果反而会变差。只有用对了方法,才能真正释放这些新数据的潜力。

01 背景与动机:为什么AI需要同时看懂“球”和“拍”?

在持拍类运动中,运动员的表现、战术意图,很大程度上都体现在球拍的细微动作上。球的旋转、速度和方向,无一不与击球瞬间球拍的姿态(角度、速度)紧密相关。然而,以往的计算机视觉研究大多局限于球的检测与跟踪,忽略了这一至关重要的交互信息。

如上表所示,现有的数据集(如TrackNet、OpenTTGames等)虽然在单一运动的球体跟踪上做出了贡献,但它们普遍存在两个问题:一是无法跨越不同运动项目来学习通用的运动规律;二是最关键的,它们缺乏对球拍的标注。这极大地限制了我们开发更全面的体育分析模型,使其停留在“知其然,而不知其所以然”的阶段。RacketVision的提出,正是为了填补这一空白。

02 RacketVision:一个全新的大规模球拍运动基准

为了解决上述问题,研究团队构建了RacketVision,一个覆盖了乒乓球、网球、羽毛球三大主流持拍运动的大规模数据集。

  • 数据规模:包含1,672个视频片段,总计超过43万帧图像,时长约12,755秒。
  • 核心创新:除了传统的球体位置标注,首次对球拍进行了精细化的关键点标注

如上图所示,针对不同运动的球拍(乒乓球拍、网球拍、羽毛球拍),研究者定义了5个关键点,用于精确描述球拍在三维空间中的姿态。这些标注为后续研究人-物交互(Human-Object Interaction)提供了前所未有的数据基础。

整个标注流程分为两步:首先,通过众包方式从原始比赛录像中剪辑出球在运动状态下的有效片段;然后,在这些片段中稀疏地采样一些帧,由另一组标注人员使用专门的工具,精细地标出球的位置、球拍的边界框和五个关键点。

03 核心任务与技术管线

基于RacketVision数据集,论文定义了一个层层递进、环环相扣的三阶段任务管线,从基础感知覆盖到高层预测。

整个流程如上图所示:

  1. 首先,在稀疏的手动标注数据上,分别训练一个球体跟踪器 (Ball Tracker) 和一个球拍姿态估计器 (Racket Pose Estimator) 。
  2. 然后,用这两个训练好的模型去处理完整的视频片段,生成逐帧的、密集的球和球拍的伪标签(soft labels)。
  3. 最后,这些密集的时序数据将作为训练数据,用于训练最终的球体轨迹预测器 (Ball Trajectory Predictor) 。

任务一 & 二:球体跟踪与球拍姿态估计

这两个是基础的感知任务。对于球体跟踪,论文评估了多种模型,发现在多运动数据上训练的MS-TrackNetV3模型,结合背景建模(BM)和多帧输入(#F=4),效果最佳。

上图展示了球体跟踪的可视化结果,绿色点为模型预测,可以看到模型能够生成相当平滑且准确的轨迹。

对于球拍姿态估计,基于RTMPose的top-down方法在多运动数据上训练后也表现出色。

任务三:球体轨迹预测与多模态融合的“陷阱”

这是本文最核心、最有趣的部分。任务的输入是过去一段时间的球和球拍的轨迹数据,输出是未来一段时间球的轨迹。研究者们探索了如何融合球(Ball)和球拍(Racket)这两种模态的信息。

他们发现了一个“反直觉”的现象:如果只是简单地将球的轨迹特征和球拍的姿态特征拼接(Concatenation)在一起输入到模型(如LSTM或Transformer)中,预测性能不仅没有提升,反而显著下降

如上表所示,无论是短时(Short)还是长时(Long)预测,采用“Concat”方法的模型,其误差(ADE/FDE)都比只用球轨迹的“Ball-Only”基线要高。为什么会这样?

研究者推测,这是因为在大部分时间里,球都在空中飞行,此时球拍的信息是无关的、甚至可以说是噪声。简单粗暴的拼接会污染模型对球自身运动规律的学习。

04 实验与洞察:Cross-Attention是关键

为了解决上述问题,研究者提出使用交叉注意力机制(Cross-Attention)来进行模态融合。

具体来说,他们将球的轨迹序列作为Query,将球拍的姿态序列作为Key和Value。这样一来,模型就可以在预测球的每一步轨迹时,动态地、有选择性地去关注当前最相关的球拍信息。当球在空中飞行时,模型可以学会“忽略”球拍;而在击球的关键瞬间,模型则会“聚焦”于球拍的姿态,从而做出更准确的判断。

实验结果证实了这一思路的有效性。如上表所示,采用“CrossAttn”的LSTM模型在所有运动和设置中都取得了最佳性能,其预测误差全面低于“Ball-Only”基线,成功逆转了性能下降的趋势,并实现了超越

上图的定性比较结果更直观地展示了Cross-Attention的威力。在(a)和(c)中,只看球的基线模型在预测变向时出现了明显偏差。而在(b)和(d)中,加入了球拍信息的Cross-Attention模型则准确地预测了击球后的轨迹转向。这表明模型确实学会了在关键时刻利用球拍信息。

05 总结与展望

RacketVision不仅为体育分析领域提供了宝贵的新数据集和评测基准,更重要的是,它通过翔实的实验,揭示了在复杂人-物交互场景中多模态信息融合的一个关键洞见:信息的价值并不在于多,而在于融合得是否巧妙

这项工作为我们打开了一扇新的大门,未来的研究者可以基于RacketVision探索更精细的战术分析、运动员技能评估,甚至是虚拟教练系统。

你觉得这项技术未来在体育转播或专业训练中会有哪些应用?欢迎在评论区分享你的想法!


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k