极市导读
RacketVision首次为乒乓、网球、羽毛球三大拍类运动同时标注球轨迹与球拍3D姿态,并给出“Cross-Attention>简单拼接”的实证洞察,为复杂人-物交互的多模态融合提供可直接复现的数据与方法论。>>加入极市CV技术交流群,走在计算机视觉的最前沿
-
论文标题: RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis -
作者: Linfeng Dong, Yuchen Yang, Hao Wu, Wei Wang, Yuenan HouZhihang Zhong, Xiao Sun -
作者机构:浙江大学, 上海人工智能实验室,复旦大学, 中国科学技术大学 -
论文地址: https://arxiv.org/abs/2511.17045 -
项目主页: https://github.com/OrcustD/RacketVision -
录用信息: AAAI 2026 (Oral)
大家好!今天想和大家聊一篇非常有意思的论文,来自浙江大学、上海人工智能实验室、复旦大学和中国科学技术大学的研究者们,并被人工智能顶级会议AAAI 2026接收为Oral-Presentation。这篇文章推出了一个名为 RacketVision 的全新基准,旨在让AI更深入地理解乒乓球、网球和羽毛球这类持拍运动。
不同于以往只关注“球”的轨迹,RacketVision首次引入了对“球拍”姿态的大规模、精细化标注,试图解开球与球拍之间复杂的互动关系。更有趣的是,研究发现,简单地把球拍信息“喂”给模型,效果反而会变差。只有用对了方法,才能真正释放这些新数据的潜力。
01 背景与动机:为什么AI需要同时看懂“球”和“拍”?
在持拍类运动中,运动员的表现、战术意图,很大程度上都体现在球拍的细微动作上。球的旋转、速度和方向,无一不与击球瞬间球拍的姿态(角度、速度)紧密相关。然而,以往的计算机视觉研究大多局限于球的检测与跟踪,忽略了这一至关重要的交互信息。
如上表所示,现有的数据集(如TrackNet、OpenTTGames等)虽然在单一运动的球体跟踪上做出了贡献,但它们普遍存在两个问题:一是无法跨越不同运动项目来学习通用的运动规律;二是最关键的,它们缺乏对球拍的标注。这极大地限制了我们开发更全面的体育分析模型,使其停留在“知其然,而不知其所以然”的阶段。RacketVision的提出,正是为了填补这一空白。
02 RacketVision:一个全新的大规模球拍运动基准
为了解决上述问题,研究团队构建了RacketVision,一个覆盖了乒乓球、网球、羽毛球三大主流持拍运动的大规模数据集。
-
数据规模:包含1,672个视频片段,总计超过43万帧图像,时长约12,755秒。 -
核心创新:除了传统的球体位置标注,首次对球拍进行了精细化的关键点标注。
如上图所示,针对不同运动的球拍(乒乓球拍、网球拍、羽毛球拍),研究者定义了5个关键点,用于精确描述球拍在三维空间中的姿态。这些标注为后续研究人-物交互(Human-Object Interaction)提供了前所未有的数据基础。
整个标注流程分为两步:首先,通过众包方式从原始比赛录像中剪辑出球在运动状态下的有效片段;然后,在这些片段中稀疏地采样一些帧,由另一组标注人员使用专门的工具,精细地标出球的位置、球拍的边界框和五个关键点。
03 核心任务与技术管线
基于RacketVision数据集,论文定义了一个层层递进、环环相扣的三阶段任务管线,从基础感知覆盖到高层预测。
整个流程如上图所示:
-
首先,在稀疏的手动标注数据上,分别训练一个球体跟踪器 (Ball Tracker) 和一个球拍姿态估计器 (Racket Pose Estimator) 。 -
然后,用这两个训练好的模型去处理完整的视频片段,生成逐帧的、密集的球和球拍的伪标签(soft labels)。 -
最后,这些密集的时序数据将作为训练数据,用于训练最终的球体轨迹预测器 (Ball Trajectory Predictor) 。
任务一 & 二:球体跟踪与球拍姿态估计
这两个是基础的感知任务。对于球体跟踪,论文评估了多种模型,发现在多运动数据上训练的MS-TrackNetV3模型,结合背景建模(BM)和多帧输入(#F=4),效果最佳。
上图展示了球体跟踪的可视化结果,绿色点为模型预测,可以看到模型能够生成相当平滑且准确的轨迹。
对于球拍姿态估计,基于RTMPose的top-down方法在多运动数据上训练后也表现出色。
任务三:球体轨迹预测与多模态融合的“陷阱”
这是本文最核心、最有趣的部分。任务的输入是过去一段时间的球和球拍的轨迹数据,输出是未来一段时间球的轨迹。研究者们探索了如何融合球(Ball)和球拍(Racket)这两种模态的信息。
他们发现了一个“反直觉”的现象:如果只是简单地将球的轨迹特征和球拍的姿态特征拼接(Concatenation)在一起输入到模型(如LSTM或Transformer)中,预测性能不仅没有提升,反而显著下降。
如上表所示,无论是短时(Short)还是长时(Long)预测,采用“Concat”方法的模型,其误差(ADE/FDE)都比只用球轨迹的“Ball-Only”基线要高。为什么会这样?
研究者推测,这是因为在大部分时间里,球都在空中飞行,此时球拍的信息是无关的、甚至可以说是噪声。简单粗暴的拼接会污染模型对球自身运动规律的学习。
04 实验与洞察:Cross-Attention是关键
为了解决上述问题,研究者提出使用交叉注意力机制(Cross-Attention)来进行模态融合。
具体来说,他们将球的轨迹序列作为Query,将球拍的姿态序列作为Key和Value。这样一来,模型就可以在预测球的每一步轨迹时,动态地、有选择性地去关注当前最相关的球拍信息。当球在空中飞行时,模型可以学会“忽略”球拍;而在击球的关键瞬间,模型则会“聚焦”于球拍的姿态,从而做出更准确的判断。
实验结果证实了这一思路的有效性。如上表所示,采用“CrossAttn”的LSTM模型在所有运动和设置中都取得了最佳性能,其预测误差全面低于“Ball-Only”基线,成功逆转了性能下降的趋势,并实现了超越。
上图的定性比较结果更直观地展示了Cross-Attention的威力。在(a)和(c)中,只看球的基线模型在预测变向时出现了明显偏差。而在(b)和(d)中,加入了球拍信息的Cross-Attention模型则准确地预测了击球后的轨迹转向。这表明模型确实学会了在关键时刻利用球拍信息。
05 总结与展望
RacketVision不仅为体育分析领域提供了宝贵的新数据集和评测基准,更重要的是,它通过翔实的实验,揭示了在复杂人-物交互场景中多模态信息融合的一个关键洞见:信息的价值并不在于多,而在于融合得是否巧妙。
这项工作为我们打开了一扇新的大门,未来的研究者可以基于RacketVision探索更精细的战术分析、运动员技能评估,甚至是虚拟教练系统。
你觉得这项技术未来在体育转播或专业训练中会有哪些应用?欢迎在评论区分享你的想法!
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

