AAAI 2026 Oral | 浙大&上海AI实验室发布RacketVision：首个跨多种运动的球拍分析基准



AAAI 2026 Oral | 浙大&上海AI实验室发布RacketVision：首个跨多种运动的球拍分析基准

极市平台

2025-11-25

↑ 点击蓝字关注极市平台

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

RacketVision首次为乒乓、网球、羽毛球三大拍类运动同时标注球轨迹与球拍3D姿态，并给出“Cross-Attention>简单拼接”的实证洞察，为复杂人-物交互的多模态融合提供可直接复现的数据与方法论。>>加入极市CV技术交流群，走在计算机视觉的最前沿

论文标题: RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis
作者: Linfeng Dong, Yuchen Yang, Hao Wu, Wei Wang, Yuenan HouZhihang Zhong, Xiao Sun
作者机构:浙江大学, 上海人工智能实验室,复旦大学, 中国科学技术大学
论文地址: https://arxiv.org/abs/2511.17045
项目主页: https://github.com/OrcustD/RacketVision
录用信息: AAAI 2026 (Oral)

大家好！今天想和大家聊一篇非常有意思的论文，来自浙江大学、上海人工智能实验室、复旦大学和中国科学技术大学的研究者们，并被人工智能顶级会议AAAI 2026接收为Oral-Presentation。这篇文章推出了一个名为 RacketVision 的全新基准，旨在让AI更深入地理解乒乓球、网球和羽毛球这类持拍运动。

不同于以往只关注“球”的轨迹，RacketVision首次引入了对“球拍”姿态的大规模、精细化标注，试图解开球与球拍之间复杂的互动关系。更有趣的是，研究发现，简单地把球拍信息“喂”给模型，效果反而会变差。只有用对了方法，才能真正释放这些新数据的潜力。

01 背景与动机：为什么AI需要同时看懂“球”和“拍”？

在持拍类运动中，运动员的表现、战术意图，很大程度上都体现在球拍的细微动作上。球的旋转、速度和方向，无一不与击球瞬间球拍的姿态（角度、速度）紧密相关。然而，以往的计算机视觉研究大多局限于球的检测与跟踪，忽略了这一至关重要的交互信息。

如上表所示，现有的数据集（如TrackNet、OpenTTGames等）虽然在单一运动的球体跟踪上做出了贡献，但它们普遍存在两个问题：一是无法跨越不同运动项目来学习通用的运动规律；二是最关键的，它们缺乏对球拍的标注。这极大地限制了我们开发更全面的体育分析模型，使其停留在“知其然，而不知其所以然”的阶段。RacketVision的提出，正是为了填补这一空白。

02 RacketVision：一个全新的大规模球拍运动基准

为了解决上述问题，研究团队构建了RacketVision，一个覆盖了乒乓球、网球、羽毛球三大主流持拍运动的大规模数据集。

数据规模：包含1,672个视频片段，总计超过43万帧图像，时长约12,755秒。
核心创新：除了传统的球体位置标注，首次对球拍进行了精细化的关键点标注。

如上图所示，针对不同运动的球拍（乒乓球拍、网球拍、羽毛球拍），研究者定义了5个关键点，用于精确描述球拍在三维空间中的姿态。这些标注为后续研究人-物交互（Human-Object Interaction）提供了前所未有的数据基础。

整个标注流程分为两步：首先，通过众包方式从原始比赛录像中剪辑出球在运动状态下的有效片段；然后，在这些片段中稀疏地采样一些帧，由另一组标注人员使用专门的工具，精细地标出球的位置、球拍的边界框和五个关键点。

03 核心任务与技术管线

基于RacketVision数据集，论文定义了一个层层递进、环环相扣的三阶段任务管线，从基础感知覆盖到高层预测。

整个流程如上图所示：

首先，在稀疏的手动标注数据上，分别训练一个球体跟踪器 (Ball Tracker) 和一个球拍姿态估计器 (Racket Pose Estimator) 。
然后，用这两个训练好的模型去处理完整的视频片段，生成逐帧的、密集的球和球拍的伪标签（soft labels）。
最后，这些密集的时序数据将作为训练数据，用于训练最终的球体轨迹预测器 (Ball Trajectory Predictor) 。

任务一 & 二：球体跟踪与球拍姿态估计

这两个是基础的感知任务。对于球体跟踪，论文评估了多种模型，发现在多运动数据上训练的MS-TrackNetV3模型，结合背景建模（BM）和多帧输入（#F=4），效果最佳。

上图展示了球体跟踪的可视化结果，绿色点为模型预测，可以看到模型能够生成相当平滑且准确的轨迹。

对于球拍姿态估计，基于RTMPose的top-down方法在多运动数据上训练后也表现出色。

任务三：球体轨迹预测与多模态融合的“陷阱”

这是本文最核心、最有趣的部分。任务的输入是过去一段时间的球和球拍的轨迹数据，输出是未来一段时间球的轨迹。研究者们探索了如何融合球（Ball）和球拍（Racket）这两种模态的信息。

他们发现了一个“反直觉”的现象：如果只是简单地将球的轨迹特征和球拍的姿态特征拼接（Concatenation）在一起输入到模型（如LSTM或Transformer）中，预测性能不仅没有提升，反而显著下降。

如上表所示，无论是短时（Short）还是长时（Long）预测，采用“Concat”方法的模型，其误差（ADE/FDE）都比只用球轨迹的“Ball-Only”基线要高。为什么会这样？

研究者推测，这是因为在大部分时间里，球都在空中飞行，此时球拍的信息是无关的、甚至可以说是噪声。简单粗暴的拼接会污染模型对球自身运动规律的学习。

04 实验与洞察：Cross-Attention是关键

为了解决上述问题，研究者提出使用交叉注意力机制（Cross-Attention）来进行模态融合。

具体来说，他们将球的轨迹序列作为Query，将球拍的姿态序列作为Key和Value。这样一来，模型就可以在预测球的每一步轨迹时，动态地、有选择性地去关注当前最相关的球拍信息。当球在空中飞行时，模型可以学会“忽略”球拍；而在击球的关键瞬间，模型则会“聚焦”于球拍的姿态，从而做出更准确的判断。

实验结果证实了这一思路的有效性。如上表所示，采用“CrossAttn”的LSTM模型在所有运动和设置中都取得了最佳性能，其预测误差全面低于“Ball-Only”基线，成功逆转了性能下降的趋势，并实现了超越。

上图的定性比较结果更直观地展示了Cross-Attention的威力。在(a)和(c)中，只看球的基线模型在预测变向时出现了明显偏差。而在(b)和(d)中，加入了球拍信息的Cross-Attention模型则准确地预测了击球后的轨迹转向。这表明模型确实学会了在关键时刻利用球拍信息。

05 总结与展望

RacketVision不仅为体育分析领域提供了宝贵的新数据集和评测基准，更重要的是，它通过翔实的实验，揭示了在复杂人-物交互场景中多模态信息融合的一个关键洞见：信息的价值并不在于多，而在于融合得是否巧妙。

这项工作为我们打开了一扇新的大门，未来的研究者可以基于RacketVision探索更精细的战术分析、运动员技能评估，甚至是虚拟教练系统。

你觉得这项技术未来在体育转播或专业训练中会有哪些应用？欢迎在评论区分享你的想法！

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读5.7k

粉丝0

内容8.2k