新智元报道
新智元报道
【新智元导读】让静态3D模型「动起来」是图形学长期难题:物理模拟计算开销大,生成模型又缺乏物理约束。北京大学团队提出DragMesh,采用「语义-几何解耦」范式与双四元数VAE(DQ-VAE),将核心生成模块算力降至SOTA模型的1/10,运动轴预测误差降低10倍;无需任何标注,即可实现任意静态Mesh的实时、物理合规交互。
当前,LRM、TripoSR等模型已能高效生成高质量静态3D资产。但构建完整3D世界模型,不仅需表征物体“长什么样”,更需理解其“如何运动”及“如何响应交互”。
3D交互生成面临“交互-保真度鸿沟”:
1. 物理模拟方法(如基于优化):物理一致性高,但计算沉重,难以满足实时需求;
2. 纯生成方法(如扩散模型):生成速度快,却常违反运动学约束,导致“关节脱臼”“穿模”或轨迹漂移。
为突破该瓶颈,北京大学团队推出轻量级实时交互框架DragMesh——不依赖算力堆砌,而是从数学表征与架构设计底层切入,同步提升物理真实性与计算效率。
论文链接:https://arxiv.org/abs/2512.06424
代码链接:https://github.com/AlGeeksGroup/DragMesh
项目主页:https://aigeeksgroup.github.io/DragMesh
核心技术
语义-几何解耦范式
DragMesh摒弃端到端暴力生成,提出“语义-几何解耦”设计:将用户意图识别(语义)与运动参数回归(几何)拆分为两个轻量级流水线,避免单一网络同时处理异构任务带来的冗余与低效。
意图推理:调用VLM(如GPT-4o)快速判别交互语义(如区分旋转合页与滑动抽屉),解决歧义问题。
几何回归:专用KPP-Net(Kinematics Prediction Network)采用双流注意力机制,直接从Mesh与拖拽信号中回归精准关节轴与原点,显著降低生成网络负担。
双四元数VAE
为克服欧拉角万向节死锁、变换矩阵冗余不连续等缺陷,团队引入单位双四元数(Dual Quaternion, DQ)作为运动表征——仅需8个参数即可统一描述三维空间中的旋转与平移,并天然契合螺旋运动理论。
DQ-VAE训练流程包含三大关键设计:
- 非自回归Transformer解码器:并行解码替代自回归,保障长序列动作连贯性;
- FiLM条件注入:将KPP-Net预测的关节先验经FiLM层逐层注入Transformer,确保每帧输出严格服从物理约束;
- 物理修正模块:在解码末端引入残差修正,微调轨迹以消除物理漂移,保障输出严格符合物理法则。
性能评测
效率:比SOTA提速10倍
在GAPartNet与Objaverse数据集上的对比实验表明:DragMesh核心生成模块仅含27.5M参数、5.2 GFLOPs,相较MeshArt(304M参数/1540 GFLOPs)与DragAPart(1100M参数/350 GFLOPs),算力开销降低5–10倍,且支持零样本泛化,无需逐物体训练。
精度:几何误差降低一个数量级
消融实验显示:KPP-Net将关节轴预测误差由Baseline(PointNet)的450.0 mrad大幅压缩至45.0 mrad,原点预测误差仅为1.8 mm;用户拖拽柜门时,可避免门板“飞出”或“歪斜”等失真现象。
物理一致性可视化
定性对比显示:面对微波炉、折叠椅等复杂物体,ArtGS/PartRM常因前验依赖强而出现结构崩坏或识别失败;DragMesh则对平移(抽屉)、旋转(门/翻盖)均能生成平滑、刚性保持的运动轨迹。
总结与展望
DragMesh验证了一条通向3D世界模型的极简路径:双四元数从数学底层实现刚体运动“大一统”,沙勒定理表明——空间中任意刚体运动均可描述为螺旋运动,DragMesh架构天然具备建模复杂运动的能力。
得益于解耦设计与DQ-VAE紧凑表征,DragMesh成功将物理交互带入实时时代,无需等待分钟级物理模拟,亦无须接受离线渲染延迟。
在元宇宙构建、机器人仿真与数字孪生等场景中,“即拖即动、即动即真”的轻量化范式,有望成为赋予静态3D资产“物理常识”的基础设施;后续将基于螺旋理论,向多关节级联与更复杂动力学场景拓展,推动AI真正理解物理世界运行规律。

