大数跨境
0
0

ACMMM 2025 | 浙大ReLER团队提出SonicGauss,让虚拟物体敲出真实物理声

ACMMM 2025 | 浙大ReLER团队提出SonicGauss,让虚拟物体敲出真实物理声 极市平台
2025-08-06
1
↑ 点击蓝字 关注极市平台
作者丨王春实
编辑丨极市平台

极市导读

 

浙大团队提出SonicGauss,首次让3D高斯泼溅(3DGS)直接“开口说话”——根据点击的位置实时生成物理真实的撞击声,为VR/AR带来真正同步的视听沉浸感。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

当我们在VR/AR或游戏中与物体交互时,视觉上的真实感已达到前所未有的高度,但这还不够。如果一个金属碗被敲击时发出木头的闷响,沉浸感便会瞬间崩塌。如何让虚拟世界的听觉与视觉完美同步?来自浙江大学的研究者们带来了开创性解决方案——SonicGauss,这是首个能直接从当前最火的3D高斯泼溅(3DGS)表示中,合成出具有物理真实感且位置感知的交互声音的框架!

这项研究已被计算机多媒体顶会 ACMMM 2025 接收。

论文标题: SonicGauss: Position-Aware Physical Sound Synthesis for 3D Gaussian Representations

项目主页/补充材料: https://aieson.github.io/SonicGauss

Arxiv 地址: https://arxiv.org/abs/2507.19835

图 0:SonicGauss 框架概览。它能直接从 3DGS 表示中提取材质和位置信息,合成出逼真的交互式撞击声。

一、研究背景

近年来,以三维高斯泼溅(3DGS)为代表的渲染技术,凭借其惊人的真实感和实时渲染速度,已经成为构建数字孪生、虚拟现实(VR)和游戏世界的首选。我们可以轻松地渲染出照片级的复杂场景。

然而,一个巨大的鸿沟依然存在:声音

目前,3D世界的听觉体验远远落后于视觉。特别是在交互中至关重要的撞击声(Impact Sound),它能瞬间传递物体的材质(金属、木头、塑料?)、结构(空心、实心?)和物理状态。想象一下,在VR中拿起一个瓷碗,轻轻敲击碗沿和碗底,理应听到清脆程度和音调都不同的声音。

现有的声音合成方法存在几大痛点:

  1. 依赖中间媒介:大多数方法需要视频、图像或复杂的物理参数作为输入,这在直接与3D模型交互的场景中显得非常笨拙和低效。
  2. 缺乏位置感知:它们通常将物体视为一个“声音均匀”的整体,无法模拟敲击不同位置时产生的微妙声音变化。
  3. 实时性差:基于物理模拟的方法虽然准确,但计算量巨大,难以用于需要即时反馈的交互式应用。

有没有一种方法,能像“读取”视觉信息一样,直接从3DGS中“读取”出声音信息呢?🤔

SonicGauss 的核心洞察:3DGS 不仅仅是一堆用于渲染的彩色点云,它的高斯椭球体本身就隐式地编码了物体的几何形状、表面外观等信息,这些都是推断其物理材质(并最终推断其声音)的关键线索!

二、方法详解:三步走,教模型“听懂”3DGS

SonicGauss 的实现思路非常巧妙,它设计了一个三阶段的“教学”流程,一步步地让模型从一个通用的声音合成器,进化成一个能理解3DGS并感知位置的“物理声音大师”。

图 1:SonicGauss 的三阶段训练流程。从任务迁移到语义对齐,再到位置感知微调,逐步构建起从3DGS到声音的桥梁。

我们可以用一个生动的比喻来理解这个过程:

阶段一:通识教育 📚 - 学会什么是“撞击声”

  • 目标:让一个“什么声音都会说”的通用声音模型(TangoFlux),专注于“撞击声”这一特定领域。
  • 做法:研究者们使用了一个强大的视觉语言模型(GPT-4o)来为ObjectFolder2.0数据集中的3D物体生成材质描述,例如“金属的、中空的、有共鸣的”。然后,用这些文本描述和对应的(由物理仿真生成的)撞击声,对TangoFlux模型进行微调。
  • 结果:模型学会了将材质描述(如“金属”)与特定的声学特征(如清脆、悠长)联系起来。

阶段二:专业深造 🧠 - 从3DGS中直接“读懂”材质

这是最关键的一步,目标是扔掉文本“拐杖”,让模型直接从3DGS中理解材质。

  • 子阶段2.1:语义对齐(Contrastive Semantic Matching)
    • 目标:建立3DGS特征与材质语义之间的桥梁。
    • 做法:研究者设计了一个高斯编码器(Gaussian Encoder),它能将一堆3D高斯点转换成一个特征向量。然后,利用类似CLIP的对比学习方法,将同一个物体的高斯特征和其文本描述的特征在空间中“拉近”,不同物体的则“推远”。这就好比告诉模型:“你看,这堆高斯点云,它的意思就是‘金属’”。
  • 子阶段2.2:粗调(Coarse Tuning)
    • 目标:让模型彻底摆脱文本依赖。
    • 做法:在声音合成网络中,用训练好的高斯编码器彻底取代原来的文本编码器。现在,模型的输入不再是文字,而是纯粹的3DGS数据。
    • 结果:模型已经能够为一个3DGS物体生成符合其材质的撞击声了,但还不能区分敲击位置。

阶段三:高级进阶 🎯 - 精通“敲哪里,响哪里”

  • 目标:引入位置信息,实现声音的空间变化。
  • 做法
    1. 设计一个位置编码器(Position Encoder),它接收一个三维坐标(x,y,z),并将其编码成高维特征。
    2. 通过交叉注意力机制(Cross-Attention),将位置特征与高斯编码器提取的材质特征进行融合。这允许模型动态地关注与当前敲击位置最相关的材质信息。
    3. 使用一个包含真实世界多位置敲击录音的数据集(ObjectFolder-Real)对整个系统进行最终微调。
  • 结果:SonicGauss 最终形态诞生!现在,你点击3DGS模型上的任何一个点,它都能生成一个既符合物体整体材质、又体现了该特定位置声学特性的撞击声。

三、实验结果:眼见为实,耳听为真!

SonicGauss 的效果究竟如何?研究者们通过定量、定性和人类感知评估,全方位展示了其卓越性能。

定量分析

在FAD(越低越好)等客观声学指标上,SonicGauss 在每个阶段都取得了显著进步,并在最终阶段达到了最佳性能,证明了其框架设计的有效性。

Dataset
Stage
FAD↓
KL Sig↓
IS Avg.↑
IS Std.↓
OF-2.0
1
1.6848
0.3442
1.0221
OF-2.0
2
1.1050 0.3930 1.0769
OF-Real
3
0.7298 0.2068 1.0133

表 1:SonicGauss 在不同阶段的量化评估结果。FAD等指标的持续改善验证了三阶段训练的有效性。

定性结果:声谱图对比

声谱图是声音的“指纹”。通过对比真实录音和SonicGauss生成声音的声谱图,我们可以直观地看到其惊人的还原能力。

图 2:真实声音(GT)与SonicGauss生成声音的声谱图对比。可以看出,模型准确捕捉了不同物体在不同敲击位置的声音特征。

我们强烈建议读者前往项目主页,亲自听一听生成的效果,体验点击不同位置时声音的微妙变化! 🔊

四、总结与展望

SonicGauss 首次实现了从3DGS表示直接到物理声音的跨模态生成,并通过创新的三阶段训练框架和位置编码机制,解决了现有方法在实时性、便捷性和空间感知性上的诸多痛点。

这项工作不仅为构建更具沉浸感的虚拟世界铺平了道路,也为探索3DGS表示中蕴含的其他物理属性(如热学、力学特性)打开了新的大门。它极大地降低了高质量动态3D内容制作的门槛,在元宇宙、数字人、游戏开发、影视预览、机器人仿真等领域拥有广阔的应用前景。🚀

未来,一个视觉与听觉无缝融合的、真正可交互的数字世界,正向我们走来。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读7.6k
粉丝0
内容8.2k