极市导读
浙大团队提出SonicGauss,首次让3D高斯泼溅(3DGS)直接“开口说话”——根据点击的位置实时生成物理真实的撞击声,为VR/AR带来真正同步的视听沉浸感。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
当我们在VR/AR或游戏中与物体交互时,视觉上的真实感已达到前所未有的高度,但这还不够。如果一个金属碗被敲击时发出木头的闷响,沉浸感便会瞬间崩塌。如何让虚拟世界的听觉与视觉完美同步?来自浙江大学的研究者们带来了开创性解决方案——SonicGauss,这是首个能直接从当前最火的3D高斯泼溅(3DGS)表示中,合成出具有物理真实感且位置感知的交互声音的框架!
这项研究已被计算机多媒体顶会 ACMMM 2025 接收。
论文标题: SonicGauss: Position-Aware Physical Sound Synthesis for 3D Gaussian Representations
项目主页/补充材料: https://aieson.github.io/SonicGauss
Arxiv 地址: https://arxiv.org/abs/2507.19835
一、研究背景
近年来,以三维高斯泼溅(3DGS)为代表的渲染技术,凭借其惊人的真实感和实时渲染速度,已经成为构建数字孪生、虚拟现实(VR)和游戏世界的首选。我们可以轻松地渲染出照片级的复杂场景。
然而,一个巨大的鸿沟依然存在:声音。
目前,3D世界的听觉体验远远落后于视觉。特别是在交互中至关重要的撞击声(Impact Sound),它能瞬间传递物体的材质(金属、木头、塑料?)、结构(空心、实心?)和物理状态。想象一下,在VR中拿起一个瓷碗,轻轻敲击碗沿和碗底,理应听到清脆程度和音调都不同的声音。
现有的声音合成方法存在几大痛点:
-
依赖中间媒介:大多数方法需要视频、图像或复杂的物理参数作为输入,这在直接与3D模型交互的场景中显得非常笨拙和低效。 -
缺乏位置感知:它们通常将物体视为一个“声音均匀”的整体,无法模拟敲击不同位置时产生的微妙声音变化。 -
实时性差:基于物理模拟的方法虽然准确,但计算量巨大,难以用于需要即时反馈的交互式应用。
有没有一种方法,能像“读取”视觉信息一样,直接从3DGS中“读取”出声音信息呢?🤔
SonicGauss 的核心洞察:3DGS 不仅仅是一堆用于渲染的彩色点云,它的高斯椭球体本身就隐式地编码了物体的几何形状、表面外观等信息,这些都是推断其物理材质(并最终推断其声音)的关键线索!
二、方法详解:三步走,教模型“听懂”3DGS
SonicGauss 的实现思路非常巧妙,它设计了一个三阶段的“教学”流程,一步步地让模型从一个通用的声音合成器,进化成一个能理解3DGS并感知位置的“物理声音大师”。
我们可以用一个生动的比喻来理解这个过程:
阶段一:通识教育 📚 - 学会什么是“撞击声”
-
目标:让一个“什么声音都会说”的通用声音模型(TangoFlux),专注于“撞击声”这一特定领域。 -
做法:研究者们使用了一个强大的视觉语言模型(GPT-4o)来为ObjectFolder2.0数据集中的3D物体生成材质描述,例如“金属的、中空的、有共鸣的”。然后,用这些文本描述和对应的(由物理仿真生成的)撞击声,对TangoFlux模型进行微调。 -
结果:模型学会了将材质描述(如“金属”)与特定的声学特征(如清脆、悠长)联系起来。
阶段二:专业深造 🧠 - 从3DGS中直接“读懂”材质
这是最关键的一步,目标是扔掉文本“拐杖”,让模型直接从3DGS中理解材质。
-
子阶段2.1:语义对齐(Contrastive Semantic Matching) -
目标:建立3DGS特征与材质语义之间的桥梁。 -
做法:研究者设计了一个高斯编码器(Gaussian Encoder),它能将一堆3D高斯点转换成一个特征向量。然后,利用类似CLIP的对比学习方法,将同一个物体的高斯特征和其文本描述的特征在空间中“拉近”,不同物体的则“推远”。这就好比告诉模型:“你看,这堆高斯点云,它的意思就是‘金属’”。 -
子阶段2.2:粗调(Coarse Tuning) -
目标:让模型彻底摆脱文本依赖。 -
做法:在声音合成网络中,用训练好的高斯编码器彻底取代原来的文本编码器。现在,模型的输入不再是文字,而是纯粹的3DGS数据。 -
结果:模型已经能够为一个3DGS物体生成符合其材质的撞击声了,但还不能区分敲击位置。
阶段三:高级进阶 🎯 - 精通“敲哪里,响哪里”
-
目标:引入位置信息,实现声音的空间变化。 -
做法: -
设计一个位置编码器(Position Encoder),它接收一个三维坐标 (x,y,z),并将其编码成高维特征。 -
通过交叉注意力机制(Cross-Attention),将位置特征与高斯编码器提取的材质特征进行融合。这允许模型动态地关注与当前敲击位置最相关的材质信息。 -
使用一个包含真实世界多位置敲击录音的数据集(ObjectFolder-Real)对整个系统进行最终微调。 -
结果:SonicGauss 最终形态诞生!现在,你点击3DGS模型上的任何一个点,它都能生成一个既符合物体整体材质、又体现了该特定位置声学特性的撞击声。
三、实验结果:眼见为实,耳听为真!
SonicGauss 的效果究竟如何?研究者们通过定量、定性和人类感知评估,全方位展示了其卓越性能。
定量分析
在FAD(越低越好)等客观声学指标上,SonicGauss 在每个阶段都取得了显著进步,并在最终阶段达到了最佳性能,证明了其框架设计的有效性。
|
|
|
|
|
|
|
|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
1.1050 | 0.3930 | 1.0769 | |
|
|
|
0.7298 | 0.2068 | 1.0133 |
表 1:SonicGauss 在不同阶段的量化评估结果。FAD等指标的持续改善验证了三阶段训练的有效性。
定性结果:声谱图对比
声谱图是声音的“指纹”。通过对比真实录音和SonicGauss生成声音的声谱图,我们可以直观地看到其惊人的还原能力。
我们强烈建议读者前往项目主页,亲自听一听生成的效果,体验点击不同位置时声音的微妙变化! 🔊
四、总结与展望
SonicGauss 首次实现了从3DGS表示直接到物理声音的跨模态生成,并通过创新的三阶段训练框架和位置编码机制,解决了现有方法在实时性、便捷性和空间感知性上的诸多痛点。
这项工作不仅为构建更具沉浸感的虚拟世界铺平了道路,也为探索3DGS表示中蕴含的其他物理属性(如热学、力学特性)打开了新的大门。它极大地降低了高质量动态3D内容制作的门槛,在元宇宙、数字人、游戏开发、影视预览、机器人仿真等领域拥有广阔的应用前景。🚀
未来,一个视觉与听觉无缝融合的、真正可交互的数字世界,正向我们走来。
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

