大数跨境
0
0

ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影

ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影 极市平台
2025-11-04
1
↑ 点击蓝字 关注极市平台
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

CMU 提出「空间可变对焦」:Split-Lohmann 计算镜头 + SLM 像素级相位控制,一次拍摄即可在画面内任意区域同时聚焦,3 张图实现全清晰,可实时消除前景遮挡,代码与数据集已开源。>>加入极市CV技术交流群,走在计算机视觉的最前沿

大家好,今天小编想和大家聊一篇计算摄影领域的奇妙论文,获得ICCV 2025 最佳论文提名。你有没有想过,如果你的相机能一次拍摄,就让照片里的每一个角落都清晰无比,无论远近,那该多好?或者,能像变魔术一样,让焦点随着你的心意在画面上自由移动?来自卡内基梅隆大学的研究者们带来的这篇“Spatially-Varying Autofocus”,就让这个想法变成了现实。

  • 论文标题: Spatially-Varying Autofocus
  • 作者: Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole
  • 机构: 卡内基梅隆大学
  • 论文地址https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf
  • 项目主页https://imaging.cs.cmu.edu/svaf/

01 挑战传统摄影的极限

在传统摄影中,我们总是在跟“景深”作斗争。大光圈能带来美丽的背景虚化,但也意味着只有很窄一个平面上的物体是清晰的。想要获得一张从前到后都清晰(也就是“全清晰”,All-in-Focus, AIF)的照片,通常只有两种办法:要么缩小光圈,但这会牺牲进光量并可能导致衍射模糊;要么就得用“焦点堆栈”技术,也就是拍摄多张不同焦点的照片再合成,这对于动态场景显然无能为力。

计算摄影的发展为我们提供了新思路,但以往的方法也各有妥协。而这篇论文的目标,就是在保持大光圈和高分辨率的同时,用单次拍摄实现任意形状的焦平面,听起来是不是非常酷?

上图就展示了这种技术的效果:一张全清晰的照片,以及它背后那个神奇的、空间变化的自定义焦平面。

02 核心技术:会“分身”的计算镜头

为了实现这个目标,研究者们设计了一套非常巧妙的光学系统,名为“分裂式洛曼计算镜头”(Split-Lohmann computational lens)。这个名字听起来有点复杂,其实原理很清晰。

这个系统的核心在于“分裂”和“计算”:

  • 可编程的变焦:它通过一个4f系统和一个位于傅里叶平面的空间光调制器(SLM),将传统洛曼透镜的两个立方相位板“合二为一”。通过在SLM上加载一个线性相位斜坡,就可以像滑动变焦环一样,精确地控制整个画面的焦点。
  • 空间可变的局部对焦:最关键的一步来了。由于SLM上的每个像素都与相机传感器上的像素精确对应,我们可以在SLM上显示一个“空间变化”的相位斜坡图案。这意味着,画面的A区域可以应用一个焦距,B区域应用另一个焦距。这样一来,相机就获得了在同一个画面内不同区域同时对焦到不同距离的能力。

2.1 如何实现自动对焦?

有了硬件基础,还需要聪明的算法来告诉系统每个区域应该对焦到哪里。论文提出了两种互补的自动对焦算法。

第一种是基于对比度的搜索算法。它将图像分成小块,然后快速测试一系列离散的焦距设置,找到能让每个小块对比度最高的那个焦距。这个过程非常快,足以实现实时的全清晰预览。

第二种是更高效的基于相位的算法。它利用了散焦与图像相位之间的关系,通过分析两张稍微偏移焦点的照片,就能直接计算出每个像素精确的对焦距离。这种方法避免了大量的搜索,速度更快,精度也更高。

论文中展示的相机原型
论文中展示的相机原型
原型相机的点扩散函数(PSF)展示了其在不同距离和视场位置的对焦能力
原型相机的点扩散函数(PSF)展示了其在不同距离和视场位置的对焦能力

03 惊艳的效果与应用

理论说完了,我们来看看实际效果。这套系统不仅能拍出高质量的全清晰照片,还解锁了许多创意玩法。

3.1 自由形状的景深

比如,你可以让焦点沿着一条斜线、一条曲线,甚至是你指定的任意区域分布。上图就展示了对一个倾斜放置的凯旋门模型的不同对焦方式:全清晰、模拟沙姆定律(Scheimpflug principle)的斜向对焦,以及只让凯旋门本身清晰的选择性对焦。

3.2 “凭空”消除遮挡物

这是小编觉得最神奇的应用。想象一下,你想拍一个物体,但它前面隔着一层铁丝网。传统相机很难在拍清主体的同时完全忽略铁丝网。而利用这项技术,可以直接将焦点设置在背景上,让前景的铁丝网因为严重的散焦而变得模糊不可见,从而在光学层面就“消除”了它!

3.3 性能对比:优势显著

研究者们将他们的方法与其他全清晰成像技术进行了详细对比,包括传统的焦点堆栈、小光圈成像以及其他计算方法。

从定性对比(如上面的Planes和Flowers场景)可以看出,该方法在处理大景深和复杂场景时,清晰度和细节表现都非常出色,尤其是在避免小光圈带来的衍射模糊方面优势明显。

定量分析(如MTF曲线和性能随拍摄张数变化的图表)进一步证实了这一点。该方法仅需3步4张照片(用于相位对焦算法)就能达到甚至超越需要数十张照片进行焦点堆栈的效果,在效率和质量上都取得了巨大突破。

04 总结

总而言之,这项研究通过软硬件的协同创新,为计算摄影开辟了一个激动人心的新方向。它不仅解决了传统摄影中景深与光圈的矛盾,还赋予了相机前所未有的、控制光场的能力。大家对这个方法怎么看?欢迎在评论区留下你的看法!


公众号后台回复“数据集”获取100+深度学习各方向资源整理


极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k