
来源:AI科技评论
今年CVPR 最大的亮点之一,当属“后浪”们在学术研究上的出色表现。
在一众获奖论文作者中,年龄最小的一位一作获奖者甚至还在本科阶段。他就是来自康奈尔大学的“98后”后浪——林之秋。

这位常春藤的大四学生以第一作者身份提交的论文《Visual Chirality》(《视觉手性》)荣获CVPR 2020 最佳论文提名 (Best Paper Nomination)。

林之秋老师发来贺函
实际上,在获奖之前,林之秋就已经在学校树立了非常强悍的学霸形象。进入康奈尔大学的第一年,他所选的五门高年级课程就全部拿到A+。随后在多项专业课,例如多元微积分、线性代数、人工智能、高等抽象代数、计算机操作系统等都取得了第一名。
与此同时他还同时选修了计算机和数学两个专业,而且仅用两年时间就全部修完本科课程。大二开始,他就开始选修博士课程,同时开始跟随计算机系的教授从事科研工作。
因为成绩极为优异,大一阶段的林之秋就已经受计算机系里邀请,以助教身份给高年级同学讲课,还为康奈尔科技学院(Cornell Tech)的同学编写硕士生的预修课程。到了大三,林之秋已经当上了机器学习(Machine Learning)高阶课程的助教,甚至给博士生的期末试卷打分。
大学毕业,他的成绩在学院数千名学生中名列前三,被授予学院最高荣誉,并受院长邀请,代表学院在毕业典礼上举旗。

今年在 CVPR2020 上以一作身份拿下最佳论文提名,算是给他出彩的大学生涯又加上了浓墨重彩的一笔。
而据作者本人回忆,这篇论文背后其实花费了他长达两年的时间,最主要的原因就在于“镜像翻转”这项研究是一个全新的课题。“现在主流学术界往往聚焦在几个比较成熟的,且神经网络已经做得比较好的任务上。有的时候你只要在已有的基础上做些小的改进,就能有成果发表。但我们的课题却是完完全全的创新,之前也没有学者从我们的角度切入过。”
由于这是他们团队首次挑战常规神经网络训练中图片”翻转不变性“(flip-invariant) 的这一假设,在研究初期自然遭到了不少质疑,据林之秋介绍,这一课题还曾在另一个会议上被一个草率的审稿人以“不够有新意”为理由拒稿。
而本次在 CVPR 2020 上拿下最佳论文提名,算是向那些质疑的声音做了一次有力的回应。

文章链接:https://arxiv.org/abs/2006.09512
文章网站:visual-chirality.io
代码链接:https://github.com/linzhiqiu/digital_chirality
下面,我们就来欣赏论文团队对这项创新工作的解读:
简介
和
分别与
和
的出现概率不一致:
训练方法
手性特征聚类方法
互联网图片集
数字图像处理
-
D为数据集所来源于的图像分布。 -
T为一个图像变换函数,例如镜像翻转。需要注意的是论文中的证明不仅限于镜像翻转,也可以被用于任何具备结合律(associativitive)和可逆性(invertible)的变换。 -
J为一个图像处理函数。例如去马赛克以及JPEG图片压缩。
为经过J处理后所得到的的新图像分布。
,那么
同样不具备视觉手性。
也不具备视觉手性。换句话说,我们可以通过检查T和J的交换律,来判断数字图像处理能否造成视觉手性现象。
-
去马赛克(Demosaicing):数字相机的感光元件一般只能在每个像素格上捕捉RGB中的其中一种颜色,而其中最常用的为贝尔滤色镜(Bayer Color Filter Array),如下图所示。去马赛克则是将感光元件得到的二维图像还原为三维全彩的这一过程。
-
JPEG压缩算法(JPEG Compression):JPEG是一种有损的图像压缩方式,被广泛应用在如今大量的互联网图片上。一般以每16乘16的像素格为单位通过色彩空间变换,缩减像素采样,离散余弦变换等步骤来进行图片编码压缩。
-
去马赛克或JPEG压缩算法单独使用时,会在特定的图片大小产生视觉手性现象。对于去马赛克,由于贝尔滤色镜为2乘2的像素格,且滤色镜本身不对称(参考上图绿红蓝绿的排序),任何能被2整除的图片宽度均会导致视觉手性。对于JPEG压缩,任何不被16整除的图片宽度均会导致视觉手性。这意味着,当去马赛克和JPEG压缩被共同使用时,任意宽度的图片都将产生视觉手性,因为同时满足不被2整除和能被16整除的数字不存在。 -
当使用随机剪裁(random cropping)时,去马赛克或JPEG压缩单独使用并不产生视觉手性现象。 -
当使用随机剪裁(random cropping)时,去马赛克和JPEG压缩同时使用将会产生视觉手性现象。这意味着互联网图片中可能存在大量有规律的,肉眼不可见的视觉手性线索,而人们将能够利用这类线索来进行图片识伪。
也不具备视觉手性。
即为一个循环群,而这个循环群的单位元(identity element)可以选这个集合里面任意一个元素。这些循环群的群运算(group operation)可以被定义如下:
,其所在群的阶为1
。对于不对称的一张照片
,其所在群的阶为2
。
将变化为
:
:
中的元素都有相同的概率出现。因此,由于经过J图像处理后循环群变为了
,我们只需要证明以下运算为同态(homomorphism):
在原分布D上有着相同的概率,意味着每个输出
也具备相同的概率,也意味着
不具备视觉手性。
是向右平移一格并剪裁,
是向右平移两个并剪裁)的结合,每一种有相同概率出现。
,
,
),而他们分别与T具备交换律时,我们可以用以下公式表达新的图像分布:
,
,
)单独并不和T具备交换律,但在一种打乱的排列下具备交换性,如图中不同颜色的箭头所示。这种排列带来的交换律的关系可以用以下公式表达(a和b为排列中的序号)。
-
首先将任意图片x进行填充,并确保边缘足够大。 -
将填充后的图片进行Φ平移。 -
通过先后运算T和J,得到两种图片:
和
-
将这两个图片用T(-Φ)平移回原处。 -
将这两个图片多余的填充像素剪裁掉。
和
)检查以下残差是否为0:
总结




