大数跨境
0
0

DINOv3确实很“类脑”!Meta 深度研究揭示模型、训练与数据的三重影响

DINOv3确实很“类脑”!Meta 深度研究揭示模型、训练与数据的三重影响 极市平台
2025-09-02
0
导读:模型越大、训练越久、数据越贴近人类日常,学到的表征就越“类脑”
↑ 点击蓝字 关注极市平台
来源丨我爱计算机视觉
编辑丨极市平台

极市导读

 

AI 视觉模型为什么越来越像人脑?Meta AI 与巴黎高师的最新研究给出了答案:模型越大、训练越久、数据越贴近人类日常,学到的表征就越“类脑”。这不仅让我们更理解 AI,也为探索大脑本身带来了新线索。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

近年来,一个引人入胜的现象是,先进的AI视觉模型在处理图像时,其内部的表征(representations)与人脑的神经活动惊人地相似。但这背后深层的驱动力是什么?是模型架构、训练数据,还是训练时长?为了解开这个谜题,来自Meta AI和巴黎高等师范学院的研究者们进行了一项系统性的研究,深入剖析了这三大因素如何独立及共同作用,推动AI模型向“类脑”的视觉系统演化。

这项研究的核心是,通过系统地训练一系列自监督视觉Transformer模型(DINOv3),并将其与高时空分辨率的人脑活动数据(fMRI和MEG)进行对比,从而“解耦”(Disentangle)各个因素的影响。研究结果不仅证实了AI与大脑的趋同性,更揭示了这种趋同性背后遵循着特定的时空规律,甚至与大脑皮层的结构和功能属性息息相关。

  • 论文标题: Disentangling the Factors of Convergence between Brains and Computer Vision Models
  • 作者天团: Joséphine Raugel, Marc Szafraniec, Huy V. Vo, Camille Couprie, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Rémi King
  • 机构: Meta AI, 巴黎高等师范学院-PSL大学 (Ecole Normale Supérieure - PSL Université)
  • 论文地址: https://arxiv.org/abs/2508.18226

01 研究背景:AI与大脑的“不谋而合”

现代深度学习模型,尤其是在计算机视觉领域,已经在许多任务上达到了甚至超越了人类的水平。更令人惊讶的是,这些模型的内部工作方式似乎在模仿大脑。大量研究通过功能性磁共振成像(fMRI)、脑磁图(MEG)等技术发现,AI模型的激活模式可以线性地预测出大脑在看到相同图像时的神经响应。

然而,之前的研究大多使用预训练好的模型,这些模型在架构、训练目标和数据上各不相同,使得很难弄清楚究竟是哪个因素导致了这种“不谋而合”。本研究的重大意义就在于,它首次通过严格控制变量的方法,系统地探究了模型尺寸、训练量和图像类型这三个关键因素的作用。

02 研究方法:如何量化“类脑”程度?

为了精确衡量AI模型与大脑的相似度,研究者采用了三种互补的度量指标:

  1. 编码分数 (Encoding Score): 这是最核心的指标,通过线性回归模型,衡量从AI模型各层的激活值预测大脑神经活动(fMRI或MEG信号)的准确度。分数越高,代表AI的表征与大脑的表征越相似。
  2. 空间分数 (Spatial Score): 基于fMRI数据,该指标衡量AI模型的层次结构是否与大脑视觉皮层的空间组织结构相对应。一个“类脑”的模型,其浅层应该更好地预测初级视觉皮层(如V1)的活动,而深层则应更好地预测高级视觉区域(如前额叶皮层)的活动。
  3. 时间分数 (Temporal Score): 基于MEG数据,该指标衡量AI模型的层次结构是否与大脑处理视觉信息的时间动态相对应。即,模型的浅层应与大脑的早期神经响应(~100ms)对齐,深层则与晚期响应对齐。

研究团队基于强大的自监督模型 DINOv3,训练了多个变体,系统地改变其模型尺寸、训练步数以及训练数据的类型(人类中心的自然图像、卫星图像、细胞图像)。

03 核心发现:解耦三大因素的影响

1. DINOv3确实很“类脑”

首先,研究证实了完全训练好的DINOv3模型与人脑视觉通路具有高度的相似性。其表征能够显著预测从初级视觉皮层到高级前额叶区域的fMRI信号,以及图像出现后长达3秒的MEG信号。

更重要的是,模型的计算层次与大脑的时空处理层次完美对应:模型浅层对应大脑的初级、快速响应;模型深层对应大脑的高级、慢速响应。

2. “类脑”特性的涌现过程

研究的关键发现来自于对模型训练过程的分析。结果表明,“类脑”特性不是一蹴而就的,而是遵循着一个特定的“发育”轨迹。在训练初期,模型首先与大脑的初级感觉皮层(如V1, V2)对齐。随着训练的进行,与更高级皮层的相似性才逐渐涌现。

研究者引入了“半衰期”(half time)的概念,即相似度分数达到其最终值一半所需的训练量。分析发现,大脑中距离V1越远的区域,其对应的“半衰期”越长,意味着需要更多的训练才能与模型对齐。这个过程完美复现了大脑视觉通路从后到前的处理流。

3. 模型尺寸的影响:越大越“聪明”

研究发现, 模型尺寸越大,其与大脑的相似度越高。更大的模型不仅在最终的编码、空间和时间分数上表现更好,而且这种优势在高级皮层(如BA44, IFS)上尤为明显。这表明,增加模型容量是实现与大脑高级功能对齐的关键。

4. 图像类型的影响:生态有效性至关重要

研究比较了在三种不同类型图像(人类中心的自然图像、卫星图像、细胞图像)上训练的模型。结果显示,尽管所有类型的图像都能让模型学习到一些通用的低级视觉特征,但 只有在人类中心的自然图像上训练的模型,才能与大脑达成最高度的整体相似性。这强调了训练数据的“生态有效性”(ecologically valid)——即数据需要反映生物体在自然环境中接收的视觉输入——对于构建类脑模型至关重要。

5. 与大脑皮层属性的深刻关联

最令人惊叹的发现是,AI模型学习“类脑”表征的“发育”速度,与大脑皮层本身的多种生物属性高度相关。模型学习最慢的那些表征,恰好对应于那些在人类发育中成熟最晚、皮层最厚、髓鞘化程度最低、内在时间尺度最慢的脑区。

这一发现强有力地表明,AI模型的学习轨迹可能在无意中模拟了人类大脑视觉功能的发育过程,为理解大脑如何“学会”看世界提供了一个全新的计算视角。

04 总结与展望

这项研究系统地解耦了模型尺寸、训练量和数据类型对塑造类脑表征的影响,得出了清晰的结论:更大、在更生态化的数据上训练更久的模型,会变得更像大脑。

小编认为这项工作不仅深化了人们对AI与大脑相似性背后原因的理解,更重要的是,它展示了如何利用AI模型作为一种“计算工具”来探索大脑组织的基本原则。通过观察机器如何“学会”像人一样观看,或许能最终揭示人类大脑视觉系统发育和成熟的奥秘。这项研究为连接人工智能和神经科学两大领域架起了一座坚实的桥梁。


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k