

DINOv3确实很“类脑”！Meta 深度研究揭示模型、训练与数据的三重影响

极市平台

2025-09-02

导读：模型越大、训练越久、数据越贴近人类日常，学到的表征就越“类脑”

↑ 点击蓝字关注极市平台

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

AI 视觉模型为什么越来越像人脑？Meta AI 与巴黎高师的最新研究给出了答案：模型越大、训练越久、数据越贴近人类日常，学到的表征就越“类脑”。这不仅让我们更理解 AI，也为探索大脑本身带来了新线索。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

近年来，一个引人入胜的现象是，先进的AI视觉模型在处理图像时，其内部的表征（representations）与人脑的神经活动惊人地相似。但这背后深层的驱动力是什么？是模型架构、训练数据，还是训练时长？为了解开这个谜题，来自Meta AI和巴黎高等师范学院的研究者们进行了一项系统性的研究，深入剖析了这三大因素如何独立及共同作用，推动AI模型向“类脑”的视觉系统演化。

这项研究的核心是，通过系统地训练一系列自监督视觉Transformer模型（DINOv3），并将其与高时空分辨率的人脑活动数据（fMRI和MEG）进行对比，从而“解耦”（Disentangle）各个因素的影响。研究结果不仅证实了AI与大脑的趋同性，更揭示了这种趋同性背后遵循着特定的时空规律，甚至与大脑皮层的结构和功能属性息息相关。

论文标题： Disentangling the Factors of Convergence between Brains and Computer Vision Models
作者天团： Joséphine Raugel, Marc Szafraniec, Huy V. Vo, Camille Couprie, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Rémi King
机构： Meta AI, 巴黎高等师范学院-PSL大学 (Ecole Normale Supérieure - PSL Université)
论文地址： https://arxiv.org/abs/2508.18226

01 研究背景：AI与大脑的“不谋而合”

现代深度学习模型，尤其是在计算机视觉领域，已经在许多任务上达到了甚至超越了人类的水平。更令人惊讶的是，这些模型的内部工作方式似乎在模仿大脑。大量研究通过功能性磁共振成像（fMRI）、脑磁图（MEG）等技术发现，AI模型的激活模式可以线性地预测出大脑在看到相同图像时的神经响应。

然而，之前的研究大多使用预训练好的模型，这些模型在架构、训练目标和数据上各不相同，使得很难弄清楚究竟是哪个因素导致了这种“不谋而合”。本研究的重大意义就在于，它首次通过严格控制变量的方法，系统地探究了模型尺寸、训练量和图像类型这三个关键因素的作用。

02 研究方法：如何量化“类脑”程度？

为了精确衡量AI模型与大脑的相似度，研究者采用了三种互补的度量指标：

编码分数 (Encoding Score): 这是最核心的指标，通过线性回归模型，衡量从AI模型各层的激活值预测大脑神经活动（fMRI或MEG信号）的准确度。分数越高，代表AI的表征与大脑的表征越相似。
空间分数 (Spatial Score): 基于fMRI数据，该指标衡量AI模型的层次结构是否与大脑视觉皮层的空间组织结构相对应。一个“类脑”的模型，其浅层应该更好地预测初级视觉皮层（如V1）的活动，而深层则应更好地预测高级视觉区域（如前额叶皮层）的活动。
时间分数 (Temporal Score): 基于MEG数据，该指标衡量AI模型的层次结构是否与大脑处理视觉信息的时间动态相对应。即，模型的浅层应与大脑的早期神经响应（~100ms）对齐，深层则与晚期响应对齐。

研究团队基于强大的自监督模型 DINOv3，训练了多个变体，系统地改变其模型尺寸、训练步数以及训练数据的类型（人类中心的自然图像、卫星图像、细胞图像）。

03 核心发现：解耦三大因素的影响

1. DINOv3确实很“类脑”

首先，研究证实了完全训练好的DINOv3模型与人脑视觉通路具有高度的相似性。其表征能够显著预测从初级视觉皮层到高级前额叶区域的fMRI信号，以及图像出现后长达3秒的MEG信号。

更重要的是，模型的计算层次与大脑的时空处理层次完美对应：模型浅层对应大脑的初级、快速响应；模型深层对应大脑的高级、慢速响应。

2. “类脑”特性的涌现过程

研究的关键发现来自于对模型训练过程的分析。结果表明，“类脑”特性不是一蹴而就的，而是遵循着一个特定的“发育”轨迹。在训练初期，模型首先与大脑的初级感觉皮层（如V1, V2）对齐。随着训练的进行，与更高级皮层的相似性才逐渐涌现。

研究者引入了“半衰期”（half time）的概念，即相似度分数达到其最终值一半所需的训练量。分析发现，大脑中距离V1越远的区域，其对应的“半衰期”越长，意味着需要更多的训练才能与模型对齐。这个过程完美复现了大脑视觉通路从后到前的处理流。

3. 模型尺寸的影响：越大越“聪明”

研究发现， 模型尺寸越大，其与大脑的相似度越高。更大的模型不仅在最终的编码、空间和时间分数上表现更好，而且这种优势在高级皮层（如BA44, IFS）上尤为明显。这表明，增加模型容量是实现与大脑高级功能对齐的关键。

4. 图像类型的影响：生态有效性至关重要

研究比较了在三种不同类型图像（人类中心的自然图像、卫星图像、细胞图像）上训练的模型。结果显示，尽管所有类型的图像都能让模型学习到一些通用的低级视觉特征，但 只有在人类中心的自然图像上训练的模型，才能与大脑达成最高度的整体相似性。这强调了训练数据的“生态有效性”（ecologically valid）——即数据需要反映生物体在自然环境中接收的视觉输入——对于构建类脑模型至关重要。