

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

极市平台

2025-11-25

↑ 点击蓝字关注极市平台

作者丨机器之心

来源丨机器之心

编辑丨极市平台

极市导读

BraInCoRL把每个脑体素当作独立任务，用元学习+上下文Transformer仅看100张图就为零样本新被试生成体素编码器，跨数据集、跨扫描仪仍与9000图全量训练性能持平，首次让个体化视觉皮层模型无需微调。>>加入极市CV技术交流群，走在计算机视觉的最前沿

本文作者来自香港大学、香港中文大学、卡内基梅隆大学、哈佛大学、哥伦比亚大学等多所顶尖高校。其中论文第一作者是喻牧泉，来自香港中文大学，主要研究方向为计算神经科学与脑机接口。通讯作者为罗逸飞（Andrew F. Luo），香港大学助理教授。

人类高级视觉皮层在个体间存在显著的功能差异，而构建大脑编码模型（brain encoding models）—— 即能够从视觉刺激（如图像）预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据（数千张图像对应的脑活动），成本高昂且难以推广。尽管现有方法可利用预训练视觉模型（如 CLIP ）提取图像特征，并通过线性回归拟合脑响应，这类模型仍严重依赖大量被试内数据，在少样本甚至零样本条件下难以快速适应新个体，限制了其在临床、个性化神经科学等现实场景中的应用。

为解决这一挑战，BraInCoRL（Brain In-Context Representation Learning）提出一种基于元学习的上下文Transformer跨被试脑编码模型，仅凭少量示例图像及其对应的脑活动数据，即可无需微调地预测新被试在面对全新图像时的脑响应。该模型在多个公开fMRI数据集上表现出卓越的数据效率与泛化能力，甚至可跨扫描仪、跨协议进行有效预测。

本工作发表于 NeurIPS 2025 中的文章《Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex》。

论文链接：https://arxiv.org/abs/2505.15813
代码链接：https://github.com/leomqyu/BraInCoRL

01 背景和创新

人类高级视觉皮层（如梭状回面孔区 FFA、海马旁位置区 PPA 等）对语义类别（人脸、场景、食物等）具有选择性响应。尽管这些区域在被试间位置大致一致，但精细的功能组织存在显著个体差异 —— 这使得为每个新被试构建高精度编码模型必须依赖大量功能磁共振成像（fMRI）扫描（通常需数千图像），成本极高。

当前主流方法多采用“图像特征 + 线性回归”的范式，虽在单个被试上表现良好，但无法跨被试泛化，必须为每位新用户重新训练模型。近期一些工作尝试引入 Transformer 架构建模多被试数据，但仍需在新被试数据上进行微调，未能真正摆脱对大量个体数据的依赖。

针对这一瓶颈，本文提出一种全新的建模范式：将每个脑体素（voxel）视为一个独立的、从视觉刺激到神经响应的响应函数。fMRI 测量仅提供该函数在有限输入下的带噪采样，而训练目标是从这些稀疏观测中推断出一个可计算、可泛化的映射。基于元学习和上下文学习范式，本文提出一种全新的BraInCoRL脑编码架构，在训练阶段从多被试数据中学习视觉皮层响应的共享结构；在测试阶段，仅需提供极少量（如 100 张）新被试的图像-脑响应对作为上下文，即可无需任何微调，直接生成适用于该被试的体素级编码器，并准确预测其对全新图像的神经活动。

02 方法细节

元学习 + 上下文学习：将每个体素视为一个任务

BraInCoRL 的核心思想是将每个体素的视觉响应建模为一个独立的函数推断任务，并将其置于元学习（meta－learning）与上下文学习（in－context learning，ICL）的统一框架下。

具体而言，对任意体素（可来自任意被试），我们假设存在一个未知但可计算的映射函数：

其中为输入图像，为该体素对的 fMRI 响应（即 beta 值）。

传统方法将此视为监督回归问题，需为每个新被试单独拟合。而 BralnCoRL 将其重新定义为：

给定一个支持集（support set）

其中是由冻结的视觉编码器（如 CLIP）提取的图像嵌入。学习目标是在不更新任何参数的情况下，直接推断出，并用于预测新图像的响应。

为实现这一目标，BralnCoRL 将每个体素视为一个元学习任务。在训练阶段，模型从多个被试的数千个体素中随机采样，通过 Transformer 学习跨被试、跨体素的视觉一神经映射共性，即学习一个通用的上下文推理算法。

在测试阶段，当面对一个全新被试时，仅需提供其少量（例如 100 个）图像－脑响应对（image－activation pair）作为上下文输入。模型通过前向计算，动态生成该被试专属的体素编码器：

其中即是 BraInCoRL 中的高级视觉皮层上下文 Transformer。

架构设计：

架构上，BraInCoRL 包含三个部分：

冻结的图像特征提取器（如 CLIP、DINO）将图像编码为图像嵌入（image embeddings）；
高级视觉皮层上下文 Transformer：接收若干图像嵌入-脑响应对作为上下文，通过自注意力机制融合跨被试知识，并直接生成体素编码器的权重；
轻量体素编码器：线性层，使用生成的权重对新图像预测脑响应。

此架构在训练时显式优化上下文学习能力，使模型学会如何从少量样本中推断出一个体素的响应函数。

三阶段训练策略：

预训练阶段：使用合成的体素权重与噪声构造大量虚拟体素任务，训练模型基础能力。
上下文扩展阶段：引入可变长度的上下文样本，提升模型对不同样本数量的适应能力。
有监督微调阶段：使用真实fMRI数据进一步优化，使模型适应生物脑响应特性。

03 实验结果

3.1 极高的数据效率

在Natural Scenes Dataset （NSD）数据集上，BraInCoRL仅使用100张上下文图像，即在多个类别选择性脑区（如面孔、地点、身体、食物、文字）上达到与全量训练模型（9,000张图像）相近的解释方差，显著优于基于相同样本量的岭回归基线。同时在上下文数量变化的情况下，模型也表现出强大的稳定性。