谢赛宁团队新作iREPA源于一次与网友的线上辩论。
这场辩论虽以谢赛宁被说服告终,但三个月后,多个团队据此合作完成一篇完整论文,其核心框架仅需3行代码。
论文致谢部分特别提及参与讨论的网友。
一篇推特引发的学术论文
事件起因于8月一名网友在社交平台提出观点:
应减少对ImageNet-1K分类分数的依赖;自监督学习(SSL)模型更应面向稠密任务(如REPA、VLM),因其真正依赖patch tokens中的空间与局部信息,而非[CLS]token所代表的全局分类性能。
注:稠密任务指模型需对图像中每个像素或局部区域做出预测,强调空间与局部细节精度,而非整体类别判断。
谢赛宁起初持不同意见,认为patch token的使用并不等同于适配稠密任务,并指出VLM和REPA性能与ImageNet-1K得分高度相关,而与patch级结构关联较弱。
随后网友以SigLIPv2和PE-core在REPA上优于DINOv2为例予以回应。
另一网友进一步建议:可在无DINOv3早期checkpoint条件下,用REPA对比PEspatial与PEcore;其中PEspatial可理解为将PEcore的Gram-anchor对齐至更早网络层,并结合SAM2.1。
谢赛宁回应称该方案可行,并确认已获取两个checkpoint(G/14,448分辨率),期待快速产出结果。
三个月后,谢赛宁公开承认此前观点不成立,并指出此次研究深化了对表征机制的理解。
他还提示读者关注论文致谢部分。
被致谢的网友表示:“也谢谢你一路跟进!被提到很受宠若惊。”
谢赛宁将此次互动视为一次“线上茶水间效应”小实验——先有观点碰撞,再经实证检验,最终回归可验证的科学结论。
这种开放、即时、可纠错的学术交流方式,值得推广。
空间结构才是驱动目标表征生成性能的主要因素
该论文聚焦一个基础问题:在利用预训练视觉编码器指导生成模型时,决定生成质量的关键是其全局语义信息(如ImageNet-1K分类准确率),还是其空间结构(即patch tokens间的成对余弦相似度)?
研究得出明确结论:空间结构而非全局语义,才是表征生成性能的核心驱动力。
传统认知(包括谢赛宁此前观点)认为更强的全局语义性能会带来更好生成效果,但实验显示:更大规模的视觉编码器反而可能降低生成质量;线性检测准确率仅约20%的编码器,性能可超越准确率超80%的模型。
此外,若通过CLS token向patch token注入更多全局语义,生成性能还会进一步下降。
研究还发现:生成效果更优的表征,普遍具备更强的空间结构,可通过空间自相似性指标量化衡量。
即:图像中某patch token对其它区域token的关注模式,显著影响生成表现。
为验证该现象,研究开展大规模定量相关性分析,覆盖27种视觉编码器(含DINOv2/v3、Perceptual Encoders、WebSSL、SigLIP等)及3种模型规模(B/L/XL)。
进一步评测表明:经典空间特征(如SIFT、HOG)也能达到与PE-G等现代大模型相当的生成提升效果。
基于上述发现,研究在REPA框架基础上提出iREPA,主要改进包括:
-
投影层改进:将标准MLP替换为简单卷积层。 -
空间规范化:为外部表征引入空间规范化层。
这些轻量修改旨在保留并强化空间结构,在DeCo等框架下显著提升性能。
iREPA实现极为简洁——仅需3行代码即可嵌入任意表征对齐方法,并在REPA、REPA-E、Meanflow及JiT等多种训练方案中实现更快收敛。
【免责声明】转载出于非商业性的教育和科研目的,只为学术新闻信息的传播,版权归原作者所有,如有侵权请立即与我们联系,我们将及时删除。

