大数跨境
0
0

杨立昆路线的新胜利:VL-JEPA来了,抛弃预测下一个词,不靠生成,照样SOTA

杨立昆路线的新胜利:VL-JEPA来了,抛弃预测下一个词,不靠生成,照样SOTA AIGC开放社区
2025-12-26
7
导读:VL-JEPA视觉语言模型。
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。

人工智能研究中,Yann LeCun(杨立昆)提出一个核心观点:仅靠以语言为中心、基于预测下一个词的规模化模型,无法通向真正具备常识、因果理解与规划能力的通用智能;因其缺乏对物理世界的内在表征与世界模型,难以实现自主学习与可靠推理,本质上仍是强大工具,而非AGI的终极路径。

在其标志性论文《通往自主机器智能的道路》中,他系统提出替代性技术框架,并设计出联合嵌入预测架构(Joint Embedding Predictive Architecture,JEPA)。

近日,Meta FAIR、香港科技大学、索邦大学与纽约大学联合发布基于JEPA的新型视觉-语言模型——VL-JEPA。

VL-JEPA摒弃传统视觉语言模型逐Token生成的低效范式,转而在抽象嵌入空间中直接预测语义,以仅1.6B参数量达成SOTA性能,并在实时视频理解任务中实现近3倍效率提升。

回归语义本质

当前主流AI仍由基于Transformer的自回归模型主导。给模型输入一张图像,它必须逐词生成描述,训练与推理成本极高。

VL-JEPA另辟路径:不再预测具体词汇,而是直接预测目标文本在高维语义空间中的嵌入坐标(Embedding)。

在此空间中,“灯灭了”与“房间变暗了”等语义相近表达高度聚类,模型只需定位方向,无需拘泥字面形式。这种非生成式(Non-generative)设计剥离语言表象,聚焦核心语义,显著降低学习难度与计算开销。

架构的精密运转逻辑

VL-JEPA由四个核心组件构成,整体围绕“向量距离驱动理解”展开。

X-Encoder(视觉编码器)接收图像或视频,压缩为紧凑视觉嵌入向量;采用冻结参数的V-JEPA 2 ViT-L模型,已在自监督视觉任务中验证其信息浓缩能力。

Y-Encoder(文本编码器)将目标文本映射至连续潜在空间,构建语义聚类结构,是模型理解质量的关键基础。

Predictor(预测器)作为核心大脑,接收视觉嵌入与文本查询(如“这人在干嘛?”),输出对应文本嵌入向量;初始化自Llama-3 Transformer层,具备原生语言理解底座。

Y-Decoder(文本解码器)为轻量级翻译模块,仅在需人类可读输出时激活,将预测嵌入转化为自然语言句子。

模型训练目标明确:最小化预测嵌入与真实文本嵌入间的距离。为防止坍缩,采用InfoNCE损失函数——通过对比学习拉近正样本、推远负样本,在抽象空间中构建清晰语义地图。

该机制使VL-JEPA天然适配无标准答案任务:真实世界中同一动作描述多样,传统模型受限于离散词表,而VL-JEPA只需锚定语义聚类中心即可。

选择性解码艺术

针对视频理解实时性难题,VL-JEPA引入选择性解码(Selective Decoding)机制。

模型持续输出语义嵌入流,当监测到语义方差低于阈值(即画面未发生显著事件)时,保持静默,不触发解码;仅当语义突变发生,才唤醒Y-Decoder生成文字描述。

实验表明,在CIDEr分数相当前提下,VL-JEPA解码操作次数减少约2.85倍,大幅优化功耗与延迟,特别适用于智能眼镜、家庭机器人等边缘设备。

相较传统VLM受限于串行自回归生成,VL-JEPA嵌入流支持并行、连续更新,可随视频流实时刷新世界认知。

严苛对比下的性能统治力

Meta团队开展控制变量对比实验:对照组为标准Token生成式VLM,二者共享相同视觉编码器、空间分辨率、帧率、训练数据(DataComp、YFCC-100M、HowTo100M)、Batch Size及训练步数,唯一差异在于预测目标——Token vs. Embedding。

结果证实VL-JEPA优势显著:训练500万样本后,Top-5分类准确率达35.3%,高于对照组的27.2%;且全程维持领先态势。

在SSv2、EgoExo4D等强调动作与过程的视频基准上,VL-JEPA全面超越CLIP、SigLIP2与Perception Encoder,不仅识别物体外观,更深入理解动态交互关系。

经监督微调(SFT)后,VL-JEPA在视觉问答(VQA)、GQA(组合推理)、TallyQA(复杂计数)及POPE(物体幻觉检测)等任务中逼近SOTA水平。

在世界预测(World Prediction)任务中——即根据起始图与终点图推断中间动作——VL-JEPA准确率甚至超越GPT-4o、Claude-3.5与Gemini-2等千亿参数大模型,凸显其在物理因果推理上的独特优势。

这一能力使其成为具身智能(Embodied AI)的理想大脑:机器人无需反复生成分析文本,即可基于嵌入空间预测自身行为后果,高效响应物理环境变化。

团队同步公开关键工程经验: • 预训练不可跳过——跳过图文预训练直接SFT将致分类准确率暴跌21.7%; • Y-Encoder学习率需设为X-Encoder的0.05–0.1倍,过快易发散,过慢难收敛; • InfoNCE损失函数在分类与检索任务中显著优于余弦/L1/L2距离,具抗坍缩特性; • 更强的视觉对齐文本编码器(如PE模型)可进一步提升性能,架构潜力尚待释放。

VL-JEPA标志着视觉语言模型正从“学会说话”迈向“学会思考”。

参考资料: https://arxiv.org/pdf/2512.10942 https://openreview.net/pdf?id=BZ5a1r-kVsf

【声明】内容源于网络
0
0
AIGC开放社区
1234
内容 1525
粉丝 0
AIGC开放社区 1234
总阅读9.5k
粉丝0
内容1.5k