大数跨境
0
0

没有思考过 Embedding,不足以谈 AI

没有思考过 Embedding,不足以谈 AI 极市平台
2025-08-25
1
↑ 点击蓝字 关注极市平台
作者丨哈工大团队
来源丨PaperAgent
编辑丨极市平台

极市导读

 

Embedding终于有份“说明书”。哈工大万字综述一次性说清:文本嵌入如何用 PLM 完成通用、多模态、多语言的三级跳,并给出性能跃迁的三板斧。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……
随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型(PLM)的出现,文本嵌入进入了“通用+可迁移”时代。
哈工大这篇 30+ 页综述系统回答了(论文链接在文末):

  • 通用文本嵌入(GPTE)的架构、数据、模型
  • PLM 到底给GPTE带来了哪些基础能力高级扩展

01  一张图先看清 GPTE 架构

图1:GPTE 典型架构——Bi-Encoder + 对比学习
  • 骨干:任意 PLM(BERT、T5、LLaMA…)
  • 池化:CLS / Mean / Last-Token / Prompt-Pooling
  • 训练:大规模文本对 + InfoNCE 对比损失
  • 微调:任务特定的轻量适配(LoRA、Adapter)
Embedding训练数据

02  PLM 的「基础角色」

50种有代表性的开源GPTE方法(模型)
50种有代表性的开源GPTE方法(模型)

基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM:模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。

03  PLM 的「高级角色」

(6) 多模态

  • 说到多模态,典型应用是RAG检索,从rag到multimodal-rag已然成一种趋势
  • 另外现有MLLM能力也都很强,给一张照片,就能基于掌握的知识(结合河流走向和城市结构)推理出这是:纳什维尔(Nashville)是美国田纳西州
模型
模态
训练数据
特色
E5-V
T + I
LLaVA-NeXT
把 LLM 当图文编码器
VLM2Vec-V2
T + I + V
Qwen2-VL
统一视频/图像/文档检索
MegaPairs
T ↔ I
合成 500M 图文对
数据即战力
表6:多模态嵌入模型全家福
表7:多模态嵌入数据
表7:多模态嵌入数据

(7) 多语言

模型
Backbone
语言数
亮点
mE5
XLM-R
100+
中英跨语种零样本检索
BGE-M3
XLM-R + Long
200+
8192 token 长文本
表4:多语言 GPTE 模型概览
表4:多语言 GPTE 模型概览
表5:多语言 GPTE 训练数据概览
表5:多语言 GPTE 训练数据概览

(8) 代码嵌入

  • 早期:CodeBERT、GraphCodeBERT(结构+文本)
  • LLM 时代:CodeLlama、DeepSeek-Coder → 直接做 Code Embedding
  • 对比学习:UniXcoder、ContraBERT、CodeSage
表8:基于 CL 的代码嵌入模型
表9:代码嵌入的训练数据
表9:代码嵌入的训练数据

04  三句话总结

  1. PLM 让文本嵌入从“专用”走向“通用”,现在正迈向“多模态+多语言+多任务”大一统。
  2. 数据合成 + 对比学习 + 大模型上下文窗口,是当前性能提升的三板斧。
  3. 下一步,嵌入模型需要“会推理、懂安全、能解耦”,而不仅是向量维度更高。
https://arxiv.org/pdf/2507.20783v1
On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读5.7k
粉丝0
内容8.2k