

没有思考过 Embedding，不足以谈 AI

极市平台

2025-08-25

↑ 点击蓝字关注极市平台

作者丨哈工大团队

来源丨PaperAgent

编辑丨极市平台

极市导读

Embedding终于有份“说明书”。哈工大万字综述一次性说清：文本嵌入如何用 PLM 完成通用、多模态、多语言的三级跳，并给出性能跃迁的三板斧。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

文本嵌入（Text Embedding）几乎贯穿了所有 NLP 任务：检索、分类、聚类、问答、摘要……
随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型（PLM）的出现，文本嵌入进入了“通用+可迁移”时代。
哈工大这篇 30+ 页综述系统回答了（论文链接在文末）：

通用文本嵌入（GPTE）的架构、数据、模型
PLM 到底给GPTE带来了哪些基础能力与高级扩展？

01 一张图先看清 GPTE 架构

骨干：任意 PLM（BERT、T5、LLaMA…）
池化：CLS / Mean / Last-Token / Prompt-Pooling
训练：大规模文本对 + InfoNCE 对比损失
微调：任务特定的轻量适配（LoRA、Adapter）

02 PLM 的「基础角色」

基于不同预训练语言模型（PLM）主干的通用文本嵌入（GPTE）模型性能对比，聚焦于广泛采用的开源 PLM：模型规模越大、主干越强，GPTE 性能越好，但解码器架构需更多参数才能与编码器架构匹敌。

03 PLM 的「高级角色」

（6）多模态

说到多模态，典型应用是RAG检索，从rag到multimodal-rag已然成一种趋势
另外现有MLLM能力也都很强，给一张照片，就能基于掌握的知识（结合河流走向和城市结构）推理出这是：纳什维尔（Nashville）是美国田纳西州

模型	模态	训练数据	特色
E5-V	T + I	LLaVA-NeXT	把 LLM 当图文编码器
VLM2Vec-V2	T + I + V	Qwen2-VL	统一视频/图像/文档检索
MegaPairs	T ↔ I	合成 500M 图文对	数据即战力

（7）多语言

模型	Backbone	语言数	亮点
mE5	XLM-R	100+	中英跨语种零样本检索
BGE-M3	XLM-R + Long	200+	8192 token 长文本

（8）代码嵌入

早期：CodeBERT、GraphCodeBERT（结构+文本）
LLM 时代：CodeLlama、DeepSeek-Coder → 直接做 Code Embedding
对比学习：UniXcoder、ContraBERT、CodeSage

04 三句话总结

PLM 让文本嵌入从“专用”走向“通用”，现在正迈向“多模态+多语言+多任务”大一统。
数据合成 + 对比学习 + 大模型上下文窗口，是当前性能提升的三板斧。
下一步，嵌入模型需要“会推理、懂安全、能解耦”，而不仅是向量维度更高。

https://arxiv.org/pdf/2507.20783v1
On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

【声明】内容源于网络

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

内容 8155

粉丝 0

极市平台为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

总阅读5.7k

粉丝0

内容8.2k