极市导读
Embedding终于有份“说明书”。哈工大万字综述一次性说清:文本嵌入如何用 PLM 完成通用、多模态、多语言的三级跳,并给出性能跃迁的三板斧。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
文本嵌入(Text Embedding)几乎贯穿了所有 NLP 任务:检索、分类、聚类、问答、摘要……
随着 BERT、T5、LLaMA/Qwen3 等预训练语言模型(PLM)的出现,文本嵌入进入了“通用+可迁移”时代。
哈工大这篇 30+ 页综述系统回答了(论文链接在文末):
-
通用文本嵌入(GPTE)的架构、数据、模型 -
PLM 到底给GPTE带来了哪些基础能力与高级扩展?
01 一张图先看清 GPTE 架构
-
骨干:任意 PLM(BERT、T5、LLaMA…) -
池化:CLS / Mean / Last-Token / Prompt-Pooling -
训练:大规模文本对 + InfoNCE 对比损失 -
微调:任务特定的轻量适配(LoRA、Adapter)
02 PLM 的「基础角色」
基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM:模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。
03 PLM 的「高级角色」
(6) 多模态
-
说到多模态,典型应用是RAG检索,从rag到multimodal-rag已然成一种趋势 -
另外现有MLLM能力也都很强,给一张照片,就能基于掌握的知识(结合河流走向和城市结构)推理出这是:纳什维尔(Nashville)是美国田纳西州
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(7) 多语言
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
(8) 代码嵌入
-
早期:CodeBERT、GraphCodeBERT(结构+文本) -
LLM 时代:CodeLlama、DeepSeek-Coder → 直接做 Code Embedding -
对比学习:UniXcoder、ContraBERT、CodeSage
04 三句话总结
-
PLM 让文本嵌入从“专用”走向“通用”,现在正迈向“多模态+多语言+多任务”大一统。 -
数据合成 + 对比学习 + 大模型上下文窗口,是当前性能提升的三板斧。 -
下一步,嵌入模型需要“会推理、懂安全、能解耦”,而不仅是向量维度更高。
https://arxiv.org/pdf/2507.20783v1
On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

