李开阳,康涅狄格大学博士生
内容简介
低秩适应(LoRA)是当前大型语言模型(LLMs)最主流的参数高效微调(PEFT)方法。近期的Tied-LoRA、VeRA、VB-LoRA等变体通过引入结构约束进一步压缩参数规模。本文指出,这些方法的本质均可统一于一个框架——Uni-LoRA。该框架将所有LoRA可训练参数视为高维向量空间 ℝD 中的元素,实际训练则在低维子空间 ℝd(d≪D)中进行,并通过投影矩阵 P∈ℝD×d 重构原空间参数。不同LoRA方法的核心差异,实为投影矩阵P的设计方式。
现有变体多采用分层或结构化投影,虽实现压缩但限制跨层共享,影响效率。为此,本文提出一种具备理论支撑的等距投影矩阵,支持全局参数共享并显著降低计算成本。在Uni-LoRA框架下,仅需训练一个低维向量即可重构整个模型的LoRA参数,实现“单向量微调”。实验表明,该方法在GLUE、数学推理和指令微调等任务上性能持平或优于现有方法,同时达到最高参数效率。
论文地址:https://arxiv.org/pdf/2506.00799
代码链接:https://github.com/KaiyangLi1992/Uni-LoRA
论文解读
Uni-LoRA中的“Uni”既代表“Uniform”(统一),也寓意“Unique”(独特)。该研究旨在通过极致参数压缩,在保持模型性能的同时大幅提升训练效率。其核心贡献包括:一是构建统一分析框架,将主流LoRA变体纳入同一范式;二是提出新型投影机制,实现仅用单一向量完成全模型LoRA微调。
统一框架:LoRA变体的共性抽象
传统LoRA将权重更新ΔW分解为两个低秩矩阵乘积(ΔW=BA)。后续变体在此基础上优化:
- VeRA固定大矩阵A、B,仅训练对角矩阵d和小矩阵b;
- Tied-LoRA实现A、B矩阵跨模块共享;
- LoRA-XS则固定A、B,仅训练中间R×R小矩阵。
这些方法均通过将参数投影至结构化低维子空间实现压缩,但缺乏统一视角。Uni-LoRA将其形式化为三步流程:
- 将所有LoRA模块的矩阵A、B扁平化为向量;
- 拼接所有向量形成高维完整参数向量 θD;
- 在低维子空间 ℝd 中训练向量 θd(d≪D),并通过投影矩阵P重构:θD=Pθd。
由此,不同方法的区别归结为投影矩阵P的结构设计。例如,原始LoRA对应对角矩阵P,VeRA对应稀疏投影矩阵。
创新设计:等距投影矩阵
Uni-LoRA提出的投影矩阵P具备两大关键特性:
- 行向独热选择:每行随机选取一个非零元素,其余置零;
- 列归一化处理:每列非零元按1/√nj归一化(nj为第j列非零数)。
该设计本质是对LoRA参数进行随机分组,强制组内共享参数值,从而实现高效压缩。
核心优势
- 全局性:支持跨层参数共享,适配不同层信息密度,减少冗余;
- 均匀性:均衡映射高维空间信息,保障各维度传输效率一致;
- 等距性:保持参数空间距离与几何结构不变,确保优化曲面一致性,兼容Adam等常用优化器。
此外,投影矩阵P可随机生成,仅需存储随机种子,无需额外内存;其稀疏性使计算复杂度控制在O(D),远高于传统等距投影方法(如高斯投影、Fastfood)的效率。
实验验证
在多个基准与模型上的测试结果验证了Uni-LoRA的有效性:
- GLUE基准:使用0.023M参数,在MRPC、SST-2、CoLA等任务中取得88.3平均分,优于LoRA(0.786M参数,87.8分)与VeRA(0.061M参数,87.8分);
- 大模型微调:在Llama2-7B上以0.52M参数(仅为LoRA的0.3%)获得3.56分,超过LoRA(3.23)与VB-LoRA(3.46);在Llama2-13B上以1.0M参数(LoRA的0.4%)达4.43分,表现领先;
- 数学推理:在Mistral-7B上以0.52M参数取得68.54(GSM8K)与18.18(MATH)分,性能接近LoRA;在Gemma-7B上GSM8K达75.59,超越LoRA的74.90,MATH达28.94,接近LoRA的31.28。
Uni-LoRA通过统一框架整合主流LoRA变体,结合创新的等距投影设计,在显著压缩可训练参数的同时保持甚至提升模型性能,为大模型轻量化微调提供了高效、可行的新路径。

