NeurIPS Spotlight | 压缩 LoRA 400倍！Uni-LoRA：仅需一个向量，微调千亿大模型！

AI TIME 论道

2025-12-11

导读：点击“阅读原文”即可直接查看作者直播回放！

李开阳，康涅狄格大学博士生

内容简介

低秩适应（LoRA）是当前大型语言模型（LLMs）最主流的参数高效微调（PEFT）方法。近期的Tied-LoRA、VeRA、VB-LoRA等变体通过引入结构约束进一步压缩参数规模。本文指出，这些方法的本质均可统一于一个框架——Uni-LoRA。该框架将所有LoRA可训练参数视为高维向量空间 ℝ^D 中的元素，实际训练则在低维子空间 ℝ^d（d≪D）中进行，并通过投影矩阵 P∈ℝ^D×d 重构原空间参数。不同LoRA方法的核心差异，实为投影矩阵P的设计方式。

现有变体多采用分层或结构化投影，虽实现压缩但限制跨层共享，影响效率。为此，本文提出一种具备理论支撑的等距投影矩阵，支持全局参数共享并显著降低计算成本。在Uni-LoRA框架下，仅需训练一个低维向量即可重构整个模型的LoRA参数，实现“单向量微调”。实验表明，该方法在GLUE、数学推理和指令微调等任务上性能持平或优于现有方法，同时达到最高参数效率。

论文地址：https://arxiv.org/pdf/2506.00799

代码链接：https://github.com/KaiyangLi1992/Uni-LoRA

论文解读

Uni-LoRA中的“Uni”既代表“Uniform”（统一），也寓意“Unique”（独特）。该研究旨在通过极致参数压缩，在保持模型性能的同时大幅提升训练效率。其核心贡献包括：一是构建统一分析框架，将主流LoRA变体纳入同一范式；二是提出新型投影机制，实现仅用单一向量完成全模型LoRA微调。

统一框架：LoRA变体的共性抽象

传统LoRA将权重更新ΔW分解为两个低秩矩阵乘积（ΔW=BA）。后续变体在此基础上优化：

VeRA固定大矩阵A、B，仅训练对角矩阵d和小矩阵b；
Tied-LoRA实现A、B矩阵跨模块共享；
LoRA-XS则固定A、B，仅训练中间R×R小矩阵。

这些方法均通过将参数投影至结构化低维子空间实现压缩，但缺乏统一视角。Uni-LoRA将其形式化为三步流程：

将所有LoRA模块的矩阵A、B扁平化为向量；
拼接所有向量形成高维完整参数向量 θ_D；
在低维子空间 ℝ^d 中训练向量 θ_d（d≪D），并通过投影矩阵P重构：θ_D=Pθ_d。

由此，不同方法的区别归结为投影矩阵P的结构设计。例如，原始LoRA对应对角矩阵P，VeRA对应稀疏投影矩阵。

创新设计：等距投影矩阵

Uni-LoRA提出的投影矩阵P具备两大关键特性：

行向独热选择：每行随机选取一个非零元素，其余置零；
列归一化处理：每列非零元按1/√n_j归一化（n_j为第j列非零数）。

该设计本质是对LoRA参数进行随机分组，强制组内共享参数值，从而实现高效压缩。

核心优势

全局性：支持跨层参数共享，适配不同层信息密度，减少冗余；
均匀性：均衡映射高维空间信息，保障各维度传输效率一致；
等距性：保持参数空间距离与几何结构不变，确保优化曲面一致性，兼容Adam等常用优化器。

此外，投影矩阵P可随机生成，仅需存储随机种子，无需额外内存；其稀疏性使计算复杂度控制在O(D)，远高于传统等距投影方法（如高斯投影、Fastfood）的效率。

实验验证

在多个基准与模型上的测试结果验证了Uni-LoRA的有效性：

GLUE基准：使用0.023M参数，在MRPC、SST-2、CoLA等任务中取得88.3平均分，优于LoRA（0.786M参数，87.8分）与VeRA（0.061M参数，87.8分）；
大模型微调：在Llama2-7B上以0.52M参数（仅为LoRA的0.3%）获得3.56分，超过LoRA（3.23）与VB-LoRA（3.46）；在Llama2-13B上以1.0M参数（LoRA的0.4%）达4.43分，表现领先；
数学推理：在Mistral-7B上以0.52M参数取得68.54（GSM8K）与18.18（MATH）分，性能接近LoRA；在Gemma-7B上GSM8K达75.59，超越LoRA的74.90，MATH达28.94，接近LoRA的31.28。