大数跨境
0
0

NeurIPS 25|清华新作LLM-Filter:大模型正式跨入状态估计领域

NeurIPS 25|清华新作LLM-Filter:大模型正式跨入状态估计领域 极市平台
2025-11-07
2
↑ 点击蓝字 关注极市平台
来源丨清华大学
编辑丨极市平台

极市导读

 

清华大学李升波教授课题组在 NeurIPS 2025 提出的 LLM-Filter,首次将状态估计引入大语言模型框架。该方法通过语义空间与状态空间对齐,让模型在无需特定训练的情况下也能进行准确估计,显著提升了滤波器的泛化能力。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

本⽂介绍了清华⼤学李升波教授课题组在 NeurIPS 2025 上发表的最新研究成果——《One Filters All: A Generalist Filter for State Estimation》。现有学习型滤波器依赖对特定系统的训练优化,在泛化能力方面存在不足。针对该问题,本研究首次提出通⽤⼤模型滤波框架 (LLM-Filter),通过将状态空间与⼤模型的词表语义空间对齐,使状态估计能够⾃然融⼊⼤模型的推理过程。借助预先设计的提示语进行上下文引导,LLM-Filter 能够在未经过训练的系统上进行状态估计,有效突破了学习型滤波方法在泛化能力上的局限。

论文链接: https://arxiv.org/abs/2509.20051

项目链接: https://github.com/Anonymous-User-2367/LLM-Filter

01 状态估计的泛化困境

1.1 什么是状态估计?

状态估计(State Estimation)是现代科学与工业控制的核心问题之一。其目标是在存在噪声和不确定性的观测数据下,准确推断出动态系统(如机器人、飞行器或工业仪器)的真实内部状态(例如位置、速度、负荷等)。

1.2 现有方法的局限性:

一般来说,面向工业控制的状态估计方法主要分为两大类::

  1. 贝叶斯滤波器:状态估计的最基本的框架是贝叶斯滤波,它通过迭代预测步和更新步来在线估计状态。流行的在线贝叶斯滤波器可以分为高斯滤波器和粒子滤波器。在高维非高斯系统中,高斯滤波器往往会产生近似误差,而粒子滤波器受其大量计算需求的限制了应用场景。

  2. 学习型滤波器:近年,研究者提出了基于深度学习或强化学习的学习型滤波器 。这些方法通过在大量数据上进行训练,直接学习从观测到状态的映射关系 。然而,学习型滤波器的效果依赖于特定任务的数据集,导致其泛化能力不足 。一旦系统发生改变或需要将其应用于一个全新的系统,模型性能就会急剧下降,必须重新收集数据训练。

现有方法的局限性与研究动机

作为滤波问题的对偶问题,控制问题推动了通用控制模型(VLA模型)的开发,这些模型利用大语言模型(LLM)或视觉语言模型(VLM)的训练知识,不需要依赖特定任务的数据集,既能提升特定控制任务的性能,又能具备跨多样化控制任务的泛化能力。

LLM-Filter原理示意图

受通用控制模型成功的启发,该研究提出了一种通用滤波器——LLM-Filter。该方法通过与大语言模型进行恰当的模态对齐,充分利用 LLM 的先验知识与泛化能力,无需依赖特定任务的数据集即可实现状态估计,从而展现出对多样化环境更强的适应性。

02 LLM-Filter的关键技术

LLM滤波器的框架:

(1)观察嵌入:将观测序列切分并嵌入到大语言模型的词表语义空间中。

(2)上下文推理:将观测特征与引导提示融合,输入LLM推理。

(3)状态映射:将 LLM 输出的语义特征投影回状态空间,并构造优化目标。

LLM-Filter 框架

2.1 观测嵌入

滑动窗口: 状态估计目标是基于所有可用观测值   来估计状态  。然而,直接输入不断增长的观测序列在实际中并不可行。受到 滑动估计器  和 大语言模型的上下文窗口 的启发,该研究设计了一个固定长度为   的滑动窗口用于估计。 输入观测定义为    。 对应的输出估计为   。  其中真实状态为   。这里   和   分别表示观测变量和状态变量的维度。

分割嵌入: 为了将连续观测与离散的 LLM token 对齐,该研究对输入观测进行分段并嵌入到 LLM 中。常见的分段方法是采用单序列展开,即直接将所有维度的数据展平。但这种方式会破坏变量间的固有关系,例如位置与速度之间的重要关联,而这种关系对位置估计至关重要。  为保留这些相关性,该研究采用基于分段长度   的多维分段方式:

其中每个分段  ),  表示向下取整。如果   不能被   整除,则在末尾进行 padding,以保证分段长度一致。  为了充分利用 LLM 的预训练知识及其 token 转换特性,该研究冻结其参数,并去掉原本针对语言 token 的嵌入和投影层。取而代之的是引入观测嵌入层:

2.2 上下文推理

传统的学习型滤波器仅依赖观测数据来估计真实状态,因此难以识别潜在系统动力学,泛化能力较差。  为解决这一问题,该研究利用 LLM 的 上下文学习能力 ,提出一种新的提示策略 SaP,帮助 LLM-Filter 灵活适应不同系统。

SaP 由两部分组成:

  • 任务指令(Task Instruction):提供关键的上下文知识,不同领域可有所差异;
  • 任务示例(Task Examples):给出具体案例,帮助模型更好地理解任务。
SaP样例示意图

在推理阶段,SaP 文本   会输入到预训练 LLM 的分词器中:

其中   为分词后的上下文 token 数量。

2.3 状态映射

该研究输入 SaP 提示 与前一时刻观测的嵌入 token,用于生成下一时刻的状态估计特征。  为实现模态对齐,去掉 LLM 原本的嵌入层和投影层,仅使用核心层。具体来说,将 SaP 上下文 token 和观测嵌入     直接输入核心层,得到输出嵌入:

随后,该研究使用投影层     将输出嵌入   投影到系统状态空间,得到最终估计:

最后,该研究最小化真实状态   与估计值   的误差,以优化 LLM-Filter 的参数 

03 实验结果

3.1 精度估计任务

该研究在六个经典系统上评估 LLM-Filter 的基本状态估计能力,包含四个非线性系统(Selkov,Oscillator,Hopf,Pendulum)和两个高维混沌系统(Lorenz96和VL20)。并与现有贝叶斯滤波和学习型滤波方法对比,整体估计的误差(RMSE)如下表所示:

3.2 泛化估计任务

1.模型失配

该研究在 SelkovOscillator 和 Hopf 系统上测试了 LLM-Filter 的 模型失配 情景,量化指标为 观测协方差误差比(OCER),即实际观测方差和设定方差的比值。

模型失配性能对比

2.跨系统泛化

在此实验中,该研究评估完全不同系统的 泛化性能。 具体而言,对于 LLM-Filter 以及学习型滤波器 KalmanNet、MEstimator、RStateNet 和 ProTran,该研究在一个系统上训练,并在另一个系统上测试性能。 空心柱表示 跨系统(cross-system) 场景,而实心柱表示 训练和测试在同一系统 的情况。 例如,“Tracking → Pendulum” 表示模型在 Tracking 系统上训练,并在 Pendulum 系统上进行评估

跨系统泛化性能对比

3.3 模型性质探索

该研究研究 LLM-Filter 在状态估计任务中的 scaling 行为,通过使用不同参数规模的 LLM 作为骨干网络进行评估。  结果表明:随着模型参数增加,RMSE 下降,估计精度提高,但训练时间也会增加

Scaling 行为实验

3.4 超参数敏感性

该研究验证 LLM-Filter 对超参数的 鲁棒性,包括窗口长度 T、隐藏层维度,以及 ObsEmbedding 和 StateProjection 中 MLP 层数。

超参数敏感性分析

04 总结

该研究提出LLM-Filter通用滤波算法设计,创新性地将状态估计融入大语言模型的推理框架,借助其先验知识与泛化能力,解决传统滤波方法在新系统上泛化性差的问题。实验表明,该模型在未训练的系统中能依据上下文引导进行状态估计,泛化性能表现优于现有贝叶斯滤波器和学习型滤波器,有望成为科学与工程领域一类新的基础模型。

参考文献:

[1] Liu, S., Cao, W., Liu, C., He, Z., Zhang, T., & Li, S. E. (2025). One Filters All: A Generalist Filter for State Estimation.  In Proc. NeurIPS 2025.

[2] Li S E. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer Verlag, 2023.

[3] He, W., He, Z., Cao, W., Gao, H., Liu, T., Shuai, B., ... & Li, S. E. (2025). Design and Experimental Test of Datatic Approximate Optimal Filter in Nonlinear Dynamic Systems. IEEE ICCA 2025, 803–810.

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


【声明】内容源于网络
0
0
极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
内容 8155
粉丝 0
极市平台 为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
总阅读919
粉丝0
内容8.2k