|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
摘要
近年来,深度学习技术(特别是Transformer架构)在多元时间序列预测中表现出色。与传统方法只使用单一模态的时间序列数据训练模型不同,最近出现的基于大语言模型的方法能够同时利用文本和时间序列两种信息,在时序数据稀缺时尤其有效。但现有的LLM预测方法大多专注于调整和微调预训练语言模型,却没有充分考虑文本和时序数据在分布上的本质差异,因此效果还有提升空间。针对这一问题,我们提出了一个新的跨模态LLM微调框架CALF,核心思路是缩小文本与时序数据之间的分布差异。该框架包含两个分支:处理时序输入的时序目标分支,以及处理对齐文本输入的文本源分支。为了减小分布差异,我们首先设计了跨模态匹配模块来对齐不同模态的输入分布。同时,为了在特征层面和输出层面都实现模态对齐,我们引入了特征正则化损失来对齐两个分支的中间特征表示,并通过输出一致性损失让两个分支的输出相互呼应。得益于这种模态对齐机制,CALF在保持较低计算开销的前提下,在长期和短期预测任务中都达到了业界领先水平,同时还继承了大语言模型在小样本和零样本场景下的出色表现。
1 引言
将 LLM 引入时间序列预测可缓解数据不足与过拟合,但跨模态分布不匹配成为瓶颈。论文以 t‑SNE 可视化展示:GPT4TS、TimeLLM、TEST 等方法的时间特征与 LLM 词向量分布难以对齐,而 CALF 通过多层级对齐显著缩小两者差距(Figure 1)。作者据此提出:仅做输入侧投影或对齐不够,需要“输入‑中间层‑输出”的全链路对齐,才能充分激活 LLM 的通用表征能力。
Figure 1:基于GPT4TS、TimeLLM、TEST及我们方法的ETTh2数据集预训练词标记嵌入与倒数第二层隐藏特征的t-SNE可视化结果。当前基于LLM的方法要么使用线性层将时间序列投影到LLM的特征维度(Zhou等,2023),要么采用交叉注意力和对比学习技术,这些方法仅解决了输入端的对齐问题,而忽略了更深层中的对齐。我们的CALF通过多层级跨模态微调实现了更优的对齐效果。
2 方法:CALF 跨模态微调
框架总览见 Figure 2:上方为文本源分支(冻结预训练权重,仅作对齐“锚”),下方为时间目标分支(带 LoRA 的可训练轻量适配)。三项对齐技术(①输入匹配,②层间特征对齐,③输出一致性)共同驱动跨模态细粒度对齐。
Figure 2:所提出的跨模态微调框架概览。上方为文本源分支,下方为时序目标分支。为弥合模态差异,该框架采用了三种跨模态微调技术:1)跨模态匹配模块,2)特征正则化损失 3)输出一致性损失。
2.1 双分支与总体流程
-
文本源分支:输入为对齐后的伪文本 token ,经过 层预训练 LLM 得到各层隐藏特征 与输出 。 -
时间目标分支:原始多元时间序列 经嵌入与注意力投影为 ,通过与文本分支共享的预训练权重(但只在本分支微调)得到 与输出 。推理阶段仅用时间目标分支。
2.2 输入对齐:Cross-Modal Match Module(CMM)
-
时间序列投影为 token:
其中 为 LLM 的词向量维度(如 GPT-2),将每个变量通道视作一个 token。
-
主成分词向量抽取(PCA):
LLM 的词向量表构成“语义空间”,但字典很大(如 GPT-2 的 )。为避免直接跨注意力的高成本,先对词向量做 PCA 得到 维“主成分词向量” 。实践中 在效率与信息保真间取得较好平衡。 -
跨注意力生成伪文本 token:
从而在输入分布上把时间 token 对齐到文本嵌入语义空间。注意力热力图显示时间通道会与“trend、seasonality”等时间概念词产生较高关联(Figure 3),具备一定可解释性。
2.3 中间层对齐:Feature Regularization Loss
逐层把 与 投到共享空间并计算相似性损失(如 L1),对深层赋予更大权重:
其中 控制层权重衰减。该项让每一层的梯度方向受文本分支“语义锚定”引导,缓解仅对齐输入时在深层出现的模态漂移。
2.4 输出对齐:Output Consistency Loss
在输出表示空间保持一致性:
确保时间模态的输出与文本模态在语义上对应。
2.5 参数高效微调(PEFT)
为避免灾难性遗忘与降低训练开销,仅在时间目标分支采用 LoRA(对注意力投影做低秩适配)并微调位置编码。总损失:
实现细节:以 GPT-2 前 6 层为骨干,Adam 学习率 , 。推理仅保留时间分支,进一步压缩计算。
3 实验
3.1 设定与基线
数据集:ETT(ETTh1/2、ETTm1/2)、Weather、ECL、Traffic(长预测);M4(年/季/月/其他,短预测)。
基线:LLM 系(TimeLLM、GPT4TS)、Transformer 系(PatchTST、iTransformer、Crossformer、FEDformer、ETSformer、Autoformer)、CNN/MLP 系(TimesNet、MICN、TCN、DLinear、TiDE 等)。长预测统一输入长度 (T=96),预测步
;指标 MSE/MAE。
3.2 长期预测(Multivariate)
Table 1显示:与 PatchTST 相比,CALF 平均 MSE/MAE 下降 7.05%/6.53%;相较 TimeLLM,下降 5.98%/5.34%,且在 ETT、ECL、Traffic、Weather 多数场景中给出最优或次优结果。
3.3 短期预测(M4)
在 M4 的年/季/月/其他四类集合上(输入 12–96,预测 6–48),CALF 总体 OWA 更优,相对当前强基线 TimesNet 仍有约 1% 级别的整体改善(Table 2)。
3.4 小样本与零样本
-
Few‑shot(仅用 10% 训练数据):在四个 ETT 子集上,CALF 全面领先;相对 TimeLLM 与 PatchTST,平均误差分别下降约 8% 与 9%(Table 3)。
-
Zero‑shot(跨数据集):在 h1→m1、h1→m2、h2→m1、h2→m2 四个方向上,CALF 相对 TimeLLM 与 PatchTST 分别提升 4% 与 9% 左右(Table 4)。
3.5 效率对比
在 ETTm1、ECL、Traffic、Weather 四个数据集上,相同输入/预测长度 96 时,CALF 的训练耗时显著更低:例如 ECL 上 251s 对比 GPT4TS 的 8274s 与 TimeLLM 的 33209s;预测精度同时更优(Table 5)。效率来源于“把每个通道视作 token、参数高效微调、推理仅用单分支”。
3.6 消融与可解释性
-
损失项消融:只用监督损失时(ETTh1/Weather)MSE 为 0.446/0.263;加入 Feature 或 Output 分别小幅改善;三者合用最佳。
-
跨注意力热力图:时间通道与“trend/seasonality”等词的关联度更高,体现隐式输入对齐的语义对应。
Figure 3:ETTh1(左)和ETTh2(右)的跨模态匹配模块中的交叉注意力映射。每一行代表一个时间序列实例,而列则对应于选定的单词,包括时间相关的术语(例如,趋势、季节性)和一般性术语(例如,回声、关键)。每个单元格表示相应通道对选定单词的相关性。
-
PCA 维度 (d):性能对 (d) 不特别敏感,但过小信息损失、过大冗余导致学习困难;(d=500)*较优。
Figure 4:在ETTh1和ETTh2数据集上,对PCA的低维度d进行剪枝。
4 结论与展望
CALF 通过“输入‑中间层‑输出”三重对齐,把 LLM 的语义空间作为稳定锚点,在多数据集、多任务上取得 SOTA,并兼顾效率与泛化(Few/Zero‑shot)。其核心启示是:跨模态迁移不应只做输入侧映射,而要全链路对齐。未来值得探索:
-
更强或多样化的 LLM 骨干与多语言词表; -
结合领域词库/知识图谱提升可解释性; -
在更长序列、更高维多变量上的扩展与内存优化; -
与异常检测、数据漂移检测等在线机制的协同。上述方向或可进一步放大跨模态对齐带来的泛化收益。

