

LLM完成决策树知识迁移性能超越传统模型 | KDD 2025

Coggle数据科学

2025-12-02

今天给大家介绍的是来自KDD 2025的一篇论文，研究提出了一种利用大型语言模型 (LLMs) 的压缩世界知识来创建决策树的新方法，而无需任何训练数据（即零样本 (Zero-Shot) 设置）。

https://arxiv.org/pdf/2409.18594

Zero-Shot Decision Tree Induction and Embedding with Large Language Models

LLMs 可以仅凭其内部知识生成天然可解释的机器学习模型——决策树。这种零样本决策树在某些小规模表格数据集上的性能甚至可以超越传统上依赖数据的决策树。

知识迁移与 LLM

迁移学习（Transfer Learning）： 是一个历史悠久的研究领域，旨在将知识从数据充足的任务迁移到数据稀疏的任务中。

LLMs 中压缩的世界知识为增强数据驱动的机器学习方法提供了新的途径，主要通过三种方式：

嵌入（Embeddings）： 从 LLMs 中提取特征表示，作为下游模型的输入。
微调（Fine-Tuning）： 更新 LLM 参数以适应下游任务。
上下文学习（In-Context Learning, ICL）： LLMs 的一种新兴能力，无需参数更新，仅通过在提示（Prompt）中提供训练示例就能执行新任务。ICL 具有快速原型设计和易于集成额外知识的优势。

现有工作大多集中在训练样本的场景。而本文的研究关注无需任何训练数据（即零样本）从 LLMs 中导出决策规则或树，这对敏感数据无法轻易共享的场景（如医疗）至关重要。

本文的关键在于从知识驱动的角度出发，利用 LLM 的世界知识在无数据的情况下构建可解释的模型和特征表示，这与现有依赖少量或迭代数据的研究形成了鲜明对比。

LLMs 作为零样本模型生成器

LLMs 在大规模文本语料库上预训练，拥有丰富的世界先验知识。在低数据量环境中，这些知识可以有效弥补数据稀缺，提高预测模型的有效性和可靠性，尤其在需要深层背景理解和经验洞察的领域（如医疗保健）。

零样本决策树归纳（Zero-Shot Decision Tree Induction）展示了如何使用 LLMs 在没有任何训练数据的情况下生成决策树。

零样本决策树归纳利用 LLM 存储的先验知识来指导预测模型开发。

知识利用： 能够利用 LLMs 内部的先验知识进行预测建模。
可解释性： 能够从 LLMs 中提取可解释的决策规则。
隐私保护：天然保护数据隐私，因为无需分享敏感数据进行训练。

提示模板 (Prompting Template)： 告知 LLM 任务是基于特征归纳一个决策树分类器，设置预测目标和树的最大深度，并提供一个示例决策树的文本格式（例如 Iris 数据集上的树），引导 LLM 以相同的结构输出。

知识蒸馏（Knowledge Distillation）

目标： 将 LLM 中的知识蒸馏到个零样本决策树中，形成一个决策森林。
增强多样性： 为了避免相似的树贡献冗余信息，作者利用 LLM 固有的随机性（通过温度参数设置），并允许 LLM 自行决定最大树深度，以增加自由度。
采样过程： 映射变成从概率分布中采样，生成一组决策树。

嵌入转换（Embedding Transformation）

转换方法： 将决策树的内部节点（inner nodes）的真值转换为一个二进制向量。
原理： 向量的长度等于树的内部节点数。如果一个样本满足对应内部节点的条件，则向量中的该位为 1，否则为 0。
决策森林嵌入： 对于包含棵树的决策森林，最终的嵌入是将每棵树生成的单个二进制向量连接起来形成的一个总的二进制向量。

输出格式化（Output Formatting）

为了在机器学习流水线中高效使用这些零样本树，需要将文本格式的决策树转换为可执行的程序。

双步流程： 将决策树的生成与函数格式的遵守解耦。

第一步（生成）： LLM 先生成文本格式的零样本决策树（易于领域专家解释）。
第二步（格式化）： 接着，通过提供一个函数示例，提示 LLM 将文本描述重写成一个 Python 函数。

函数功能： 该 Python 函数接受一个样本，并返回：

一个数值预测（用于分类/归纳）。
一个列表，表示树的内部节点的真值（用于嵌入）。

预设提示词

角色提示词

You are a domain expert with years of experience in building the best-performing decision trees. 
You have an astounding ability to identify the best features for the task at hand, and you know how to combine them to get the best predictions. 
Impressively, your profound world knowledge allows you to do that without looking at any real-world data.

任务介绍提示词

I want you to induce a decision tree classifier based on features and a prediction target. 
I first give {config.num_examples} examples below. Given Features and a new prediction target, I then want you to build a decision tree{tree_string} using the most important features. 
Format the decision tree as a Python function that returns a single prediction as well as a list representing the truth values of the inner nodes. 
The entries of this list should be 1 if the condition of the corresponding inner node is satisfied, and 0 otherwise. 
Use only the feature names that I provide, generate the decision tree without training it on actual data, and return the Python function.

知识蒸馏提示词

I want you to induce a classifier based on features and a prediction target. 
Format the classifier as a Python function called 'predict' that takes a dictionary with the features as input and returns a single integer. 
Use only the feature names that I provide, generate the classifier without training it on actual data, and return only the Python function without further explanation.

潜入转换

Now, format this decision tree as a Python function that returns a single prediction as well as a list representing the truth values of the inner nodes. 
The entries of this list should be 1 if the condition of the corresponding inner node is satisfied, and 0 otherwise. 

If your decision tree has placeholders for thresholds, try to fill them with meaningful values.

实验设置

研究者选择了来自公共 PMLB (Penn Machine Learning Benchmarks) 的小规模表格数据集，并施加了严格的筛选标准，以及两个私有数据集以确保评估的公正性。

样本量 ：针对低数据量场景，传统数据驱动方法往往在此场景中表现不佳。
问题类型：必须是分类问题，以保持决策树的可解释性（回归问题通常需要更深的树）。
合理性验证：一个最大深度的数据驱动决策树分类器必须能实现训练，确保浅层决策树是合理的模型。
特征名称信息量：特征名称必须具有信息量（例如不能是 "xs" 或 "ys"），因为零样本归纳依赖 LLM 理解这些名称。

归纳方法（零样本与基线）

类别	模型	描述
零样本 LLMs	GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, GPTo1	选自 Chatbot Arena 排行榜，代表最先进的通用 LLMs。
参数设置	温度 (Temperature) （确保输出更具确定性）；最大深度（确保可解释性）。
可解释基线	约束基数最佳子集逻辑回归 (BSS), 最佳分类树 (OCTs)	使用 Interpretable AI 实现，最大深度，通过 3-fold 交叉验证优化超参数。
性能上界基线	AutoGluon, AutoPrognosis, TabPFN	自动化机器学习 (AutoML) 框架和预训练深度神经网络，代表低数据量场景下的高性能模型。

评估指标

主要指标： （精确度和召回率的调和平均值，宏平均 over classes）和（平衡准确度）。
适用性： 这两个指标适用于二分类和多分类问题，以及平衡和不平衡数据。
划分： 训练/测试划分，并额外评估和划分，以评估训练集大小的影响。
重复： 每个划分重复 5 次以考虑随机性。
有效性： 对 LLM 的 API 调用重复进行，直到找到 5 个有效的零样本树（确保语法正确）。

实验结果

Dataset	GPT4o (Zero-Shot)	GPTo1 (Zero-Shot)	OCTs (Data-Driven)	TabPFN (AutoML)
Public Median	0.52	0.62	0.74	0.79
Private Median	0.62	0.55	0.47	0.62

在私有数据集上，GPT4o 获得的零样本中位数 (0.62) 优于数据驱动的 OCTs (0.47)，与 TabPFN 持平。这初步证明了零样本方法的潜力。

LLMs： 使用与归纳相同的 4 个 LLMs，但将温度设置为默认值 ，以增加输出树的多样性和创造性。
决策森林： 每个 LLM 生成 5 棵决策树。
嵌入过程： 将零样本树生成的二进制嵌入与原始特征向量连接起来。
下游模型： 使用一个简单的多层感知器 (MLP) 分类器，其单隐藏层大小和正则化强度通过 3-fold 交叉验证优化。
嵌入基线： 无监督随机树嵌入，以及通过拟合随机森林 (Random Forests)、极限随机树 (Extremely Randomized Trees) 和 XGBoost 导出的自监督或监督树嵌入。
基线对比： 一个不使用任何嵌入的 MLP 分类器。