标题
基于得分的潜在空间混合类型表格数据合成
(MIXED-TYPE TABULAR DATA SYNTHESIS WITH SCORE-BASED DIFFUSION IN LATENT SPACE)
摘要
近年来表格数据生成技术的进步显著提升了合成数据的质量。然而,将扩散模型扩展到表格数据领域面临挑战,因为表格数据具有复杂多样的分布特性以及混合的数据类型(如数值型、类别型等)。本文提出一种名为TABSYN 的方法,该方法通过在变分自编码器(VAE)构建的潜在空间中利用扩散模型来合成表格数据。
所提出的 TABSYN 方法具有以下三个关键优势:
(1) 通用性:将多种数据类型统一映射到单一空间,并显式捕捉列间关系;
(2) 质量提升:优化潜在嵌入的分布,从而增强后续扩散模型的训练效果,生成高质量的合成数据;
(3) 速度优势:相比现有基于扩散的方法,反向采样步骤更少、合成速度更快。
在六个数据集上进行的广泛实验(使用五个评估指标)表明,TABSYN 的表现优于现有方法。具体而言,在列分布估计和列间相关性估计任务中,与最具有竞争力的基准模型相比,TABSYN 的误差率分别降低了 86% 和67%。代码已开源至
https://github.com/amazon-science/tabsyn
1 引言
表格数据合成具有广泛的应用场景,例如扩充训练数据(Fonseca & Bacao, 2023)、保护隐私数据实例(Assefa et al., 2021; Hernandez et al., 2022)以及填补缺失值(Zheng & Charoenphakdee, 2022)。近年来,表格数据生成技术的进展显著提升了合成数据的质量(Xu et al., 2019; Borisov et al., 2023; Liu et al., 2023b),但合成数据仍与真实数据存在差距。为了进一步提升生成质量,研究人员尝试将性能优异的图像合成任务中使用的扩散模型(Ho et al., 2020; Rombach et al., 2022)应用于表格数据生成(Kim et al., 2022; Kotelnikov et al., 2023; Kim et al., 2023; Lee et al., 2023)。尽管这些方法取得了进展,但将扩散模型适配到表格数据仍面临多个挑战。
与图像数据(由连续像素值和局部空间相关性组成)不同,表格数据的特征分布复杂且多样(Xu et al., 2019),这使得跨多列学习联合概率变得困难。此外,典型表格数据通常包含混合类型变量,即连续型(如数值特征)与离散型(如类别特征)。标准扩散过程假设输入空间为连续值且受高斯噪声扰动,这对处理类别特征带来额外挑战。现有解决方案要么通过独热编码(Kim et al., 2023; Liu et al., 2023b)或类比比特编码(Zheng & Charoenphakdee, 2022)将类别特征转换为数值,要么分别针对数值和类别特征设计两个扩散过程(Kotelnikov et al., 2023; Lee et al., 2023)。然而,已有研究证明简单编码方法会导致性能次优(Lee et al., 2023),而为不同数据类型单独训练模型会阻碍模型捕捉不同类型数据的共现模式。因此,我们旨在开发一种能够保留列间相关性的联合空间扩散模型,该空间同时包含数值型和类别型特征。
本文提出TABSYN——一种针对表格数据合成的原则性方法。为了处理混合类型输入,TABSYN 首先将原始表格数据转换为连续嵌入空间,在此空间中可以应用成熟的高斯噪声扩散模型。随后,我们在嵌入空间中学习基于得分的扩散模型以捕捉潜在嵌入的分布特性。
为了在保持解码器重建能力的同时学习到信息丰富且平滑的潜在空间,我们特别设计了一个针对表格结构数据的变分自编码器(VAE (Kingma & Welling, 2013))模型:
1.Transformer 架构编解码器:用于建模列间关系并生成令牌级表示,以支持令牌级任务;
2.动态损失权重调整:通过自适应损失加权方法动态调节重建损失和 KL 散度的权重,使模型逐步提升重建性能的同时保持正则化嵌入空间;
3.简化前向扩散过程:在潜在空间中应用扩散模型时,我们采用线性标准差高斯噪声的时间步长方案。通过理论分析与实验证明,此方法可降低反向过程的误差,从而提升采样速度。
TABSYN 的优势体现在以下三个方面:
(1) 通用性:混合类型特征处理——TABSYN 将数值型、类别型等多样化输入特征统一映射到嵌入空间;
(2) 高质量生成:通过定制化设计的 VAE 模型,表格数据被映射为具有良好分布形态(如标准正态分布)的正则化潜在空间。这显著简化了后续扩散模型的训练(Vahdat et al., 2021),使 TABSYN 具备更强表现力,生成高质量合成数据;
(3) 高速度:通过提出的线性噪声调度方案,TABSYN 能在少于 20 步的反向采样中生成高质量合成数据,显著优于现有方法。
图1:我们的 TABSYN 在五个数据质量指标上始终优于当前最先进的表格数据生成方法。
由于尚未存在针对合成表格数据的统一且全面评估(Du & Li, 2024),我们进行了广泛的实验,将 TABSYN 与七种最先进方法在六个混合类型表格数据集上进行对比,并使用超过五个不同的评估指标验证其性能。实验结果表明,TABSYN 在所有任务中均显著优于先前方法(参见图1)。具体而言,在列分布形状估计(单个密度)和列间相关性估计(成对相关性)任务中,TABSYN 的平均误差分别比最具有竞争力的基准模型降低了 86% 和67%。此外,我们证明 TABSYN 在两个下游表格数据任务(机器学习效率与缺失值填补)上均表现出竞争力:
·无需重新训练,经过良好训练的无条件 TABSYN 可直接应用于缺失值填补;
·深入的消融研究与可视化案例进一步验证了我们方法的有效性与合理性。
2 相关工作
表格数据生成的深度生成模型
表格数据生成的生成模型在近年来变得越来越重要并拥有广泛的应用场景(Assefa et al., 2021; Zheng & Charoenphakdee, 2022; Hernandez et al., 2022)。为了解决类别特征不平衡的问题,Xu 等人 (2019) 提出了 CTGAN 和TVAE,分别基于流行的生成对抗网络(Goodfellow et al., 2014)和变分自编码器(VAE, Kingma & Welling, 2013)。在过去一年中,已提出多种先进的表格数据合成方法。具体而言:
·GOGGLE (Liu et al., 2023b) 是首个显式建模列间依赖关系的方法,其基于图神经网络的编码器和解码器构建了一个 VAE 模型;
·受大型语言模型在自然语言分布建模中的成功启发,GReaT 将表格中每一行转换为自然语句,并通过自回归 GPT2 学习语句级分布;
·近年来,物理扩散过程推动了深度学习领域的多项研究。例如:
·DIFFormer (Wu et al., 2023) 通过约束扩散过程开发了一个适用于几何数据的可扩展 Transformer 模型;
·去噪扩散模型 在图像生成任务中取得了显著成功(Ho et al., 2020)。
·最近,STaSy (Kim et al., 2023)、TabDDPM (Kotelnikov et al., 2023) 和 CoDi (Lee et al., 2023) 并行地将主流扩散生成模型应用于表格数据合成任务。
潜在空间中的生成建模
尽管数据空间的生成模型已取得显著成果,但潜在空间的生成模型展现出更多优势:更紧凑且解耦的表示、对噪声的鲁棒性以及更强的生成风格控制能力(van den Oord et al., 2017; Razavi et al., 2019; Esser et al., 2021)。例如,近期 GAN 文献 (Li et al., 2022) 展示了通过潜在空间的对抗学习实现更优控制能力。
近年来,潜在扩散模型(LDM) (Rombach et al., 2022; Vahdat et al., 2021) 在图像生成中取得了显著成功,因其相比传统数据空间扩散模型具有更好的扩展性和表达性(Ho et al., 2020; Song et al., 2021b; Karras et al., 2022)。LDMs 在图像生成中的成功也启发了其在视频 (Blattmann et al., 2023) 和音频数据 (Liu et al., 2023a) 中的应用。
据我们所知,本文是首次探索潜在扩散模型在通用表格数据生成任务中应用的研究。
图2:TABSYN 方法概览
每行数据 x 通过列级分词器和编码器映射到潜在空间 z。在潜在空间中应用扩散过程 z0→zT。合成过程 zT→z0 从基础分布 p(zT) 开始,通过反向过程生成潜在空间中的样本 z0。这些样本随后通过解码器和逆分词器映射回数据空间 x^。
3 基于 TABSYN 的表格数据合成
图2展示了 TABSYN 方法的整体架构。在 3.1节,我们首先正式定义表格数据生成任务;然后,在3.2节和3.3节 详细介绍 TABSYN 的自编码过程与扩散模型设计。训练算法和采样算法的细节见附录A。
3.1 表格数据生成问题定义
设 Mnum 和 Mcat 分别为数值型列和类别型列的数量。每行数据表示为数值特征向量与类别特征向量的拼接 x=[xnum,xcat],其中:
·xnum∈RMnum(数值型);
·xcat∈RMcat(类别型)。
具体而言,第 i 个类别属性有 Ci 个有限候选值,因此 xicat∈{1,⋅,Ci},对所有 i 成立。本文聚焦于无条件生成任务:
·给定表格数据集 T={x},目标是学习一个参数化生成模型 pθ(T),使其能生成具有现实性与多样性的合成数据 x^∈T^。
3.2 表格数据的自编码过程
表格数据具有高度结构化的混合类型列特征,不同列之间语义各异且相互依赖。这些特性使得设计一个能够有效建模和利用列间复杂关系的近似编码器变得极具挑战性。
受 Transformer 在表格分类/回归任务中的成功启发(Gorishniy et al., 2021),我们首先为每列学习一个唯一的分词器,然后将分词后的列级表示输入 Transformer 模型以捕捉列间复杂关系。
特征分词器
·将每列(数值型和类别型)转换为 d 维向量:
·对于类别型数据,首先使用独热编码预处理 xicat→xioh∈R1×Ci;
·每条记录表示为:x=[xnum,x1oh,⋯,xMcatoh]∈RMnum+∑i=1McatCi
·对数值列应用线性变换,对类别列构建嵌入查找表(每类分配一个可学习的 d 维向量):einum=xinum⋅winum+binum,eicat=xioh⋅Wicat+bicat
·其中:winum,binum,bicat∈R1×d,Wicat∈RCi×d 为分词器参数;
·最终每条记录表示为所有列嵌入的堆叠:E=[e1num,⋯,eMnumnum,e1cat,⋯,eMcatcat]∈RM×d
Transformer 编码与解码
·与典型 VAE 类似,使用编码器获取潜在变量的均值和对数方差;通过重参数化技巧获得潜在嵌入 z。
·潜在嵌入经解码器处理后生成重构后的分词矩阵 E^∈RM×d。详细结构见附录D。
逆分词器
·最后,对恢复的分词表示应用逆分词器以重建列值:x^inum=e^inum⋅w^inum+b^inum,x^ioh=Softmax(e^icat⋅W^icat+b^icat)
·其中:x^=[x^1num,⋯,x^Mnumnum,x^1oh,⋯,x^Mcatoh]
·参数:w^inum∈Rd×1,b^inum∈R1×1,W^icat∈Rd×Ci,b^icat∈R1×Ci
3.3 潜在空间中的基于分数生成建模
通过去噪训练与采样
·在 VAE 模型训练完成后,通过编码器提取潜在嵌入 z=Flatten(Encoder(x))∈R1×Md(将记录的嵌入表示为向量而非矩阵)。
·为了学习潜在嵌入分布 p(z),我们采用以下正向扩散过程与反向采样过程:
·正向过程:zt=z0+σ(t)ϵ,ϵ∼N(0,I)
·反向过程:dzt=−2σ˙(t)σ(t)∇ztlogp(zt)dt+2σ˙(t)σ(t)dωt
·其中,z0 是编码器输出的初始嵌入,zt 是时间 t 处的扩散嵌入,σ(t) 是噪声水平。在反向过程中,∇ztlogp(zt) 是 zt 的分数函数,ωt 是标准维纳过程。
·扩散模型通过去噪分数匹配训练:
L=Ez0∼p(z0)Et∼p(t)Eϵ∼N(0,I)∥ϵθ(zt,t)−ϵ∥22
其中zt=z0+σ(t)ϵ,ϵθ 是用于逼近高斯噪声的神经网络(称为去噪函数)。
·训练完成后,通过反向过程(公式6)生成合成数据。详细算法描述见附录A;推导细节见附录B。
噪声水平调度σ(t)
·噪声水平 σ(t) 定义了在不同时间步对数据的扰动规模,显著影响最终微分方程求解轨迹(Song et al., 2021b; Karras et al., 2022)。
·参照 Karras 等人 (2022) 的建议,我们将噪声水平设置为 σ(t)=t(与时间呈线性关系)。
命题1:
在反向扩散过程中,从 ztb 到 zta(tb>ta),当 σ(t)=t 时,数值解 z^ta 的近似误差最小。
证明见附录C。
推论: 小的近似误差允许我们增加两个时间步之间的间隔,从而减少总体采样步骤数并加速生成过程。
在第4节中,我们将展示通过这一设计,TABSYN 可以在少于20个函数评估(NFE)内生成高质量合成表格数据,显著优于基于扩散的其他方法(Kim et al., 2023; Kotelnikov et al., 2023)。
4 表格数据合成算法基准测试
4.1 实验设置
数据集
我们选择了六个包含数值型和类别型属性的真实世界表格数据集:Adult、Default、Shoppers、Magic、Faults、Beijing 和 News。表6提供了这些数据集的整体统计信息,详细描述见附录E.1。
基线方法
我们将提出的 TABSYN 与七种现有的合成表格数据生成方法进行比较。前两种是经典的 GAN 和 VAE 模型:CTGAN (Xu et al., 2019) 和 TVAE (Xu et al., 2019)。此外,我们评估了五种近期提出的最先进(SOTA)方法:
·GOGGLE (Liu et al., 2023b),一种基于 VAE 的方法;
·GReaT (Borisov et al., 2023),一种语言模型变体;
·三种扩散模型:STaSy (Kim et al., 2023)、TabDDPM (Kotelnikov et al., 2023) 和 CoDi (Lee et al., 2023)。
值得注意的是,这些方法几乎同时被提出,限制了广泛的比较机会。作为参考,我们还与代表性插值法 SMOTE (Chawla et al., 2002) 进行对比。本文通过在标准化设置下首次提供全面的性能评估,填补了这一空白。
4.2 数据密度低阶统计量估计
评估指标
我们从三个方面评估合成数据的质量:
1.低阶统计量 – 列级密度估计与列间相关性估计:计算每列的密度及任意两列间的相关性(见第4.2节)。此外,通过 Classifier Two Sample Test (C2ST) 评估机器学习模型是否能从真实数据中区分合成数据(附录F.3);
2.高阶指标 – α-精度与 β-召回率分数(Alaa et al., 2022),衡量合成数据的整体保真度和多样性(结果见附录F.2);
3.隐私保护:通过距离最近记录(DCR, Distance to Closest Records, 附录F.6)评估合成数据是否根据分布密度随机采样,而非直接复制训练数据;
4.下游任务性能 – 机器学习效率(MLE)与缺失值填补。
·MLE:比较使用合成表格数据集训练后的模型在真实数据上的测试准确率;
·隐私保护性能通过广泛采用的 MLE 任务评估(第4.3节)。
我们还扩展了 TABSYN,用于缺失值填补任务,目标是根据部分列值填充缺失特征/标签(附录F.4)。所有结果均基于20个随机采样的合成数据集计算平均值。具体实现细节见附录E。
低阶统计量:密度估计
指标定义
·数值列使用 Kolmogorov-Smirnov 检验(KST) 量化列级密度估计;
·类别列使用 总变分距离(TVD)。
·对于列间相关性:数值列采用 Pearson 相关系数,类别列计算 条件相似度。性能通过真实数据与合成数据相关性的差异衡量。对于数值列与类别列间的相关性,我们首先将数值值按桶分组为类别值,再计算对应的条件相似度。这些指标的详细定义见附录E.3。
表1:列级密度估计误差率(%)
加粗字体表示每个数据集的最佳得分。较小值代表更准确的估计(更好结果)。TABSYN 在平均情况下优于最佳生成基线模型 86.0%。
列级分布密度估计
在表1中,我们注意到 TABSYN 在所有数据集中始终优于基线方法。平均而言,TABSYN 超过最具有竞争力的基线模型 86.0%。尽管 STaSy 和 TabDDPM 表现良好,但 STaSy 性能次优,因为它将类别列的一热嵌入视为连续特征;此外,TabDDPM 在不同数据集上的性能不稳定,在 News 数据集中即使经过标准训练也未能生成有意义内容。
表2:列间相关性估计误差率(%)
加粗字体表示每个数据集的最佳得分。TABSYN 平均优于最佳基线模型 67.6%。
列间相关性估计
表2显示了列间相关性的结果。TABSYN 在平均情况下优于最佳基线模型 67.6%。值得注意的是,GReaT 在此任务中的表现远低于其在列级任务中的性能(见表1)。这表明自回归语言模型在密度估计中的局限性,尤其是在捕捉列间联合概率分布方面。
4.3 下游任务性能
机器学习效率(MLE)
我们通过评估合成数据在机器学习任务中的表现来衡量其质量。按照已建立的设置(Kotelnikov et al., 2023; Kim et al., 2023; Lee et al., 2023),首先将真实表格划分为训练集和测试集。生成模型从训练集中学习,再采样出等量的合成数据集。此合成数据用于训练分类/回归模型(如 XGBoost 分类器与回归器 (Chen & Guestrin, 2016)),并使用真实测试集进行评估。MLE 性能通过以下指标衡量:
·分类任务:AUC 得分;
·回归任务:RMSE(均方根误差)。
MLE 的详细设置见附录E.4。
表3:机器学习效率的 AUC(分类)和 RMSE(回归)得分。↑ (↓) 表示分数越高(越低)性能越好。TABSYN 在所有数据集上始终优于其他方法。
在表3中,我们展示了 TABSYN 一致优于所有基线方法的表现。与其他任务(列级密度估计与列间相关性估计,见表1和表2)相比,不同方法间的性能差距较小。这表明某些列可能对分类/回归任务影响不大,使得在前序任务中表现较低的方法也能在 MLE 中取得竞争力结果(例如 GReaT 在 Default 数据集上)。这进一步强调了需要超越单纯依赖 MLE 指标的全面评估方法。如上所述,我们通过低阶和高阶统计量对性能进行了更稳健的评估。
缺失值填补
扩散模型的一个优势是:经过良好训练的无条件模型可直接用于数据填补(例如图像补全 (Song et al., 2021b; Lugmayr et al., 2022)),无需额外训练。本文探索了将 TABSYN 扩展至缺失值填补任务,这是真实表格数据中的关键问题。由于篇幅限制,缺失值填补的具体算法与结果见附录F.4。
图3:Adult 数据集上验证重建损失(左)和 KL 散度损失(右)随常数 β 变化趋势,以及我们提出的调度 β(βmax = 0.01, βmin = 10−5, λ = 0.7)。所提调度 β 在保持较低 KL 散度的同时实现了最低重建损失。
4.4 消融实验
自适应β-VAE 的效果
我们评估了在 VAE 中对权重系数 β 进行调度的有效性。图3展示了训练过程中(共 4,000 个 epoch)不同 β 值下的重建损失与 KL 散度损失趋势。值得注意的是,较大的 β 值会导致重建质量下降,而较小的 β 值会使嵌入分布与标准高斯分布产生较大差异,使得平衡难以实现。相比之下,在训练过程中动态调度 β(βmax = 0.01, βmin = 10−5, λ = 0.7)不仅避免了过度 KL 散度,还提升了质量。表4进一步通过合成数据质量(单列密度与列间相关性估计任务)评估了不同 β 值下的 VAE 学习嵌入效果。这证明了我们提出的调度 β 方法在训练 VAE 模型中的优越性能。
表4:Adult 数据集上不同 β 值下单列密度和列间相关性估计结果
线性噪声水平的效果
我们评估了在扩散过程中使用线性噪声水平σ(t) = t 的有效性。如第3.3节所述,线性噪声会导致线性轨迹并加快采样速度。因此,我们在 STaSy、TabDDPM 和 TABSYN 上比较了单列密度和列间相关性估计误差与函数评估次数(NFEs, 即生成真实数据的去噪步骤数)的关系。作为连续时间扩散模型,所提出的 TABSYN 与 STaSy 在选择 NFEs 方面具有灵活性;对于 TabDDPM,我们使用 DDIM 采样器 (Song et al., 2021a) 来调整 NFEs。
图4:STaSy、TabDDPM 和 TABSYN 的合成数据质量与 NFEs(函数评估次数)的关系。TABSYN 在更少的 NFEs 下生成最高质量的数据(表示更快的采样速度)。
如图4所示,TABSYN 不仅显著提升了采样速度,而且在最佳结果下只需少于 20 次 NFEs 即可取得更好性能;相比之下,STaSy 需要 50-200 次 NFEs(因数据集而异)且表现次优;TabDDPM 在 1,000 次 NFEs 下表现竞争力,但减少 NFEs 后性能显著下降。
不同编码/扩散方法的对比
我们评估了在 VAE 学习的潜在空间中学习扩散模型的有效性。为此创建了两个 TABSYN 变体:
1.TABSYN-OneHot:用类别变量的一热编码替代 VAE;
2.TABSYN-DDPM:将公式 (5) 中的扩散过程替换为 TabDDPM 使用的 DDPM(去噪扩散模型)。
表5结果表明:
·一热编码与连续扩散模型结合导致最差性能,说明简单地将类别列视为连续特征是不合适的;
·在潜在空间中,TABSYN-DDPM 的表现优于 TabDDPM 在数据空间中的表现,突显了学习高质量潜在嵌入对提升扩散建模的益处;
·TABSYN 超过 TABSYN-DDPM,表明在连续潜在空间中采用定制化扩散模型能更有效地学习数据分布。
表5:TABSYN 变体在 Adult 数据集上低阶统计量估计任务的性能
4.5 可视化分析
在图5中,我们比较了四个数据集中八列(每数据集一数值列和一类别列)的密度分布。TabDDPM 在数值列上与 TABSYN 表现相当,但在类别列上稍逊一筹。图6显示了估计列间相关性与真实相关性的差异热力图。TABSYN 提供最精确的相关性估计,而其他方法表现次优。这些结果证明,在潜在空间中使用生成模型可提升对类别特征及联合分布的学习能力。
图5:合成数据单列密度分布可视化(STaSy、TabDDPM 和 TABSYN)与真实数据对比。上部:数值列;下部:类别列。注意,数值列在基线方法中表现竞争性,而 TABSYN 在估计类别列分布方面表现出色。
图6:合成数据与真实数据的列间相关性热力图。值表示真实与估计相关性的绝对差异(越浅越好)。TABSYN 提供最精确的相关性估计。
5 结论
在本文中,我们提出了 TABSYN 用于生成合成表格数据。该框架通过 VAE 将表格数据映射到潜在空间,并利用基于扩散的生成模型学习潜在分布。此方法具有双重优势:统一处理数值型与类别型特征,并在连续嵌入空间中实现更全面的关系理解及先进生成模型的应用。为应对潜在挑战,TABSYN 提出了模型设计与训练策略,实现了高度稳定的生成模型。此外,通过多样化的评估指标(如隐私保护、机器学习效率等),我们全面对比了所提方法与现有方法,展示了其在捕捉原始数据分布时的优异质量和保真度。

