TEXT2SQL-FLOW 横空出世！8.9 万条高质量数据，让 Text-to-SQL 模型战力飙升～

我爱数据科学

2025-11-15

导读：北大团队提出 TEXT2SQL-FLOW 框架，从有限种子数据生成 89544 条标注样本的 SQLFLOW 数据集，多维度增强数据，适配开源模型微调与闭源模型检索，多基准实测性能优异，破 Text-

家人们谁懂啊！现在 AI 圈早就卷到 “数据为王” 的时代了！传统靠堆模型架构、调参优化的路子，边际效益越来越低，想让 AI 真正好用，高质量数据才是核心密码～尤其是 Text-to-SQL 这个超实用的任务，一边要帮不懂 SQL 的小白轻松查数据库，一边还要应对复杂的查询逻辑，现存数据集要么规模小、要么样式单一，简直把模型逼到了墙角！

好在北大团队出手了！他们搞出了个 TEXT2SQL-FLOW 框架，直接从有限的种子数据里 “榨干潜力”，系统性生成了 89544 条标注样本，还建了个叫 SQLFLOW 的数据集～不管是开源大模型微调，还是闭源模型做提示词工程，用它都能原地起飞，实测在多个权威基准上刷爆成绩，这波操作真的太顶了！

先给大家直观感受下实力～同样是 8.9 万条样本，和 SynSQL 比起来，用 SQLFLOW 训练的模型不管是开源微调还是闭源少样本检索，表现都全方位碾压，蓝色代表开源模型微调结果，绿色是闭源模型提示词检索效果，一眼就能看出差距有多明显👇

（图 1：SQLFlow 与 SynSQL 在 89,544 样本量下的性能对比）

为啥 SQLFLOW 这么能打？核心是它的生成逻辑太会了～不是瞎编数据，而是从六个维度做精准增强：调整数据筛选条件、改写查询结构、切换业务场景、提升查询复杂度、加入高级 SQL 特性、优化执行效率，每一步都紧扣真实使用场景。比如原来的简单查询，能被改成带窗口函数、子查询的复杂语句，还能从销售分析场景切换到库存管理，样式直接丰富到飞起～

更绝的是它的全流程自动化 pipeline！先让大模型生成 SQL 变体，再用 SQL 执行验证过滤掉无效查询，接着生成不同风格的自然语言问题（正式、口语、简洁、描述性啥的都有），还会附带一步步的推理链（CoT），最后给每条数据分类标注难度，确保拿到手就能用。而且框架里加了个 Database Manager 模块，不管是 SQLite、MySQL 还是 PostgreSQL，都能无缝适配，扩展性直接拉满～

给大家看看数据增强后的 “含金量”！下面这张表清晰对比了原始种子数据集和 SQLFLOW 增强后的查询复杂度，不管是窗口函数、集合操作这些高级特性的占比，还是每个 SQL 里的条件句、连接数，增强后的数据集都全面超越原版，尤其是 SQLFLOW 整体的各项指标，简直是为模型 “加餐” 量身定做👇

TABLE I: 原始种子数据集与 TEXT2SQL-FLOW 增强数据集的 SQL 查询复杂度对比（前缀为 “SQLFlow-” 的行是增强数据集统计，最后一行为 SQLFLOW 整体统计）

就拿 Spider 数据集来说，原始训练集里带窗口函数的 SQL 占比几乎为 0，经过 TEXT2SQL-FLOW 增强后，SQLFlow-Spider 里这个比例直接冲到 5.27%，子查询和聚合函数的占比也大幅提升，模型练完之后处理复杂查询的能力自然突飞猛进～而且这些增强数据还完美贴合数据库 schema，不会出现语法错误，执行起来稳稳的～

整个框架的工作流程也超级清晰，上半部分是数据增强 pipeline，从 SQL 生成、过滤到问题和推理链生成，一气呵成；下半部分是 Database Manager 模块，负责搞定不同数据库的兼容问题，示意图一看就懂👇

（图 2：TEXT2SQL-FLOW 整体框架图）

生成数据之后，不管是开源模型还是闭源模型，都能找到适配的使用方式～对于开源大模型，直接用 SQLFLOW 里的提示词和推理链对儿做监督微调，让模型不仅能生成正确 SQL，还能学会一步步推理的逻辑；对于闭源模型（比如 GPT 系列），就把 SQLFLOW 当成少样本知识库，再用他们提出的掩码对齐检索方法，精准匹配结构相似的例子，让提示词效果翻倍，这个用法示意图太直观了👇

（图 3：开源与闭源大模型的增强数据使用方式）

光说不练假把式，实测数据才是硬道理！先看开源模型微调效果：用 Qwen2.5-Coder-7B-Instruct 在 SQLFLOW 上微调后，Spider-dev 的执行准确率从 73.4% 暴涨到 82.0%，涨了 8.6 个百分点；BIRD-dev 从 50.9% 冲到 59.2%，涨了 8.3 个百分点；就连超难的 EHRSQL 基准，都从 24.3% 飙升到 56.1%，直接翻倍还多！

和其他数据集比起来，SQLFLOW 的优势更明显～同样是 5 万条样本，SQLFLOW 训练的模型在 Spider-test 上准确率 84.6%，SynSQL 只有 81.8%；BIRD-dev 上 SQLFLOW 57.9% vs SynSQL 54.0%，差距一目了然。就算是 9 万条样本，SQLFLOW 也稳稳压制 SynSQL，甚至能和 250 万条样本的 SynSQL-2.5M 打个有来有回，这数据质量真的绝了～

再看闭源模型的检索效果，他们提出的掩码对齐检索法简直是降维打击！下面这张表对比了各种检索策略，能看到用 SQLFlow-part 训练的 Question-SQL 相似度检索，加了掩码之后，BIRD-dev 准确率冲到 61.0%，Spider-dev 81.2%，Spider-test 83.5%，不仅远超随机选择、问题相似度这些传统方法，还逼近了用真实 SQL 检索的上限（BIRD-dev 61.8%），关键还不用额外花 LLM API 的钱，性价比直接拉满👇

TABLE III: 检索策略性能对比（“上限” 指用真实 SQL 检索，“Mask” 表示是否使用查询 / 示例掩码，“API” 表示检索过程是否产生 LLM API 成本）

为啥这个检索方法这么牛？举个 BIRD-dev 里的例子就懂了～ DAIL 选择方法会先预生成一个 SQL，再根据这个 SQL 找相似例子，但如果预生成的 SQL 错了（比如没捕捉到 “返回单个最大值” 的核心逻辑），找到的例子就全是错的，模型自然被带偏。而 TEXT2SQL-FLOW 的方法直接对齐问题和 SQL 的 “骨架”，不用预生成 SQL，仅凭原始问题就能找到带 INNER JOIN、ORDER BY ... DESC、LIMIT 1 这些关键结构的例子，给模型精准的结构模板，生成正确 SQL 自然水到渠成～

（图 6：少样本检索案例研究）

还有个超关键的点：SQLFLOW 的数据多样性是真的能打！下面这张图对比了不同训练数据的泛化能力，只在 BIRD 上训练的模型，换去 Spider 基准就直接拉胯；而用 SQLFlow-part 加上 Spider 和 BIRD 训练的模型，不管在哪个基准上都稳得一批，完美解决了单一数据集训练的过拟合问题，这就是高质量增强数据的魔力～

（图 5：不同数据集训练的问题 - SQL 对齐策略检索模型性能，检索过程未使用掩码操作，“SynSQL-part*” 和 “SQLFlow-part*” 表示对应数据集结合 Spider-train 和 BIRD-train）

最后再划重点：TEXT2SQL-FLOW 框架靠六个维度的精准增强，加上全流程自动化 pipeline，生成了 8.9 万条高质量的 SQLFLOW 数据集，不管是开源模型微调还是闭源模型提示词检索，都能带来巨幅性能提升。它不仅解决了 Text-to-SQL 任务的数据瓶颈，更证明了在 AI 时代，“数据 centric” 才是真正的破局之道～以后不管是做智能分析平台，还是企业数据服务，有了这个框架和数据集，模型开发直接少走三年弯路！

【声明】内容源于网络

我爱数据科学

精通R语言及Python，传递数据挖掘及可视化技术，关注机器学习及深度学习算法及实现，分享大模型及LangChain的使用技巧。编著多本R语言、python、深度学习等书籍。

内容 322

粉丝 0

我爱数据科学精通R语言及Python，传递数据挖掘及可视化技术，关注机器学习及深度学习算法及实现，分享大模型及LangChain的使用技巧。编著多本R语言、python、深度学习等书籍。

总阅读54

粉丝0

内容322