告别 “盲写 SQL” 时代！MTIR-SQL 带实时工具反馈，小模型也能吊打大参数竞品

我爱数据科学

2025-11-02

导读：本文提出MTIR-SQL框架，针对Text-to-SQL 任务，结合多轮工具交互与动态反馈，改进 GRPO 算法，获 64.4% BIRD Dev 准确率、84.6% SPIDER Dev 执行准确率

家人们谁懂啊！现在大语言模型（LLMs）玩 Text-to-SQL（把人话转成能执行的 SQL）越来越溜，但老问题一直没解决 —— 之前那些用强化学习（RL）优化的模型，都只看最后执行结果给反馈，跟开盲盒似的，写跑偏了都没法实时改。就像你炒菜全程不尝味，最后端上桌才知道盐放多了，这不白忙活吗？

直到最近，美团、中科院这些大佬团队搞出了个叫MTIR-SQL的新框架，直接把 “实时尝味” 安排上了！它能让模型跟数据库工具多轮互动，写一句 SQL 就执行一下，根据结果当场改，还把原来的 GRPO 算法魔改了一番，稳定性直接拉满。最离谱的是，这模型才 40 亿参数，在 BIRD 数据集的 Dev 集上 accuracy 干到 64.4%，SPIDER 的 Dev 集执行准确率更是飙到 84.6%，把那些动辄几十亿、上百亿参数的模型按在地上摩擦（后面有表为证，咱不吹牛逼）。

先跟大家掰扯下 Text-to-SQL 这活儿有多重要。你想啊，不是人人都懂 SQL，但老板又总让你从数据库里扒数据 —— 要是能直接说 “把去年 Q3 的销售额 top10 的产品列出来”，系统就自动生成 SQL 执行，这不直接解放双手？所以这技术在商业智能、数据分析里用处大了去了。

但以前的玩法太局限了：要么是拿标注数据死磕微调（SFT），模型只会照葫芦画瓢；要么是给闭源大模型写提示词，让它一步步想（Chain-of-Thought），但没法实时改；还有用 RL 的，比如 PPO、GRPO 算法，也只看最后执行结果给奖励，中间写崩了完全不知道。就像你写作文，老师只给个总分，不告诉你哪段跑题、哪个词用错，下次还是照样错。

MTIR-SQL 最牛的地方，就是把 “多轮工具交互” 和 “强化学习” 焊死了。它引入了一个 “执行感知的多轮推理” 模式，简单说就是模型每一步思考都会调用数据库工具，拿到执行反馈再接着改。比如用户问 “加州学校里，5-17 岁入学人数最多的前五所学校的 NCESSchool 编号是多少”，模型第一次写的 SQL 可能有语法错（比如括号位置不对），工具执行后返回 “语法错误”，模型立马就知道改哪里，第二次调整引号位置再执行，就拿到正确结果了，整个过程跟人调试 SQL 一模一样，这比之前 “一锤子买卖” 靠谱多了（具体过程看下面的图 1，里面有完整的推理轨迹）。

图 1：MTIR-SQL 框架 overview

（图 1 里能清晰看到模型的多轮互动：第一次调用工具执行 SQL 报错，第二次修正后成功拿到结果，最后输出正确 SQL。这种 “边试边改” 的逻辑，比之前 “瞎写一通等结果” 聪明太多了）

当然，光有互动还不够，原来的 GRPO 算法在多轮场景下容易 “奖励崩塌”—— 要么越训越差，要么模型输出跟初始状态差太远，直接跑偏。MTIR-SQL 就给 GRPO 加了两个 buff：一是 “轨迹过滤机制”，把那些试了好几次都出不来正确结果的垃圾训练数据直接扔了，不浪费算力；二是删掉了 KL 损失约束，原来这玩意儿是为了防止模型跑偏，但也限制了模型的优化空间，删掉之后模型能更自由地调整策略，还不跑偏（对比看下面的图 2，左边是普通 GRPO，右边是 MTIR-SQL 的改进版，能明显看到多轮推理和过滤的作用）。

图 2：MTIR-SQL 与普通 GRPO 的对比

（图 2 很直观：普通 GRPO 没有过滤，也没法处理多轮反馈；MTIR-SQL 不仅能多轮调用工具，还会筛选高质量训练数据，优化效果自然更好）

为了让模型更有动力往正确方向走，MTIR-SQL 还设计了一套 “三重奖励机制”，跟游戏打怪升级似的：

格式奖励（Rf）
：要是模型输出的内容符合规定格式（比如工具调用标签用对了），就给 0.1 分，错了就扣 0.1 分。这就像老师要求作文必须分段，格式对了才给基础分。
执行奖励（Re）
：SQL 能成功跑起来给 0.1 分，跑不起来扣 0.1 分，格式错了直接不给分。就像你写的代码能编译通过才有资格谈功能对不对。
结果奖励（Rr）
：这是重头戏，SQL 执行结果对了直接给 1 分，错了扣 1 分，前面格式或执行错了的话，这部分直接 0 分。相当于考试最后一道大题，做对了拿高分，做错了血亏。

这套奖励机制可不是随便拍脑袋想的，后面消融实验证明，少了任何一个都不行。比如去掉执行奖励，模型在 BIRD Dev 集的准确率直接掉 3.9 个百分点；去掉结果奖励更惨，掉 4.3 个百分点（具体看后面的表 5）。

接下来咱看硬数据，毕竟吹得再凶不如成绩说话。团队在两个主流数据集 SPIDER 和 BIRD 上做了测试，SPIDER 是通用场景，BIRD 更贴近真实业务，数据还带 “脏数据”，难度更大。

先看参数小于 100 亿的模型对比（表 1），MTIR-SQL 用 40 亿参数的 Qwen3-4B，在 BIRD Dev 集拿到 64.4% 的准确率，而那些 67 亿、70 亿参数的模型，比如 DPSK-Coder-6.7B-Instruct 才 43.1%，Qwen2.5-Coder-7B-Instruct 也才 50.9%，就算是专门调过的 SFT Code5-7B，也只有 57.17%。相当于一个初中生跟高中生比考试，还考了更高分，这性价比绝了。

表 1：MTIR-SQL 与 100 亿参数以下模型的对比

再看 100 亿到 300 亿参数的模型（表 2），MTIR-SQL 照样领先。比如 220 亿参数的 Codestral-22B 才 52.7%，140 亿参数的 Qwen2.5-14B-Instruct 也才 56.7%，就算是 150 亿的 SFT Code5-15B，也只有 58.47%，都被 40 亿参数的 MTIR-SQL 甩在后面。这就像用小排量的车，跑赢了大排量的，油耗还更低。

表 2：MTIR-SQL 与 100-300 亿参数模型的对比

最离谱的是跟那些超大规模模型比（表 3），比如 340 亿参数的 Granite-34B-Code-Instruct 才 33.8%，1750 亿参数的 Codestral Base 也才 34.35%，就算是 ChatGPT、Claude-3 这些闭源大模型，准确率也才 37.22%、42.70%，GPT-4 也才 46.35%。只有 ChatGPT + CoT（思维链）能跟 MTIR-SQL 打平，拿到 64.64%，但人家 ChatGPT 背后是多少参数、多少算力啊，MTIR-SQL 用 40 亿参数就追平了，这实力谁看了不说一句 “绝”？

表 3：MTIR-SQL 与超大规模模型的对比

除了跟其他模型比，团队还测试了不同推理模式的效果（表 4）。比如 “直接输出”（模型想都不想直接写 SQL）在 BIRD Dev 集才 46.9%，“标准推理”（模型一步步想但不调用工具）也才 48.1%，“工具集成推理”（调用一次工具）47.6%。就算用了 GRPO 算法，“标准推理 + GRPO” 也才 58.9%，而 “多轮 TIR + GRPO-Filter”（也就是 MTIR-SQL 的核心）直接冲到 63.1%，SPIDER 的 Dev 和 Test 集也分别拿到 82.4% 和 83.4%。这说明多轮互动 + 实时反馈，确实能让模型越改越对。

表 4：不同推理模式在基准数据集上的 Pass@1 性能

最后再看消融实验（表 5），验证每个组件的作用。如果去掉格式奖励（w/o Rformat），准确率从 63.1% 掉到 62.3%，掉了 0.8 个百分点，说明格式规范还是有用的；去掉执行奖励（w/o Rexec），直接掉到 59.4%，掉了 3.9 个百分点，这说明能让 SQL 跑起来是关键 —— 连执行都不行，谈何结果正确；去掉结果奖励（w/o Rresult）更惨，掉到 58.8%，掉了 4.3 个百分点，这说明模型最终还是要靠 “结果对不对” 来校准方向。三个奖励少一个都不行，缺一不可。

表 5：MTIR-SQL 在 BIRD Dev 集上的奖励组件消融实验

讲真，MTIR-SQL 这波操作算是把 Text-to-SQL 的 “痛点” 全戳中了 —— 以前模型写 SQL 像 “盲人摸象”，现在能 “边摸边调”；以前 RL 算法容易 “崩”，现在加了过滤和去约束，稳定多了；以前小模型干不过大模型，现在 40 亿参数就能打平 ChatGPT + CoT，性价比直接拉满。

以后做数据分析，可能真的不用再死磕 SQL 语法了 —— 跟模型说句人话，它自己调几次就能出正确结果，这不就是打工人的福音吗？期待后续团队把这框架开源，到时候大家都能体验一把 “SQL 自由”！

https://arxiv.org/pdf/2510.25510

【声明】内容源于网络

我爱数据科学

精通R语言及Python，传递数据挖掘及可视化技术，关注机器学习及深度学习算法及实现，分享大模型及LangChain的使用技巧。编著多本R语言、python、深度学习等书籍。

内容 322

粉丝 0

我爱数据科学精通R语言及Python，传递数据挖掘及可视化技术，关注机器学习及深度学习算法及实现，分享大模型及LangChain的使用技巧。编著多本R语言、python、深度学习等书籍。

总阅读150

粉丝0

内容322