大数跨境
0
0

告别 “盲写 SQL” 时代!MTIR-SQL 带实时工具反馈,小模型也能吊打大参数竞品

告别 “盲写 SQL” 时代!MTIR-SQL 带实时工具反馈,小模型也能吊打大参数竞品 我爱数据科学
2025-11-02
0
导读:本文提出MTIR-SQL框架,针对Text-to-SQL 任务,结合多轮工具交互与动态反馈,改进 GRPO 算法,获 64.4% BIRD Dev 准确率、84.6% SPIDER Dev 执行准确率

行业首本《ChatBI 核心技术》新书正式上市,用自然语言干掉 80% 的报表需求

家人们谁懂啊!现在大语言模型(LLMs)玩 Text-to-SQL(把人话转成能执行的 SQL)越来越溜,但老问题一直没解决 —— 之前那些用强化学习(RL)优化的模型,都只看最后执行结果给反馈,跟开盲盒似的,写跑偏了都没法实时改。就像你炒菜全程不尝味,最后端上桌才知道盐放多了,这不白忙活吗?

直到最近,美团、中科院这些大佬团队搞出了个叫MTIR-SQL的新框架,直接把 “实时尝味” 安排上了!它能让模型跟数据库工具多轮互动,写一句 SQL 就执行一下,根据结果当场改,还把原来的 GRPO 算法魔改了一番,稳定性直接拉满。最离谱的是,这模型才 40 亿参数,在 BIRD 数据集的 Dev 集上 accuracy 干到 64.4%,SPIDER 的 Dev 集执行准确率更是飙到 84.6%,把那些动辄几十亿、上百亿参数的模型按在地上摩擦(后面有表为证,咱不吹牛逼)。

先跟大家掰扯下 Text-to-SQL 这活儿有多重要。你想啊,不是人人都懂 SQL,但老板又总让你从数据库里扒数据 —— 要是能直接说 “把去年 Q3 的销售额 top10 的产品列出来”,系统就自动生成 SQL 执行,这不直接解放双手?所以这技术在商业智能、数据分析里用处大了去了。

但以前的玩法太局限了:要么是拿标注数据死磕微调(SFT),模型只会照葫芦画瓢;要么是给闭源大模型写提示词,让它一步步想(Chain-of-Thought),但没法实时改;还有用 RL 的,比如 PPO、GRPO 算法,也只看最后执行结果给奖励,中间写崩了完全不知道。就像你写作文,老师只给个总分,不告诉你哪段跑题、哪个词用错,下次还是照样错。

MTIR-SQL 最牛的地方,就是把 “多轮工具交互” 和 “强化学习” 焊死了。它引入了一个 “执行感知的多轮推理” 模式,简单说就是模型每一步思考都会调用数据库工具,拿到执行反馈再接着改。比如用户问 “加州学校里,5-17 岁入学人数最多的前五所学校的 NCESSchool 编号是多少”,模型第一次写的 SQL 可能有语法错(比如括号位置不对),工具执行后返回 “语法错误”,模型立马就知道改哪里,第二次调整引号位置再执行,就拿到正确结果了,整个过程跟人调试 SQL 一模一样,这比之前 “一锤子买卖” 靠谱多了(具体过程看下面的图 1,里面有完整的推理轨迹)。

图 1:MTIR-SQL 框架 overview

(图 1 里能清晰看到模型的多轮互动:第一次调用工具执行 SQL 报错,第二次修正后成功拿到结果,最后输出正确 SQL。这种 “边试边改” 的逻辑,比之前 “瞎写一通等结果” 聪明太多了)

当然,光有互动还不够,原来的 GRPO 算法在多轮场景下容易 “奖励崩塌”—— 要么越训越差,要么模型输出跟初始状态差太远,直接跑偏。MTIR-SQL 就给 GRPO 加了两个 buff:一是 “轨迹过滤机制”,把那些试了好几次都出不来正确结果的垃圾训练数据直接扔了,不浪费算力;二是删掉了 KL 损失约束,原来这玩意儿是为了防止模型跑偏,但也限制了模型的优化空间,删掉之后模型能更自由地调整策略,还不跑偏(对比看下面的图 2,左边是普通 GRPO,右边是 MTIR-SQL 的改进版,能明显看到多轮推理和过滤的作用)。

图 2:MTIR-SQL 与普通 GRPO 的对比

(图 2 很直观:普通 GRPO 没有过滤,也没法处理多轮反馈;MTIR-SQL 不仅能多轮调用工具,还会筛选高质量训练数据,优化效果自然更好)

为了让模型更有动力往正确方向走,MTIR-SQL 还设计了一套 “三重奖励机制”,跟游戏打怪升级似的:

  • 格式奖励(Rf)
    :要是模型输出的内容符合规定格式(比如工具调用标签用对了),就给 0.1 分,错了就扣 0.1 分。这就像老师要求作文必须分段,格式对了才给基础分。
  • 执行奖励(Re)
    :SQL 能成功跑起来给 0.1 分,跑不起来扣 0.1 分,格式错了直接不给分。就像你写的代码能编译通过才有资格谈功能对不对。
  • 结果奖励(Rr)
    :这是重头戏,SQL 执行结果对了直接给 1 分,错了扣 1 分,前面格式或执行错了的话,这部分直接 0 分。相当于考试最后一道大题,做对了拿高分,做错了血亏。

这套奖励机制可不是随便拍脑袋想的,后面消融实验证明,少了任何一个都不行。比如去掉执行奖励,模型在 BIRD Dev 集的准确率直接掉 3.9 个百分点;去掉结果奖励更惨,掉 4.3 个百分点(具体看后面的表 5)。

接下来咱看硬数据,毕竟吹得再凶不如成绩说话。团队在两个主流数据集 SPIDER 和 BIRD 上做了测试,SPIDER 是通用场景,BIRD 更贴近真实业务,数据还带 “脏数据”,难度更大。

先看参数小于 100 亿的模型对比(表 1),MTIR-SQL 用 40 亿参数的 Qwen3-4B,在 BIRD Dev 集拿到 64.4% 的准确率,而那些 67 亿、70 亿参数的模型,比如 DPSK-Coder-6.7B-Instruct 才 43.1%,Qwen2.5-Coder-7B-Instruct 也才 50.9%,就算是专门调过的 SFT Code5-7B,也只有 57.17%。相当于一个初中生跟高中生比考试,还考了更高分,这性价比绝了。

表 1:MTIR-SQL 与 100 亿参数以下模型的对比

再看 100 亿到 300 亿参数的模型(表 2),MTIR-SQL 照样领先。比如 220 亿参数的 Codestral-22B 才 52.7%,140 亿参数的 Qwen2.5-14B-Instruct 也才 56.7%,就算是 150 亿的 SFT Code5-15B,也只有 58.47%,都被 40 亿参数的 MTIR-SQL 甩在后面。这就像用小排量的车,跑赢了大排量的,油耗还更低。

表 2:MTIR-SQL 与 100-300 亿参数模型的对比

最离谱的是跟那些超大规模模型比(表 3),比如 340 亿参数的 Granite-34B-Code-Instruct 才 33.8%,1750 亿参数的 Codestral Base 也才 34.35%,就算是 ChatGPT、Claude-3 这些闭源大模型,准确率也才 37.22%、42.70%,GPT-4 也才 46.35%。只有 ChatGPT + CoT(思维链)能跟 MTIR-SQL 打平,拿到 64.64%,但人家 ChatGPT 背后是多少参数、多少算力啊,MTIR-SQL 用 40 亿参数就追平了,这实力谁看了不说一句 “绝”?

表 3:MTIR-SQL 与超大规模模型的对比

除了跟其他模型比,团队还测试了不同推理模式的效果(表 4)。比如 “直接输出”(模型想都不想直接写 SQL)在 BIRD Dev 集才 46.9%,“标准推理”(模型一步步想但不调用工具)也才 48.1%,“工具集成推理”(调用一次工具)47.6%。就算用了 GRPO 算法,“标准推理 + GRPO” 也才 58.9%,而 “多轮 TIR + GRPO-Filter”(也就是 MTIR-SQL 的核心)直接冲到 63.1%,SPIDER 的 Dev 和 Test 集也分别拿到 82.4% 和 83.4%。这说明多轮互动 + 实时反馈,确实能让模型越改越对。

表 4:不同推理模式在基准数据集上的 Pass@1 性能

最后再看消融实验(表 5),验证每个组件的作用。如果去掉格式奖励(w/o Rformat),准确率从 63.1% 掉到 62.3%,掉了 0.8 个百分点,说明格式规范还是有用的;去掉执行奖励(w/o Rexec),直接掉到 59.4%,掉了 3.9 个百分点,这说明能让 SQL 跑起来是关键 —— 连执行都不行,谈何结果正确;去掉结果奖励(w/o Rresult)更惨,掉到 58.8%,掉了 4.3 个百分点,这说明模型最终还是要靠 “结果对不对” 来校准方向。三个奖励少一个都不行,缺一不可。

表 5:MTIR-SQL 在 BIRD Dev 集上的奖励组件消融实验

讲真,MTIR-SQL 这波操作算是把 Text-to-SQL 的 “痛点” 全戳中了 —— 以前模型写 SQL 像 “盲人摸象”,现在能 “边摸边调”;以前 RL 算法容易 “崩”,现在加了过滤和去约束,稳定多了;以前小模型干不过大模型,现在 40 亿参数就能打平 ChatGPT + CoT,性价比直接拉满。

以后做数据分析,可能真的不用再死磕 SQL 语法了 —— 跟模型说句人话,它自己调几次就能出正确结果,这不就是打工人的福音吗?期待后续团队把这框架开源,到时候大家都能体验一把 “SQL 自由”!

https://arxiv.org/pdf/2510.25510

【声明】内容源于网络
0
0
我爱数据科学
精通R语言及Python,传递数据挖掘及可视化技术,关注机器学习及深度学习算法及实现,分享大模型及LangChain的使用技巧。编著多本R语言、python、深度学习等书籍。
内容 322
粉丝 0
我爱数据科学 精通R语言及Python,传递数据挖掘及可视化技术,关注机器学习及深度学习算法及实现,分享大模型及LangChain的使用技巧。编著多本R语言、python、深度学习等书籍。
总阅读150
粉丝0
内容322