导读 本文整理自蚂蚁集团数据分析平台评测负责人官维在技术大会上的演讲。官维老师作为蚂蚁数据分析平台的产品专家,主导了DeepInsight智能化评测体系的构建以及评测集开源项目建设,负责DI数据准备、报表制作等核心模块的智能化产品建设,目前已获得1项国家专利授权,3篇专利正在申请中。
在AI+BI融合的时代背景下,自然语言取数虽然降低了数据查询的门槛,但准确性问题始终是制约其发展的关键瓶颈。本文将系统阐述蚂蚁集团如何构建一套基于SQL计算特征和语义表达特征的智能化评测体系,通过自动化评测集生成方案,解决中文Text-to-SQL领域评测资源稀缺、业界评测集无法匹配真实企业场景等核心痛点,并最终实现执行准确率提升46%、不可执行率下降71%的显著效果。
分享嘉宾|官维 蚂蚁集团 蚂蚁数据分析平台评测负责人
编辑整理|郭慧敏
内容校对|郭慧敏
出品社区|DataFun
AI+BI融合背景下的评测挑战


传统BI工具存在两大核心痛点。对于非专业用户而言,复杂的SQL语法构成了较高的使用门槛;对于专业用户,从需求提出到报表产出的周期较长,研发效率相对低下。随着大模型能力的提升,AI+BI的结合模式正在全面推动传统BI研发范式的升级,让非专业用户通过自然语言就能直接获取数据,同时加速了数据获取流程。然而,从实际效果来看,自然语言取数的准确性和可信度仍面临严峻挑战,这催生了构建客观评测体系的迫切需求。
中文评测的独特难点

中英文在语言表达上的显著差异直接影响Text-to-SQL任务的难度。首先,英文具有天然的空格分隔优势,而中文必须先进行分词处理,分词的准确性直接影响语义理解质量。其次,中文表达更加灵活、含蓄,具有较强的上下文依赖性,经常出现省略、隐含等表达方式。第三,技术生态存在局限性,当前中文Text-to-SQL领域的资源相对稀缺,预训练模型由于底层代码和语料主要以英文为主,天然地更"熟悉"英文环境。最后,Schema Linking(模式链接)难度较高,需要系统精准地将中文词汇映射到正确的数据库Schema上,例如将用户提问的"产品名"准确关联到数据库中的"product_name"字段。
企业真实场景的特殊诉求

在企业场景下,智能化评测面临更加特殊和复杂的需求。首先是真实企业数据集的非标性问题,业界评测集采用标准化命名规范,但实际环境中存在大量"中式命名"和脏数据。其次是数据上下文理解的缺失,真实场景中的字段往往存在深层的业务关系和逻辑依赖,例如电商场景中"订单金额"和"实付金额"之间的计算依赖关系。第三是领域专业知识的壁垒,在电商、金融、医疗等专业领域,用户查询中包含大量专业术语,模型缺乏这些知识会导致错误答案。因此,亟需构建一个能够全面反映真实商业环境复杂度的评测集。
业界评测方案的现状与局限

业界现有方案存在三大核心局限:第一,大多数评测集集中在英文领域,中文高质量评测集相对稀缺;第二,中文评测集无法匹配真实企业场景,企业级数据库通常有上千列而Spider平均仅27.1列,且缺乏业务逻辑和外部知识考察;第三,缺乏特征标注体系来衡量问题难易度,无法进行深入的归因分析和针对性优化。
创新方案:基于特征标注的评测体系设计

从槽位填充到特征驱动的演进


SQL计算特征的精细化标注


SQL语义表达特征的全面覆盖


团队对SQL语义表达特征进行了系统化标注设计,涵盖从精准匹配到依赖外部知识的多个层次。基础语义特征包括精准匹配、同义/近义词、错别字/同音字、缩略词/口语化省略等。进阶语义特征包括数值单位转换、国际化语言/翻译、网络用语/俚语、时间相对描述转换、空间相对/模糊描述转换等。
依赖外部知识的特征是最复杂的部分,包括缺省表达(文本省略的信息需基于外部知识填充,如财资场景中"区域"默认指OU地区)、歧义字段(词语有多个潜在含义需消歧,如"金额"可能指订单金额或实付金额)、枚举值转换(数字代码需转换为有意义概念,如"性别:1"需基于数据字典转换为"男性")。这种全面的语义特征标注体系能够覆盖中文表达的各种变体和复杂情况。
自动化评测集生成方案


通用评测仓库构建分为三个阶段。第一阶段生成种子问题,输入模型数据和特征集合,获取数据采样和schema信息后生成初始问题,经人工筛选形成高质量种子问题。第二阶段生成合成问题,基于种子问题、表schema、SQL特征集合等输入,通过引入反思(Reflexion)模块生成大量高质量合成问题。第三阶段进行答案标注,采用多模型执行sample-n方式生成候选SQL,辅助人工标注并划分难度等级,最后通过交叉人工标注确保准确性。
线上真实场景评测集构建的主要差异在于问题来源:第一阶段从线上真实用户提问进行抽样并标注特征,第二阶段基于真实问题特征生成符合线上场景的合成问题,第三阶段的答案标注流程与通用评测仓库一致。这种方式生成的评测集,其问题分布、难度分布、特征分布都与线上真实情况高度吻合。
评测体系建设成果与应用实践


团队使用Falcon评测集对主流大语言模型进行了全面评测,结果显示:DeepSeek-R1以45.2%的正确率位居第一,紧随其后的是o1(43.0%)、o3mini(42.2%)、Claude-3.7-sonnet-Thinking(41.0%)、GPT4.1(40.2%)、Claude-3.7-sonnet(40.0%)等。相比Spider 2.0仅20%的最佳成功率,Falcon评测集45.2%的最高正确率显示出更为合理的难度设计。
评测体系在蚂蚁内部的自助分析Copilot场景取得了显著效果。通过常态化评测以及工程链路的持续优化(包括优化prompt、调整模型参数、加入反思机制、增加语义校验等),使得执行准确率相对评测前提升了46%。通过优化评测集和工程链路,使得不可执行率下降了71%。
团队还将整套评测能力输出到面向客户的产品中,构建了端到端的评测流程。业务方可以沉淀自己的评测集,进行自助评测和调试,系统透明展示知识召回、指标召回和模型推理过程,用户可以针对性地进行知识调试、指标调试和结果调试。这种将评测能力产品化的做法,不仅提升了业务方的自主优化能力,也大幅降低了平台方的运维成本。

未来迭代方向与展望
未来的迭代方向主要集中在三个维度。在评测能力覆盖度方面,计划支持多轮对话评测、模糊语义场景评测以及依赖知识场景评测。在评测场景覆盖度方面,将从单一的取数场景扩展到智能分析和智能解读场景,覆盖数据分析的全链路。在开源建设方面,规划建设中文取数领域的评测榜单,持续开源更多评测集和场景,欢迎社区提出建设性建议,共同推动中文Text-to-SQL评测的标准化。
总结
蚂蚁DeepInsight智能化评测体系的建设实践,为AI+BI领域的评测提供了一套系统化的方法论和工具支撑。通过基于SQL计算特征和语义表达特征的标注方法,解决了业界评测集特征标注不精细、缺乏语义化标注的问题;通过自动化评测集生成方案,实现了评测集的规模化、高质量生成;通过Falcon评测集的开源和评测系统的产品化,将评测能力惠及整个社区,推动了Text-to-SQL技术的整体进步。评测体系在蚂蚁内部应用取得的显著成效,充分证明了评测对产品优化的指导价值,为行业提供了可借鉴的实践经验。
分享嘉宾
INTRODUCTION
官维
蚂蚁集团
蚂蚁数据分析平台评测负责人
蚂蚁集团产品经理,蚂蚁数据分析平台评测负责人,主导DI智能化的评测体系构建,及评测集开源项目建设。蚂蚁数据分析平台产品专家,负责DI数据准备,报表等核心模块的智能化产品建设。已获得1项国家专利授权,并有3篇专利申请中。
往期推荐
点个在看你最好看
SPRING HAS ARRIVED

