大数跨境
0
0

干货收藏|深度解析数据分析Agent技术原理与产品发展

干货收藏|深度解析数据分析Agent技术原理与产品发展 阿里云开发者
2025-12-18
4

在2025年的节点回望企业AI实践,真正的竞争优势并不在于模型本身,而在于那些他人难以获取或理解的独特内部数据下一个十年,谁能掌控数据,谁就能定义未来生产力。

瓴羊收集上千条真实用户问题,历经数月深度调研与精心打磨,重磅发布国内首份数据分析Agent系统性解读报告《数据分析Agent白皮书:AI重构数据消费》。白皮书内容聚焦数据分析Agent的技术路线、落地方案与未来方向,希望能将Quick BI团队多年积累的认知与思考传递给所有关心数据领域技术和应用发展的用户。

欢迎点击文末“阅读原文”,免费领取完整版《数据分析Agent白皮书》~

一、领域背景

2023年,LLM突破自然语言理解瓶颈,使对话取数成为可能,问答BI(ChatBI)成为业界普遍方向;2025年,Agent技术的发展赋予了AI系统自主规划、执行、反思的能力,数据分析Agent也成长为能够理解业务需求、自主处理数据、生成专业洞察的企业级智能助手。

源于技术浪潮的推动、企业分析的需求、数据产品突破的探索,这些种种因素,让AI对数据分析的重构成为了一种必然。

大模型打通了自然语言与数据语言之间的鸿沟,让数据分析展现出智能搭建(Copilot)、智能问数(ChatBI)、洞察分析(Insight)、决策智能(Decision Intelligence)等多种可能性。从数据连接到洞察决策,事实上数据分析的每一个环节都具备用AI技术重塑的价值。

  • 搭建助手(Copilot)用户只需要输入简单的指令或描述,Colpilot就能辅助用户完成连接数据源、构建数据模型、搭建报表等工作,大大降低了数据产品的使用门槛和使用成本,让没有经验的产品小白也可以更快上手。

  • 智能问数(ChatBI)通过自然语言交互,允许用户像和人类对话一样向系统提问,由系统即时理解并返回准确的分析结果,所有人都可以随时随地的获取数据。

  • 洞察分析(Insight)基于数据、业务知识,通过大模型让使用传统算法的洞察分析脱胎换骨,实现更精准的总结、诊断、归因,能够自动发现数据中隐藏的价值。

  • 决策智能(Decision Intellegence)随着数据量的爆炸式增长和分析技术的不断进步,例如多模态、多元信息整合、多Agent技术的发展,人们不再仅仅满足于单一功能的设定,产品形态可能从被动式服务向主动式服务、信息来源从单一到多源,将数据与人和事连接,进一步解释问题为什么会发生、未来会怎么样,为用户提供更高阶的决策支持。

总结来说,在智能化时代,AIGC加持的对话式分析凭借自然语言灵活响应需求、端到端数据洞察的自动化输出以及数据开发工作的简化等优势特征,带来了全新的、端到端的交互体验打破了传统分析对专业技能的强依赖,推动数据产品从“人人都是数据分析师”转向“人人都是数据消费者”。

二、技术名词解析

AI时代,诸多的技术词汇以及新兴概念让用户目不暇接。基于Quick BI当前的经验及沉淀来看,在数据分析Agent相关领域,以下技术名词可以多加关注。

  • NL2SQL:一种将自然语言转换为SQL获取数据代码的技术方案,与之相关的概念还有NL2DSL、NL2Data等。对于技术选型者,需要关注相关概念。

  • ChatBI:一类对话式分析的BI产品工具,但是现阶段一般泛指AI问数类产品。NL2SQL或NL2DSL等技术方案是ChatBI产品内的关键技术组成部分。

  • DataAgent:本意是在数据领域具备思考规划及行动能力的智能体。但是遗憾的是,由于一方面场景定义不够聚焦(定位于所有和数据相关的智能体应用,包括智能分析,智能营销等等),另一方面产品化程度及企业级能力考虑不足,所以市场上大部分的DataAgent基本沦为单点交付实施的项目,其能力可复制性、价值确定性及持续可维护性面临较大挑战。

  • 分析Agent:聚焦于数据分析领域的智能体,具备“数据获取-分析结论-策略输出-报告撰写”的全流程自动化能力。NL2SQL类的技术能力是其组成部分之一。目前市场上多以具备智能问数、智能报告等综合能力的产品形态提供服务。

  • Agent搭建平台:类似于Dify、LangChain、LangGraph、百炼、Coze等,都是支持自定义智能体构建的平台,通常支持流程编排能力,流程节点可以调用大模型的接口进行推理服务,很多也有配套的知识库构建和管理能力。部分企业和组织用智能体搭建平台来完成逻辑较为明确且复杂度相对较低的智能体搭建。但对于逻辑较为复杂的业务,从专业性及可维护性等角度出发,选择垂直聚焦的Agent产品是更多企业的选择。

三、数据分析Agent内核框架

Agent有很多工作模式,我们在此介绍一种典型的Agent工作模式,将其概括为以下核心环节:

  • 任务规划 (Task Planning) 

  • 工具选择 (Tool Selection) 

  • 工具调用 (Tool Invocation) 

  • 子任务递归执行 (Recursive Execution of Subtasks) 

  • 最终反馈生成 (Final Response Generation)

当大模型需要根据说明完成一个自身推理无法(准确)完成的复杂问题时,Agent会负责选择对应工具,告诉模型应该使用哪个工具以及对应参数。

数据分析Agent就是根据上述的工作模式进行设计。基于数据分析领域的独特性与复杂性,可以将数据分析Agent内核拆解为多个不同能力组合的Agent,具体为:

  • QueryAgent:准确的数据获取及统计的能力,这是基础,我们称之为取数

  • DocumentAgent:非结构化数据分析的能力,这是扩展,我们称之为理解

  • DeepAnalyzeAgent:杂问题理解并输出分析报告的能力,这是升阶,我们称之为分析

在不同的数据分析场景,需要使用的能力及Agent也有所差异。

面对取数类问题,比如“今年我们公司各大区销售目标完成情况?”、“这个月的总订单量及已处理订单量?”,我们可以通过QueryAgent完成对问题的理解、找到数据出处、生成取数代码、执行代码生成数据、调用可视化图表组件进行展示。

面对复杂分析类问题,比如生成经营分析报告。模型自身是无法直接进行总结的,它需要对问题进行理解和规划(基于DeepAnalyzeAgent),先调用取数工具(如QueryAgent)获取每个月的销量情况,再调取非结构化数据分析工具(如DocumentAgent)理解不同月份的经营动作及策略变化,再将相关内容整合在一起后进行分析、归纳和总结,并最终形成分析报告。

整体来看,数据分析Agent会涉及到模型、知识、语义及数据的交互,所以领域内公认的较为完整的数据分析Agent内核框架基本如下。

四、ChatBI的重点技术解析

取数是数据分析的基础核心环节,直接决定了分析的准确性与整体效率,同时也是ChatBI问数能力的关键。具体到问数的技术实现层面,NL2SQL、NL2DSL、NL2Code/NL2Python等技术方案也成为了行业高频提及的宣传词汇。

NL2SQL、NL2DSL、NL2Code/NL2Python的共同目标都是用自然语言取到数据,也就是将自然语言转化为SQL、DSL或代码,再进一步通过代码执行完成数据的获取。

当前主流的智能问数技术路线是NL2SQL和NL2DSL,同时有技术实力的团队进入到更具融合性的阶段,也被统称为NL2Data技术路线。

  • NL2SQL:通过大模型将用户的自然语言问题转换为结构化查询语言(SQL),使数据库能够理解并返回数据查询结果。

  • NL2DSL:通过大模型将用户的自然语言问题转换为BI领域结构化语言(DSL),然后由BI分析引擎转换为结构化查询语言(SQL),使数据库能够理解并返回数据查询结果。因此也有NL2DSL2SQL的说法。

  • NL2Data:通过大模型将用户的自然语言问题进行转化,使用混合技术模式最终转换为SQL结果。混合技术模式包括将问题转换为单步或多步,并在每一步选择NL2SQL或NL2DSL或NL2Python。

NL2SQL能快速借力大模型的SQL生成能力,所以成为了较多团队的选择。但是,NL2SQL面临复杂分析局限及不同数据库的方言适配限制,同时需要构建行列级数据权限管控等能力,因此个人或小型团队使用较多,稍大规模的团队则会通过模型训练等方式来缓解部分存在的问题。具体来说,NL2SQL路线面临着以下局限性。

  • 语义理解准确性由于缺乏数据模型的抽象定义,直接对接物理表,大模型难以理解问题并映射到具体的物理表,需要另外补足语义模型管理的能力

  • 生成数据库特定方言SQL的准确性与可执行性生成准确且可执行的SQL是一项非常难的事情,需要大模型深入理解SQL语法、数据库特定方言,目前的大模型还难以支持各种丰富的数据库类型

  • 难以应对复杂业务分析例如多表关联/合并、嵌套查询等场景,复杂的业务分析问题要求模型具备强大的语义理解和逻辑推理能力

  • 不确定的性能问题大模型生成的SQL很难保持稳定不变,且性能最优

  • 数据安全风险缺乏对上层应用和用户的权限管控,需要另外补足数据行列权限管控能力

相较于 NL2SQL直接转化为通用 SQL语句,NL2DSL先将自然语言转化为适配各BI产品的特定领域语言,更具备数据分析领域的场景适配性,能够最大化复用成熟的BI技术体系,相对来说会具备较高的准确性、时效性、安全性。但正因如此,NL2DSL路线需要依赖BI技术体系,同时需要通过训练的方式让大模型具备对DSL语言的理解,所以NL2DSL路线一方面对团队的技术要求比较高,另一方面查询的复杂性会受限于BI引擎的能力边界。

总结来说,NL2DSL路线是有BI产品基础的厂商首选的技术路径,因为过去大量的分析能力的积累、数据语义构建的基础、数据权限的管控、丰富数据源类型的兼容、海量数据查询加速、可视化展示与交互,所有这些数据产品的关键能力都能马上复用,带来极好的用户体验。

在实践过程中,为了达到更好的数据准确性、场景覆盖度以及用户体验,有技术资源的团队,会在以下两方面进一步优化:一方面,采用混合路线,比如加入NL2Code/NL2Python而非单纯依赖NL2DSL路线;另一方面,混合采用Plan-and-Act及ReAct进行规划,基于分析问题和场景选择合适的模式。以Quick BI的QueryAgent为例,支持开启规划模式,可对歧义性问题进行澄清发散性问题进行任务编排收敛性问题自主判断哪些能力范围内的任务、超纲类问题进行拒识,同时也支持混合特定场景的算法小模型调用。所以在国际数据技术领域中,逐步将这样的技术路线统一定义为NL2Data路线,也是目前Quick BI比较赞同和践行中的路线

事实上技术创新从无捷径可走。没有一步到位就完美实现的技术路线,也没有放之四海皆准的技术路线,不同团队的技术厚度、具体需求、可投入资源及对当下领域内的技术边界的认知,决定了到底需要用什么样的路线达到什么样的能力,最终能实现什么样的场景价值。

五、数据分析Agent内核框架

要解决取数类问题、分析类问题并实现广泛落地,必备一个强大的端到端应用作为支撑。因此,除了夯实分析 Agent 的内核能力,还需配套构建面向用户级交互体验的工程化能力,比如数据可视化展示与交互、企业级加速引擎、数据安全的管控及稳定性保障。这正是 Quick BI 的核心优势所在。

通过复用多年积累的全链路数据能力与企业级服务经验,Quick BI推出的数据分析Agent智能小Q深度嵌入了现有 BI 体系并作为智能化中枢助力产品突破瓶颈,实现快速复用数据连接、权限管控、可视化图表等成熟模块,形成了开箱即用的落地优势。

六、未来展望

在 2025 年的节点回望,数据分析Agent既有巨大的能力飞跃,又依旧面临着数据准度、分析深度、消费广度的考验,而这些挑战也正是数据分析Agent正在不断突破和演进的方向。

数据准度是一切可能性的前提,因为所有数据结论都建立在数据准确性的基石之上。当前基础的数据质量问题、面向AI的数据语义清晰度问题、模型尚且存在的幻觉概率等问题共同导致了数据分析Agent输出结果的准确性风险。我们认为,解决准确性问题的落点依旧在于综合性的方案,比如选择合适的模型甚至进行专项模型训练、建立高质量的基础数据集、构建完备的数据语义及知识库

在分析深度方面,数据知识化是必然趋势。数据知识化包含两个方面,首先是将结构化的数据通过理解解读为非结构化的知识,在此基础上观测趋势、识别异常、洞见原因进而形成有效行动策略的知识。我们不能仅仅寄希望于大模型对更大量级数据的理解力提升,而是需要在面向AI的数据预计算与拆解适时选择小模型对结构化数据深加工高质量非结构化数据构建这三方面采取行动并积累实践经验。具体来说,以下这些方面值得我们关注:

  • 如何连接企业高频数据,让数据更好更高效地转化为知识

  • 如何构建行业分析模型,内化企业知识,快速构建多种分析场景Agent

  • 如何提升洞察归因能力,围绕业务场景降低使用门槛,围绕核心指标实现沙盘推演

  • 如何覆盖多种报告场景,从非结构化数据中萃取高质量知识

在消费广度方面, 想要真正实现从“人找数”到“数找人”的进化,甚至到真正的“智能行动”,不管是数据信息的架构、数据与人员组织的关联还是数据与业务流的关联,都必定会面临巨大的变革。就当下而言,一方面需要主动识别目标人群及价值场景;另一方面,也必须注重在产品系统层面结合OA与各种应用系统,同时对安全及权限管控、订阅推送等重点企业级能力进行储备

欢迎点击文末“阅读原文”,免费领取完整版《数据分析Agent白皮书》~

【声明】内容源于网络
0
0
阿里云开发者
阿里巴巴官方技术号,关于阿里的技术创新均呈现于此。
内容 3580
粉丝 0
阿里云开发者 阿里巴巴官方技术号,关于阿里的技术创新均呈现于此。
总阅读19.5k
粉丝0
内容3.6k