奖励稀疏性
数据科学任务复杂度高,基础大语言模型在训练初期难以成功完成任务,导致正向强化信号匮乏,可能阻碍甚至中断整个智能体训练过程。
轨迹稀缺性
数据科学领域中,长链问题解决轨迹(即完整的任务执行步骤记录)极为稀少,无法为模型提供有效引导,导致模型陷入低效的“盲目试错” 探索。

为解决上述问题,来自人大和清华的研究团队发布了 DeepAnalyze----首个面向自主数据科学的智能体大语言模型(agentic LLM)其本质其本质是“能像人类数据科学家一样自主完成复杂数据任务的基础模型”。

DeepAnalyze引起了社区内广泛讨论,一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。尽管仅含 80 亿参数,DeepAnalyze 仍能自动化完整数据科学流程(从特定数据任务到开放式数据研究),为数据中心型应用提供统一通用的解决方案。
DeepAnalyze-8B 能够模拟数据科学家的行为,在真实环境中主动编排、优化操作,最终完成复杂的数据科学任务。支持各种以数据为核心的任务:
数据任务:自动化数据准备、数据分析、数据建模、数据可视化、数据洞察、报告生成;
数据研究:可在任意数量的结构化数据(数据库、CSV、Excel)、半结构化数据(JSON、XML、YAML)、非结构化数据(TXT、Markdown)中进行开放式深度研究,生成分析师级别的研究报告;
以上所示为DeepAnalyze部署流程的Demo演示
DataSciBench:端到端数据科学流程能力
尽管仅含 80 亿参数,DeepAnalyze-8B 在开源模型智能体中表现最佳,且优于多数先进专有模型,仅落后于 GPT-4o;
与现有工作流智能体不同,DeepAnalyze-8B 无需依赖 ReAct 等外部协调框架,即可完成高质量端到端流程;
对比 o1-mini 等推理能力强但缺乏数据科学训练的模型,DeepAnalyze 通过智能体训练获得 “自主协调与自适应优化能力”,在复杂数据科学任务中表现更稳定。
DSBench:单一数据科学任务能力
多数现有研究聚焦单一数据科学任务(如分析、建模),在 DSBench 上进一步评估 DeepAnalyze 的这类能力
DABStep:多类型数据处理能力
DABStep 包含结构化、半结构化、非结构化等多种数据类型(如 Markdown、CSV、JSON),用于评估模型处理多样数据的能力。实验对比了基于 ReAct、推理提示、专用工作流的智能体,结果如上表所示
DeepAnalyze-8B 在难题任务上表现尤为突出:工作流智能体可借助专有大语言模型的强通用能力在简单任务上表现良好,但预定义工作流限制了其在复杂场景的性能;而 DeepAnalyze 通过智能体训练获得 “自主协调与自适应优化能力”,能像人类数据科学家一样与环境迭代交互,在需长链推理的复杂任务上表现更优。
DeepAnalyze 为自主数据科学领域带来重大突破,依托 “基于课程的智能体训练” 与 “数据驱动的轨迹合成” 技术,80 亿参数的 DeepAnalyze-8B 在 12 个数据科学基准测试集上超越当前最先进闭源大语言模型;
其突破预定义工作流限制,支持开放式数据研究并生成分析师级报告,能从原始数据中自动提取可行动洞察,标志着自主数据科学从 “工作流智能体” 向 “智能体模型” 的范式转变,为下一代智能数据系统(如数据发现、治理、生态、管理)奠定基础。
lDeepAnalyze 未来研究方向聚焦三方面:进一步扩展模型处理多模态数据的能力、优化实时数据环境中的自适应策略、探索更高效的轨迹合成方法,最终推动自主数据科学在更多实际场景中的应用。
论文链接:https://arxiv.org/pdf/2510.16872
代码、Demo链接:https://github.com/ruc-datalab/DeepAnalyze
模型链接:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
数据链接:https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多精彩内容

