重磅！首个自主数据科学智能体大模型来了：80亿参数搞定全流程，性能逼近 GPT-4o

北京无限迭代科技有限公司

2025-11-05

导读：自人大和清华的研究团队发布了 DeepAnalyze----首个面向自主数据科学的智能体大语言模型（agentic LLM）其本质其本质是“能像人类数据科学家一样自主完成复杂数据任务的基础模型”。

为实现将基于大语言模型（LLMs）的数据科学方法从 “工作流智能体” 推进到 “可训练智能体模型” 的目标 —— 即使模型能在真实环境中自主学习执行数据科学任务，研究人员需解决两大核心挑战：

奖励稀疏性

数据科学任务复杂度高，基础大语言模型在训练初期难以成功完成任务，导致正向强化信号匮乏，可能阻碍甚至中断整个智能体训练过程。

轨迹稀缺性

数据科学领域中，长链问题解决轨迹（即完整的任务执行步骤记录）极为稀少，无法为模型提供有效引导，导致模型陷入低效的“盲目试错” 探索。

为解决上述问题，来自人大和清华的研究团队发布了 DeepAnalyze----首个面向自主数据科学的智能体大语言模型（agentic LLM）其本质其本质是“能像人类数据科学家一样自主完成复杂数据任务的基础模型”。

DeepAnalyze引起了社区内广泛讨论，一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。尽管仅含 80 亿参数，DeepAnalyze 仍能自动化完整数据科学流程（从特定数据任务到开放式数据研究），为数据中心型应用提供统一通用的解决方案。

DeepAnalyze-8B 能够模拟数据科学家的行为，在真实环境中主动编排、优化操作，最终完成复杂的数据科学任务。支持各种以数据为核心的任务：

数据任务：自动化数据准备、数据分析、数据建模、数据可视化、数据洞察、报告生成；

数据研究：可在任意数量的结构化数据（数据库、CSV、Excel）、半结构化数据（JSON、XML、YAML）、非结构化数据（TXT、Markdown）中进行开放式深度研究，生成分析师级别的研究报告；

以上所示为DeepAnalyze部署流程的Demo演示

DataSciBench:端到端数据科学流程能力

尽管仅含 80 亿参数，DeepAnalyze-8B 在开源模型智能体中表现最佳，且优于多数先进专有模型,仅落后于 GPT-4o；
与现有工作流智能体不同，DeepAnalyze-8B 无需依赖 ReAct 等外部协调框架，即可完成高质量端到端流程；
对比 o1-mini 等推理能力强但缺乏数据科学训练的模型，DeepAnalyze 通过智能体训练获得 “自主协调与自适应优化能力”，在复杂数据科学任务中表现更稳定。

DSBench:单一数据科学任务能力

多数现有研究聚焦单一数据科学任务（如分析、建模），在 DSBench 上进一步评估 DeepAnalyze 的这类能力

DABStep:多类型数据处理能力

DABStep 包含结构化、半结构化、非结构化等多种数据类型（如 Markdown、CSV、JSON），用于评估模型处理多样数据的能力。实验对比了基于 ReAct、推理提示、专用工作流的智能体，结果如上表所示

DeepAnalyze-8B 在难题任务上表现尤为突出：工作流智能体可借助专有大语言模型的强通用能力在简单任务上表现良好，但预定义工作流限制了其在复杂场景的性能；而 DeepAnalyze 通过智能体训练获得 “自主协调与自适应优化能力”，能像人类数据科学家一样与环境迭代交互，在需长链推理的复杂任务上表现更优。