

训练模型缺数据吗？北大团队开源首个LLM驱动数据工厂

AIGC开放社区

2025-12-31

导读：DataFlow数据自动化工厂。

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态。

数据质量决定模型智能的上限；DataFlow将数据准备从手工作坊升级为自动化工厂。

北京大学、上海人工智能实验室等机构联合推出DataFlow框架。

针对大语言模型开发中数据处理流程碎片化、脚本混乱、难以复现等行业痛点，DataFlow提出统一、可编程、由LLM驱动的数据准备系统。

它提供类PyTorch的编程体验，并引入Agent（智能体）自动构建数据流水线。

实验表明：仅用DataFlow生成的1万条高质量合成数据，在数学、代码等领域表现即超越包含100万条样本的开源数据集Infinity-Instruct，印证“精准合成与优化”远胜“盲目数据堆砌”。

数据准备范式的系统性重构

在大语言模型开发周期中，数据准备常被低估却最耗时。

传统方式依赖杂乱Python脚本、Shell命令和临时清洗规则，缺乏统一抽象，导致流程难复现、难扩展、难复用。

现有工具如NVIDIA NeMo Curator或Data-Juicer擅长海量数据过滤提取，但不聚焦高质量数据合成与精炼。

随着模型能力提升，行业正转向“模型环内”（Model-in-the-loop）的生成式数据准备；DataFlow应运而生。

其核心愿景是将数据准备标准化、代码化——正如PyTorch定义模型构建方式，DataFlow定义数据流构建方式。

DataFlow围绕六大目标设计：易用性、可扩展性、统一范式、高效能、智能自动化、开源精神。

采用Python代码优先策略，支持IDE自动补全、跳转与调试，降低开发门槛。

系统架构含四大支柱：全局存储抽象、分层编程接口、算子（Operator）分类体系、扩展机制。

全局存储抽象以Pandas表格化表达统一管理指令、回复、思维链等非结构化文本；所有算子通过统一read和write接口交互，实现数据管理与逻辑解耦。

分层编程接口中：底层屏蔽vLLM、SGLang及GPT-4、Gemini等推理后端差异；中层封装算子与Prompt模板；上层构建流水线（Pipeline），模块化程度类比PyTorch nn.Module。

目前已内置近200个可复用算子，严格划分为四类：生成（Generate）、评估（Evaluate）、过滤（Filter）、精炼（Refine），对应“生成→评估→过滤→精炼”的核心数据合成范式。

扩展机制支持开发者以Python包形式发布算子、模板与流水线，形成DataFlow-Ecosystem；配合CLI工具，显著降低社区贡献门槛。

下表直观呈现DataFlow与主流系统的差异化优势：

DataFlow已超越单纯数据清洗工具，成为数据合成与优化的生产平台。

由Agent驱动的智能化流水线构建

模块化设计降低编写门槛，DataFlow-Agent则致力于消除门槛。

该智能编排层基于LangGraph构建，非简单问答机器人，而是多Agent协作系统，可将自然语言需求转化为可执行Python流水线。

其运作流程严谨分工：
— 意图分析Agent拆解用户指令为子意图；
— 数据路由Agent分析样本或生成模拟数据辅助调试；
— 算子检索Agent通过RAG在算子库中匹配组件；
— 若无匹配项，算子合成Agent依上下文自动生成新算子并完成单元测试；
— 流水线构建Agent将其组装为有向无环图（DAG）；
— 流水线验证Agent在沙箱中试运行、自动修复错误；
— 结果报告Agent生成详细文档与可执行代码交付用户。

该策略遵循“检索→复用→合成”，优先复用现有算子与Prompt模板，保障稳定性与可靠性。

用户仅需一两句自然语言描述，即可构建涵盖数据加载、大模型生成、质量校验、格式转换的完整流水线，实现从手写代码到意图驱动的跃迁。

覆盖全域的六大核心流水线

DataFlow自带六套达到SOTA（State-of-the-Art）水平的标准流水线，覆盖文本、数学、代码、Text-to-SQL、Agentic RAG与知识抽取等关键领域，均为经实战验证的高效数据生产工具。

Text-to-SQL任务中，DataFlow设计生成与精炼双流水线：

— 生成流水线：通过SQL Generator按Schema生成多样SQL（含嵌套、多表连接等），再经SQL Execution Filter真实执行筛选；Question Generator反向生成多风格自然语言问题；Chain-of-Thought Generator构建推理路径；最终由Prompt Generator组装训练数据。
— 精炼流水线：使用SQL Augmentor增强种子数据，Text2SQL Consistency Filter通过LLM校验语义一致性，剔除文不对题样本。

由此构建的DataFlow-Text2SQL-90K数据集，仅用9万条高质量样本微调的模型，在Spider、BIRD等榜单全面超越使用250万条数据的SynSQL模型。

数学流水线以NuminaMath为种子，采用o4-mini模型扩充，核心创新在于MathQ-Verify模块——不仅校验答案正确性，更检测题目逻辑漏洞、条件缺失与歧义，仅严苛验证通过者进入后续环节；再由DeepSeek-R1生成高质量思维链（CoT），使10k数据在GSM8K与MATH榜单取得显著性能提升。

代码流水线CodeGenDataset_APIPipeline强调可执行性：从Lingo-Coder-SFT采样种子数据，生成新指令后，在沙箱中真实运行并通过单元测试通过率过滤，较规则过滤更精准；实验证明，使用该数据训练的模型在HumanEval与MBPP榜单平均提升超7%。

Agentic RAG流水线面向多跳（Multi-hop）问答挑战：从Wikipedia随机抽取文档，剔除测试集泄露内容；模型生成多跳问题后，专用验证模块筛除逻辑错误、过简或单文档可答样本；生成的DataFlow-AgenticRAG-10k在HotpotQA与Musique上展现强跨分布泛化能力，甚至优于人类标注数据集。

知识抽取方案集成MinerU工具解析PDF与教科书，处理复杂排版与公式；切分清洗后交由LLM生成事实型问答对（QA Pairs），适用于医疗、法律等垂直领域。医学实验显示，由此构建的QA数据训练模型在PubMedQA准确率较传统RAG方案高出10个百分点以上，证实知识内化至参数的有效性。

1万条胜过100万条：数据效率的胜利

研究团队整合数学、代码与通用文本流水线成果，构建仅含1万条样本的DataFlow-Instruct-10K数据集，并与Infinity-Instruct 100万条（Inf-1M）对比。

在Qwen2.5-7B-Base全参数微调下：
— DataFlow模型在GSM8K、MATH等7大榜单平均分达46.7，远超Inf-1M的33.3；
— HumanEval等代码榜单平均分78.6，亦优于Inf-1M的78.0；
— MMLU与C-Eval上保持高水准，未出现灾难性遗忘。

值得注意的是，Inf-1M在数学任务中反而使模型得分从Base版37.1降至33.3，疑似因低质/错误数学推理数据造成干扰；而DataFlow凭借精准合成与严格验证，以1万条数据推动模型能力跃升近10个百分点，逼近官方Instruct模型水平。

实验证实：在后预训练阶段（Post-training），数据的质量、多样性与复杂性远重于数量；DataFlow通过精细控制，产出高浓缩训练燃料。

DataFlow让大模型数据准备从炼金术走向化学工程，不仅提供强大工具库，更建立标准化语言，推动全球开发者以统一范式交流数据处理经验；通过将LLM置于数据处理核心、利用Agent实现自动化，为数据中心AI（Data-Centric AI）奠定坚实系统基础。

参考资料：
https://arxiv.org/pdf/2512.16676
https://github.com/OpenDCAI/DataFlow

【声明】内容源于网络

AIGC开放社区

1234

内容 1525

粉丝 0

AIGC开放社区 1234

总阅读9.5k

粉丝0

内容1.5k