专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。
数据质量决定模型智能的上限;DataFlow将数据准备从手工作坊升级为自动化工厂。
北京大学、上海人工智能实验室等机构联合推出DataFlow框架。
针对大语言模型开发中数据处理流程碎片化、脚本混乱、难以复现等行业痛点,DataFlow提出统一、可编程、由LLM驱动的数据准备系统。
它提供类PyTorch的编程体验,并引入Agent(智能体)自动构建数据流水线。
实验表明:仅用DataFlow生成的1万条高质量合成数据,在数学、代码等领域表现即超越包含100万条样本的开源数据集Infinity-Instruct,印证“精准合成与优化”远胜“盲目数据堆砌”。
数据准备范式的系统性重构
在大语言模型开发周期中,数据准备常被低估却最耗时。
传统方式依赖杂乱Python脚本、Shell命令和临时清洗规则,缺乏统一抽象,导致流程难复现、难扩展、难复用。
现有工具如NVIDIA NeMo Curator或Data-Juicer擅长海量数据过滤提取,但不聚焦高质量数据合成与精炼。
随着模型能力提升,行业正转向“模型环内”(Model-in-the-loop)的生成式数据准备;DataFlow应运而生。
其核心愿景是将数据准备标准化、代码化——正如PyTorch定义模型构建方式,DataFlow定义数据流构建方式。
DataFlow围绕六大目标设计:易用性、可扩展性、统一范式、高效能、智能自动化、开源精神。
采用Python代码优先策略,支持IDE自动补全、跳转与调试,降低开发门槛。
系统架构含四大支柱:全局存储抽象、分层编程接口、算子(Operator)分类体系、扩展机制。
全局存储抽象以Pandas表格化表达统一管理指令、回复、思维链等非结构化文本;所有算子通过统一read和write接口交互,实现数据管理与逻辑解耦。
分层编程接口中:底层屏蔽vLLM、SGLang及GPT-4、Gemini等推理后端差异;中层封装算子与Prompt模板;上层构建流水线(Pipeline),模块化程度类比PyTorch nn.Module。
目前已内置近200个可复用算子,严格划分为四类:生成(Generate)、评估(Evaluate)、过滤(Filter)、精炼(Refine),对应“生成→评估→过滤→精炼”的核心数据合成范式。
扩展机制支持开发者以Python包形式发布算子、模板与流水线,形成DataFlow-Ecosystem;配合CLI工具,显著降低社区贡献门槛。
下表直观呈现DataFlow与主流系统的差异化优势:
DataFlow已超越单纯数据清洗工具,成为数据合成与优化的生产平台。
由Agent驱动的智能化流水线构建
模块化设计降低编写门槛,DataFlow-Agent则致力于消除门槛。
该智能编排层基于LangGraph构建,非简单问答机器人,而是多Agent协作系统,可将自然语言需求转化为可执行Python流水线。
其运作流程严谨分工:
— 意图分析Agent拆解用户指令为子意图;
— 数据路由Agent分析样本或生成模拟数据辅助调试;
— 算子检索Agent通过RAG在算子库中匹配组件;
— 若无匹配项,算子合成Agent依上下文自动生成新算子并完成单元测试;
— 流水线构建Agent将其组装为有向无环图(DAG);
— 流水线验证Agent在沙箱中试运行、自动修复错误;
— 结果报告Agent生成详细文档与可执行代码交付用户。
该策略遵循“检索→复用→合成”,优先复用现有算子与Prompt模板,保障稳定性与可靠性。
用户仅需一两句自然语言描述,即可构建涵盖数据加载、大模型生成、质量校验、格式转换的完整流水线,实现从手写代码到意图驱动的跃迁。
覆盖全域的六大核心流水线
DataFlow自带六套达到SOTA(State-of-the-Art)水平的标准流水线,覆盖文本、数学、代码、Text-to-SQL、Agentic RAG与知识抽取等关键领域,均为经实战验证的高效数据生产工具。
Text-to-SQL任务中,DataFlow设计生成与精炼双流水线:
— 生成流水线:通过SQL Generator按Schema生成多样SQL(含嵌套、多表连接等),再经SQL Execution Filter真实执行筛选;Question Generator反向生成多风格自然语言问题;Chain-of-Thought Generator构建推理路径;最终由Prompt Generator组装训练数据。
— 精炼流水线:使用SQL Augmentor增强种子数据,Text2SQL Consistency Filter通过LLM校验语义一致性,剔除文不对题样本。
由此构建的DataFlow-Text2SQL-90K数据集,仅用9万条高质量样本微调的模型,在Spider、BIRD等榜单全面超越使用250万条数据的SynSQL模型。
数学流水线以NuminaMath为种子,采用o4-mini模型扩充,核心创新在于MathQ-Verify模块——不仅校验答案正确性,更检测题目逻辑漏洞、条件缺失与歧义,仅严苛验证通过者进入后续环节;再由DeepSeek-R1生成高质量思维链(CoT),使10k数据在GSM8K与MATH榜单取得显著性能提升。
代码流水线CodeGenDataset_APIPipeline强调可执行性:从Lingo-Coder-SFT采样种子数据,生成新指令后,在沙箱中真实运行并通过单元测试通过率过滤,较规则过滤更精准;实验证明,使用该数据训练的模型在HumanEval与MBPP榜单平均提升超7%。
Agentic RAG流水线面向多跳(Multi-hop)问答挑战:从Wikipedia随机抽取文档,剔除测试集泄露内容;模型生成多跳问题后,专用验证模块筛除逻辑错误、过简或单文档可答样本;生成的DataFlow-AgenticRAG-10k在HotpotQA与Musique上展现强跨分布泛化能力,甚至优于人类标注数据集。
知识抽取方案集成MinerU工具解析PDF与教科书,处理复杂排版与公式;切分清洗后交由LLM生成事实型问答对(QA Pairs),适用于医疗、法律等垂直领域。医学实验显示,由此构建的QA数据训练模型在PubMedQA准确率较传统RAG方案高出10个百分点以上,证实知识内化至参数的有效性。
1万条胜过100万条:数据效率的胜利
研究团队整合数学、代码与通用文本流水线成果,构建仅含1万条样本的DataFlow-Instruct-10K数据集,并与Infinity-Instruct 100万条(Inf-1M)对比。
在Qwen2.5-7B-Base全参数微调下:
— DataFlow模型在GSM8K、MATH等7大榜单平均分达46.7,远超Inf-1M的33.3;
— HumanEval等代码榜单平均分78.6,亦优于Inf-1M的78.0;
— MMLU与C-Eval上保持高水准,未出现灾难性遗忘。
值得注意的是,Inf-1M在数学任务中反而使模型得分从Base版37.1降至33.3,疑似因低质/错误数学推理数据造成干扰;而DataFlow凭借精准合成与严格验证,以1万条数据推动模型能力跃升近10个百分点,逼近官方Instruct模型水平。
实验证实:在后预训练阶段(Post-training),数据的质量、多样性与复杂性远重于数量;DataFlow通过精细控制,产出高浓缩训练燃料。
DataFlow让大模型数据准备从炼金术走向化学工程,不仅提供强大工具库,更建立标准化语言,推动全球开发者以统一范式交流数据处理经验;通过将LLM置于数据处理核心、利用Agent实现自动化,为数据中心AI(Data-Centric AI)奠定坚实系统基础。
参考资料:
https://arxiv.org/pdf/2512.16676
https://github.com/OpenDCAI/DataFlow

