大数跨境
0
0

训练模型缺数据吗?北大团队开源首个LLM驱动数据工厂

训练模型缺数据吗?北大团队开源首个LLM驱动数据工厂 AIGC开放社区
2025-12-31
71
导读:DataFlow数据自动化工厂。

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。

数据质量决定模型智能的上限;DataFlow将数据准备从手工作坊升级为自动化工厂。

北京大学、上海人工智能实验室等机构联合推出DataFlow框架。

针对大语言模型开发中数据处理流程碎片化、脚本混乱、难以复现等行业痛点,DataFlow提出统一、可编程、由LLM驱动的数据准备系统。

它提供类PyTorch的编程体验,并引入Agent(智能体)自动构建数据流水线。

实验表明:仅用DataFlow生成的1万条高质量合成数据,在数学、代码等领域表现即超越包含100万条样本的开源数据集Infinity-Instruct,印证“精准合成与优化”远胜“盲目数据堆砌”。

数据准备范式的系统性重构

在大语言模型开发周期中,数据准备常被低估却最耗时。

传统方式依赖杂乱Python脚本、Shell命令和临时清洗规则,缺乏统一抽象,导致流程难复现、难扩展、难复用。

现有工具如NVIDIA NeMo Curator或Data-Juicer擅长海量数据过滤提取,但不聚焦高质量数据合成与精炼。

随着模型能力提升,行业正转向“模型环内”(Model-in-the-loop)的生成式数据准备;DataFlow应运而生。

其核心愿景是将数据准备标准化、代码化——正如PyTorch定义模型构建方式,DataFlow定义数据流构建方式。

DataFlow围绕六大目标设计:易用性、可扩展性、统一范式、高效能、智能自动化、开源精神。

采用Python代码优先策略,支持IDE自动补全、跳转与调试,降低开发门槛。

系统架构含四大支柱:全局存储抽象、分层编程接口、算子(Operator)分类体系、扩展机制。

全局存储抽象以Pandas表格化表达统一管理指令、回复、思维链等非结构化文本;所有算子通过统一readwrite接口交互,实现数据管理与逻辑解耦。

分层编程接口中:底层屏蔽vLLM、SGLang及GPT-4、Gemini等推理后端差异;中层封装算子与Prompt模板;上层构建流水线(Pipeline),模块化程度类比PyTorch nn.Module

目前已内置近200个可复用算子,严格划分为四类:生成(Generate)、评估(Evaluate)、过滤(Filter)、精炼(Refine),对应“生成→评估→过滤→精炼”的核心数据合成范式。

扩展机制支持开发者以Python包形式发布算子、模板与流水线,形成DataFlow-Ecosystem;配合CLI工具,显著降低社区贡献门槛。

下表直观呈现DataFlow与主流系统的差异化优势:

DataFlow已超越单纯数据清洗工具,成为数据合成与优化的生产平台。

由Agent驱动的智能化流水线构建

模块化设计降低编写门槛,DataFlow-Agent则致力于消除门槛。

该智能编排层基于LangGraph构建,非简单问答机器人,而是多Agent协作系统,可将自然语言需求转化为可执行Python流水线。

其运作流程严谨分工:
— 意图分析Agent拆解用户指令为子意图;
— 数据路由Agent分析样本或生成模拟数据辅助调试;
— 算子检索Agent通过RAG在算子库中匹配组件;
— 若无匹配项,算子合成Agent依上下文自动生成新算子并完成单元测试;
— 流水线构建Agent将其组装为有向无环图(DAG);
— 流水线验证Agent在沙箱中试运行、自动修复错误;
— 结果报告Agent生成详细文档与可执行代码交付用户。

该策略遵循“检索→复用→合成”,优先复用现有算子与Prompt模板,保障稳定性与可靠性。

用户仅需一两句自然语言描述,即可构建涵盖数据加载、大模型生成、质量校验、格式转换的完整流水线,实现从手写代码到意图驱动的跃迁。

覆盖全域的六大核心流水线

DataFlow自带六套达到SOTA(State-of-the-Art)水平的标准流水线,覆盖文本、数学、代码、Text-to-SQL、Agentic RAG与知识抽取等关键领域,均为经实战验证的高效数据生产工具。

Text-to-SQL任务中,DataFlow设计生成与精炼双流水线:

— 生成流水线:通过SQL Generator按Schema生成多样SQL(含嵌套、多表连接等),再经SQL Execution Filter真实执行筛选;Question Generator反向生成多风格自然语言问题;Chain-of-Thought Generator构建推理路径;最终由Prompt Generator组装训练数据。
— 精炼流水线:使用SQL Augmentor增强种子数据,Text2SQL Consistency Filter通过LLM校验语义一致性,剔除文不对题样本。

由此构建的DataFlow-Text2SQL-90K数据集,仅用9万条高质量样本微调的模型,在Spider、BIRD等榜单全面超越使用250万条数据的SynSQL模型。

数学流水线以NuminaMath为种子,采用o4-mini模型扩充,核心创新在于MathQ-Verify模块——不仅校验答案正确性,更检测题目逻辑漏洞、条件缺失与歧义,仅严苛验证通过者进入后续环节;再由DeepSeek-R1生成高质量思维链(CoT),使10k数据在GSM8K与MATH榜单取得显著性能提升。

代码流水线CodeGenDataset_APIPipeline强调可执行性:从Lingo-Coder-SFT采样种子数据,生成新指令后,在沙箱中真实运行并通过单元测试通过率过滤,较规则过滤更精准;实验证明,使用该数据训练的模型在HumanEval与MBPP榜单平均提升超7%。

Agentic RAG流水线面向多跳(Multi-hop)问答挑战:从Wikipedia随机抽取文档,剔除测试集泄露内容;模型生成多跳问题后,专用验证模块筛除逻辑错误、过简或单文档可答样本;生成的DataFlow-AgenticRAG-10k在HotpotQA与Musique上展现强跨分布泛化能力,甚至优于人类标注数据集。

知识抽取方案集成MinerU工具解析PDF与教科书,处理复杂排版与公式;切分清洗后交由LLM生成事实型问答对(QA Pairs),适用于医疗、法律等垂直领域。医学实验显示,由此构建的QA数据训练模型在PubMedQA准确率较传统RAG方案高出10个百分点以上,证实知识内化至参数的有效性。

1万条胜过100万条:数据效率的胜利

研究团队整合数学、代码与通用文本流水线成果,构建仅含1万条样本的DataFlow-Instruct-10K数据集,并与Infinity-Instruct 100万条(Inf-1M)对比。

在Qwen2.5-7B-Base全参数微调下:
— DataFlow模型在GSM8K、MATH等7大榜单平均分达46.7,远超Inf-1M的33.3;
— HumanEval等代码榜单平均分78.6,亦优于Inf-1M的78.0;
— MMLU与C-Eval上保持高水准,未出现灾难性遗忘。

值得注意的是,Inf-1M在数学任务中反而使模型得分从Base版37.1降至33.3,疑似因低质/错误数学推理数据造成干扰;而DataFlow凭借精准合成与严格验证,以1万条数据推动模型能力跃升近10个百分点,逼近官方Instruct模型水平。

实验证实:在后预训练阶段(Post-training),数据的质量、多样性与复杂性远重于数量;DataFlow通过精细控制,产出高浓缩训练燃料。

DataFlow让大模型数据准备从炼金术走向化学工程,不仅提供强大工具库,更建立标准化语言,推动全球开发者以统一范式交流数据处理经验;通过将LLM置于数据处理核心、利用Agent实现自动化,为数据中心AI(Data-Centric AI)奠定坚实系统基础。

参考资料:
https://arxiv.org/pdf/2512.16676
https://github.com/OpenDCAI/DataFlow

【声明】内容源于网络
0
0
AIGC开放社区
1234
内容 1525
粉丝 0
AIGC开放社区 1234
总阅读9.5k
粉丝0
内容1.5k