大数跨境
0
0

高质量数据集建设指引

高质量数据集建设指引 求数科技
2025-09-09
1
导读:随着大模型技术应用的快速发展,人工智能的研发重点正从“重 点优化模型架构”转向“模型与数据协同优化”,其中高质
随着大模型技术应用的快速发展,人工智能的研发重点正从“重 点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的 作用日益凸显。
数据作为人工智能发展的三大核心要素之一,已成为 人工智能大模型训练的核心要素资源,决定了大模型的性能。加快人 工智能高质量数据集建设,夯实人工智能发展数据基础,对于推动 “人工智能+”场景落地具有重要意义。国家数据局联合各部门、各 地区,构建起“部门协同、央地联动”的工作机制,联合施策、协同 发力,积极引导做好高质量数据集建设工作,明确提出“‘人工智能 +’行动到哪里,高质量数据集的建设和推广就要到哪里”。 
由国家数据局指导,中国信息通信研究院、国家数据发展研究院、 中国电子技术标准化研究院、国家信息中心、国家发展和改革委员会 创新驱动发展中心、中国电子信息产业发展研究院等单位,在充分调 研的基础上,编制《高质量数据集建设指引》,总结高质量数据集建 设方法论,指导推进高质量数据集建设,力争为人工智能纵深发展提 供有力支撑。
在以人工智能为代表的新一轮科技革命和产业变革深入推 进的大背景下,数据正日益成为国家基础性战略资源和关键性 生产要素。高质量数据集作为人工智能发展的基础支撑,其重 要地位不断上升,成为驱动技术创新、赋能产业升级和提升治 理能力的重要抓手。当前,高质量数据集的建设正处于政策驱 动与场景牵引同步发力、协同推进的关键阶段。
人工智能技术迈入大模型时代后,研发重点从“重点优化 模型架构”转向“模型与数据协同优化” ,其中高质量数据的 作用日益凸显。主要表现在:
一是将数据视为活的资产,不再 是一次性收集、处理后就束之高阁的静态文件,而是一个需要 持续投资、管理、监控和优化的动态、演进的战略资产。
二是 用自动化的、可编程的、可扩展的数据处理流程,取代手动的、 一次性的数据处理工作,系统性处理海量数据,并能提升数据 质量。
三是整合领域专家,将拥有深厚行业知识的主题专家直 接整合到数据处理的流水线中。专家知识被用来定义数据标准、 标注复杂案例、识别数据中的细微偏差,从而将领域智慧注入 数据。
四是建立模型反馈闭环,将模型在实际应用中的错误作 为诊断信号,用来发现数据中的问题(如标签错误、数据分布 不均、边界案例缺失等),然后有针对性地改进数据集。由此 就形成了一个“数据飞轮”效应,更好的数据训练出更好的模型,更好的模型反过来帮助获得更好的数据。大模型参数规模指数级增长与多模态能力的拓展,数据需 求从“量级积累”转向“量质并重”。
例如,以 OpenAI 为代 表的国际领先科技企业正通过强化微调等技术手段,依托小规 模但高度精准、精细化、结构化的高质量数据集,实现大模型 在垂直领域的专业化和实用化演进。这种“以质取胜”的数据 策略显著提升了模型性能与落地能力。而 DeepSeek 模型在复杂 逻辑推理任务中取得突破性进展,源于其 R1 模型采用的数学 推理数据集,不仅要求答案正确性,更对解题步骤的规范性、 逻辑链的完整性提出严格标准,这种精细化的数据设计使得模 型在抽象思维能力上实现质的提升。
免费下载PDF文件,请点击以下小程序,搜索:数据集

【声明】内容源于网络
0
0
求数科技
科技、人工智能、网络安全、科学、工业软件信息资讯
内容 662
粉丝 0
求数科技 科技、人工智能、网络安全、科学、工业软件信息资讯
总阅读578
粉丝0
内容662