搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
首页
>
高质量数据集建设指引
>
0
0
高质量数据集建设指引
求数科技
2025-09-09
1
导读:随着大模型技术应用的快速发展,人工智能的研发重点正从“重 点优化模型架构”转向“模型与数据协同优化”,其中高质
随着大模型技术应用的快速发展,人工智能的研发重点正从“重 点优化模型架构”转向“模型与数据协同优化”,其中高质量数据的 作用日益凸显。
数据作为人工智能发展的三大核心要素之一,已成为 人工智能大模型训练的核心要素资源,决定了大模型的性能。加快人 工智能高质量数据集建设,夯实人工智能发展数据基础,对于推动 “人工智能+”场景落地具有重要意义。国家数据局联合各部门、各 地区,构建起“部门协同、央地联动”的工作机制,联合施策、协同 发力,积极引导做好高质量数据集建设工作,明确提出“‘人工智能 +’行动到哪里,高质量数据集的建设和推广就要到哪里”。
由国家数据局指导,中国信息通信研究院、国家数据发展研究院、 中国电子技术标准化研究院、国家信息中心、国家发展和改革委员会 创新驱动发展中心、中国电子信息产业发展研究院等单位,在充分调 研的基础上,编制《高质量数据集建设指引》,总结高质量数据集建 设方法论,指导推进高质量数据集建设,力争为人工智能纵深发展提 供有力支撑。
在以人工智能为代表的新一轮科技革命和产业变革深入推 进的大背景下,数据正日益成为国家基础性战略资源和关键性 生产要素。高质量数据集作为人工智能发展的基础支撑,其重 要地位不断上升,成为驱动技术创新、赋能产业升级和提升治 理能力的重要抓手。当前,高质量数据集的建设正处于政策驱 动与场景牵引同步发力、协同推进的关键阶段。
人工智能技术迈入大模型时代后,研发重点从“重点优化 模型架构”转向“模型与数据协同优化” ,其中高质量数据的 作用日益凸显。
主要表现在:
一是将数据视为活的资产,不再 是一次性收集、处理后就束之高阁的静态文件,而是一个需要 持续投资、管理、监控和优化的动态、演进的战略资产。
二是 用自动化的、可编程的、可扩展的数据处理流程,取代手动的、 一次性的数据处理工作,系统性处理海量数据,并能提升数据 质量。
三是整合领域专家,将拥有深厚行业知识的主题专家直 接整合到数据处理的流水线中。专家知识被用来定义数据标准、 标注复杂案例、识别数据中的细微偏差,从而将领域智慧注入 数据。
四是建立模型反馈闭环,将模型在实际应用中的错误作 为诊断信号,用来发现数据中的问题(如标签错误、数据分布 不均、边界案例缺失等),然后有针对性地改进数据集。由此 就形成了一个“数据飞轮”效应,更好的数据训练出更好的模
型,更好的模型反过来帮助获得更好的数据。
大模型参数规模指数级增长与多模态能力的拓展,数据需 求从“量级积累”转向“量质并重”。
例如,以
OpenAI
为代 表的国际领先科技企业正通过强化微调等技术手段,依托小规 模但高度精准、精细化、结构化的高质量数据集,实现大模型 在垂直领域的专业化和实用化演进。这种“以质取胜”的数据 策略显著提升了模型性能与落地能力。而
DeepSeek
模型在复杂 逻辑推理任务中取得突破性进展,源于其
R1
模型采用的数学 推理数据集,不仅要求答案正确性,更对解题步骤的规范性、 逻辑链的完整性提出严格标准,这种精细化的数据设计使得模 型在抽象思维能力上实现质的提升。
免费下载PDF文件,请点击以下小程序,搜索:数据集
【声明】内容源于网络
0
0
求数科技
科技、人工智能、网络安全、科学、工业软件信息资讯
内容
662
粉丝
0
关注
在线咨询
求数科技
科技、人工智能、网络安全、科学、工业软件信息资讯
总阅读
578
粉丝
0
内容
662
在线咨询
关注