大数跨境
0
0

中国信通院刘阳:加快推进数据标注产业发展, 构建我国高质量数据服务能力体系 | 数据对话

中国信通院刘阳:加快推进数据标注产业发展, 构建我国高质量数据服务能力体系 | 数据对话 CAICT数据基础设施
2025-01-23
0
导读:"数据对话"第13期




数据逐步融入生产生活和社会治理,成为推动数字经济发展的关键生产要素。党中央对推动释放数据要素价值高度重视,党的二十届三中全会审议通过的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》对完善数据要素市场制度规则等作出了部署,提出“建设和运营国家数据基础设施,促进数据共享。”

基于此,中国信通院工业互联网与物联网研究所特别策划“数据对话”专题,旨在通过专家的深度分析和独特视角,回答社会关切话题,探讨前沿技术和应用趋势。本期,我们邀请到中国信通院工业互联网与物联网研究所副总工程师刘阳,围绕如何加快数据标注产业发展、推动数据要素价值的释放及其在产业数字化转型中的应用展开深入讨论。


01

数据标注是构建高质量数据服务
能力体系的有机组成
(一)数据标注是挖掘公共数据价值的重要手段
《实施意见》提出,有序推动公共数据标注与开发,支持公共数据赋能实体经济发展。从数据资源视角来看,目前我国数据生产规模已位居世界前列,公共数据开放共享初见成效。但不同场景、不同应用对数据资源的需求差异较大,缺乏标注处理的原始数据往往难以得到充分的挖掘与利用。例如成都市通过构建“管住一级、放活二级”数据资源开发利用模式,借助数据标注处理,分阶段打造带有场景业务属性的数据应用产品。因此,释放公共数据标注需求,将有助于挖掘公共数据潜在价值,激活数据产业生态活力。
(二)数据标注是建立行业高质量数据集的基本步骤
《实施意见》提出,加强重点行业领域数据标注,建设行业高质量数据集。从产业实践角度分析,由于标注技术、知识机理、人才储备、资金投入等方面的限制,行业高质量数据集构建呈现出显著的漏斗效应,数据提取率极低,需要完成海量数据标注的基本工作。例如电力行业数据集构建中,原始数据转化为模型训练数据集的提取率是0.3%,而微调数据集提取率更是低于0.04%。因此,《实施意见》中推动“国有企业数据效能提升行动”,通过挖掘企业数据标注需求,发挥国有企业率先探索作用,对构建高质量数据集、支持人工智能赋能千行百业至关重要。
(三)数据标注是构筑我国人工智能发展优势的关键保障
《实施意见》提出,着力培育数据标注新业态,构建产业国际竞争新优势。从模型应用角度考虑,大模型训练不能一味地依赖数据投喂量和算法改进,通过提升数据质量更能显著增强模型效果。特别是我国拥有海量数据规模和丰富的应用场景,通过数据标注来改善数据供给质量,构建基于场景的高质量预训练数据集、微调数据集等人工智能数据资源,有利于推动我国人工智能产业高速发展。

02

积极探索多元化数据标注产业

高质量发展的主要路径

(一)数据标注服务商致力于构建标准化服务能力、模块化产品工具和通用化平台能力
《实施意见》提出,着力壮大经营主体,培育和支持一批数据标注龙头企业、科技创新型数据标注企业、瞪羚企业和独角兽企业。此类数据标注服务商依托长期的服务经验,针对特定场景建立了专业化技术能力和定制化服务能力,并拥有一定的工具链产品。但受限于需求高度定制、强依赖人工、工具标准化自动化程度低等因素,其服务能力、企业规模、产业化程度仍然有限。因此,应加强构建标准化服务能力、模块化产品工具及通用化、可适配的平台能力,围绕典型行业和场景形成更多可复制的业务模式,通过资源整合、并购重组等策略实现做大做强。
(二)数据资源型企业可选择自建数据标注单元模块或开展互补性能力合作
《实施意见》提出,鼓励政府部门和企业协同开展标注,加大企业数据开发利用。此类数据资源型企业是公共数据、行业数据的源头,或通过信息检索、数据合成等技术生成数据资源。考虑到数据主权及其隐私保护等方面的需求,部分数据资源型企业正通过人才引进、技术引进等方式构建针对数据标注处理环节的单元模块。然而,成本、运营、管理等因素是设立上述业务单元需要综合衡量的关键。因此,应根据实际需求、结合自身发展状况来决定是自建还是开展合作。高敏感、难脱敏、强专业性且需要长期投入的标注任务适合自建能力;反之,则可通过与数据标注服务商合作实现能力互补与互利。
(三)第三方服务机构可通过加强产业链上下游协同合作来做好产业促进角色
《实施意见》提出,着力健全产业生态,培育一批人力资源、供需对接、国际合作、法律审计等服务数据标注的第三方机构。此类机构可以依托自身的产业基础和服务能力,加强与产业链上下游协同合作,围绕产业实际发展需求,有序开展供需对接、标准研制、国际交流合作、赛事赛会活动以及人才实训等相关工作,助力数据标注产业快速发展。

03

以《实施意见》为指引

加快推进数据标注产业高质量发展

《实施意见》明确了数据标注产业发展的总体要求、阶段性目标,从需求牵引、创新驱动、繁荣生态、支撑体系、保障措施等五个方面为数据标注产业高质量发展提供指引。

(一)开展技术攻关和标准研制,加强人才队伍培育

依托科技项目、创新载体等,推动关键技术攻关和工具设备研发,加快数据标注标准体系建立和相关标准研制,建立层次化的数据标注人才培育体系,推动数据标注人才队伍建设。

(二)打造创新载体和服务平台,提升公共服务能力

培育建设标注领域重点实验室和技术创新中心等载体,推动技术创新和应用验证;建立数据标注公共服务平台和开源平台,提升数据标注产业公共服务能力。

(三)健全行业监测和监管能力,扩大产业供需对接 

完善数据标注的安全风险识别和监测预警机制,建立产业动态监测能力;通过开展产业供需对接、学术交流、创新论坛等活动,提升产业资源汇聚与流通能力。

专家介绍

刘阳


中国信通院工业互联网与物联网研究所副总工程师,计算机软件与理论博士,正高级工程师,主要从事工业互联网标识解析、区块链、Web3、数据互操作等领域技术研究,兼任工业互联网产业联盟(AII)标识组主席等。


关于“中国信息通信研究院”

中国信息通信研究院是工业和信息化部直属科研事业单位,作为“国家高端专业智库 产业创新发展平台”,中国信通院的科研布局从信息通信业向赋能千行百业拓展,演进形成大通信、大数字化、大安全和新型工业化“三大一新”的研究体系,同步构建了产业全生命周期服务能力,在行业发展的重大战略、规划、政策、标准和检测认证等方面发挥了有力支撑作用。中国信通院是国内信息通信技术领域唯一打通战略与政策、新技术研究、标准研制、试验验证到产业推进的全链条创新平台。

中国信通院积极推动数据技术产业落地,围绕数据基础设施、数据流通关键技术、公共数据开发利用、企业数据可信流通等布局数据要素市场建设,支撑国家战略规划与政策编制,积极开展领域内专题研究,紧密围绕数据核心技术,构建标准化体系,联合产业各方成立行业组织,推动数据行业交流共享。

关于“CAICT数据基础设施”

CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。






【声明】内容源于网络
0
0
CAICT数据基础设施
CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。
内容 224
粉丝 0
CAICT数据基础设施 CAICT数据基础设施以促进数据要素市场化配置为出发点,专注于数据基础设施的关键技术研究和数据智能服务网络建设,释放数据要素价值,推动数字经济与实体经济融合创新发展。
总阅读219
粉丝0
内容224