作者简介
柴华
国家超级计算成都中心人工智能专家,AI技术总监,主要从事超算人工智能生态建设、科学研究和公共服务的整体规划。
郑亮
国家超级计算成都中心高性能计算部部长,中国科学院大学博士,瑞士联邦理工学院博士后,长期从事高性能计算研究。
翟云
中国软件评测中心人工智能场景化应用与智能系统测评工信部重点实验室副主任,技术负责人,主要从事人工智能技术测评和产业发展研究。
论文引用格式:
柴华, 郑亮, 翟云. 算据——实现低碳计算的一种路径[J]. 信息通信技术与政策, 2022,48(3):34-39.
算据——实现低碳计算的一种路径
柴华1 郑亮1 翟云2
(1.国家超级计算成都中心,成都 610299;2.中国软件评测中心(工业和信息化部软件与集成电路促进中心),北京 100048)
摘要:基于数据复用与低碳计算的指导原则,重新定义了算据的概念,通过预处理、预训练、脱敏、加密等技术将数据转化为算据,建立完善的算据标准体系,实现算据的规范统一管理及应用。针对算据的特点和应用价值,提出了FAIRDNS原则,为算据边界划分、分类梳理和存储管理提供了参考依据及方案建议,并对算据标准化、算据资源库和算据应用生态建设等方面作出思考。
关键词:算据;低碳计算;标准化
中图分类号:G311 文献标志码:A
引用格式:柴华, 郑亮, 翟云. 算据——实现低碳计算的一种路径[J]. 信息通信技术与政策, 2022,48(3):34-39.
DOI:10.12267/j.issn.2096-5931.2022.03.006
0 引言
随着经济的高速发展,算力的需求和供给均大幅增长,数据中心是电力消耗的大户。据国网能源研究院预测,到2030年我国数据中心用电量将突破4 000亿千瓦时,占全社会用电量的比重将升至3.7%。随着碳达峰、碳排放目标的提出,“绿色计算”“低碳计算”[1]被频繁引用,如何实现“低碳计算”成为各项研究中炙手可热的话题。
算力、算法与数据被称为人工智能的三大要素,但并非所有数据都能直接和算法无缝结合产生价值。要满足算法的输入要求,数据需要经过筛选、清洗、加工、转换、标注等一系列流程,才能用于模型的训练。据不完全统计,企业中的算法工程师们80%的时间都在从事数据处理的工作,同时数据处理也需要大量的计算资源,但大部分团队对数据处理的需求基本相同,数据处理的人力和算力均造成了大量的重复工作和资源浪费,带来了不必要的能源消耗。不仅人工智能,大数据分析、科学计算等技术也需要对原始数据做大量前处理操作,很多工作是重复进行的。同时,数据存储格式混乱,各类数据未统一管理,孤岛林立,也造成了大量的冗余存储。
在近几年的生产实践中,不少企业通过数据中台、数据湖等技术将数据处理和存储的工作标准化,减少直接使用原始数据的频次,以减少对数据的重复操作。然而,数据中台和数据湖相对只适合在企业内部建设,跨企业的数据中台存在数据隐私等安全问题。数据脱敏和隐私计算技术可以从一定程度上解决原始数据不出域即可拿来计算的问题,基于同态加密等技术对原始数据处理之后,可以有效整合统一管理,实现加密数据的有效利用。预训练模型技术也是一种有效减少数据重复处理的方法,Google提出了word2vec为代表的词嵌入模型,开辟了预训练模型的发展之路[2]。随后自然语言处理、计算机视觉等领域的预训练模型层出不穷,大模型的概念随着OpenAI提出的超大模型GPT-3被推向高潮[3]。
Wilkinson等提出了FAIR数据原则[4],指出数据需满足可发现(Findability)、可访问(Accessibility)、可交互(Interoperability)以及可复用(Reusability)四大性质,以实现更好的数据管理机制。美国国家科学与技术委员会(NSTC)在对先进计算系统的描述中也引用了这一原则[5]。基于FAIR原则和上述方向的思考,重新定义了算据一词。算据介于原始数据和应用模型之间,从原始数据而来,能够直接作为计算的输入成分。通过建设标准化的算据资源库,便可达到减少数据的重复处理操作,进一步实现节能减排的目标。
1 什么是算据
1.1 算据的定义和性质
算据是指原始数据通过清洗、加工、增强、泛化、预训练、知识抽取、脱敏、加密等操作后可直接用于计算输入的元素依据,包括清洗加工标注完善的标准化结构数据集、数据的嵌入表示(Embedding)、预训练模型、知识图谱、加密数据等。
基于FAIR原则,针对算据提出了FAIRDNS原则,除了FAIR定义的可发现、可访问、可交互、可复用之外,还需具备3个性质:直接性(Directness)、规范性(Normalization)、共享性(Sharedness)。直接性是指算据无需进行进一步的加工和转化就可以在算法中直接使用,无需再经过数据处理的过程;规范性是指针对不同类型的算据,必须制定若干相辅相成的规范,保证算据以一定标准化格式存在,从而达到无缝复用也无需格式转化的目的;共享性则表示算据本身已基本消除个人隐私信息,在一定程度上可与他人共享结合发挥大数据的真正价值。
1.2 数据、模型与算据
与算据概念相关度最高的概念是数据和模型,随着科学的发展和技术的进步,数据和模型被赋予了不同的含义,其含义越来越模糊,亦没有明确的界限,本章将详细探讨三者的区别和联系(见图1)。
本文刊于《信息通信技术与政策》2022年 第3期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!
推荐阅读
你“在看”我吗?

