01
国家数据局近日发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《方案》),这是持续推进高质量数据集建设的进一步措施。[1]
《方案》明确:行业高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的行业数据的集合,包含行业通识和行业专识数据集。行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。
文献[2]敏锐地注意到,《方案》几处藏在条文细节里的认知跃迁。
一是首次将“知识图谱、本体”纳入高质量数据集范畴。第(三)条明确提出:“面向智能体等新型智能应用形态,加强知识库、知识图谱、本体等数据集建设,加快复杂任务规划、长程推理、人机交互、决策执行等数据集建设。”
二是将“高知识密度”和“AI-Ready”作为数据质量新标尺。第(八)条提出:“鼓励运用数据智能过滤与配比等技术,构建更精、更强的高知识密度数据集,降低训练推理成本。”第四章标题更是直接写明:“推动构建符合结构完整性、内容多样性、标注准确性、模型适配性等质量标准、满足人工智能就绪(AI-Ready)的高质量数据集。”
02
高质量数据集是高质量的数据集合,除了依然是数据,最重要的当然是“高质量”。针对其直接服务于人工智能模型的目标要求,高质量指标就是瞄准人工智能就绪(AI-Ready),要求其高知识密度,甚至包括“知识库、知识图谱、本体”等。
人工智能就绪,意味着高质量数据集不仅是给人用的,更主要的是要给人工智能用的,要给智能体用的,是需要能让智能体“理解”并依此“执行”的。
如果套用DIKW模型,数据就不仅是数据,还同时是信息、知识,甚至是智能了,这里的数据概念已经完全突破并大大扩展了DIKW模型的数据概念。
03
DIKW模型,即数据、信息、知识、智慧(Data, Information, Knowledge, Wisdom),是一个经典的信息科学理论模型。按照该模型,数据:是最原始、最底层的素材。它是离散的、客观的符号,本身不包含上下文和意义。信息:是被赋予了上下文和意义的数据。它回答了“谁(Who)”“什么(What)”“何时(When)”“何地(Where)”等问题,使得数据变得有序和有用。再上层还有知识:相互关联的、体系化的信息集合。智慧:基于知识体系能进行预测、预判并由此产生新信息的能力体系。
笔者已经指出过DIKW模型的数据概念理解及其局限。特别是,DIKW模型不是经济学概念,不适用于数据要素价值分析。根据《数据安全法》的数据定义,数据是指任何以电子或者其他方式对信息的记录。因此,数据是(行为主体)的记录行为(一种劳动);记录凝聚于记录载体;记录的对象是信息。人类劳动是统一地凝聚在“数据-信息”的整体之中的。在数据价值化视域下:数据价值=信息价值+载体价值;数据=信息+载体。[3]
笔者还基于数据互操作性的语义互认,进一步指出:作为业务镜像的数据在语义层的统一互认,就是所谓的“本体”或“本体论”,实际上既是机构的业务本体,也是机构是数据本体。业务本体和数据本体,实际上让数据从孤立的简单映射升华为与业务互为镜像的数据体系、带有业务结构的数据空间、在语义网层面的数据网、从业务视角看的知识库。即数据(信息)升华为业务知识,数据(信息)升华为关于现实世界事实的知识,现实世界的知识。[4]
可见,对于数据的理解,的确不能仅仅局限于技术视角从DIKW模型进行狭义理解,而必须放在数据作为对现实世界的(业务)事实动态描述的角度,整体性、体系化的来理解。数据是技术性的记录,也包含了现实世界(业务)事实的信息、知识乃至智能。
04
事实上,《方案》在“实施标注攻坚行动”中就明确:“数据标注是将知识和经验注入到训练数据的过程……推动数据标注向专业化、智能化跃升。”
高质量数据集满足“结构完整性、内容多样性、标注准确性、模型适配性等质量标准”,其中就明确注入了知识、经验甚至智能。
05
数据所蕴含的知识并不是泛泛而言,而是以数据所描述的现实世界的事实为依据。具体到一个组织,就是这个组织的相关事实,也就是这个组织的业务(内容、形态、过程),也就是这个组织的业务本体。相应的便是这个组织的数据本体——作为业务本体的数字孪生。
当然,数据蕴含着相关事实的知识,特别是相关组织的本体知识,这并不是现成的,而是广义的数据治理的结果。最初的数据(原始数据)可能并不能让人以及智能体、机器清晰地看到相关知识,只有经过数据治理,梳理元数据体系,包括数据标注、数据编织等艰苦的工作,才能将数据及之间的关系、链接、来源、相关主体、相关工作流等梳理清楚,形成知识,进而形成体系化的知识本体——既是业务本体,也是数据本体。
既然《方案》将“知识图谱、本体”纳入高质量数据集范畴,意味着我们说的数据本体属于高质量数据集。
更清晰的说法其实应该是,高质量数据集需要纳入本体的范畴。因为业务本体和数据本体,才让数据从孤立的简单映射升华为与业务互为镜像的数据体系、带有业务结构的数据空间、在语义网层面的数据网、从业务视角看的知识库。[4]这个知识才构成高质量数据集所要求的“高知识密度”和“人工智能就绪(AI-Ready)”标准。换句话说,达到数据本体要求的数据才能达到高质量数据集标准。这才能为高质量数据集划定清晰、明确的标准,即能够让其直接服务于组织的业务,服务于组织中的人、智能体所链接的各种工作流。
这样才能“通过提炼组织的业务本体,落实关于场景的知识工程,才能梳理出各类数据产品包括智能体落地所需要的SOP(标准化作业规程),私有技能(skills),才能加快构建对内的数据互操作、数据产品(智能体)互操作,以及生产对外服务的数据产品(智能体)。”[5]
06
《方案》第(二十)条要求:“建立健全市场化利益分配机制,确保数据供给、加工、流通、应用等各环节主体均能获得市场化价值回报,共享数据红利。”
合理的分配机制首先要求对于高质量数据集生产、应用各环节的价值贡献有较合理的度量。
正因为高质量数据集已经内含丰富的知识、智能,与简单的原始数据已经不可同日而语,简单用token计量是不合理的。
Token可以作为一种度量,不过这只是底层度量、流量度量,不是唯一度量,更不是高阶度量。[6]
Token本质上还是数据,是变形的、数学化的、矢量化的数据。不可否认词元作为计量单位的意义,这是一种基于上层应用的底层价值,只是完整应用价值的一部分,而且可能只是一小部分。事实上,大模型的收费,已经并不简单只是按词元计费,而是复杂得多,Anthropic、OpenAI、Google Gemini、Salesforce、Intercom等的AI收费,可能同时包含模型推理、搜索、检索、缓存、上下文驻留、运行时、容器、团队席位、动作配额,乃至一个被明确定义的“完成件”(按结果收费)。[7]
对于结构化数据,业界早就有按条数、非空字段数计量的做法。上海提出“数元”计费,按“核心数据项个数×使用记录条数×使用次数”计算使用量,自然而然,谈不上“首创”,但也确实是一种可能的计量方式。[8]
不过,这种计量方式不适合于更大量的非结构化数据。
百度创始人李彦宏则提出,智能时代的价值度量应是DAA(Daily Active Agents),即日活智能体数。和token计量着眼于“投入”侧不同,这是对“产出”端的度量,从价值生产角度来看,这是更为合理的度量方式。
笔者浅陋,在此基础上引入“投入产出比”的概念,DAA/Token,即消耗每百万token所激活的智能体数量,作为核心效率指标。它衡量的是单位智能投入(Token)所能撬动的应用产出(DAA)。[9]
对于蕴含知识、智能的高质量数据集,如何衡量其价值,如何更公平地在数据供给、加工、流通、应用等各环节分配价值,目前并没有成熟的计量标准,业界还在艰难探索之中。DAA/Token也并非终极指标。这些都只是基础参考计量,更重要的还是市场博弈来度量和定价。
参考文献:
[1]国家数据局关于印发《关于推进行业高质量数据集建设行动的实施方案》的通知.
[2]CDO的两难:数据治理的旧债还没还清,AI又开了一张新账单.
[5]董学耕. 知识工程:场景概念的核心——兼论人工智能发展的四要素飞轮.
作者简介:董学耕, 原海南省大数据管理局局长
研究方向:数字政府、数据要素

