董学耕：从DIKW模型的四个维度看高质量数据集的知识化- 大数跨境

Data4AI耕学园

2026-06-19

国家数据局近日发布《关于推进行业高质量数据集建设行动的实施方案》（以下简称《方案》），这是持续推进高质量数据集建设的进一步措施。[1]

《方案》明确：行业高质量数据集是经过采集、加工等数据处理，可直接用于开发和训练人工智能模型，能有效提升模型性能的行业数据的集合，包含行业通识和行业专识数据集。行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。

文献[2]敏锐地注意到，《方案》几处藏在条文细节里的认知跃迁。

一是首次将“知识图谱、本体”纳入高质量数据集范畴。第（三）条明确提出：“面向智能体等新型智能应用形态，加强知识库、知识图谱、本体等数据集建设，加快复杂任务规划、长程推理、人机交互、决策执行等数据集建设。”

二是将“高知识密度”和“AI-Ready”作为数据质量新标尺。第（八）条提出：“鼓励运用数据智能过滤与配比等技术，构建更精、更强的高知识密度数据集，降低训练推理成本。”第四章标题更是直接写明：“推动构建符合结构完整性、内容多样性、标注准确性、模型适配性等质量标准、满足人工智能就绪（AI-Ready）的高质量数据集。”

高质量数据集是高质量的数据集合，除了依然是数据，最重要的当然是“高质量”。针对其直接服务于人工智能模型的目标要求，高质量指标就是瞄准人工智能就绪（AI-Ready），要求其高知识密度，甚至包括“知识库、知识图谱、本体”等。

人工智能就绪，意味着高质量数据集不仅是给人用的，更主要的是要给人工智能用的，要给智能体用的，是需要能让智能体“理解”并依此“执行”的。

如果套用DIKW模型，数据就不仅是数据，还同时是信息、知识，甚至是智能了，这里的数据概念已经完全突破并大大扩展了DIKW模型的数据概念。

DIKW模型，即数据、信息、知识、智慧（Data, Information, Knowledge, Wisdom），是一个经典的信息科学理论模型。按照该模型，数据：是最原始、最底层的素材。它是离散的、客观的符号，本身不包含上下文和意义。信息：是被赋予了上下文和意义的数据。它回答了“谁（Who）”“什么（What）”“何时（When）”“何地（Where）”等问题，使得数据变得有序和有用。再上层还有知识：相互关联的、体系化的信息集合。智慧：基于知识体系能进行预测、预判并由此产生新信息的能力体系。

笔者已经指出过DIKW模型的数据概念理解及其局限。特别是，DIKW模型不是经济学概念，不适用于数据要素价值分析。根据《数据安全法》的数据定义，数据是指任何以电子或者其他方式对信息的记录。因此，数据是（行为主体）的记录行为（一种劳动）；记录凝聚于记录载体；记录的对象是信息。人类劳动是统一地凝聚在“数据-信息”的整体之中的。在数据价值化视域下：数据价值=信息价值+载体价值；数据=信息+载体。[3]

笔者还基于数据互操作性的语义互认，进一步指出：作为业务镜像的数据在语义层的统一互认，就是所谓的“本体”或“本体论”，实际上既是机构的业务本体，也是机构是数据本体。业务本体和数据本体，实际上让数据从孤立的简单映射升华为与业务互为镜像的数据体系、带有业务结构的数据空间、在语义网层面的数据网、从业务视角看的知识库。即数据（信息）升华为业务知识，数据（信息）升华为关于现实世界事实的知识，现实世界的知识。[4]

可见，对于数据的理解，的确不能仅仅局限于技术视角从DIKW模型进行狭义理解，而必须放在数据作为对现实世界的（业务）事实动态描述的角度，整体性、体系化的来理解。数据是技术性的记录，也包含了现实世界（业务）事实的信息、知识乃至智能。

事实上，《方案》在“实施标注攻坚行动”中就明确：“数据标注是将知识和经验注入到训练数据的过程……推动数据标注向专业化、智能化跃升。”

高质量数据集满足“结构完整性、内容多样性、标注准确性、模型适配性等质量标准”，其中就明确注入了知识、经验甚至智能。

数据所蕴含的知识并不是泛泛而言，而是以数据所描述的现实世界的事实为依据。具体到一个组织，就是这个组织的相关事实，也就是这个组织的业务（内容、形态、过程），也就是这个组织的业务本体。相应的便是这个组织的数据本体——作为业务本体的数字孪生。

当然，数据蕴含着相关事实的知识，特别是相关组织的本体知识，这并不是现成的，而是广义的数据治理的结果。最初的数据（原始数据）可能并不能让人以及智能体、机器清晰地看到相关知识，只有经过数据治理，梳理元数据体系，包括数据标注、数据编织等艰苦的工作，才能将数据及之间的关系、链接、来源、相关主体、相关工作流等梳理清楚，形成知识，进而形成体系化的知识本体——既是业务本体，也是数据本体。

既然《方案》将“知识图谱、本体”纳入高质量数据集范畴，意味着我们说的数据本体属于高质量数据集。

更清晰的说法其实应该是，高质量数据集需要纳入本体的范畴。因为业务本体和数据本体，才让数据从孤立的简单映射升华为与业务互为镜像的数据体系、带有业务结构的数据空间、在语义网层面的数据网、从业务视角看的知识库。[4]这个知识才构成高质量数据集所要求的“高知识密度”和“人工智能就绪（AI-Ready）”标准。换句话说，达到数据本体要求的数据才能达到高质量数据集标准。这才能为高质量数据集划定清晰、明确的标准，即能够让其直接服务于组织的业务，服务于组织中的人、智能体所链接的各种工作流。

这样才能“通过提炼组织的业务本体，落实关于场景的知识工程，才能梳理出各类数据产品包括智能体落地所需要的SOP（标准化作业规程），私有技能（skills），才能加快构建对内的数据互操作、数据产品（智能体）互操作，以及生产对外服务的数据产品（智能体）。”[5]

《方案》第（二十）条要求：“建立健全市场化利益分配机制，确保数据供给、加工、流通、应用等各环节主体均能获得市场化价值回报，共享数据红利。”

合理的分配机制首先要求对于高质量数据集生产、应用各环节的价值贡献有较合理的度量。

正因为高质量数据集已经内含丰富的知识、智能，与简单的原始数据已经不可同日而语，简单用token计量是不合理的。

Token可以作为一种度量，不过这只是底层度量、流量度量，不是唯一度量，更不是高阶度量。[6]

Token本质上还是数据，是变形的、数学化的、矢量化的数据。不可否认词元作为计量单位的意义，这是一种基于上层应用的底层价值，只是完整应用价值的一部分，而且可能只是一小部分。事实上，大模型的收费，已经并不简单只是按词元计费，而是复杂得多，Anthropic、OpenAI、Google Gemini、Salesforce、Intercom等的AI收费，可能同时包含模型推理、搜索、检索、缓存、上下文驻留、运行时、容器、团队席位、动作配额，乃至一个被明确定义的“完成件”（按结果收费）。[7]

对于结构化数据，业界早就有按条数、非空字段数计量的做法。上海提出“数元”计费，按“核心数据项个数×使用记录条数×使用次数”计算使用量，自然而然，谈不上“首创”，但也确实是一种可能的计量方式。[8]

不过，这种计量方式不适合于更大量的非结构化数据。

百度创始人李彦宏则提出，智能时代的价值度量应是DAA（Daily Active Agents），即日活智能体数。和token计量着眼于“投入”侧不同，这是对“产出”端的度量，从价值生产角度来看，这是更为合理的度量方式。

笔者浅陋，在此基础上引入“投入产出比”的概念，DAA/Token，即消耗每百万token所激活的智能体数量，作为核心效率指标。它衡量的是单位智能投入（Token）所能撬动的应用产出（DAA）。[9]

对于蕴含知识、智能的高质量数据集，如何衡量其价值，如何更公平地在数据供给、加工、流通、应用等各环节分配价值，目前并没有成熟的计量标准，业界还在艰难探索之中。DAA/Token也并非终极指标。这些都只是基础参考计量，更重要的还是市场博弈来度量和定价。

参考文献：

[1]国家数据局关于印发《关于推进行业高质量数据集建设行动的实施方案》的通知.

[2]CDO的两难：数据治理的旧债还没还清，AI又开了一张新账单.

[3]董学耕. 数据=信息+载体——浅议数据概念.

[4]董学耕. 从维特根斯坦哲学看数据本体论.

[5]董学耕. 知识工程：场景概念的核心——兼论人工智能发展的四要素飞轮.

[6]董学耕. Token作为数智时代度量的意义与限度.

[7]董学耕. 不可承受的词元之重——有Token经济这回事吗？.

[8]上海首创公共数据运营服务以“数元”计费.

[9]董学耕. 智能时代的价值度量：从Token到DAA，再到投入产出比的演进.

作者简介：董学耕, 原海南省大数据管理局局长

研究方向：数字政府、数据要素

【声明】内容源于网络

Data4AI耕学园

本号结合实践聚焦数据要素、数字政务、数字经济、人工智能、智慧城市、信息社会相关研究。号主董学耕，理学博士，原海南省大数据管理局局长。长期从事信息化、产业经济管理等工作，实操海南全省一体化大数据治理体系，创新数据价值化海南模式。

内容 78

粉丝 0

Data4AI耕学园本号结合实践聚焦数据要素、数字政务、数字经济、人工智能、智慧城市、信息社会相关研究。号主董学耕，理学博士，原海南省大数据管理局局长。长期从事信息化、产业经济管理等工作，实操海南全省一体化大数据治理体系，创新数据价值化海南模式。

总阅读133

粉丝0

内容78