大数跨境
0
0

如何理解数据?

如何理解数据? 跨境电商创业日记
2025-10-23
33
以下内容由Ai生成,仅供参考!
导读:根据中国相关法律法规的规定,政府文件中的“数据”一词具有一个非常广泛和基础性的定义。它并不仅仅局限于某一种具体形式,而是涵盖了下文提到的所有概念。《从“给定之物”到“生成之力”:一部权威的数据史》,是关于当代核心概念“数据”的一部演化史。它超越了“新石油”的标签,系统性地回答了“数据究竟是什么?”这一深刻问题。报告的核心论点在于,“数据”已从其拉丁语原意中被动、静态的“给定之物”,演变为一种能主动“生成”现实的动态力量。

为完整展现这一历程,本文包含六个关键部分:从厘清“数据”的哲学定义与物质载体(如穿孔卡片)开始,继而重点剖析“数据表”(有序)与“电子文件”(无序)之间的核心张力,并探讨了通过“数据驱动”的分析技术激活其价值的路径。报告亦未回避当下的严峻挑战,而是深入探讨了数据孤岛、隐私监管与算法偏见等伦理困境,并最终展望了物联网与量子计算的未来。由此,一个全景式的宏大视角得以展现,它超越了单纯的技术细节,从哲学、逻辑直至伦理层面,为“数据”这一概念构建了一个坚实而深刻的理解框架。


从“给定之物”到“生成之力”:一部权威的数据史

引言

在当代话语体系中,“数据”一词已成为一个核心概念,它既是价值巨大的经济资源,被誉为“新石油”,也是驱动人工智能革命的根本命脉1。然而,尽管人们频繁使用“数据”这一概念,但对其真正内涵的理解往往流于表面。数据并非简单的“事实”,而是对现实的抽象和建模,其准确性、标准化和生命周期管理至关重要。本报告旨在系统性地追溯“数据”一词深刻的演化历程。这一历程始于其词源学的哲学根基——作为一种静态的“给定之物”(that which is given),最终演变为当今我们所理解的一种动态的、可生成的、乃至重塑世界的力量。本报告将通过剖析数据在概念、物质、逻辑和伦理四个维度上的历史演进,为读者构建一幅全景式的理解图谱。通过审视“数据表”和“电子文件”等具体形式的出现与演变,本报告将揭示抽象的数据概念是如何被其具体的物质载体和逻辑结构所塑造和定义的,从而直接回应用户对于数据涵义演化的核心关切。

第一部分:概念基础——从“给定之物”到原始材料

本部分旨在为理解数据奠定哲学与理论基础,通过追溯其词源,并审视用于构建其价值的核心概念模型,为后续的技术与社会叙事铺平了道路。

第一章:数据的多重定义——一个流动的概念

尽管“数据”一词无处不在,但要为其下一个统一、精确的定义却异常困难。不同领域、不同背景的专家从各自的视角出发,赋予了“数据”丰富的内涵。以下七种定义共同勾勒出这一概念的多维面貌:

  1. 定义一:作为计算机处理的对象与泛指的描述。
     传统词典(如《新华词典》)倾向于将数据视为计算机加工处理的对象。然而,现代观念(如维基百科)已将其含义扩展,不再局限于计算机领域,而是泛指所有定性或定量的描述。
  2. 定义二:作为事实的表现形式。
     国际数据管理协会(DAMA)认为,数据是以文本、数字、图形、图像、声音和视频等多种格式对事实进行的具体表现。
  3. 定义三:作为现实世界的“模型”。
     美国质量学会(ASQ)将数据定义为“收集的一组事实”。在此基础上,数据质量架构师劳拉·塞巴斯蒂安进一步深化,认为“数据是对真实世界的对象、事件和概念的被选择的属性的抽象表示”。这揭示了数据的核心本质——它并非现实本身,而是现实的“模型”。
  4. 定义四:作为一种承载通信任务的表示方式。
     这种观点强调,数据本质上是一种人为创造的、需要被解释的符号形态。为了实现通信(传输、共享)、解释和处理的目的,数据对事物的表示和解释方式必须是权威、标准且通用的。
  5. 定义五:作为分析与决策的基础。
     《新牛津美语词典》(NOAD)将数据定义为“为参考和分析而收集的事实”。这与17世纪哲学家的用法一脉相承,他们将数据视为“作为推理或计算基础的已知或假定为事实的事物”。这两种定义都强调了数据的核心功能:支持分析、推理、计算和决策。
  6. 定义六:作为业务流程的产物。
     麻省理工学院(MIT)在20世纪80年代提出的全面数据质量管理(TDQM)理念,创新性地将数据视为业务流程和信息系统的产品或副产品。这一视角将数据管理与业务流程紧密结合,强调了数据在组织运营中的内生性。
  7. 定义七:作为电子化存储的趋势。
     随着信息技术的发展,《新牛津美语词典》也给出了其计算领域的定义:由计算机操作、以电信号形式存储和传输的数量、字符或符号。学者Matthew West进一步指出,信息保存的发展趋势就是将信息作为数据来保存,因为这能最大限度地获得计算机的支持。

综合上述定义,我们可以发现数据的几个核心特征。首先,因为数据是对现实世界的抽象,是现实世界的“模型”,所以数据不一定等于现实,只有在符合一定要求的情况下才可以准确反映现实。其次,对于结构化数据和非结构化数据,我们需要采取不同的存储与管理方式。再次,基于创建数据的过程和通信的需要,数据必须遵循特定的规范和标准。最后,因为数据要支持分析、推理、计算和决策,所以真实、准确是对数据的基本要求。

由此不难发现,数据的真正内涵绝不是想当然就能脱口而出的,在认识、利用数据的路上,我们依然任重而道远。

第二章:法律定义:作为“信息记录”的数据

为了将上述偏于抽象的定义落地于一个明确、可操作的框架,我们可以引入法律层面的界定。中华人民共和国的《数据安全法》为“数据”提供了一个极其有力且简洁的定义:“本法所称数据,是指任何以电子或者其他方式对信息的记录”。

这个法律定义具有以下几个关键特征:

  • 普适性:
    它涵盖了“任何”记录,不限定于特定的格式或内容,无论是电子形式还是其他形式(如纸质文档)。
  • 核心在于“记录”:
    该定义将“记录”这一行为作为数据的本质特征。一个事物是否是数据,关键在于它是否是对信息的某种形式的记载或留存57
  • 与信息的关系:
    它明确了数据是“对信息的记录”,这与信息科学中“数据是信息的原材料”的观点形成了互补。信息是内容,数据是承载该内容的记录形式。

这个定义为理解数据的边界提供了一个决定性的检验标准。它将问题从一个抽象的概念,转化为一个更具体、更具可操作性的测试:“一个事物的组成元素、状态和行为是否可以被记录?”如果答案是肯定的,那么根据这个严谨的、具有法律效力的定义,该记录本身便落入了数据的范畴。

此外,该法律还定义了“数据处理”活动,包括数据的收集、存储、使用、加工、传输、提供、公开等。这些活动与现代社会对信息的各种操作方式高度吻合,进一步强化了将数据视为一个被能动处理的对象的观念。

综上所述,从哲学、信息科学到法律的定义最终都指向一个统一且强大的核心概念:数据是一种表征或记录。它不是现象本身,而是对现象的符号化抽象。这个综合定义将成为我们解构数据演化历程的分析起点。

第三章:一个概念的词源学考察

“数据”(data)一词的语言学起源为其现代涵义提供了深刻的注脚。该词源自拉丁语,是拉丁词 datum 的复数形式,而 datum 本身是动词 dare (意为“给予”)的中性过去分词,其字面意思为“被给予之物”或“一件给定的事”3。在英语中,该词最早的使用记录可追溯至17世纪40年代,当时它指代“一个给定的或公认的事实”,尤其是在数学计算或哲学论证中作为不证自明的前提4

然而,随着科学和技术的发展,这个词的涵义发生了两次关键的转变。第一次转变发生在19世纪末,大约在1897年,“数据”的涵义扩展为“为未来参考而收集的数字事实”4。第二次,也是更具决定性的转变,发生在20世纪中叶。随着电子计算机的诞生,到1946年,“数据”一词被明确赋予了其现代计算领域的涵义:“可通过计算机操作进行传输和存储的信息”4

这一从“给定的事实”到“用于计算的原材料”的演变,并非简单的词义扩充,它标志着人类与信息关系的根本性范式转移。最初的涵义暗示了一种静态的、权威的、被动接受的前提。而现代涵义则指向一种动态的、可塑的、等待被处理、转换和操控的物质。这种从被动概念到主动概念的转变,是整个数字革命发生的必要哲学前提。

这种概念上的演化是技术革命的先导。 datum 最初作为“给定之物”的涵义,将其定位为逻辑推演的静态基石,是一个被假定为真的输入。然而,1946年计算涵义的出现与第一台电子计算机的诞生在时间上高度重合,这并非偶然。新技术需要一个新概念来描述其处理的对象——不再仅仅是事实,而是“可处理的事实”。因此,词义的变迁反映了其感知用途的改变:数据不再仅供人类推理,它正成为机器处理的资源。正是这一从“前提”到“资源”的观念转变,释放了后续技术的巨大潜力,为数据处理(1954年)、数据库(1962年)乃至最终的数据挖掘和人工智能等领域的蓬勃发展铺平了道路4。若无此思想上的飞跃,数据可能仍将局限于哲学和数学领域,而无法成为信息时代的引擎。

第四章:DIKW金字塔——构建通往智慧的路径

在信息科学领域,DIKW金字塔(数据-信息-知识-智慧)是一个 foundational 的模型,它为理解数据的价值层次提供了经典的框架7。该模型将数据的价值实现过程描绘为一个层层递进的结构:

  • 数据 (Data):位于金字塔的底层,被定义为关于事件的一组离散、客观的事实描述。它是未经处理的原始符号、字符和数字,是构成信息和知识的原材料8
  • 信息 (Information):是被赋予了上下文和相关性的数据。通过对数据进行组织和处理,回答了“谁(who)”、“什么(what)”、“何时(when)”、“何地(where)”等问题,使数据具有了意义9
  • 知识 (Knowledge):是信息的应用。它将信息与经验、直觉和判断相结合,用以回答“如何(how)”的问题,代表了可指导行动的见解9
  • 智慧 (Wisdom):位于金字塔的顶端,涉及对基本原则的深刻理解和远见,旨在回答“为什么(why)”的问题,并做出最佳决策9

该模型的思想雏形最早可追溯至诗人艾略特1934年的诗作,后由管理思想家艾科夫(Ackoff)等人将其发展为成熟的理论框架7。然而,DIKW模型也并非完美无缺,它因过度简化数据、信息、知识和智慧之间复杂的非线性关系,以及缺乏坚实的哲学基础而受到学界的批评7

尽管存在争议,DIKW金字塔不仅是一个学术模型,更成为了整个数据产业的价值主张与理论依据。这个金字塔清晰地展示了一条从低价值商品(数据)到高价值资产(智慧)的等级路径。这一递进关系构建了一种强大的经济叙事。从数据存储供应商、分析软件公司到人工智能咨询顾问,整个行业都可以将其服务定位在这条价值创造阶梯的不同环节。例如,销售数据库的公司是在销售组织“数据”的能力;销售商业智能仪表板的公司是在销售创造“信息”的能力;而销售人工智能模型的公司则是在销售生成“知识”乃至“智慧”(如预测)的能力。因此,DIKW金字塔在功能上已超越了一个中立的学术框架,它成为一种有力的意识形态和营销工具,通过承诺将数据转化为更高级别的洞察和更优的决策,为数据技术领域的巨额投资提供了坚实的理论基础。对该模型的批评之所以重要,正是因为它们挑战了这种清晰、线性且极具商业吸引力的叙事。

第二部分:数据的物质史——从刻痕到信号

本部分将探讨数据的物理载体,揭示存储介质如何始终定义着数据的可能性边界——它能是什么,以及我们能用它做什么。

第五章:前计算时代的数据——物理记录的纪元

人类记录和处理数据的历史源远流长。最早的数据存储形式可追溯至约公元前18,000年的史前时代,当时的人们使用结绳或在骨头上刻画记事的“计数棒”(tally sticks),例如1960年发现的伊尚戈骨(Ishango Bone),就被认为是用于追踪交易活动或物资供应的早期证据11。约公元前2400年,作为首个专门用于计算的设备——算盘,在巴比伦出现,而同一时期出现的早期图书馆则代表了人类首次对信息进行大规模存储的尝试11

然而,在这一漫长的时代中,最具革命性的里程碑是赫尔曼·何乐礼(Herman Hollerith)为1880年美国人口普查所发明的穿孔卡片制表机11。当时,美国人口普查局面臨一项严峻挑战:预计需要8年时间才能完成1880年普查数据的处理,而1890年的数据处理时间更将超过10年,这意味着普查结果在发布时就已过时11。何乐礼的机器通过在纸卡上预定位置打孔来表示数据,将长达十年的手动工作量缩短至短短三个月。这一发明不仅奠定了他作为现代自动化计算之父的地位,他所创立的公司后来也发展成为今天的IBM11。从19世纪末到20世纪70年代,穿孔卡片一直是数据输入、处理乃至计算机编程的主流介质14

穿孔卡片的重要性在于,它构成了连接人类世界与机器世界的桥梁。在此之前,数据处理是纯粹以人类认知为中心的活动,如图书管理员阅读账本或商人使用算盘。穿孔卡片则首次成功地将数据从其源头抽象出来,将人类可读的信息(例如人口普查表格上的年龄或婚姻状况)转化为机器可以通过机电方式“读取”的格式。一个人的信息不再仅仅是账本上的文字,而是一种孔洞的模式,一种完全脱离人类语言的、机器可读的格式。这种为机器而非人类的便利而构建数据结构的行为,是自动化数据处理的真正开端。这一核心理念——将信息编码为非人类可读但机器可处理的格式——是所有后续数字数据存储技术(从磁带到闪存)的根本原则。穿孔卡片正是实现这一关键概念和技术飞跃的里程碑。

第六章:电子时代的黎明——作为磁迹的数据

从机械式存储到电子式存储的过渡,是数据历史的又一次巨大飞跃。这一时期的关键技术里程碑包括:

  • 磁带:
    1928年,最初为录音而发明的磁带技术问世11。它很快被早期计算机先驱用作存储介质,因为一卷磁带的存储容量相当于10,000张穿孔卡片18
  • 磁鼓存储器:
    20世纪50年代,磁鼓存储器被用于早期的计算机,如Atlas计算机19
  • 硬盘驱动器 (HDD):
    1956年,IBM发明了现代硬盘的原型,其工作时磁头悬浮在高速转动的盘片上方,极大地提升了数据访问速度和存储密度17
  • 软盘:
    1967年,IBM推出了世界上第一张软盘,它在随后的三十年间成为个人计算机最主要的可移动存储介质17

这些技术将数据从一种可见、有形的介质(纸上的孔洞)转变为一种不可见、无形的介质(磁性材料的极化状态)。这一转变不仅极大地提升了数据密度和存取速度,更重要的是,它使数据“非物质化”了。数据不再是一个物理实体,而是一种电子状态。这种抽象化对于现代计算的发展至关重要,它使得数据能够以接近光速的速度被写入、重写和传输。

数据的这种非物质化直接催生了其爆炸性增长。穿孔卡片等物理介质存在固有的局限性:体积庞大、处理速度慢,且一旦打孔即为只读。其物理特性严重限制了可被实际管理的数据量。磁性介质则彻底突破了这些限制。数据变得无形、可重写且存储密度极高,这消除了与数据创建和存储相关的物理阻力。当存储单位数据的成本和精力急剧下降时,被生成和存储的数据量自然会呈指数级增长。因此,向电子存储的技术转型不仅仅是一次渐进式的改进,它更是数据大爆炸的催化剂。它创造了收集和囤积海量数据在经济上和技术上都可行的条件,从而直接导致了对更复杂管理系统(如关系数据库)的需求,并最终开启了大数据时代。

第三部分:数据的逻辑组织——从文件到全球网络

本部分将直接回应用户提出的“数据表”和“电子文件”这两个例子,将它们置于一对相互对立又互为补充的范式中,探讨人类如何为日益复杂的数字信息世界强加逻辑秩序。

第七章:关系模型的革命——为数据施加秩序(“数据表”)

在20世纪70年代之前,数据库系统是为特定应用设计的复杂且僵化的系统。它们普遍采用层次模型或网状模型,数据结构如同缠绕的树或网络,查询和修改极为困难,限制了数据的广泛应用21

1970年,IBM的研究员、数学家埃德加·科德(Edgar F. Codd)发表了其划时代的论文,首次提出了关系模型24。该模型的核心思想是,所有数据都应被表示为简单的二维表格(即“关系”),表格由行(元组)和列(属性)组成。数据的操作则基于严格的数学理论,如集合论和谓词逻辑24。这种模型的优雅简洁性是革命性的。

为了让用户能方便地与关系数据库交互,IBM的另外两位研究员Boyce和Chamberlin在1974年开发了结构化查询语言(SQL)24。SQL提供了一种接近自然语言的、功能强大的方式来检索和操作数据。不久之后,像Oracle这样的公司将关系模型和SQL成功商业化,使其成为接下来三十多年里结构化数据管理领域无可争议的标准21

关系模型的成功可以被视为一种“智力技术”的胜利,它有效驯服了数据的复杂性。20世纪60年代,数据领域面临的不是数据匮乏,而是一场复杂性危机。早期的数据库充满了脆弱且难以管理的指针网络21。科德的解决方案主要不是一项新的硬件或软件发明,而是一个全新的思想——一个用于思考数据的形式化数学框架。通过强制推行一种简单、一致的结构(即带有行和列的表),关系模型使得数据的复杂性变得可控。它用部分性能灵活性换取了在概念清晰度、可维护性和易用性方面的巨大收益。因此,关系模型最伟大的贡献在于其智力层面:它提供了一种通用语法(SQL)和一个简单的思维模型(表),使得组织能够大规模地推理和管理其数据资产,为所有现代商业信息系统奠定了坚实的基础。

表1:数据模型对比

特性
层次模型
网状模型
关系模型
NoSQL 模型 (例如, 文档数据库)
核心结构
树状结构 (父-子关系)
图状结构 (网状指针)
表 (关系)
JSON/BSON 文档 (键值对)
主要优势
结构清晰,查询效率高 (特定路径)
灵活性高于层次模型,能表示多对多关系
结构简单,易于理解和使用;数据独立性高;有坚实的数学基础
灵活性极高,无固定模式;易于水平扩展;为非结构化/半结构化数据优化
主要劣势
结构僵化,只能表示一对多关系;数据冗余
结构复杂,实现和维护困难;查询路径复杂
难以处理非结构化数据;在超大规模下扩展性受限
缺乏统一的查询语言;事务支持较弱 (最终一致性)
典型用例
IBM 的 IMS 系统,早期银行系统
早期制造业库存管理系统
企业资源规划 (ERP),客户关系管理 (CRM),财务系统
社交媒体内容管理,物联网数据平台,实时Web应用

第八章:非结构化的浪潮——超越表格的数据(“电子文件”)

尽管关系模型取得了巨大成功,但一种新型的数据浪潮正悄然兴起。随着个人电脑、互联网和数字媒体的普及,全球信息量呈爆炸式增长,其中绝大部分数据并不适合放入关系数据库整齐的表格中。这些数据被称为“非结构化数据”,例如文本文档、电子邮件、图片、音频和视频文件等1。此外,还有“半结构化数据”,它们不遵循严格的表格格式,但包含标签或标记等组织性元素,例如XML和JSON文件1。这些“电子文件”缺乏预定义的数据模型和严格的格式,使得使用传统的SQL进行存储和查询变得异常困难1

关系模型的长期主导地位在企业内部创造了一个认知盲点:在很长一段时间里,“数据”几乎等同于“结构化数据”。然而,Web和数字通信的兴起迫使人们重新审视这一观念:人类产生的大部分信息本质上是混乱的、充满上下文且非结构化的。这种现实与主流技术之间的矛盾,成为了现代数据领域创新的主要驱动力。

用户查询中隐含的“数据表”与“电子文件”之间的对立,恰恰点明了数据历史中的一个核心冲突。关系模型为前者进行了优化,但数字时代却被后者所主导。这种不匹配是数据技术演进的关键拐点。正是这种张力,直接催生了下一波技术创新浪潮。由于关系数据库无法有效处理网络规模的非结构化数据,直接导致了NoSQL数据库、分布式文件系统(如Hadoop)以及整个大数据分析领域的诞生。更进一步,从海量非结构化文本文件中提取价值的迫切需求,极大地推动了自然语言处理(NLP)等人工智能技术的飞速发展。因此,旧范式(关系模型)的局限性,恰恰为新范式(大数据与人工智能)的成长提供了最肥沃的土壤。

第九章:丰饶的时代——大数据与云计算

“大数据”(Big Data)一词在20世纪90年代开始出现,用以描述传统数据处理系统无法应对的数据量(Volume)、速度(Velocity)和多样性(Variety)的指数级增长1。与此同时,“云计算”(Cloud Computing)的概念也从早期的“分时共享”和“效用计算”理念中逐步演化而来28。2006年,时任谷歌CEO的埃里克·施密特首次正式提出“云计算”的概念,标志着一个转折点的到来29

云计算为大数据的处理提供了完美的解决方案。它提供了可按需获取、弹性伸缩的计算和存储基础设施,使得各种规模的组织都能够经济高效地处理和分析海量数据,而无需承担构建和维护庞大数据中心的巨额前期投入28。这种大数据与云计算之间共生共荣的关系,定义了现代数据技术的基本格局。

云计算的出现,实现了大数据能力的民主化,从而将企业的竞争优势从资本转向了分析能力。在21世纪初,只有少数科技巨头(如谷歌、雅虎)拥有足够的资本和顶尖的工程人才来构建处理互联网规模数据所需的庞大分布式系统,这构成了巨大的竞争壁垒。然而,亚马逊(AWS)、微软(Azure)和谷歌(GCP)等云服务提供商将这种复杂的基础设施产品化,并以租赁服务的形式提供给公众。这极大地降低了大数据分析的准入门槛,使得一家初创公司如今可以按需使用与世界500强企业同等级别的数据基础设施28。因此,竞争的焦点发生了转移:不再是谁有能力建造最大的数据中心,而是谁能最巧妙地利用租来的基础设施从数据中提取商业价值。云计算普及了数据生产的工具,使得数据分析的质量成为新的核心战场。

第四部分:激活数据——从分析到行动

本部分将探讨为从结构化和非结构化数据中提取价值而开发的各种方法论,并最终聚焦于已渗透到现代组织各个层面的“数据驱动”理念。

第十章:解析矩阵——结构化数据挖掘

为了从存储在“数据表”中的海量结构化数据里发现有价值的模式,数据挖掘技术应运而生。这些技术代表了数据分析从简单的“发生了什么?”(描述性分析)向“将要发生什么?”(预测性分析)和“我们应该怎么做?”(规定性分析)的演进。它们是商业智能的核心工具,能将庞大的交易记录和客户数据库转化为可指导行动的智慧。主要技术包括:

  • 分类 (Classification):
     将数据项分配到预定义的类别中。例如,银行利用历史数据训练模型,根据申请人的收入、信用记录等特征,将新的贷款申请自动分类为“批准”或“拒绝”30
  • 聚类 (Clustering):
     在没有预定义标签的情况下,将相似的数据项分组。与分类不同,聚类旨在发现数据中天然存在的群组。例如,零售商可以对顾客进行聚类,识别出不同的消费群体,如“高价值年轻客户”或“价格敏感家庭”30
  • 关联规则挖掘 (Association Rule Mining):
     发现数据项之间的有趣关系,最经典的例子是“购物篮分析”。例如,超市通过分析交易数据发现,购买了杜松子酒的顾客有很大概率也会购买汤力水,从而可以将这两种商品进行捆绑促销或就近摆放30
  • 回归 (Regression):
     预测一个连续的数值。例如,企业可以建立回归模型,根据广告投入、季节性因素等变量,来预测未来的产品销量31

第十一章:教机器阅读——从非结构化数据中提取信息

对于海量的“电子文件”,即非结构化数据,自然语言处理(NLP)技术是解锁其价值的关键。NLP是人工智能的一个分支,致力于让计算机能够理解、解释和生成人类语言。信息提取(IE)是NLP中的一项核心任务,其目标是从非结构化文本中自动抽取出结构化的信息。关键技术包括:

  • NLP处理流程:
     在进行高级分析之前,文本通常需要经过一系列预处理步骤,如分词(将句子切分成单词)、标准化(转为小写、去除停用词)等,以净化数据33
  • 命名实体识别 (Named Entity Recognition, NER):
     这是信息提取的基础,旨在识别并分类文本中的关键实体,如人名、组织机构名、地名、日期、产品名等33
  • 关系提取 (Relation Extraction):
     在识别出实体后,此技术旨在确定这些实体之间的语义关系。例如,从句子“埃德加·科德在IBM工作期间提出了关系模型”中,提取出(埃德加·科德,工作于,IBM)这样的结构化三元组33
  • 实现方法:
     早期,这些任务主要通过基于规则的方法(即由专家编写大量语言学规则和模式)来完成。如今,随着算力的提升和数据的丰富,基于机器学习和深度学习的模型(如循环神经网络和Transformer)已成为主流,它们通过在大量标注数据上进行训练来学习模式,实现更强的泛化能力33

NLP技术有效地在第七章描述的结构化世界和第八章描述的非结构化世界之间架起了一座桥梁。它能够将人类产生的、充满歧义和上下文的语言,转化为机器可以大规模分析的结构化格式。

表2:数据分析技术概览

技术类别
具体技术
主要数据类型
回答的核心问题
应用实例
数据挖掘
分类 (Classification)
结构化
“这个新数据属于哪个已知类别?”
邮件服务商将邮件自动分类为“垃圾邮件”或“非垃圾邮件”。
数据挖掘
聚类 (Clustering)
结构化
“数据中存在哪些未知的自然群组?”
市场营销团队根据用户的浏览和购买行为将其划分为不同的客户群。
数据挖掘
关联规则 (Association)
结构化
“哪些事件或项目经常一起发生?”
电商平台推荐系统提示“购买了A商品的用户也购买了B商品”。
数据挖掘
回归 (Regression)
结构化
“基于历史数据,未来的数值会是多少?”
房地产公司根据房屋面积、位置等特征预测其售价。
自然语言处理 (NLP)
命名实体识别 (NER)
非结构化 (文本)
“这段文字中提到了哪些关键的人、地点和组织?”
从新闻文章中自动抽取出涉及的公司名称和高管姓名。
自然语言处理 (NLP)
关系提取 (Relation Extraction)
非结构化 (文本)
“这些被识别出的实体之间存在什么关系?”
从医学文献中提取药物与疾病之间的“治疗”关系。
自然语言处理 (NLP)
情感分析 (Sentiment Analysis)
非结构化 (文本)
“这段文字表达的情绪是积极、消极还是中性的?”
企业分析社交媒体上关于其新产品的用户评论,以了解公众反馈。

第十二章:数据驱动的范式——一种新的决策哲学

“数据驱动决策”(Data-Driven Decision-Making)是指基于数据分析和解读来制定战略和采取行动的实践,而非仅仅依赖直觉、经验或传闻36。这一范式已经深入到社会经济的各个领域:

  • 商业领域:
     企业利用数据优化供应链、实现个性化营销、进行风险评估,甚至创造全新的商业模式37
  • 科学研究:
     从基因组学到天文学,科学家通过分析海量数据集来加速科学发现,大数据已成为继理论、实验、计算之后的第四种科研范式39
  • 社会治理:
     政府部门利用实时数据进行城市规划、优化公共交通、精准部署公共服务资源,提升治理的科学性和效率40

数据驱动范式的核心是一个持续的反馈循环:数据为策略的制定提供依据,策略执行后产生新的数据,这些新数据反过来又被用于验证和迭代优化下一轮的策略42

向数据驱动范式的转变,不仅是技术的变革,更是一场深刻的文化变革。它要求组织建立一种新的“数据素养”,在这种文化中,所有假设都应通过数据进行检验,所有决策都应有证据支持。这种转变重新定义了组织内部的权力和专业知识。在传统的决策模型中,权力往往与资历和经验挂钩,“薪酬最高者的意见”(HiPPO)常常主导决策,直觉是一种备受推崇的专业能力。然而,数据驱动的文化从根本上挑战了这一点。一位初级分析师基于确凿数据提出的论点,其分量可能超过一位资深高管未经支持的观点36。这使得权威的基础从“你是谁”转变为“你能证明什么”。因此,数据驱动范式的推行往往是组织内部一个具有颠覆性的政治过程,它重新分配了决策权,重新定义了“专业知识”的内涵,并可能在传统的经验型领导与新一代的数据分析专家之间制造紧张关系。

第五部分:算法的凝视——现代挑战与伦理困境

本部分将审视我们大规模收集和分析数据的新能力所带来的复杂社会后果,聚焦于定义当前数据格局的关键议题。

第十三章:破碎的视图——数据孤岛与整合的追求

“数据孤岛”(Data Silo)是指组织内部的一个数据存储库,它与其他部门相互隔离,只有特定的团队或部门能够访问43。数据孤岛的形成原因多种多样,包括:使用了互不兼容的遗留系统、僵化的组织结构(各部门独立运作)、缺乏协作的公司文化,甚至是出于善意但执行不当的安全策略43

数据孤岛的负面影响是深远的。它会导致运营效率低下,因为数据需要在不同系统间手动迁移和核对;造成数据冗余和不一致,不同部门可能对同一指标有不同的定义,从而侵蚀对数据的信任;由于决策者无法获得全局视图,导致决策质量下降和错失商业机会;并最终增加运营成本和浪费IT资源43

数据孤岛问题是数据技术普及的直接且讽刺性的后果。那些赋予单个部门收集和管理自身数据的工具,恰恰可能导致组织集体智慧的碎片化。这一现象反映了局部优化与全局智能之间的内在冲突。例如,市场营销部门为了满足其特定需求,采用了最适合自己的营销自动化工具(局部优化)45。与此同时,销售部门也为自己的工作流程选择了最佳的客户关系管理(CRM)系统。虽然每个部门在各自领域内的效率都得到了提升,但它们产生的数据却被困在了互不兼容的系统中48。这使得组织无法获得关于客户旅程的360度全景视图,因为这需要整合来自市场和销售两个部门的数据(全局智能的失败)。因此,数据孤岛不仅是一个可以通过集成工具解决的技术问题,更是一个揭示了“赋能个体团队”与“实现企业统一认知”之间内在张力的组织性和战略性问题。打破孤岛需要的不仅仅是新软件,更是文化和治理模式的变革。

第十四章:数据、隐私与权力——监管的回应

数据收集所赋予的巨大权力,不可避免地引发了社会对监管的强烈需求。欧盟于2018年5月25日正式生效的《通用数据保护条例》(GDPR)是这一领域的里程碑式法规49。GDPR确立了一系列核心原则,包括数据处理的合法性、目的限制、数据最小化、准确性和安全性等49。它强制要求组织采取适当的安全措施保护个人数据,规定在发生数据泄露时必须在72小时内通知监管机构,并对违规行为设定了高达全球年营业额4%或2000万欧元的巨额罚款49。GDPR的颁布和实施,反映了全球范围内将个人数据保护视为一项基本人权的趋势,旨在重新平衡个人(数据主体)与组织(数据控制者/处理者)之间的权力关系。它明确主张,个人对其相关数据拥有控制权,从而将范式从“数据为企业所有”转向“数据由个人委托管理”。

第十五章:机器中的幽灵——算法偏见与公平性

算法偏见(Algorithmic Bias)是指由于机器学习过程中的错误假设,计算机系统持续产生系统性歧视结果的现象。这种偏见并非源于机器的恶意,而是深植于其创建和运行的各个环节:

  • 数据偏见:
     这是最常见的偏见来源。如果用于训练算法的数据本身不具代表性,或反映了人类社会历史上的偏见(例如,在特定族裔社区存在过度的警务活动导致该族裔的逮捕记录不成比例地偏高),那么算法就会忠实地学习并复制这些偏见52
  • 算法设计偏见:
     开发人员在设计算法时做出的主观决策,例如对不同特征赋予不公平的权重,也可能引入偏见54
  • 评估与解释偏见:
     即便算法和数据是中立的,人类在解释其输出结果时也可能受到自身固有成见的影响,从而导致不公平的应用54

算法偏见的现实案例触目惊心。例如,一些面部识别系统在识别少数族裔面孔时错误率更高,已导致无辜者被错误逮捕的事件发生52。在金融领域,有偏见的信贷评分算法可能系统性地拒绝来自特定社群的贷款申请52。在招聘领域,某些早期的人工智能招聘工具被发现会歧视女性求职者,因为它们是基于以男性为主导的历史招聘数据进行训练的53

算法偏见问题深刻地动摇了“数据驱动的客观性”这一迷思。算法远非中立的仲裁者,它们可能成为洗白和放大人类偏见的强大工具,并为其披上了一层计算权威性的外衣。更危险的是,算法偏见能够创造一个“不平等的科技反馈闭环”。这个过程如下:首先,一个算法基于反映社会偏见的历史数据进行训练(例如,某个群体因历史原因被更频繁地执法,导致逮捕记录偏高)。接着,算法学习到这一模式,并预测该群体有更高的犯罪风险54。然后,这一预测被用作决策依据,将更多的警力资源部署到该群体的社区。这种增强的警力部署自然会导致在该社区产生更多的逮捕记录,而这些新产生的数据又反过来“证实”了算法最初的偏见预测。这就形成了一个自我延续的恶性循环:算法的偏见输出导致了现实世界的偏见行动,而这些行动又生成了更多有偏见的数据,从而使算法变得更加偏颇。这个反馈闭环可以在客观、数据驱动的伪装下,固化甚至加速社会的不平等。

第六部分:下一个地平线——数据的未来

本部分将展望未来,探讨新兴技术将如何再次重新定义数据的意义、形式和功能。

第十六章:感知环境——物联网、人工智能与数据洪流

物联网(Internet of Things, IoT)是指嵌入了传感器、软件和其他技术的物理对象的庞大网络,这些对象能够相互连接并交换数据27。从智能家居设备到工业机械,物联网正在创造一个数据由环境持续、无感生成的“感知环境”。这标志着数据演化的下一个阶段:物理世界与数字世界的完全融合。数据将不再仅仅是我们有意识创造或收集的东西,而将成为生命活动和物理过程本身持续不断的、无处不在的副产品。这种由物联网设备产生的海量、实时的数据洪流,其规模和速度远超人力所及,必须依赖人工智能(AI),特别是部署在网络边缘的“边缘计算”,来进行实时处理和即时洞察提取55

第十七章:信任与交易——区块链的角色

在数据量空前庞大、数据处理日益智能化的未来,一个根本性的问题浮现出来:我们如何信任这些数据?区块链技术为此提供了潜在的解决方案。区块链本质上是一个去中心化的、不可篡改的分布式账本,用于记录交易或任何数字事件27。其核心特性——去中心化、公开透明和防篡改——恰好解决了数据完整性和信任的核心痛点56

当与物联网和人工智能相结合时,区块链可以为物联网设备生成的每一条数据提供一个安全、可审计的来源追溯记录,确保数据在传输和存储过程中未被篡改。同时,人工智能可以分析链上数据以进行欺诈检测,或通过智能合约自动执行复杂的业务流程27。如果说物联网和人工智能解决了数据的“生成”和“分析”问题,那么区块链则旨在解决数据的“信任”问题。在一个由自主设备和智能体构成的复杂网络中,区块链有潜力成为无需中央权威的信任基石。

第十八章:量子飞跃——重新计算数据的未来

量子计算利用量子力学(如叠加和纠缠)的原理,有望实现远超当今最强大超级计算机的计算能力27。尽管该领域仍处于早期发展阶段,但其对数据世界的潜在影响是颠覆性的。一方面,量子计算机能够解决目前经典计算机无法处理的极其复杂的优化问题,为气候建模、药物研发、金融市场分析等领域带来前所未有的机遇。

另一方面,量子计算也对当前的数据安全构成了生存性威胁。当今全球数字经济的基石是公钥加密等加密算法,而一台足够强大的量子计算机理论上能够轻易破解这些算法27。这种可能性迫使我们必须重新思考和构建数据安全的基础设施。

因此,量子计算对数据而言是一把双刃剑。它既是一种生存威胁,又是一个前所未有的机遇。整个现代数据生态系统都建立在密码学安全的基础之上,而量子计算有可能粉碎这一基础。这迫使全球必须向“抗量子加密”(quantum-resistant cryptography)等新一代安全技术迁移。与此同时,量子计算的强大算力将为数据分析开辟全新的疆域,使我们能够以目前无法想象的精度对复杂系统进行建模和仿真。量子计算的到来,将迫使我们对数据安全基础设施进行一次彻底的重构,同时也将开启数据应用的全新篇章。

结论

本报告系统地追溯了“数据”从一个意为“给定之物”的简单拉丁名词,演变为当今我们所面对的复杂社会技术现象的完整历程。在这一宏大的叙事中,几个核心主题反复出现:有序(如关系模型的表格)与无序(如互联网上的非结构化文件)之间的持续张力;抽象概念(数据的意义)与其物质形态(存储介质)之间的协同进化;以及技术创新周期的不断加速。

数据的历史,就是一部不断抽象化和自动化的历史。从骨头上的刻痕到纸带上的孔洞,再到磁盘上的磁迹,数据与其物理载体逐渐分离,变得愈发无形、密集且易于操控。从人工制表到关系数据库,再到大数据分析平台,我们处理数据的逻辑工具也变得愈发强大和自动化。

尽管人们频繁使用“数据”这一概念,但对其真正内涵的理解往往流于表面。数据并非简单的“事实”,而是对现实的抽象和建模,其准确性、标准化和生命周期管理至关重要。在数据驱动的时代,我们必须更加严谨地认识和利用数据。

最终,我们抵达了当下的时刻——一个由人工智能驱动的时代。在这个时代,数据不仅是被动的记录,更开始具备主动的生成能力和决策能力。展望未来,随着数据通过人工智能变得日益活跃和自主,人类面临的最严峻挑战已不再是技术性的——如何存储更多数据或更快地处理它们——而是深刻的伦理和治理问题。我们如何确保数据的公平性?如何保护个人在数据洪流中的尊严与自主?如何为一个由数据驱动的社会制定明智的规则?我们已经释放了这股强大的新力量,现在,我们必须以相应的智慧来驾驭它。由此不难发现,数据的真正内涵绝不是想当然就能脱口而出的,在认识、利用数据的路上,我们依然任重而道远。

引用的著作

  1. 什么是数据?| IBM, 访问时间为 十月 23, 2025, https://www.ibm.com/cn-zh/think/topics/data
  2. 什么是大数据- 大数据定义和概念 - SAP, 访问时间为 十月 23, 2025, https://www.sap.cn/products/technology-platform/what-is-big-data.html
  3. projects.iq.harvard.edu, 访问时间为 十月 23, 2025, https://projects.iq.harvard.edu/files/eswg/files/rosenburg_-_rawdata.pdf
  4. Data - Etymology, Origin & Meaning, 访问时间为 十月 23, 2025, https://www.etymonline.com/word/data
  5. Etymology and meaning of "Data" - Rob Hoeijmakers, 访问时间为 十月 23, 2025, https://hoeijmakers.net/etymology-of-data/
  6. Datum - Etymology, Origin & Meaning, 访问时间为 十月 23, 2025, https://www.etymonline.com/word/datum
  7. ·研究论文· 从DIKW 到DiKS - 武汉大学信息管理学院期刊中心, 访问时间为 十月 23, 2025, https://jirm.whu.edu.cn/jwk3/xxzyglxb/CN/article/downloadArticleFile.do?attachType=PDF&id=5542
  8. 第一章什么是数据产业, 访问时间为 十月 23, 2025, https://scholar.harvard.edu/files/ctang/files/data_industry_draft_in_chinese.pdf
  9. DIKW模型在档案信息资源开发中的应用-行业资讯-AI+文档治理+知识 ..., 访问时间为 十月 23, 2025, https://www.macrowing.com/?list_37/442.html
  10. DIKW體系- 維基百科,自由的百科全書, 访问时间为 十月 23, 2025, https://zh.wikipedia.org/zh-tw/DIKW%E4%BD%93%E7%B3%BB
  11. A brief history of big data everyone should read | World Economic ..., 访问时间为 十月 23, 2025, https://www.weforum.org/stories/2015/02/a-brief-history-of-big-data-everyone-should-read/
  12. History of data collection - RudderStack, 访问时间为 十月 23, 2025, https://www.rudderstack.com/learn/data-collection/data-collection-history/
  13. 什么是批处理?- 批处理系统简介 - AWS, 访问时间为 十月 23, 2025, https://aws.amazon.com/cn/what-is/batch-processing/
  14. 打孔卡- 維基百科,自由的百科全書, 访问时间为 十月 23, 2025, https://zh.wikipedia.org/zh-tw/%E6%89%93%E5%AD%94%E5%8D%A1
  15. 见证信息时代变迁的一张“穿孔卡片”——上海超级计算中心计算机科技馆又添新展品, 访问时间为 十月 23, 2025, https://www.ssc.net.cn/news-posts.html?id=6757
  16. 了解数据存储 - Red Hat, 访问时间为 十月 23, 2025, https://www.redhat.com/zh-cn/topics/data-storage
  17. 下一代数据存储技术研究报告, 访问时间为 十月 23, 2025, http://www.caict.ac.cn/kxyj/qwfb/ztbg/202107/P020210709629615877668.pdf
  18. A Brief History of Data Storage | Diskcopy, 访问时间为 十月 23, 2025, https://www.diskcopy.com/blog/a-brief-history-of-data-storage-2/
  19. Memory & Storage | Timeline of Computer History, 访问时间为 十月 23, 2025, https://www.computerhistory.org/timeline/memory-storage/
  20. 数据存储, 访问时间为 十月 23, 2025, https://www-file.huawei.com/admin/asset/v1/pro/view/dd62c95b39d14b5ca87f17f97019c1b3.pdf
  21. 1.1 数据库系统的发展历史-V1.0.0-开发者入门教程文档 - OceanBase, 访问时间为 十月 23, 2025, https://www.oceanbase.com/docs/community-developer-quickstart-10000000000627361
  22. 什么是关系数据库? - IBM, 访问时间为 十月 23, 2025, https://www.ibm.com/cn-zh/think/topics/relational-databases
  23. 什么是关系数据库?(RDBMS)? - Oracle, 访问时间为 十月 23, 2025, https://www.oracle.com/cn/database/what-is-a-relational-database/
  24. 关系数据库- 维基百科,自由的百科全书 - Wikipedia, 访问时间为 十月 23, 2025, https://zh.wikipedia.org/zh-cn/%E5%85%B3%E7%B3%BB%E6%95%B0%E6%8D%AE%E5%BA%93
  25. 从数据库发展史看数据库未来技术趋势 - OceanBase 社区, 访问时间为 十月 23, 2025, https://open.oceanbase.com/blog/10900428
  26. 关系模型- 维基百科,自由的百科全书, 访问时间为 十月 23, 2025, https://zh.wikipedia.org/zh-cn/%E5%85%B3%E7%B3%BB%E6%A8%A1%E5%9E%8B
  27. 计算机领域前沿技术(未来计算机科学中的十大新兴技术)-实验室与 ..., 访问时间为 十月 23, 2025, https://wlxy.yangtzeu.edu.cn/sysywlglzx1/info/1027/1443.htm
  28. 什么是大数据云计算 - 亚马逊云科技, 访问时间为 十月 23, 2025, https://www.amazonaws.cn/what-is/big-data-cloud-computing/
  29. 一朵“云”的诞生记 - 人民日报, 访问时间为 十月 23, 2025, http://paper.people.com.cn/rmzk/html/2018-09/21/content_1883388.htm
  30. Data Mining Explained: Processes, Benefits, Techniques, and Real ..., 访问时间为 十月 23, 2025, https://www.investopedia.com/terms/d/datamining.asp
  31. The Ultimate Guide to Practical Data Mining Techniques - Damco Solutions, 访问时间为 十月 23, 2025, https://www.damcogroup.com/blogs/guide-to-data-mining-techniques
  32. Advanced Analytics and the Top 6 Data Mining Techniques - Imaginary Cloud, 访问时间为 十月 23, 2025, https://www.imaginarycloud.com/blog/data-mining-techniques
  33. How NLP-driven information extraction solution streamlines and ..., 访问时间为 十月 23, 2025, https://www.docsumo.com/blog/nlp-information-extraction
  34. Natural Language Processing for Information Extraction - arXiv, 访问时间为 十月 23, 2025, https://arxiv.org/pdf/1807.02383
  35. NLP Extraction – Techniques, Applications, and Tools - Kairntech, 访问时间为 十月 23, 2025, https://kairntech.com/blog/articles/nlp-extraction/
  36. 什么是数据驱动决策_数据驱动决策有哪些优势-亚马逊云科技, 访问时间为 十月 23, 2025, https://www.amazonaws.cn/what-is/data-driven-decision-making/
  37. 大数据环境下的决策范式转变与使能创新 - 清华大学, 访问时间为 十月 23, 2025, http://mis.sem.tsinghua.edu.cn/ueditor/jsp/upload/file/20200610/J_2018_kxxb.pdf
  38. 什么是数据驱动运营 - 亚马逊云科技, 访问时间为 十月 23, 2025, https://www.amazonaws.cn/what-is/data-driven-operations/
  39. 大数据带来社科研究新变化 - 新华网, 访问时间为 十月 23, 2025, http://www.xinhuanet.com/politics/2015-08/24/c_128158948.htm
  40. 雷朝滋:教育强国中的数据治理, 访问时间为 十月 23, 2025, https://www.edu.cn/xxh/focus/li_lun_yj/202308/t20230821_2457671.shtml
  41. 社会治理数字化转型的底层逻辑 - 学术月刊, 访问时间为 十月 23, 2025, https://www.xsyk021.com/article/app/id/d7b8850e-f799-4bd7-80e4-6986cdb50e49
  42. 数据驱动在链家网搜索优化与推荐策略中的实践 - InfoQ, 访问时间为 十月 23, 2025, https://www.infoq.cn/article/practise-of-data-driven-search-and-optimize-in-lianjia
  43. 什么是数据孤岛? | 词汇表| 慧与, 访问时间为 十月 23, 2025, https://www.hpe.com/cn/zh/what-is/data-silos.html
  44. 為什麼我的團隊出現「數據孤島」的情形?如何解決資訊不流通, 访问时间为 十月 23, 2025, https://nabi.104.com.tw/posts/nabi_post_ee0f4268-b5f3-409b-abf6-f2af9fc69dc6
  45. 什么是数据孤岛? - SAP, 访问时间为 十月 23, 2025, https://www.sap.cn/resources/what-are-data-silos
  46. 為什麼會有數據孤島(Data Silos)破除數據孤島方式 - 偉康科技, 访问时间为 十月 23, 2025, https://www.webcomm.com.tw/blog/tw/data-silos/
  47. 什么是孤岛式基础设施? | PTC (CN), 访问时间为 十月 23, 2025, https://www.ptc.com/cn/blogs/plm/what-is-siloed-infrastructure
  48. 什么是数据孤岛? 原因、后果和解决方案 - Astera Software, 访问时间为 十月 23, 2025, https://www.astera.com/zh-CN/type/blog/data-silos/
  49. 什么是《通用数据保护条例》(GDPR)? | Cloudflare, 访问时间为 十月 23, 2025, https://www.cloudflare.com/zh-cn/learning/privacy/what-is-the-gdpr/
  50. 通用数据保护条例(GDPR)对亚太区的影响What Are the Implications of the GDPR in Asia Pacific? - Squire Patton Boggs, 访问时间为 十月 23, 2025, https://www.squirepattonboggs.com/-/media/files/insights/publications/2017/04/what-are-the-implications-of-the-gdpr-in-asia-pacific/implications-of-gdpr-in-asia-pacific.pdf?rev=-1&hash=7AD9342BB2C636CD1CBB83397C5858CD
  51. 数据安全与隐私保护法规浅析, 访问时间为 十月 23, 2025, https://www.secrss.com/articles/13857
  52. A/HRC/56/68 大会, 访问时间为 十月 23, 2025, https://docs.un.org/zh/A/HRC/56/68
  53. 算法偏见、隐私与自主性:人工智能伦理困境破解路径研究 - 集成技术, 访问时间为 十月 23, 2025,  
  54. 什么是算法偏见? - IBM, 访问时间为 十月 23, 2025, https://www.ibm.com/cn-zh/think/topics/algorithmic-bias
  55. 数字经济背景下物联网发展态势与热点, 访问时间为 十月 23, 2025, http://old2022.bulletin.cas.cn/publish_article/2022/10/20221018.htm
  56. 人工智能与区块链赋能物联网: 发展与展望 - 北京工业大学学报, 访问时间为 十月 23, 2025, 
  57. 网络安全宣传周丨带你读懂数据安全法, 访问时间为 十月 23, 2025, http://www.yiyang.gov.cn/jgswglj/34728/content_1840753.html

【声明】内容源于网络
0
0
跨境电商创业日记
跨境分享馆 | 每天分享跨境见解
内容 44961
粉丝 0
跨境电商创业日记 跨境分享馆 | 每天分享跨境见解
总阅读243.1k
粉丝0
内容45.0k