元数据这一术语最初的诞生地是图书馆,目的是为了方便图书的归档和检索。如今,我们越来越多地听说元数据以及元数据对数据分析的重要性。虽然元数据听起来像是一个花哨的词,但它指的却是一个非常简单的概念。
在现实世界中,元数据无处不在。每次打开电子邮件、阅读书籍或从网上订购东西时,都会遇到元数据。

每本书都有丰富的元数据。由于有了元数据,书籍可以以一种整洁的方式分类,使潜在的用户能够很快找到它们。关于书籍的元数据包括标题、作者姓名、出版商、目录、出版日期、索引等。

上图的元数据是照片的时间或地理位置,当你用手机拍一张照片时,元数据就会生成并保存,就像照片创建时一样。此元数据包括,照片拍摄的时间、文件名称、创建文件的相机、格式、地理位置等。

每次接收或发送电子邮件时,也会遇到元数据。此元数据允许对邮箱中的电子邮件进行有效分类,并帮助用户使用关键字快速查找特定的电子邮件。电子邮件的元数据通常包括信息ID(电子邮件发送的日期和时间)、发件人和收件人的电子邮件地址、主题等。
为了清晰可见,不同类型的元数据被放在特定的类别中。
描述性元数据:描述资源或文件信息的数据。它被用来帮助发现和识别,包括标题、摘要、作者、关键字等元素。
结构化元数据:告知数据对象结构的数据。它告诉用户文件是如何组织的。结构化元数据的一个例子是目录。目录说明了章节中的页数,以及章节之间的相互关系。
管理化元数据:帮助管理资源的技术信息。它可以是文件创建的日期、文件类型、权限等。管理化元数据还与使用权和知识产权相关,提供诸如给定资产的所有者、如何使用、由谁使用以及使用多长时间等信息。
有两种方法来处理元数据存储:
1、元数据可以存储在内部,与数据在同一个文件中。这种类型的存储称为嵌入式元数据。使用这种存储配置,元数据可以随数据移动到任何地方。这样做的好处是它创建了一致性,因为每次更改数据本身时,元数据也会发生改变。使用这种存储方法的问题是,你不能在一个地方管理所有的元数据,因为这样会产生冗余。
2、元数据也可以存储在原始数据库的外部,在元数据存储库中,通常是一个数据目录。将组织的元数据集中在一个地方可以更有效地搜索和管理,避免冗余问题。另一方面,这种存储方法增加了元数据和数据对象之间不一致的风险,因为其中一个对象的更改可能不会反映在另一个对象中。
在人们看来,数据比元数据更重要。但没有意识到的是,元数据是解锁数据中的值的关键。
如果你的数据库收集了大量的数据,而你又不能在数据库中定位它们,那它们将毫无用处。
这也展示了投资元数据管理工具的重要性。随着数字资产成倍的增长,除了整齐地记录元数据外,还有其他的优先事项。当然,能够在需要的时候准确地定位它是最好的,但也不值得将全部的精力去跟踪数据库中的每一个数字资产。这时,投资元数据管理工具来自动收集元数据就变得格外重要了。
元数据告诉我们拥有什么数据,它们来自哪里,它们的含义以及与其他数据资产的关系。元数据管理在以下四个方面对我们未来的工作和生活有着极大的帮助。
一、数据发现与信任
数据发现显然是元数据管理策略的第一个受益者。拥有一个有组织的、集中的元数据存储库可以让你准确地知道数据的位置以及谁可以访问它。每个表都包含了关于它的内容、上下文、KPI以及任何其他可以定位它的信息。简而言之,元数据可以准确地定位数据库里的数据。
如今,大多数用户浪费大量时间来搜索自己的数据,却忽视了他们的元数据,导致数据分析师要花费相当长的时间来寻找他们需要的数字资产。
一旦业务在标准化流程中收集元数据,通过利用数据发现工具的搜索功能,就会更容易地找到所需要的数据。与在系统中扫描每个数据源以寻找正确的数据资产相比,这节省了用户大量的时间。


元数据还可以使相似的对象之间进行配对,以帮助优化数字资产的使用。
二、数据安全和隐私治理
如果你正在处理数据,那么需要做好处理安全和法规遵从性问题的准备。敏感数据和私人信息不应该被泄露,但当处理数千甚至数百万的数据集时,你无法控制此类事情的发生。确保安全和法规遵从性的关键是有一个可靠的数据治理策略。
数据治理是一套关于数据使用和安全的策略。创建这些策略是为了确定要应用到给定数据集的适当操作。
PII(标记私人信息):这意味着你可以控制哪些用户可以访问这些信息。
背景化数字资产:为如何合法使用信息提供明确定义。
确定不该保留的信息:出于监管目的,有效期通常为用户指定。如果超过指定日期,将面临巨额罚款。
维护良好的元数据可以帮助你跟踪何时创建数据,以及何时需要处理数据,为法规遵从性建立了一个数字审计跟踪。一个维护良好的数据存储库可以帮助你证明对规范框架的遵从性,这是很有价值的。
三、数据质量监控
元数据还提供了在类别中标识、定义和分类数据的方法,以确保强大的数据治理和质量监控。
准确性:描述真实世界对象的程度
完整性:完整性是指所需数据在数据集中的程度。缺少大量值的数据集是不完整的。
一致性:如果数据集在多个位置被复制,那么它们的内容必须在所有实例中保持一致。
及时性:指你的数据集是否足够最新。
高质量的数据是非常可取的,因为它可以使组织的资源更可靠,从而增加了通过使用它们所获得的业务效益。
事实上,表的定义为你提供了关于数字资产所包含的内容、如何收集信息以及由谁收集信息。这允许快速检查信息是否反映真实世界的事实,并已被准确测量。拥有一个集中的元数据存储库也支持数据一致性。最后,元数据告诉你上次刷新表的时间,以及数据是否最新。
四、成本管理与维护
最后,元数据在优化数据库管理,特别是数据存储方面有很好的帮助。不同的存储解决方案有不同的成本。例如,在云数据仓库中存储数据的成本要高于在数据库中存储数据的成本。一般来说,访问数据库中的数字资产越简单,这种存储解决方案的成本就越高。
根据元数据,你可以确定业务中使用最多的表和最差的表。这是非常实用的,因为它允许在成本更低、更难查询的存储空间中移动未使用的表。根据元数据,你可以创建规则,将过去30天内没有使用过的数据立即转移到成本较低的存储桶中。元数据允许根据存储成本和使用情况精确地确定每个数据集的成本。
好的元数据管理解决方案可以更好地维护数据库。关于数字资产的元数据包括数据质量评分、特定时期内数据资产的问题数量等。因此,可以根据元数据确切地知道应该将维护工作集中在哪些数据集上。更确切地说,这有助于对数据团队的操作进行优先排序,确保它具有最大的影响并产生业务价值。
元数据虽然很重要,但仍然存在一个问题。你是手动记录系统中的文件,还是投资元数据管理工具。在决定是否投资元数据管理解决方案时,需要考虑的一个问题是,它是否对记录资源和收集元数据产生关键影响。
从根本上说,元数据管理工具的价值在于它自动化了数据文档过程。例如,你在系统中记录一个特定的文件,用于描述性上下文和定义丰富列。智能数据目录将把你给特定列的原始定义传播到云系统中具有相同名称的所有其他列。这意味着,与使用手工流程记录数据资源相比,智能数据目录具有更大的作用。如果你有数千个数据集,其中包含一个名称相同的列,那么为一个列编写定义等同于为数千个列编写定义,这节省了大量的时间和成本。
对是否需要自动化元数据这个方案取决于公司规模的大小。如果是一家小公司,你不会处理太多的数据资源。在这种情况下,手动维护数据目录以保持系统的组织性是一个可行的选择。
在大企业的情况下,由于业务量的增大,无法手动记录数据内容和文件。记录数千份文件将花费不成比例的时间和人力资源,尤其是考虑到数据不是静态的。这意味着需要雇佣一个全职的数据文档团队,不断更新文件的元数据。就成本和时间而言,投资于自动化文档过程的解决方案通常更有效。
大数据具有不可估量的价值,但元数据是允许访问这种价值的关键。一个好的元数据管理策略可以帮助我们实现数据利益的最大化。手动维护集中的元数据存储库是很繁琐的,而且随着数据集数量呈现指数级增长的时候,这种做法显然是不可取。值得庆幸的是,目前已有很多元数据管理工具可供选择。
——End——
相关导读
Web3.0的先行者——利用4EVERLAND实现去中心化Web部署
编辑:星际视界IPFSNEWS Eric
文章仅代表个人观点分析,不构成任何投资建议!
星际视界电报群:https://t.me/xjsj2021
星际视界Discord:https://discord.gg/gNZgpahkDC


