大数跨境
0
0

数据治理需要系统性思维方法

数据治理需要系统性思维方法 数据驱动智能
2025-05-10
2
导读:数据治理工作有时最终会走向一种非常以技术或工具为中心的模式。
数据治理工作有时最终会走向一种非常以技术/工具为中心的模式。这时,系统性思维(一种通过将复杂情况视为相互关联的整体而非孤立的部分来理解和分析复杂情况的方法)就能派上用场。运用系统性思维的视角可以发现,许多数据治理问题往往是系统性的,而非孤立的。可持续的解决方案需要通过平衡的方法、明确的所有权、数据文化、强大的治理平台来解决根本原因和结构,这些平台与支持语义层、数据本体和联合数据治理方法的工具和技术相辅相成。
在当今数据驱动的世界里,数据的质量和治理至关重要。数据不仅仅是业务运营的副产品,更是能够推动创新、改进决策并提升客户体验的关键资产。然而,许多组织面临着看似难以克服的持续数据挑战:不一致、错误以及对自身信息缺乏信任。
人们很容易只关注数据管理的技术层面。虽然数据管理的工具和基础设施固然重要,也充满了自身的挑战,但仅仅关注这一点只能解决部分挑战(而且,在有人说之前,我先声明,人工智能不会自动神奇地解决所有问题)。
资料来源:Illuminate Financial(深入探究数据治理生态系统 — 工具格局 2/3 | 作者:Joshua Olusanya | Illuminate Financial | Medium)
如果您认为上述内容看起来很复杂,请查看云原生交互全景图,其中包含了使一切正常运行所需的所有其他零碎内容。
数据治理方案构思简单,执行起来却往往困难重重,如果没有妥善的维护,几乎无法持续。解决方案并非在于孤立的修复,而在于理解整个数据生态系统的互联互通,这包括管理这些工具应用方式的流程,以及使用这些工具的人员自身的行为。
大纲
1.系统思考——总和大于整体
2.冰山模型
3.因果循环图和系统原型
4.将系统性思维应用于数据治理
5. 迈向可持续的数据治理之路
1. 系统性思维——整体大于总和
系统性思维为应对复杂挑战提供了强大的视角。它超越了传统的线性因果关系,后者往往无法捕捉现实世界问题的细微差别。相反,它认识到系统内各种元素的相互作用——相互连接的组件网络共同组合形成新兴的整体级属性。
系统性思维要求我们摆脱
对象与对象/元素之间的关系
只看到部分,才能了解部分如何形成更大的整体
线性相互作用到非线性/循环关系
静态系统到动态和演化系统
2.冰山模型
系统性思维的一个核心概念是冰山模型,它为理解系统内不同复杂程度提供了强大的视觉隐喻。
我们倾向于关注眼前可见的事物——我们遇到的“事件”或症状。
然而,这些只是“冰山一角”。在表面之下隐藏着更深层次的问题:
模式/趋势:事件随时间推移重复出现的模式。数据质量问题在增加吗?是在减少吗?某些类型的错误是否比其他类型的错误更常见?
系统结构:创建并延续这些模式的底层流程、政策、技术和组织结构。数据输入流程是否设计不良?数据验证检查是否不足?数据所有权是否缺乏明确?
心智模型:根深蒂固的假设、信念和价值观塑造了我们如何感知和与系统互动。我们将数据视为战略资产还是必要之恶?我们是否优先考虑短期解决方案而非长期解决方案?
3. 因果循环图和系统原型
鉴于系统性思维非常关注不同元素如何相互作用,因果循环图是一种用于反映系统中不同元素之间因果关系的工具。平衡和强化反馈回路是系统性思维中的两个基本概念:
强化反馈循环:这些循环会放大变化,导致增长或下降。例如,在储蓄账户中,赚取的利息会增加余额,余额又会增加利息,从而形成良性循环。
平衡反馈回路:这些回路会抵消变化,以维持稳定或平衡。例如,饥饿会促使进食,进食又会让人感到饱足,从而停止进食。
总而言之,强化回路推动增长,而平衡回路促进系统稳定。
当多个因果循环相互作用时,它们会形成结构模式。系统原型是一种常见的模式,
这种整体视角使我们能够看到更大的图景,了解潜在的动态,并找到有效干预的杠杆点。
4. 将系统性思维原型应用于数据治理挑战
数据质量问题,例如报告中的错误、部门间的不一致或客户数据库中的缺失值,通常被视为孤立事件。我们可能会急于纠正眼前的具体错误,而忽略了更广泛的背景。
然而,系统性思维方法鼓励我们深入思考。我们看到了哪些模式?哪些底层结构(流程、政策、技术)导致了这些问题?哪些思维模型或假设塑造了我们如何管理数据?
例如,如果我们持续在销售报告中发现错误,冰山模型会促使我们思考:这是一次性事件,还是一种反复出现的模式?如果这是一种模式,那么我们的销售流程、数据录入系统或培训计划的哪些方面可能造成了错误?是否存在一些关于数据准确性的基本假设没有得到满足?
4.1 “转移责任”原型应用于数据所有权和数据质量问题的不明确
这个原型说明了一种常见的动态:出现问题,并实施对症解决方案以立即缓解问题。
然而,这往往会分散人们的注意力和资源,使其无法解决问题的根本原因。随着时间的推移,人们越来越依赖治标不治本的解决方案,而根本问题却日益恶化。这形成了一种依赖的恶性循环,系统变得越来越脆弱,韧性也越来越差。
从数据治理的角度来看,这是一个常见问题,与数据质量问题的快速修复有关,这些问题通常发生在下游(更接近数据消费者),从长远来看可能会加剧潜在问题(因为这些问题通常起源于数据供应链上游 - 更接近数据生产者)。
这些快速修复通常采用通过电子表格手动清理数据的形式:当在报告或分析中发现错误时,立即的反应通常是手动更正电子表格中的数据。
虽然这解决了眼前的问题,允许生成报告或完成分析,但它并不能防止将来发生类似的错误。
事实上,它可以强化这样一种观念:数据质量主要是一个技术问题,需要由数据团队(或 IT!)临时解决,并将注意力和资源从更基本的解决方案上转移开,例如改进数据输入流程、实施数据验证规则、明确数据所有权以及建立强大的主数据管理实践。
解决数据质量“责任转移”问题
为了摆脱依赖症状修复来保证数据质量的循环,系统性思维方法提倡一种平衡的方法,既能解决症状,又能解决根本原因。
这并不是要放弃所有立即的解决方案,而是要认识到它们的局限性,同时投资于更基础的解决方案。
关键策略可能包括:
改进数据管理工具和控制措施:实施强大的技术解决方案,从源头上预防错误。这包括设计内置验证功能的更佳数据输入表单、使用数据分析工具主动识别异常,以及建立自动化数据质量监控系统。这些工具可作为预防措施,减少后期手动修复的需要。
明确数据所有权:缺乏明确的所有权是导致数据质量低下的重要原因。如果没有个人或团队对特定数据集的准确性和完整性负责,错误就更容易发生。建立明确的数据所有权,并明确数据创建、维护和质量的角色和职责至关重要。这将数据质量的责任从被动的“清理人员”转移到主动的数据管理员。
培育视数据为资产的文化:归根结底,数据质量不仅仅是一个技术问题,而是一个人员和文化问题。如果员工不了解准确数据的重要性,或者缺乏报告问题的权力,即使是最好的技术控制措施也无济于事。培育一种数据驱动的文化,将数据视为宝贵资产,并让每个人都对数据质量负责,这对于长期改进至关重要。这涉及培训、沟通和领导层支持。
4.2 “失败的修复”原型应用于不同领域的数据分类错位
在“失败的修复”原型中,看似有效的短期解决方案可能会造成意想不到的、有害的长期问题。同样,这一原型强调了考虑自身行为的长期后果的重要性,并避免陷入寻求权宜之计的陷阱,因为这些方案最终会损害系统的健康和稳定。
在大型企业内部数据分类不一致的例子中,不同的部门或业务单位通常独立地开发自己的特定领域数据编码系统,并且没有通用的框架。
例如,财务部门可能使用一组特定的总账代码,而采购部门则使用自己的采购分类法。当需要将这些不同的系统集成以进行报告或分析时,通常会创建临时映射来弥补差距。这些映射可能提供临时解决方案,允许合并和分析数据。
然而,随着时间的推移,这些映射变得越来越复杂,难以管理。随着新系统的增加和现有系统的修改,映射网络变得越来越错综复杂,导致数据不一致、错误和信任度下降。此外,维护这些映射所需的工作量也成为一项沉重的责任,将资源从更具战略性的计划中转移出去。
摆脱数据治理中“失败的修复”
为了避免数据治理中“失败的修复”原型造成的混乱,特别是分类法不一致的情况,第二个视频提出了几项战略干预措施:
使用数据本体在语义层进行映射,避免快速修复:解决方案不是在不同系统之间创建脆弱的点对点映射,而是在更高层次(语义层)建立对数据概念的共享理解。数据本体充当了这种共享词汇表。它是领域内知识的正式表示,定义了与组织数据相关的概念、属性和关系。通过将来自不同来源的数据映射到这个通用本体,即使底层系统发生变化,组织也能实现一致且准确的数据集成。
实施治理流程以管理复杂性:明确的数据治理流程对于管理数据分类法和映射的复杂性至关重要。该流程应概述如何定义新的数据元素,如何管理现有分类法的变更,以及如何创建、验证和维护映射。此外,还应明确这些流程的职责,并确保不同团队之间的协调一致。这将从临时的、被动的映射转变为结构化的、主动的方法。
采用联合方法:认识到不同的业务部门在数据管理方面可能存在一定程度的自主权需求,联合方法在中央控制和本地灵活性之间取得平衡。在这种模式下,有一个中央协调机构负责制定总体数据治理原则、标准和企业数据本体。然而,只要与中央框架保持一致,本地业务部门在管理其特定的分类法和映射方面仍保留一定的自主权。这种方法在确保整体数据一致性和互操作性的同时,还能提高敏捷性。
5. 结论:将系统性思维应用于数据治理挑战——迈向可持续系统的道路
通过采用系统性思维方法,组织可以不再将数据问题视为孤立的问题,而是创建一个更全面、可持续和有效的数据生态系统。理解潜在的结构和动态,识别常见的系统原型,并实施有针对性的策略以解决根本问题,是构建面向未来的稳健数据基础的关键。这需要思维模式的转变——从关注治标不治本转向理解和改造系统本身。这一过程可能并不总是一帆风顺,但在提高数据质量、加强数据治理和增强数据信任方面所获得的回报是值得的。


往期推荐

生成式人工智能驱动的数据工程:现代数据工程师至少应掌握哪些技能

非结构化数据:金融银行业生成式人工智能战略中缺失的环节

国内首部数据产品开发应用合规标准启动编制,由6家机构共同发起

谈谈集成模式数据治理的实现方法

知识图谱时如何修复LLM写出的糟糕SQL

数据驱动型组织中缺失的环节:决策可追溯性

理解 RAG 第十部分:生产中的 RAG 管道

如何估算大语言模型LLM 的 GPU 内存:用于本地运行 LLM 的 GPU 内存


【声明】内容源于网络
0
0
数据驱动智能
专注数据治理、数字化转型、数据资产、数据要素等方面的实践分享。
内容 1046
粉丝 0
数据驱动智能 专注数据治理、数字化转型、数据资产、数据要素等方面的实践分享。
总阅读2.3k
粉丝0
内容1.0k