
IBM:用恰当的数据集成方法、治理和工具
应对AI数据困境
要从 AI 中获得最大价值,就一定要从业务问题入手。然后寻找多种数据类型 — 结构化和非结构化数据、内部和外部数据、定性和定量数据,以解决问题并丰富解决方案。
融入基于权限的强有力治理,建立数据溯源能力,以形成对数据和 AI 洞察的信任。
制定计划,应对严格的数据准备挑战以及合并不同数据源带来的复杂性。复用数据,自动执行流程并采用适当的工具。
AI有几个特殊的数据考虑因素,会对实践起到重要作用:
➤ AI 规模:一般来说,对于 AI 而言,可用数据越多,结果的质量和准确性就越好。因此,AI 所需的数据量可能远高于某些高级分析。
➤ AI 速度:必须使用最新数据,才能达到某些 AI 洞察和最佳预测所需的响应速度。有时甚至需要实时数据或非常接近实时的数据。
➤ 数据种类:数据越多,而且是可增添背景信息的数据越多,AI 结果通常越好。然而,AI 模型的结果可通过操纵数据(恶意或无意)甚至只是广义的“数据漂移”来改变,因此确保所有数据得到正确处理至关重要。
➤ 数据质量:AI 对数据高度敏感,因此数据必须能够准确反映基本现实。在某些情况下,AI 密切关注其他传统分析方法可能认为是异常情况的峰值,因此准确性非常重要。
➤ 人类观点:人类如何看待数据 — 包括我们自己经验中的偏见和大脑“黑盒”中的不透明性 — 通常会影响数据使用方法。数据具有背景意义,因此必须结合背景查看和理解数据。如果没有适当的背景信息,可能会无意误用或误解数据。
然而,企业常常被这些复杂性所淹没,在应对数据挑战时受困于动机虽好但不一致的方法。为了满足 AI 的独特数据需求,组织首先必须对试图解决的业务问题有着清晰的认识,然后运用务实的方法来解决这些问题。
实现价值的务实方法
鉴于数据对于 AI 的重要性,以及在获取、整合、准备和正确管理数据方面存在诸多挑战,许多组织都急于通过开展单一项目,整理组织内的所有数据。这通常包括将数据放入大型数据湖中,尝试一劳永逸地解决所有数据问题。当然,这基本上不可能取得成功。
这种想法不切实际,因为其范围通常不明确,导致无法实现合理的投资回报 (ROI)。更重要的是,数据和企业的需求变化太快,无法完成如此庞大的工作。
相反,具备坚实的 AI 能力的组织则学会如何务实地思考。哪些数据随时可用、易于访问而且干净?
要快速取得成功,展示积极的业务成果,就必须始终关注于业务。使用存在质量问题或可用性问题的数据会摧毁快速取得成功的可能性,使组织陷入冗长而低效的数据清理工作泥潭。
成功的组织在中短期内以面向业务的用例为重点,但在长期内则关注 AI 带来的持续价值。
如果洞察的接收方不信任洞察所
基于的数据,那么即便是最强大、
最成熟的 AI 算法也不太可能对业
务产生太大影响。
自动化水平当然越高越好,有助于节省时间和资源,同时鼓励更广泛地采用 AI 方法 — 因为获取数据不再是一项艰巨的任务。它可以帮助团队避免花费数周甚至数月去获得使用数据的许可。
在组织文化中,没有什么比信任更重要。虽然组织内部的信任不可或缺,但当组织共享或接受外部数据时,信任更为重要。
AI 团队在收集数据和构建展示价值的解决方案方面的能力并不是很重要。如果所产生洞察的接收者不信任数据,比如不信任其来源、使用方法、被检测到并减缓的偏见或者其透明度与合规性,那么结果就不会太理想。
事实上,在这种情况下,即便是最强大、最成熟的 AI 算法也不大可能对业务产生太大影响。
从区块链最新的概念和技术进步中汲取的经验教训,可能有助于建立信任。
区块链最重要的原则之一,便是从一开始就将相应的参与方整合在一起,也就是那些可以关乎网络成败并能够回答“哪些数据可以共享?以及与谁共享?”等问题的关键少数。
这个具备最低可行性的生态系统也可以包括监管机构,他们共同决定网络的激励机制、旨在实现经济效益的框架以及治理规则。
保留汇总的知识和洞察,但不保留可能具有监管影响的敏感数据,是一个重要的数据治理概念。
区块链原则在这里也适用于:基于许可的方法和网络验证有助于保持透明度、数据完整性、数据沿袭以及数据来源清晰度。这可解决 66% 的 IT 专业人员最关心的问题,即如何解决 AI 训练数据来源不明确问题。
当然,有效的治理并不止步于追踪用于训练 AI 模型的数据。它还会检查人类根据该数据做出的决策,这对于可解释性至关重要,尤其是在这些决策可能存在争议时。
标准数据方法和工具无法不经修改
地应用于AI
许多 AI 应用将原始数据转化为信号,并在时间序列和其他大型数据集中寻找模式和洞察。为了揭示这些信号,通常必须对数据集进行数百次处理。
想象一下,拥有超过 6 亿库存单位的大型零售商该如何应对。想象一下,处理数据所花的时间以及每天处理数百次所需的能力。
这当然不是微不足道的问题,而是需要高级数据技能,但实现这种计算能力也会带来财务成本(包括环境成本)。
除了原始数据挑战外,元数据挑战可能更为严峻。思考一下智能车辆的一次图像捕获及其生成的所有背景数据,包括日期、时间、位置、图像中的对象和相对速度以及图像外的世界(环境背景),等等。
标准数据方法和工具无法不经修改地应用于 AI。组织需要部署适当的工具,为 AI 准备、优化、清理、组合与复用数据
请添加UA客服微信:
UnitedAccelerator
回复“行业报告”即可获取完整版报告
及时掌握最新行业信息与资料
联合汇创新加速器是由煦实信息科技(上海)有限公司打造的创业加速平台,旨在通过联合多家行业头部企业、风险投资机构、地方政府等资源,汇聚各行业的人才力量为初创企业提供包括产品、知识、业务、融资、政策、运营管理等在内的创业加速服务,推进初创企业的快速发展。想要了解更多有关联合汇的详细内容,欢迎关注联合汇公众号。
资料来源:
IBM:用恰当的数据集成方法、治理和工具应对AI数据困境


