现代数据技术栈的未来(下)
前言:
在《现代数据技术栈的未来(一)》中,我们介绍了Continual的Jordan Volz对现代数据技术栈展望的上半部分内容。本文将深入探讨其剩下部分的核心创新领域。
关键领域的成熟与发展方向
当前,现代数据技术栈已在以下五个领域展现出显著的创新潜力:
- 人工智能
- 数据分享
- 数据治理
- 流式计算
- 应用服务
这些领域不仅扩展了现有用例,还提升了平台应对未来挑战的能力。
01. 人工智能
现代数据技术栈需补全AI层,以推动更多企业实现人工智能应用。
图表展示“Data Science Hierarchy of Needs”,揭示数据科学各步骤的依赖关系。若公司缺乏完善的数据规划,则其数据科学项目可能失败。
许多业务视AI为增长契机。然而,不少企业难以将数据科学成果转化为生产环境中的价值。
现代数据技术栈因其声明式、数据优先的特点,可简化AI操作复杂度。例如,Continual正构建相关平台,并借鉴Apple和Uber的经验。
AI/ML强依赖数据,因此现代数据技术栈自然适合整合AI能力。
02. 数据分享 (数据即服务)
Census与Hightouch等公司提供的工具,帮助用户高效地将数据从云端数仓转移到下游应用。
数据共享解决方案降低了集成需求,使数据能在组织内部快速被利用。Snowflake数据市场及Databricks推出的Delta Sharing便是类似尝试。
在不同平台间共享数据的需求也日益凸显,传统API方式面临维护成本高企等问题。
03. 数据治理
对于大型企业而言,数据治理不可或缺。良好的治理工具涵盖数据发现、可观测性、目录、血缘及审计等功能。
跨云平台的数据治理工具能够为企业带来显著的投资回报率(ROI),同时与云供应商工具形成竞争。
Monte Carlo Data、Stemma及Metaplane等公司在该领域展现了发展潜力。
04. 流式处理
实时数据处理是云数据仓库的关键目标之一。尽管目前许多企业尚无法充分利用实时数据,但其潜在价值不可忽视。
流式处理的复杂性为供应商提供了简化用例的机会。例如,Snowflake的Snowpipe、BigQuery及Redshift的物化视图、Databricks的Structured Streaming等功能均已上线。
标准SQL查询实时数据的功能如果得以实现,将具有里程碑意义。
05. 应用服务
云端数据仓库属OLAP类型,而实际应用通常需要OLTP类型的高并发与低延迟特性。
解决方案如读写分离已广泛使用,但新增复杂性不可避免。因此,现代数据技术栈需进一步创新,以支持直接利用现有数据的应用服务。
Snowflake通过Snowflake Data Cloud提供数据应用支持,这一方向值得关注。
接下来的发展趋势
采用现代数据技术栈的企业将迎来一系列创新机遇。AI/ML或成下一重点,助力低成本实现个性化营销与需求预测等功能。
云计算的普及使普通企业也能以较低门槛利用数据创造价值,这是行业的一大胜利。

