（深度）a16z：新兴的现代数据基础设施架构应该这样做！- 大数跨境

转载请微信联系：huangdiezi，更多DAO、Web3、NFT、Metaverse资讯请关注老雅痞👇

信息来源自Future，略有修改，作者Matt Bornstein, Jennifer Li, Martin Casado

自从我们在2020年底发布了一套参考架构以来，数据基础设施行业的增长一直没有减弱。在过去的一年里，几乎所有关键的行业指标都创下了历史新高，而且新产品类别的出现速度似乎超出了大多数数据团队能够合理跟踪的速度。甚至基准战争和广告牌之战也卷土重来。

为了帮助数据团队保持在行业变化的前沿，我们在这篇文章中发布了一组更新的数据基础架构。它们显示了目前在分析系统和操作系统中最好的堆栈，这是我们在过去一年中从众多运营商那里收集到的。每个架构蓝图都包含自上一个版本以来所更改的内容的摘要。

我们还将试图解释为什么会发生这些变化。我们认为，核心数据处理系统在过去的一年中保持了相对稳定，而支持工具和应用程序已经迅速扩散。我们探讨了一个假设，即平台开始在数据生态系统中出现，这有助于解释我们在数据堆栈的演变中看到的特定模式。

更新的参考架构

在我们深入讨论细节之前，这里是最新的架构图。这些是在领先的数据从业者的帮助下根据他们内部运行的内容以及他们对新部署的建议进行编译的。

第一个视图显示了所有数据基础设施用例的统一概述:

注:不包括OLTP、日志分析和SaaS分析应用。

第二种观点聚焦于机器学习，这是一个复杂且日益独立的工具链:

在这篇文章的其余部分，我们将评论自v1以来数据堆栈发生了什么变化，并探究潜在的根本原因。

更新日志

没有改变的地方:核心的稳定性

尽管过去一年里数据基础设施的活动非常活跃，但令人惊讶的是在某些方面变化如此之小。

我们区分了支持数据驱动决策的分析系统和支持数据驱动产品的操作系统。然后我们将这些类别映射到三个模式或蓝图，通常由领先的数据团队实现。

其中一个关键问题是这些架构模式是否会聚合。一年后，这种情况似乎并没有发生。

特别是，分析和操作生态系统都继续蓬勃发展。像Snowflake这样的云数据仓库发展迅速，主要集中在SQL用户和商业智能用例上。但其他技术的采用也在加速——比如Databricks这样的数据仓库，客户的增加速度比以往任何时候都要快。与我们交谈过的许多数据团队都证实，异质性很可能在数据堆栈中继续存在。

其他核心数据系统——即摄取和转换——也被证明具有类似的持久性。这在现代商业智能模式中尤为明显，其中Fivetran和DBT（或类似技术）的结合已经变得几乎无处不在。但这在某种程度上也适用于运营系统，比如Databricks/Spark、Confluent/Kafka和Astronomer/Airflow等事实上的标准已经出现。

更新点:

围绕着稳定的核心，数据堆栈在过去的一年里迅速发展。总的来说，我们在两个领域看到了最多的活动:

支持关键数据流程和工作流的新工具，如数据发现、可观察性或ML模型审计
新的应用程序，允许数据团队和业务用户以新的、更强大的方式从数据中产生价值，比如数据工作区、反向ETL和ML应用程序框架

我们还看到了一些旨在增强核心数据处理系统的新技术的引入。值得注意的是，围绕着分析生态系统中的指标层和操作系统的湖屋模式展开了积极的讨论——这两者都趋向于有用的定义和架构。

更新的蓝图

在此背景下，我们将详细讨论每一个主要的数据基础架构蓝图。下面的每一部分都显示了一个更新的图表(与堆栈的v1相比)和对关键变化的分析。这些部分主要是为实施这些堆栈的数据团队提供参考，阅读它们并不是阅读本文其余部分所必需的。

蓝图1：现代智能商业

适用于各种规模公司的云原生智能商业

没有改变的地方:

数据复制(如Fivetran)、云数据仓库(如Snowflake)和基于SQL的数据建模(使用dbt)的组合继续构成该模式的核心。这些技术的采用已经有了很大的增长，促使新的竞争者（如Airbyte和Firebolt）获得资金和早期增长。
仪表板仍然是输出层中最常用的应用程序，包括Looker、Tableau、PowerBI以及像Superset这样的新加入者。

更新点:

人们对指标层(一个在数据仓库之上提供一组标准定义的系统)的兴趣激增。这方面的争论很激烈，包括它应该有什么功能，哪个供应商应该拥有它，以及它应该遵循什么规范。到目前为止，我们已经看到了几个可靠的纯粹的产品(如Transform和Supergrain)，加上dbt在这个类别的扩展。
反向ETL供应商已经有了有意义的发展，特别是Hightouch和Census。这些产品的目的是用来自数据仓库的输出和见解来更新运营系统，如CRM或ERP。
数据团队对增加标准仪表板的新应用程序表现出了更大的兴趣，特别是数据工作区(如Hex)。从广义上讲，新的应用程序很可能是云数据仓库标准化的结果——一旦数据结构清晰、易于访问，数据团队自然会想要更多地使用它。
数据发现和可观察性公司数量激增，并筹集了大量资金(特别是Monte Carlo和Bigeye)。虽然这些产品的好处是显而易见的——即更可靠的数据管道和更好的协作——但由于客户发现了相关的用例和预算，这些产品的采用仍然相对较早。(技术提示:尽管在数据发现方面有几个可靠的新供应商——例如Select Star、Metaphor、Stemma、Secoda、Castor——但我们在图表中一般不包括处于种子阶段的公司。)

蓝图2:多模式数据处理

支持分析和操作使用案例的进化的数据湖--也被称为Hadoop难民的现代基础设施

没有改变的地方:

数据处理(如Databricks、Starburst和Dremio)、传输(如Confluent和Airflow)和存储(AWS)方面的核心系统继续快速增长，并构成本蓝图的主干。
多模态数据处理在设计上保持多样性，允许公司采用最适合其分析和运营数据应用程序的特殊需求的系统。

更新点:

人们对湖屋架构的认识越来越清晰。我们已经看到许多供应商(包括AWS、Databricks、谷歌Cloud、Starburst和Dremio)和数据仓库先驱的支持。湖屋的基本价值是将强大的存储层与一系列强大的数据处理引擎（如Spark、Presto、Druid/Clickhouse、Python库等）配对。
存储层本身正在升级。虽然像Delta、Iceberg和Hudi这样的技术并不新鲜，但它们正被加速采用，并被构建到商业产品中。其中一些技术（特别是Iceberg）也与云数据仓库（如Snowflake）进行了互操作。如果异质性在这里停留，这可能会成为多模态数据堆栈的一个关键部分。
对流处理(即实时分析数据处理)的采用可能会增加。虽然像Flink这样的第一代技术还没有成为主流，但具有更简单编程模型(如Materialize和Upsolver)的新进入者已经获得了早期的采用，而且有趣的是，来自现有公司Databricks和Confluent的流处理产品的使用也开始加速。

蓝图3:人工智能和机器学习

用于稳健开发、测试和操作机器学习模型的堆栈

没有改变的地方:

与2020年相比，今天的模型开发工具基本相似，包括主要的云供应商（如Databricks和AWS）、ML框架（如XGBoost和PyTorch）和实验管理工具（如Weights & Biases和Comet）。实验管理已经有效地将模型可视化和调整归为独立的类别。
构建和运行一个机器学习堆栈是复杂的，需要专业知识。这个蓝图不适合胆小的人——人工智能的产品化对许多数据团队来说仍然是一个挑战。

更新点:

ML行业正在围绕以数据为中心的方法进行整合，强调复杂的数据管理，而不是增量建模改进。这有几个含义:数据标记(如Scale和Labelbox)的快速增长，以及对闭环数据引擎的兴趣日益增长，这些引擎很大程度上模仿了特斯拉的Autopilot数据管道。更多地采用功能存储（例如Tecton），用于批处理和实时用例，作为一种协作方式开发生产级ML数据的手段。恢复了对低代码ML解决方案(如Continual和MindsDB)的兴趣，至少可以部分实现ML建模过程的自动化。这些较新的解决方案专注于为ML市场带来新用户(即分析师和软件开发人员)。
使用预训练的模型正在成为默认设置，特别是在NLP中，并为OpenAI和Hugging Face等公司提供了有利条件。关于微调、成本和扩展，这里仍然有一些有意义的问题需要解决。
用于ML的操作工具(有时称为MLops)正变得越来越成熟，围绕着ML监控作为最需要的用例和即时预算而构建。与此同时，一系列新的运营工具——尤其是验证和审计——正在出现，而最终的市场仍有待确定。
人们越来越关注开发者如何将ML模型无缝集成到应用程序中，包括通过预构建的API（如OpenAI）、矢量数据库（如Pinecone）和更多的意见框架。

数据平台假说

总结一下:在过去的一年中，数据基础设施堆栈在核心系统中已经显著稳定，支持工具和应用程序也在迅速扩散。为了解释为什么会出现这种情况，我们在这里介绍了数据平台的概念。

什么是平台?

在数据生态系统中，“平台”这个词已经被过度使用了，内部团队经常用它来描述他们的整个技术堆栈，或者被供应商用来销售松散连接的产品套件。

更广泛地说，在软件领域，平台是其他开发者可以在其上构建的东西。平台本身提供的价值通常是有限的——例如，大多数用户对访问Windows或iOS的内部结构没有兴趣。但它们提供了一系列的好处，如通用的编程接口和庞大的安装基础，使开发者能够建立和发布用户最终关心的应用程序。

从行业的角度来看，平台的定义特征是有影响力的平台供应商和大量第三方开发者之间在技术上和经济上的相互依赖。

什么是数据平台?

从历史上看，数据堆栈并不明显适合平台的定义。例如，ETL、数据仓库和报告供应商之间存在着相互依赖，但整合模式往往是一对一，而不是一对多的，并由专业服务来大量补充。

根据我们采访的一些数据专家的说法，这种情况可能正在开始改变。

平台假说认为，数据堆栈的“后端”——大致定义为数据摄取、存储、处理和转换——已经开始围绕相对较小的基于云的供应商集合进行整合。因此，客户数据被收集到一套标准的系统中，而供应商们正投入大量资金使这些数据更容易被其他开发人员访问——这在Databricks等系统中是一个基本的设计原则，在Snowflake等系统中则是通过SQL标准和自定义计算API。

而“前端”开发人员则利用这一单点集成来构建一系列新的应用程序。他们依赖于数据仓库/湖屋中干净的、连接的数据，而不担心数据如何到达那里的基本细节。一个客户可以在一个核心数据系统的基础上购买和建立许多应用程序。我们甚至开始看到传统的企业系统，如财务或产品分析，正在以“仓库原生”的架构进行重建。

图片可能是这样的:

需要明确的是，这并不意味着OLTP数据库或其他重要的后端技术将在不久的将来消失。但是与OLAP系统的原生集成可能会成为应用开发的一个重要组成部分。而随着时间的推移，越来越多的业务逻辑和应用程序功能可能会过渡到这种模式。我们可能会看到一大类新产品建立在这个数据平台上。

数据应用程序的出现?

数据平台的假说仍有很大的争议性。然而，我们看到复杂的垂直SaaS解决方案作为水平层在数据平台之上实施的情况正在增加。因此，虽然是早期，我们认为在数据堆栈中发生的变化至少与平台正在占据主导地位的想法是一致的。

例如，像Snowflake和Databricks这样的公司已经成为数据堆栈的稳定部分，包括优秀的产品、有能力的销售团队和低摩擦的部署模式。但也有理由认为，平台动态增强了它们的粘性——一旦客户用这些系统之一构建和/或集成了一系列的数据应用程序，过渡通常没有意义。

对于近年来新数据基础设施产品的激增，也可以提出类似的观点。这种趋势的典型解释与海量的数据、不断增加的企业预算和过剩的风投资金有关。但几十年来这些都是事实。我们现在看到这么多新产品出现的原因可能与平台有关——也就是说，一个新的数据应用程序从未像现在这样容易被采用，而正确维护平台也从未像现在这样重要。

最后，平台假说在竞争动态方面提供了一些预测能力。从规模上看，平台可能非常有价值。如今，核心数据系统供应商的竞争可能不仅仅是为了当前的预算，而是为了长期的平台地位。如果你相信数据摄取和转换公司是新兴数据平台的核心部分，那么这些公司令人瞠目结舌的估值——或者特别是关于指标层或反向ETL等新类别的激烈辩论——也更有意义。

展望未来

我们仍然处于定义分析和操作数据平台的早期阶段，平台的各个部分都在不断变化。因此，它作为一个类比可能比作为一个严格的定义更有用。但它可能是一种有用的工具，可以从噪音中过滤出信号，并有助于理解市场为什么会这样发展。数据团队现在拥有的工具、资源和组织动力比自数据库发明以来的任何时候都要多。我们很高兴看到应用层在新兴平台上的发展。