

干货 | ELT in ByteHouse 实践与展望

字节跳动数据平台

2023-10-25

导读：现在，以火山引擎 ByteHouse 为例的云原生数据仓库，开始全面支持Extract-Load-Transform(ELT)的能力，从而使用户免于维护多套异构系统。

火山引擎ByteHouse 是一款基于开源 ClickHouse 推出的云原生数据仓库，本篇文章将介绍 ByteHouse 团队如何在 ClickHouse 的基础上，构建并优化 ELT 能力，具体包括四部分：

● ByteHouse 在字节的应用

● ByteHouse 团队做 ELT 的初衷

● ELT in ByteHouse 实现方案及未来规划。

 谈到数据仓库， 一定离不开使用 Extract-Transform-Load (ETL)或 Extract-Load-Transform (ELT)。将来源不同、格式各异的数据提取到数据仓库中，并进行处理加工。

 传统的数据转换过程一般采用 Extract-Transform-Load (ETL)来将业务数据转换为适合数仓的数据模型，然而，这依赖于独立于数仓外的 ETL 系统，因而维护成本较高。

 现在，以火山引擎 ByteHouse 为例的云原生数据仓库，凭借其强大的计算能力、可扩展性，开始全面支持Extract-Load-Transform(ELT)的能力，从而使用户免于维护多套异构系统。

 具体而言，用户可以将数据导入后，通过自定义的SQL语句，在ByteHouse 内部进行数据转换，而无需依赖独立的 ETL 系统及资源。

/ 关于 ByteHouse /

● ByteHouse 的发展

 从 2017 年开始，字节内部的整体数据量不断上涨，为了支撑实时分析的业务，字节内部开始了对各种数据库的选型。经过多次实验，在实时分析版块，字节内部决定开始试水 ClickHouse。

 2018 年到 2019 年，字节内部的 ClickHouse 业务从单一业务，逐步发展到了多个不同业务，适用到更多的场景，包括 BI 分析、A/B 测试、模型预估等。

 在上述这些业务场景的不断实践之下，研发团队基于原生 ClickHouse 做了大量的优化，同时又开发了非常多的特性。

 2020 年，ByteHouse正式在字节跳动内部立项，2021年通过火山引擎对外服务。

 截止 2022 年 3 月，ByteHouse 在字节内部总节点数达到 18000 个，而单一集群的最大规模是 2400 个节点。

 ● ByteHouse产品

 在火山引擎官网的产品页中，我们可以搜到 ByteHouse 产品（如下图）：

 ByteHouse 产品可以分为两个形态：

 1. 企业版：PaaS 模式、全托管、租户专属资源。

 2. 数仓版：SaaS 模式，在这个模式中，使用者可以免运维。用户通过控制台建表、导数据以及使用查询功能。

 在数据量较小、使用较为简单的情况下，用户可以先试用企业版本，如果之后集群规模变大、运维压力较大，亦或是扩展能力要求变高，那么就可以转用到纯算分离、运维能力更强的 CDW 上来，也就是我们刚刚提及的数仓版。

/ 应用场景 /

1. 数据洞察

 数据洞察是支持千亿级别数据自助分析的一站式数据分析及协作平台，包括数据导入以及整合查询分析，最终以数据门户、数字大屏、管理驾驶舱的可视化形态呈现给业务用户，为一个比较典型的场景。

 2. 增长分析

 用户行为分析，即多场景决策的数据分析平台。

 而在增长分析当中，分为了以下三个内容：

 1. 数据采集：

 采集用户行为、经营分析以及平台的数据,全埋点与可视化圈选，广告及其他触点数据接入。

 2. 数据分析：

 行为分析：包括一个行为的单点事件、路径分析以及热图等

 用户分析：对用户的客户群体、用户画像以及用户的具体查询等

 内容分析：包括抖音视频、电商商品等

 3. 智能应用：

 对于一些异常的检测与诊断、资源位归因以及推送运营与广告策略的应用。

4. 一站式指标分析平台

 以懂车帝为例，懂车帝主要给用户提供真实、专业汽车的内容分享和高效的选车服务，同时基于营销需求，他们会根据用户增长的模型以及销售方法论，收集用户在端内的操作行为，进行后台的查询分析。

 而这种查询分析底层对接了 ByteHouse 的大数据引擎，最后实现秒级甚至是亚秒级分析的决策。整个过程包括智能诊断、智能规划以及策略到投放效果评估闭环，最终实现智能营销和精细化运营。

5. ETL 场景

ELT 与 ETL 的区别

● ETL 是用来描述将资料从来源端经过抽取、转置、加载至目的端（数据仓库的过程。Transform 通常描述在数据仓库中的前置数据加工过程。

● ELT 专注于将最小处理的数据加载到数据仓库中，而把大部分的转换操作留给分析阶段。相比起 ETL，它不需要过多的数据建模，而给分析者提供更灵活的选项。ELT 已经成为当今大数据的处理常态，它对数据仓库也提出了很多新的要求。

 下面表述上会有一些两个词语混用的场景，大家不必过分关注区别。

典型场景

一站式报表

 传统大数据解决的方案有两大难点：慢和难。分别体现在传统大数据方案在及时性上达不到要求以及传统数仓 ETL 对人员要求高、定位难和链路复杂。

 但是ByteHouse可以轻松地解决上述问题：将hive数据直接导入到ByteHouse，形成大宽表，后续所有处理都在 ByteHouse 进行。

/ 资源重复 /

 典型的数据链路如下：我们将行为数据、日志、点击流等通过 MQ/Kafka/Flink 将其接入存储系统当中，存储系统又可分为域内的HDFS和云上的 OSS&S3这种远程储存系统，然后进行一系列的数仓的 ETL 操作，提供给OLAP系统完成分析查询。

 但有些业务需要从上述的存储中做一个分支，因此会在数据分析的某一阶段，从整体链路中将数据导出，做一些不同于主链路的 ETL 操作，会出现两份数据存储。其次在这过程中也会出现两套不同的 ETL 逻辑。

 当数据量变大，计算冗余以及存储冗余所带来的成本压力也会愈发变大，同时，存储空间的膨胀也会让弹性扩容变得不便利。

/ 复杂场景 /

 从 OLAP 场景扩展出去，随着数据量的增长和业务复杂度的提升，ClickHouse 渐渐不能满足要求，体现在以下几点：

● 业务变复杂后，单纯大宽表不能满足业务需求。

● 数据量逐渐增多，提高性能的同时，需要进行一些数仓转换操作

 在 ByteHouse 上去做复杂查询或 ELT 任务，可以扩展 ClickHouse 的能力，增强它的可用性、稳定性以及性能，同时还支持不同类型的混合负载。

/ 业界解决思路 /

 在业界中，为了解决以上问题，有以下几类流派：

 ● 数据预计算流派：如 Kylin 等。如果Hadoop 系统中出报表较慢或聚合能力较差，可以去做一个数据的预计算，提前将配的指标的 cube 或一些视图算好。实际 SQL 查询时，可以直接用里面的 cube 或视图做替换，之后直接返回。

 ● 流批一体派：如Flink、Risingwave。在数据流进时，针对一些需要出报表或者需要做大屏的数据直接内存中做聚合。聚合完成后将结果写入HBase或MySQL中再去取数据，将数据取出后作展示。

 Flink 还会去直接暴露中间状态的接口，即queryable state，让用户更好的使用状态数据。但是最后还会与批计算的结果完成对数，如果不一致，需要进行回查操作，整个过程考验运维/开发同学的功力。

 ● 湖仓一体 &HxxP: 将数据湖与数据仓库结合起来。

/ 整体流程 /

 ELT 任务对系统的要求：

整体易扩展：导入和转换通常需要大量的资源，系统需要通过水平扩展的方式来满足数据量的快速增长。
可靠性和容错能力：大量的 job 能有序调度；出现 task 偶然失败（OOM）、container 失败时，能够拉起重试；能处理一定的数据倾斜
效率 &性能：有效利用多核多机并发能力；数据快速导入；内存使用有效（内存管理）；CPU 优化（向量化、codegen）
生态 & 可观测性：可对接多种工具；任务状态感知；任务进度感知；失败日志查询；有一定可视化能力

 ByteHouse针对ELT任务的要求以及当前场景遇到的困难，做了如下特性和改进。

/ 存储服务化 /

 方案：

1.ETL 后先储存为 Parquet
2.通过存储服务化对外提供查询服务
3.Parque 转 Part 文件
4.删掉 Parquet 文件
5.统一通过 Part 提供服务

val df = spark.read.format("CnchPart")options(Map("table" -> "cnch_db.c1")).load()

 
  
   
   
   
   
   
  
  val spark = SparkSession.builder()appName("CNCH-Reader")config("spark.sql.extensions", "CnchAutoConvertExtension")enableHiveSupport() .getOrCreate()val df = spark.sql("select * from cnch_db.c1")

 收益：

1.ETL 简化为一套逻辑，节省运维成本
2.文件统一存储为 Part，占用空间与 Parquet 大体相同。整体存储减少

/ stage by stage schedule /

整体介绍

当前 ClickHouse 的 sql 执行过程：

第一阶段，Coordinator 收到分布式表查询后将请求转换为对 local 表查询发送给每个 shard 节点。
第二阶段，Coordinator 收到各个节点的结果后汇聚起来处理后返回给客户端。

ClickHouse 将 Join 操作中的右表转换为子查询，带来如下几个问题：

1. 复杂的 query 有多个子查询，转换复杂度高
2. join 表较大时容易造成 worker 节点的OOM
3. 聚合阶段在 Cooridnator，压力大，容易成为瓶颈

 不同于 ClickHouse，我们在 ByteHouse 中实现了对复杂查询的执行优化。通过对执行计划的切分，将之前的两阶段执行模型转换为分阶段执行。在逻辑计划阶段，根据算子类型插入 exchange 算子。执行阶段根据 exchange 算子将整个执行计划进行 DAG 切分，并且分 stage 进行调度。stage 之间的 exchange 算子负责完成数据传输和交换。

 关键点：

exchange 节点插入
切分 stage
stage scheduler
segment executer
exchange manager

 这里重点来讲一下 exchange 的视线。上图可以看到，最顶层的是 query plan。下面转换成物理计划的时候，我们会根据不同的数据分布的要求转换成不同的算子。source 层是接收数据的节点，基本都是统一的，叫做 ExchangeSource。Sink 则有不同的实现，BroadcastSink、Local、PartitionSink 等，他们是作为 map task 的一部分去运行的。如果是跨节点的数据操作，我们在底层使用统一的 brpc 流式数据传输，如果是本地，则使用内存队列来实现。针对不同的点，我们进行了非常细致的优化。

数据传输层

进程内通过内存队列，无序列化，zero copy
进程间使用 brpc stream rpc，保序、连接复用、状态码传输、压缩等

算子层

批量发送
线程复用，减少线程数量

带来的收益

1. Cooridnator 更稳定、更高效

聚合等算子拆分到 worker 节点执行
Cooridnator 节点只需要聚合最终结果
2. Worker OOM 减少
进行了 stage 切分，每个 stage 的计算相对简单
增加了 exchange 算子，减少内存压力
3. 网络连接更加稳定、高效
exchange 算子有效传输
复用连接池

 这是在稳定性方面所做的特性。在 OLAP 场景中可能会发现部分数据不全或数据查询超时等，原因是每个计算节点是所有的 query 共用的，这样一旦有一个节点较慢就会导致整个 query 的执行受到影响。

 计算节点共用存在的问题：

● scan 节点负载和 workload 相关，做不到完全平均

● 各 plan segment 所需资源差异大

 这就导致 worker 节点之间的负载严重不均衡。负载较重的 worker 节点就会影响 query 整体的进程。

 解决措施：

● 建立 worker 健康度机制。Server 端建立 worker 健康度管理类，可以快速获取 worker group 的健康度信息。包括 cpu、内存、运行 query 数量等信息。

● 自适应调度。每个sql 根据 worker 健康度动态的进行worker选择以及计算节点并发度控制

 我们的集群也会出现满载情况，即所有的 worker 都是不健康的或者满载/超载的，就会用查询队列来进行优化。

 我们直接在 server 端做了一个 manager。每次查询的时候 manager会去check 集群的资源，并且持有一个锁。如果资源不够用，则等待资源释放后去唤醒这个锁。这就避免了 Server 端不限制的下发计算任务，导致 worker 节点超载，然后崩掉的情况。

 当前实现相对简单。server 是多实例，每个 server 实例中都有 queue，所持有的是一个局部视角，缺乏全局的资源视角。除此之外，每个 queue 中的查询状态没有持久化，只是简单的缓存在内存中。

 后续，我们会增加 server 之间的协调，在一个全局的视角上对查询并发做限制。也会对 server 实例中 query 做持久化，增加一些 failover 的场景支持。

 ELT 任务的一个典型特征就是相对即时分析，他们的运行时间会相对较长。一般为分钟级，甚至到达小时级。目前 ClickHouse 的客户端查询都采用阻塞的方式进行返回。这样就造成了客户端长期处于等待的情况，而在这个等待过程中还需要保持和服务端的连接。在不稳定的网络情况下，客户端和服务端的连接会断开，从而导致服务端的任务失败。

 为了减少这种不必要的失败，以及减少客户端为了维持连接的增加的复杂度。我们开发了异步执行的功能，它的实现如下：

 1.用户指定异步执行。用户可以通过 settings enable_async_query= 1的方式进行 per query的指定。也可以通过 set enable_async_query=1的方式进行 session级别的指定。

 2.如果是异步 query，则将其放到后台线程池中运行

 3.静默 io。当异步 query 执行时，则需要切断它和客户端的交互逻辑，比如输出日志等。

 针对 query 的初始化还是在 session 的同步线程中进行。一旦完成初始化，则将

 query 状态写入到 metastore，并向客户端返回 async query id。客户端可以用这个 id 查询 query 的状态。async query id 返回后，则表示完成此次查询的交互。这种模式下，如果语句是 select，那么后续结果则无法回传给客户端。这种情况下我们推荐用户使用 async query+select...into outfile 的组合来满足需求。

 针对 ELT 混合负载，目前只是牛刀小试。后续的版本中我们会持续补齐规划中的能力，包括但不限于以下：

/ 导入优化 /

● spark part writer 转换到域内执行，提高性能

● 细粒度导入任务的事务处理

● 细粒度导入任务事务锁优化

/ 故障恢复能力 /

● 算子 spill

1. sort、agg、join 社区已有部分能力，我们在同步的同时，会针对性的做性能优化和 bug 修复。也会探索一些自动化 spill 的可能。

2.exchange 增加 spill 能力

● recoverability

1. 算子执行恢复。ELT 任务运行时长较长时，中间 task 的偶发失败会导致整个query 失败。整体重试的话会造成时长的浪费。task 原地失败重试可以避免环境原因导致的偶发失败。

2. stage 重试。当节点失败时，可以进行 stage 级别的重试

3. 队列作业状态保存

● remote shuffle service：当前业界开源的 shuffle service 通常为 Spark 定制，没有通用的客户端，比如 c++客户端。需要一起适配。

/ 资源 /

● 计算资源可指定：用户可指定 query 需要的计算资源。

● 计算资源预估/预占：可动态预估 query 需要的计算资源，并通过预占的方式进行调配。

● 动态申请资源：当前 worker 均为常驻进程/节点。动态申请资源可以提高利用率。

● 更细粒度的资源隔离：通过 worker group 或者进程级别的隔离，减少各 query 之间相互影响

/ 生态 /

● 支持更多 ETL 编排、调度工具

1. dbt、AirFlow 已支持
2. Kettle、Dolphin、SeaTunnel 陆续支持中...

● 数据湖格式对接

1. Hudi、Iceberg external table reader
2. JNI reader to accelerate

产品介绍

火山引擎ByteHouse

统一的大数据分析平台。目前提供企业版和云数仓两种版本，企业版是基于开源的企业级分析型数据库，支持用户交互式分析PB级别数据，通过多种自研表引擎，灵活支持各类数据分析和应用；云数仓版作为云原生的数据分析平台，实现统一的离线和实时数据分析，并通过弹性扩展的计算层和分布式存储层，有效降低企业大数据分析。后台回复数字“6”了解产品

——相关阅读——