
扫码进入官方交流群
群内定期进行干货分享
技术交流、福利放送
字节跳动数据平台
数据仓库发展历程很久,随着云计算等技术发展以及海量数据应用场景等出现,对数据仓库提出全新要求,高性能、实时性、云原生等成为数据仓库发展关键词,也因此演变出不同的数仓发展路径。
在字节跳动十年发展历程中,各类业务数据量膨胀,不断挑战数据能力边界,也让字节跳动在数据链路优化处理、提升分析效率、数据仓库选型、数据引擎架构搭建等层面积累丰富经验。

本文将分为四篇呈现,为你解答以下问题:
行业趋势篇:数仓领域的未来趋势解读
技术选型篇:数据库引擎百花齐放,为什么要大力投入ClickHouse?
落地方案篇:如何构建面向海量数据、高实时要求的一个企业级OLAP数据引擎?
最佳实践篇:深入产业实践,剖析最佳实践
行业趋势篇
IDC 2021年报告数据显示,2021年全球大数据软件市场规模达预计可达5414.2亿人民币。“十三五”时期,我国大数据产业快速起步,产业发展取得显著成效,《“十四五”大数据产业发展规划》更是提到:到2025年,我国大数据产业规模预计将突破3万亿元。
业务需求:实时性、低成本、快速上云
随着大数据应用的深入发展,最核心的业务需求如下:
1)提高分析的实时性
最近10年,以hadoop技术体系为代表的大数据平台大规模部署,大大小小的企业和政府部门都搭建了大数据平台和分析应用,以隔天和小时级数据延迟的应用得到了普及;以Flink为代表的实时计算引擎解决了数据统计场景的时效性问题。
随着业务的发展和技术的进步,业务部门不再满足于T+1的分析需求和固化的实时统计,更期望业务发生后秒级/分钟级延迟即可看到统计结果;同时,功能上期望实现交互性探查分析数据,毫秒/秒级返回结果保持良好的用户体验。
在新的企业级数据架构中,有些已经构建了大数据平台的企业,会使用云原生数据仓库构建实时数仓来满足有高时效性要求的业务,以此作为Hadoop平台的补充;有些数据量低于1PB,且没有构建Hadoop等大数据平台的企业,则直接以云原生数据仓库构建轻量级数据仓库。

2)成本可控
大数据应用逐步从互联网企业和政府部门,并深入到工业企业。各行业都先后进行了业务数据的大集中、用户行为数据和IOT数据的广泛采集存储,企业和政府单位的数据量更是以每年呈现30%以上的增长速度。
在过去集中式架构的数据仓库方案中,建设成本与数据总量正相关,导致成本居高不下;采用基于分布式架构的大数据方案中,由于存储计算耦合,为了满足存储空间膨胀,需要采购越来越多的服务器。实时的数据采集和存储更是导致数据量持续高速增长。
在新的云原生数据仓库方案中,既要解决数据和应用增长带来的扩展性问题,同时要解决成本问题,将数据存储和计算成本处于可控范围。
3)支持业务上云
根据智库报告的研究,目前业务上云已经形成趋势,除游戏视频电商等泛互联网企业之外,在政务、金融、制造业等领域,正在以私有云和混合云的方式持续上云,从而实现数据上云。
政务云和金融云是两大主要的行业云,平台建设水平较高,同时制造业、医疗卫生、交通等领域的行业云也在加速变革和加快建设行业云平台大规模建设和升级,实现数字化管理和运营。
制造业设备上云和云化改造能够实现制造业企业的数据互通和业务互联,支撑形成以数据驱动的智能化制造、实现供应链和上下游业务的网络化协同,以及实现对业务和设备的数字化管理等制造业发展新模式,引领制造业数字化转型。
业务上云从而数据上云,也在推动数据处理平台的云原生升级。
技术趋势:数据仓库进入云原生时代

下篇预告:数据库引擎百花齐放,为什么大力投入ClickHouse?
字节跳动内部有非常多分析引擎,包括ClickHouse、 Druid、 Elastic Search、 Kylin 等,为什么答案是ClickHouse,下篇将为你揭晓!
产品介绍
火山引擎ByteHouse
统一的大数据分析平台。目前提供企业版和云数仓两种版本,企业版是基于开源的企业级分析型数据库,支持用户交互式分析PB级别数据,通过多种自研表引擎,灵活支持各类数据分析和应用;云数仓版作为云原生的数据分析平台,实现统一的离线和实时数据分析,并通过弹性扩展的计算层和分布式存储层,有效降低企业大数据分析。后台回复数字“6”了解产品。

扫码进入官方交流群
群内定期进行干货分享
技术交流、福利放送
字节跳动数据平台
点击阅读原文进入官网,了解火山引擎ByteHouse更多产品信息

