2024 年 11 月 20 日至 22 日,SoCC 2024 将在美国华盛顿州 Redmond 举行。字节跳动基础架构-消息队列团队的研究成果被 SoCC 2024 接收。
ByteMQ: A Cloud-native Streaming Data Layer in ByteDance
BMQ 是由字节跳动基础架构-消息队列团队自主研发的一款云原生友好、高吞吐且扩展性能极强的消息队列服务。在 BMQ 上线前,字节跳动内部广泛使用 Kafka 来承接日志数据收集、训练样本传输等任务。然而,随着当时字节业务(例如抖音)的飞速发展,Kafka 的弊端逐渐显现。它的扩展能力、单集群规模、负载均衡能力以及容错容灾能力都对业务的发展形成了制约。基于这样的情况,我们设计出了采用存算分离架构的云原生消息引擎 BMQ。
BMQ 存算分离的架构极大提升了集群扩缩容的效率,实现了计算层和存储层的秒级扩缩容。这种架构还为 BMQ 赋予了极强的可扩展性,单集群能承担 TB/s 级别的吞吐。池化的分布式存储资源以及极致的负载均衡算法,再加上云原生化,让 BMQ 的成本相较 Kafka 降低了约 70%。此外,BMQ 还具备强大的容灾容错能力,自动的分布式存储系统故障检测及切换功能,能使 BMQ 在底层存储系统异常时快速自动恢复;异常实例检测机制让 BMQ 在复杂的云原生混部环境中可以迅速识别异常实例并快速自动隔离,真正实现高可用。

论文与现场报告将于 11 月底正式亮相 SoCC 2024。届时,字节跳动基础架构团队也将发布该论文的对应解读文章,敬请持续关注。
论文解读推荐

