大数跨境
0
0

「2025年全年」Flink2.x全年更新盘点和特性解析

「2025年全年」Flink2.x全年更新盘点和特性解析 InfraLink
2025-12-04
0
导读:大家好,我们又见面了。2025年即将进入尾声,我们在最近的2个月内,会附近陆续发布大数据方向核心框架框架的年

大家好,我们又见面了。

2025年即将进入尾声,我们在最近的2个月内,会附近陆续发布大数据方向核心框架框架的年度总结。包含核心的版本和特性升级,主要目的是让大家了解大数据社区最新的动态和发展方向,这次我们总结的是Flink

2025年全年,随着Flink2.0/2.1两版本的正式发布,分别引入了:

  • 解耦式状态管理架构,实现存算分离,大幅提升云原生环境下的弹性与成本效益;

  • 全面拥抱AI的发展,发布全新的Flink Agents子项目,Flink Agents提供了开发Agentic AI系统所必需的LLM、Memory、Tool、Prompt等关键概念的封装,以及动态执行计划、循环执行、共享状态、可观测性等能力;

  • 在SQL优化和核心功能上,引入Delta Join消除流关联瓶颈,同时引入VARIANT类型高效处理半结构化数据。

这些革新共同将Flink打造为一个更强大、更智能、更易用的实时计算平台。

我们下文就从这些方面入手,对2025年Flink的重大更新进行全面、深入的解析。

历史文章可以参考:

一、存算分离&云原生

Flink 2.0版本正式引入了"解耦式状态管理"(Disaggregated State Management) 架构,从根本上改变了Flink处理和管理状态的方式,使其从传统的计算与存储紧密耦合的模式,演进为支持计算与存储分离的现代化架构。

这个很好理解,把Flink的状态存储从计算节点中分离出来,利用分布式文件系统(DFS)如HDFS或S3作为状态的存储介质,解决了原来任务因为状态带来的例如磁盘空间不足、IO和CPU剧烈波动带来的不稳定性。

1.1 解耦式状态管理

  • 传统架构的挑战
  1. 容器对本地磁盘有严格限制,难以承载TB级别的巨大状态;
  2. 状态后台的Compaction操作导致CPU和IO资源剧烈波动;
  3. 作业扩缩容时,大量状态数据迁移耗时极长且风险高.
  • 新架构优势
  1. 状态存储职责从TaskManager本地磁盘转移到专门的远程存储层,利用分布式文件系统(DFS)作为状态主要存储介质;
  1. 计算和存储资源可以独立扩展,实现近乎无限的状态大小支持和弹性伸缩能力。

1.2 异步执行模型

为了支撑解耦式状态管理架构,Flink 2.0引入了两个关键组件,他们分别是:异步执行模型(Asynchronous Execution Model)和全新的分层存储状态后端ForSt。

  • 异步执行模型

Flink 2.0设计实现了一套全新的异步执行模型。核心思想是将状态的访问操作与计算逻辑解耦,允许计算线程在发起一个非阻塞的状态读写请求后,无需等待其完成即可继续处理下一个数据记录。

  • ForSt

ForSt是一个专为解耦式状态管理设计的分层存储系统。它在每个TaskManager的本地内存和磁盘中维护一个高速缓存层(类似于CPU的L1/L2缓存),用于存放最活跃的状态数据,以保证绝大部分状态访问仍能获得接近本地磁盘的低延迟。

Flink 2.0能够将CheckPoint的耗时稳定地控制在极低的水平(状态量达到TB级,CheckPoint耗时仍可控制在10秒以内),极大地提升了作业的稳定性和容错效率。

性能与稳定性优化

  • 自适应批处理

Flink 2.0在批处理执行模式上引入了"自适应批处理执行"(Adaptive Batch Execution)功能,能够根据作业实际运行情况和数据特征,动态调整执行计划,自动分配资源,最大限度降低资源消耗。

  • 增量CheckPoint与状态访问优化

这个能力不用过多介绍了。在Flink2.0版本中引入通用增量CheckPoint(Universal Incremental Checkpointing),极大减少了每次CheckPoint需要传输的数据量,从而缩短CheckPoint耗时,对网络和存储系统的压力也显著降低。

  • 高速网络适配与降低延迟

Flink 2.0对高速网络进行了专门的适配和优化,优化网络通信协议和数据序列化机制,充分利用25Gbps以上高速网络带宽。使得其性能表现与访问本地SSD相当。

二、AI融合

2.1 Flink Agents

我们在之前的文章中:AI融合存算分离|Flink2025年核心更新汇总,提到了Flink Agents的背景。

Flink Agents是Flink社区正式发起全新的子项目,专为事件驱动型的AI智能体(System-Triggered Agent)打造的Agent编程框架。

Agents框架提供了对主流LLM(如OpenAI等)、向量数据库(如 Milvus)以及遵循标准协议(如MCP-Model Context Protocol)的工具和提示词服务的原生集成。

并且Agents框架还支持用户自定义扩展,我们可以把企业内部的模型进行集成,满足定制化开发需求。

2.2 SQL与AI的深度集成

从Flink2.0开始,社区引入了专门的Model DDL(Data Definition Language)语法,允许用户通过CREATE MODEL语句来定义和管理AI模型,你可以参考这里:

三、SQL增强

Flink2.0对SQL引擎和流处理能力进行了显著的增强,这部分的优化包括:物化表、DeltaJoin、MultiJoin、引入新的数据类型等。

我们重点介绍一下其中的DeltaJoin。

传统的流式Join(如Regular Join)通常要把所有参与Join的数据存储在Flink的state中,当数据量很大或者Join窗口时间很长,就会导致状态爆炸,不仅消耗大量内存和磁盘资源,还会增加Checkpoint和恢复的时间。

DeltaJoin的核心思想是,不再存储完整的输入数据流,而是通过结合外部索引(如kv存储或其他数据库)和变更日志(Changelog)处理来实现Join,把状态存储压力转移到外部系统,消除Flink状态瓶颈,降低了Flink作业的资源消耗。

四、其他

在上面这些核心特性外,Flink2.x版本还有一些核心特性的开放,包括开放Process Table Functions(PTFs),让开发者可以在SQL场景下读写状态,实现复杂的、有状态的计算逻辑。

此外在监控、PyFlink上也有一些性能、稳定性和功能覆盖度上的更新,大家可以自由尝试。

以上就是2025年Flink框架的核心能力更新,欢迎大家点赞+关注,后续会持续更新更多框架的最新发展。

  


关注我们!与InfraLink共赴智能未来



🔗 聚焦数据科学 | 深耕算法创新 | 赋能AI工程化

📌 技术干货持续更新,全球生态合作共建

✨ 点击关注@InfraLink,解锁更多前沿技术资讯与实践洞察

最后,欢迎加入我们的知识星球小圈子:

   如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

【声明】内容源于网络
0
0
InfraLink
链接技术基建,共筑智能未来。 在数据智能重塑产业格局的时代,InfraLink 以「构建技术基础设施的全球连接枢纽」为使命,聚焦 数据科学、算法创新、AI 工程化 三大核心领域,打造集技术资讯、实践经验、生态合作为一体的全球化社区平台。
内容 109
粉丝 0
InfraLink 链接技术基建,共筑智能未来。 在数据智能重塑产业格局的时代,InfraLink 以「构建技术基础设施的全球连接枢纽」为使命,聚焦 数据科学、算法创新、AI 工程化 三大核心领域,打造集技术资讯、实践经验、生态合作为一体的全球化社区平台。
总阅读22
粉丝0
内容109