大家好,我们又见面了。
2025年即将进入尾声,我们在最近的2个月内,会附近陆续发布大数据方向核心框架框架的年度总结。包含核心的版本和特性升级,主要目的是让大家了解大数据社区最新的动态和发展方向,这次我们总结的是Flink。
2025年全年,随着Flink2.0/2.1两版本的正式发布,分别引入了:
解耦式状态管理架构,实现存算分离,大幅提升云原生环境下的弹性与成本效益;
全面拥抱AI的发展,发布全新的Flink Agents子项目,Flink Agents提供了开发Agentic AI系统所必需的LLM、Memory、Tool、Prompt等关键概念的封装,以及动态执行计划、循环执行、共享状态、可观测性等能力;
在SQL优化和核心功能上,引入Delta Join消除流关联瓶颈,同时引入VARIANT类型高效处理半结构化数据。
这些革新共同将Flink打造为一个更强大、更智能、更易用的实时计算平台。
我们下文就从这些方面入手,对2025年Flink的重大更新进行全面、深入的解析。
历史文章可以参考:
一、存算分离&云原生
Flink 2.0版本正式引入了"解耦式状态管理"(Disaggregated State Management) 架构,从根本上改变了Flink处理和管理状态的方式,使其从传统的计算与存储紧密耦合的模式,演进为支持计算与存储分离的现代化架构。
这个很好理解,把Flink的状态存储从计算节点中分离出来,利用分布式文件系统(DFS)如HDFS或S3作为状态的存储介质,解决了原来任务因为状态带来的例如磁盘空间不足、IO和CPU剧烈波动带来的不稳定性。
1.1 解耦式状态管理
-
传统架构的挑战
容器对本地磁盘有严格限制,难以承载TB级别的巨大状态; 状态后台的Compaction操作导致CPU和IO资源剧烈波动; 作业扩缩容时,大量状态数据迁移耗时极长且风险高.
-
新架构优势
状态存储职责从TaskManager本地磁盘转移到专门的远程存储层,利用分布式文件系统(DFS)作为状态主要存储介质;
计算和存储资源可以独立扩展,实现近乎无限的状态大小支持和弹性伸缩能力。
1.2 异步执行模型
为了支撑解耦式状态管理架构,Flink 2.0引入了两个关键组件,他们分别是:异步执行模型(Asynchronous Execution Model)和全新的分层存储状态后端ForSt。
-
异步执行模型
Flink 2.0设计实现了一套全新的异步执行模型。核心思想是将状态的访问操作与计算逻辑解耦,允许计算线程在发起一个非阻塞的状态读写请求后,无需等待其完成即可继续处理下一个数据记录。
-
ForSt
ForSt是一个专为解耦式状态管理设计的分层存储系统。它在每个TaskManager的本地内存和磁盘中维护一个高速缓存层(类似于CPU的L1/L2缓存),用于存放最活跃的状态数据,以保证绝大部分状态访问仍能获得接近本地磁盘的低延迟。
Flink 2.0能够将CheckPoint的耗时稳定地控制在极低的水平(状态量达到TB级,CheckPoint耗时仍可控制在10秒以内),极大地提升了作业的稳定性和容错效率。
性能与稳定性优化
-
自适应批处理
Flink 2.0在批处理执行模式上引入了"自适应批处理执行"(Adaptive Batch Execution)功能,能够根据作业实际运行情况和数据特征,动态调整执行计划,自动分配资源,最大限度降低资源消耗。
-
增量CheckPoint与状态访问优化
这个能力不用过多介绍了。在Flink2.0版本中引入通用增量CheckPoint(Universal Incremental Checkpointing),极大减少了每次CheckPoint需要传输的数据量,从而缩短CheckPoint耗时,对网络和存储系统的压力也显著降低。
-
高速网络适配与降低延迟
Flink 2.0对高速网络进行了专门的适配和优化,优化网络通信协议和数据序列化机制,充分利用25Gbps以上高速网络带宽。使得其性能表现与访问本地SSD相当。
二、AI融合
2.1 Flink Agents
我们在之前的文章中:AI融合存算分离|Flink2025年核心更新汇总,提到了Flink Agents的背景。
Flink Agents是Flink社区正式发起全新的子项目,专为事件驱动型的AI智能体(System-Triggered Agent)打造的Agent编程框架。
Agents框架提供了对主流LLM(如OpenAI等)、向量数据库(如 Milvus)以及遵循标准协议(如MCP-Model Context Protocol)的工具和提示词服务的原生集成。
并且Agents框架还支持用户自定义扩展,我们可以把企业内部的模型进行集成,满足定制化开发需求。
2.2 SQL与AI的深度集成
从Flink2.0开始,社区引入了专门的Model DDL(Data Definition Language)语法,允许用户通过CREATE MODEL语句来定义和管理AI模型,你可以参考这里:
三、SQL增强
Flink2.0对SQL引擎和流处理能力进行了显著的增强,这部分的优化包括:物化表、DeltaJoin、MultiJoin、引入新的数据类型等。
我们重点介绍一下其中的DeltaJoin。
传统的流式Join(如Regular Join)通常要把所有参与Join的数据存储在Flink的state中,当数据量很大或者Join窗口时间很长,就会导致状态爆炸,不仅消耗大量内存和磁盘资源,还会增加Checkpoint和恢复的时间。
DeltaJoin的核心思想是,不再存储完整的输入数据流,而是通过结合外部索引(如kv存储或其他数据库)和变更日志(Changelog)处理来实现Join,把状态存储压力转移到外部系统,消除Flink状态瓶颈,降低了Flink作业的资源消耗。
四、其他
在上面这些核心特性外,Flink2.x版本还有一些核心特性的开放,包括开放Process Table Functions(PTFs),让开发者可以在SQL场景下读写状态,实现复杂的、有状态的计算逻辑。
此外在监控、PyFlink上也有一些性能、稳定性和功能覆盖度上的更新,大家可以自由尝试。
以上就是2025年Flink框架的核心能力更新,欢迎大家点赞+关注,后续会持续更新更多框架的最新发展。
关注我们!与InfraLink共赴智能未来
🔗 聚焦数据科学 | 深耕算法创新 | 赋能AI工程化
📌 技术干货持续更新,全球生态合作共建
✨ 点击关注@InfraLink,解锁更多前沿技术资讯与实践洞察
最后,欢迎加入我们的知识星球小圈子:

