大数据 | Ralph's Blog

4.hadoop

目录目录 Hadoop 基础概念 Hadoop 生态系统 Hadoop 核心组件 Hadoop 生态系统组件 HDFS 分布式文件系统 HDFS 架构与原理 HDFS 设计目标 HDFS 架构图 HDFS 核心组件 1. NameNode（主节点） 2. DataNode（数据节点） 3. Secondary NameNode（辅助节点） HDFS 读写流程 HDFS 写流程 HDFS 读流程详细代码示例 HDFS 容错机制 1. 数据块复制 2. 故障检测与恢复 MapReduce 编程模型 MapReduce 原理与流程 MapReduce 编程模型 MapReduce 执行流程详细执行流程 MapReduce 核心组件 1. JobTracker（作业跟踪器） 2. TaskTracker（任务跟踪器） 3. Map Task（映射任务） 4. Reduce Task（归约任务） MapReduce 编程示例完整示例：单词计数 MapReduce 优化策略 1. 数据本地化优化 2. 内存优化 3. 压缩优化 YARN 资源管理器 YARN 架构与原理 YARN 设计目标 YARN 架构图 YARN 核心组件 1. ResourceManager（资源管理器） 2. NodeManager（节点管理器） 3. ApplicationMaster（应用程序主控器） YARN 资源调度 1. 调度器类型 2. Capacity Scheduler 配置 YARN 应用管理 1. 应用程序生命周期 2. 应用程序监控 Hadoop 核心组件详解 HDFS 源码解析 NameNode 源码分析 NameNode 启动流程 FSNamesystem 核心功能 DataNode 源码分析 DataNode 启动流程数据块读写实现 HDFS 客户端源码分析客户端写操作客户端读操作 MapReduce 源码解析 JobTracker 源码分析 JobTracker 启动流程作业调度实现 TaskTracker 源码分析 TaskTracker 启动流程任务执行实现 MapReduce 任务执行源码分析 Map任务执行 Reduce任务执行 YARN 源码解析 ResourceManager 源码分析 ResourceManager 启动流程资源调度实现 NodeManager 源码分析 NodeManager 启动流程容器管理实现 ApplicationMaster 源码分析 ApplicationMaster 实现 Hadoop 性能优化 HDFS 性能优化存储优化 1. 数据块大小优化 2. 复制因子优化 3. 存储类型优化网络优化 1. 网络拓扑优化 2. 数据传输优化配置优化 1. NameNode优化 2. DataNode优化 MapReduce 性能优化任务优化 1. Map任务优化 2. Reduce任务优化数据优化 1. 输入格式优化 2. 输出格式优化算法优化 1. 数据倾斜处理 2. 内存优化 YARN 性能优化资源调度优化 1. 调度器选择 2. Capacity Scheduler 优化 3. Fair Scheduler 优化内存管理优化 1. 内存分配策略 2. 内存监控队列管理优化 1. 队列配置优化 2. 队列监控性能监控与调优性能指标监控 1. HDFS性能指标 2. MapReduce性能指标 3. YARN性能指标性能调优工具 1. 性能分析工具 2. 性能测试工具 Hadoop 运维与监控集群部署环境准备 1. 系统要求 2. 环境配置 3. 网络配置安装配置 1. Hadoop下载安装 2. 核心配置文件 3. 集群配置集群启动 1. 启动流程 2. 启动脚本 3. 停止脚本监控管理系统监控 1. 系统资源监控 2. 集群状态监控应用监控 1. 作业监控 2. 任务监控日志管理 1. 日志配置 2. 日志分析故障排查常见问题 1. NameNode问题 2. YARN问题 3. MapReduce问题诊断方法 1. 系统诊断 2. 集群诊断解决方案 1. 性能问题解决 2. 故障恢复 Hadoop 高级特性高可用性 HDFS高可用 1. NameNode高可用架构 2. JournalNode配置 3. 自动故障切换 YARN高可用 1. ResourceManager高可用 2. 状态存储配置安全性 Kerberos认证 1. Kerberos配置 2. 服务主体配置 3. 用户认证访问控制 1. HDFS权限控制 2. YARN队列权限扩展功能 HDFS Federation 1. Federation架构 2. ViewFS配置数据压缩 1. 压缩编解码器 2. 压缩配置数据格式优化 1. 列式存储 2. 序列化格式 Hadoop 典型面试题与答疑基础概念面试题 1. Hadoop生态系统 2. HDFS架构 3. MapReduce原理高级特性面试题 4. HDFS高可用 5. YARN资源调度 6. 数据倾斜处理性能优化面试题 7. HDFS性能优化 8. MapReduce性能优化 9. 内存管理运维管理面试题 10. 集群监控 11. 故障排查 12. 安全配置实际应用面试题 13. 数据处理流程 14. 性能调优实践 15. 最佳实践面试技巧总结 1. 技术深度 2. 技术广度 3. 问题解决能力 4. 学习能力 Hadoop 基础概念 Hadoop 生态系统 Hadoop是一个开源的分布式计算平台，主要用于处理大规模数据集。它由Apache软件基金会开发，是大数据处理的基础框架。 ...

11.nebula

创建space CREATE SPACE saas_graph (partition_num = 3, vid_type = FIXED_STRING(35)) COMMENT = “gt数据” 添加 tag CREATE tag gid (ts timestamp NULL DEFAULT now() COMMENT “出现时间”) COMMENT = “点类型-gid”; CREATE tag mac (ts timestamp NULL DEFAULT now() COMMENT “出现时间”) COMMENT = “点类型-mac”; CREATE tag wifi () COMMENT = “点类型-wifi”; CREATE tag wg () COMMENT = “点类型-wg”; CREATE tag ip () COMMENT = “点类型-wg”; 添加edge type CREATE edge connect (ts timestamp NULL DEFAULT now() COMMENT “关联时间”) COMMENT = “边类型-连接”; CREATE edge scan (ts timestamp NULL DEFAULT now() COMMENT “关联时间”) COMMENT = “边类型-扫描”; CREATE edge bind (ts timestamp NULL DEFAULT now() COMMENT “绑定时间”) COMMENT = “边类型-绑定关系”; #写入数据 ...

12.Spark

12. Spark 目录点击展开目录 12. Spark 目录 Spark 概述与环境 Spark简介 Spark特点与优势 Spark vs Hadoop MapReduce Spark应用场景 Spark生态系统核心组件 Spark 核心概念 RDD核心概念 RDD特性 RDD操作分类 RDD依赖关系 DataFrame与Dataset DataFrame概念 Dataset概念三者对比分析分区机制分区策略分区调优 Spark 架构与原理整体架构设计系统架构总览部署架构模式核心组件原理 SparkContext - 应用程序入口 Driver Program - 驱动程序 Cluster Manager - 集群管理器 Executor - 任务执行器任务调度机制调度框架总览 DAG调度器原理任务调度器实现本地性调度策略推测执行与容错存储与内存管理 BlockManager存储引擎统一内存管理缓存与持久化策略 Spark 1.6内存管理演进与参数配置 YARN Container OOM实战排查 Shuffle数据交换 Shuffle机制原理 Shuffle性能优化数据倾斜处理容错与可靠性血缘关系容错 Checkpoint检查点故障恢复机制资源管理与通信调度算法策略动态资源分配 RPC通信机制序列化与网络传输 Spark SQL与Catalyst Spark SQL概述主要特性 Catalyst优化器 Catalyst架构原理优化流程详解核心优化规则深入优化规则实现成本优化器（CBO）代码生成引擎自适应查询执行（AQE）优化器扩展与定制 SparkSQL 实用函数与语法数据采样与查看日期与时间处理字符串处理直接文件查询（File-based Query）数组与集合操作 JSON处理条件与判断条件计数与聚合唯一ID生成方法窗口函数聚合函数 UDF/UDAF 注册与使用性能调优与优化写出排序优化查询与作业优化 Join优化缓存与持久化代码层面优化网络与I/O优化常见性能问题监控与诊断常见错误解决方案内存相关错误网络相关错误序列化相关错误资源相关错误数据相关错误调试和诊断工具预防措施关键参数与配置模板 JVM相关参数 Spark高频面试题基础概念题架构原理题性能调优题实战应用题深度技术原理题故障排查与运维题 Spark 概述与环境 Spark简介 Apache Spark 是一个快速、通用的大数据处理引擎，专为大规模数据处理而设计。它提供了高级API（Java、Scala、Python、R），并支持用于SQL查询、流处理、机器学习和图形处理的优化引擎。 ...

12.1 Spark 源码解析

12.1 Spark源码解析目录点击展开目录一、Spark核心架构与初始化 1.1 SparkContext初始化流程 1.2 运行环境构建二、RDD设计与实现 2.1 RDD核心抽象 2.2 RDD五大特性 2.3 RDD操作执行三、任务调度系统 3.1 DAGScheduler调度器 3.2 Stage划分算法 3.3 TaskScheduler任务调度 3.4 Task执行机制 3.5 任务分发与调度流程 3.6 容错与监控机制 3.7 失败重试机制 3.8 RDD血统恢复四、内存管理系统 4.1 统一内存管理 4.2 算子内存存储 4.3 内存监控与优化 4.4 内存管理系统（高级特性） 4.5 统一内存管理（详细实现）五、Shuffle机制实现 5.1 Sort Shuffle核心 5.2 UnsafeShuffleWriter 六、存储系统设计 6.1 BlockManager存储 6.2 缓存机制七、网络通信系统 7.1 网络传输服务 7.2 Block传输机制八、动态资源分配 8.1 资源分配策略 8.2 动态伸缩算法九、Spark SQL执行引擎 9.1 Catalyst优化器核心 9.2 代码生成与执行 9.3 列式存储与向量化 9.4 自适应查询执行(AQE) 9.5 窗口函数实现原理（以 Lag 为例）十、广播变量与累加器 10.1 广播变量实现机制 10.2 累加器源码分析十一、检查点与容错机制 11.1 检查点机制实现 11.2 失败重试与血统恢复十二、集群管理器集成 12.1 YARN集成源码 12.2 Kubernetes集成一、Spark核心架构与初始化 1.1 SparkContext初始化流程 SparkContext初始化流程图 graph TD A[SparkContext构造] --> B[创建SparkConf配置] B --> C[创建SparkEnv运行环境] C --> D[创建StatusTracker状态跟踪器] D --> E[创建TaskScheduler任务调度器] E --> F[创建DAGScheduler DAG调度器] F --> G[启动TaskScheduler] G --> H[设置默认并行度] H --> I[SparkContext初始化完成] C --> C1[创建SerializerManager] C --> C2[创建BlockManager] C --> C3[创建MemoryManager] C --> C4[创建MetricsSystem] E --> E1[根据master创建调度器] E1 --> E2[Standalone模式] E1 --> E3[YARN模式] E1 --> E4[Local模式] style A fill:#e1f5fe style I fill:#e8f5e8 style C fill:#fff3e0 style F fill:#f3e5f5 1.2 运行环境构建 SparkContext初始化源码分析 // SparkContext.scala 核心初始化流程 class SparkContext(config: SparkConf) extends Logging { // 1. 创建SparkEnv - 核心运行环境 private val env: SparkEnv = { SparkEnv.createDriverEnv(conf, isLocal, listenerBus, numCores, mockOutputCommitCoordinator) } // 2. 创建状态跟踪器 private val statusTracker = new SparkStatusTracker(this, sparkUI) // 3. 创建任务调度器 private val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode) private val taskScheduler = ts // 4. 创建DAG调度器 private val dagScheduler = new DAGScheduler(this) // 5. 启动任务调度器 taskScheduler.start() // 6. 设置默认并行度 private val defaultParallelism: Int = taskScheduler.defaultParallelism // 核心方法：创建RDD def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]()) } // 核心方法：提交作业 def runJob[T, U: ClassTag]( rdd: RDD[T], func: (TaskContext, Iterator[T]) => U, partitions: Seq[Int], resultHandler: (Int, U) => Unit): Unit = { dagScheduler.runJob(rdd, func, partitions, callSite, resultHandler, localProperties.get) } } 二、RDD设计与实现 2.1 RDD核心抽象 RDD五大特性实现流程 graph LR A[RDD实例化] --> B[getPartitions获取分区列表] B --> C[compute定义计算函数] C --> D[getDependencies设置依赖关系] D --> E[partitioner设置分区器] E --> F[getPreferredLocations位置偏好] F --> G[RDD创建完成] style A fill:#e1f5fe style G fill:#e8f5e8 2.2 RDD五大特性 RDD源码核心实现 // RDD.scala 核心抽象 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Serializable with Logging { // 五大特性的具体实现 // 1. 分区列表 protected def getPartitions: Array[Partition] // 2. 计算函数 def compute(split: Partition, context: TaskContext): Iterator[T] // 3. 依赖关系 protected def getDependencies: Seq[Dependency[_]] = deps // 4. 分区器（可选） @transient val partitioner: Option[Partitioner] = None // 5. 位置偏好（可选） protected def getPreferredLocations(split: Partition): Seq[String] = Nil // Transformation操作实现 def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f) new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF)) } def filter(f: T => Boolean): RDD[T] = withScope { val cleanF = sc.clean(f) new MapPartitionsRDD[T, T]( this, (context, pid, iter) => iter.filter(cleanF), preservesPartitioning = true) } def reduceByKey(func: (T, T) => T): RDD[T] = self.withScope { reduceByKey(defaultPartitioner(self), func) } // Action操作实现 def collect(): Array[T] = withScope { val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray) Array.concat(results: _*) } def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum def foreach(f: T => Unit): Unit = withScope { val cleanF = sc.clean(f) sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF)) } } 2.3 RDD操作执行 RDD操作执行流程图 graph TD A[RDD操作调用] --> B{操作类型} B -->|Transformation| C[创建新RDD] B -->|Action| D[触发作业执行] C --> C1[构建RDD血统] C1 --> C2[设置依赖关系] C2 --> C3[返回新RDD对象] C3 --> E[等待Action触发] D --> D1[调用SparkContext.runJob] D1 --> D2[DAGScheduler.runJob] D2 --> D3[构建DAG图] D3 --> D4[划分Stage] D4 --> D5[提交Task] D5 --> D6[Executor执行] D6 --> D7[返回结果] style C fill:#e8f5e8 style D fill:#ffebee style D3 fill:#fff3e0 style D6 fill:#e1f5fe 三、任务调度系统 3.1 DAGScheduler调度器 DAGScheduler作业提交流程图 graph TD A[用户调用Action] --> B[SparkContext.runJob] B --> C[DAGScheduler.runJob] C --> D[创建ActiveJob] D --> E[submitJob] E --> F[构建DAG图] F --> G[findMissingPartitions] G --> H[getMissingParentStages] H --> I{是否有父Stage} I -->|有| J[递归提交父Stage] I -->|无| K[submitMissingTasks] J --> L[等待父Stage完成] L --> K K --> M[创建TaskSet] M --> N[TaskScheduler.submitTasks] N --> O[分发Task到Executor] O --> P[Task执行完成] P --> Q[Stage完成] Q --> R[检查后续Stage] R --> S[Job完成] style A fill:#e1f5fe style F fill:#fff3e0 style K fill:#e8f5e8 style S fill:#c8e6c9 3.2 Stage划分算法 Stage划分算法流程图 graph TD A[开始Stage划分] --> B[从最终RDD开始] B --> C[遍历RDD依赖] C --> D{依赖类型} D -->|窄依赖| E[加入当前Stage] D -->|宽依赖| F[创建新Stage边界] E --> G[继续遍历父RDD] F --> H[创建ShuffleMapStage] G --> C H --> I[递归处理父RDD] I --> C C --> J{是否还有未处理RDD} J -->|是| C J -->|否| K[Stage划分完成] style A fill:#e1f5fe style F fill:#ffebee style H fill:#fff3e0 style K fill:#e8f5e8 DAGScheduler源码分析 // DAGScheduler.scala 核心调度逻辑 class DAGScheduler( private[scheduler] val sc: SparkContext, private[scheduler] val taskScheduler: TaskScheduler, listenerBus: LiveListenerBus, mapOutputTracker: MapOutputTrackerMaster, blockManagerMaster: BlockManagerMaster, env: SparkEnv, clock: Clock = new SystemClock()) extends Logging { // 事件处理循环 private val eventProcessLoop = new DAGSchedulerEventProcessLoop(this) // 提交作业的核心方法 def runJob[T, U]( rdd: RDD[T], func: (TaskContext, Iterator[T]) => U, partitions: Seq[Int], callSite: CallSite, resultHandler: (Int, U) => Unit, properties: Properties): Unit = { val start = System.nanoTime val waiter = submitJob(rdd, func, partitions, callSite, resultHandler, properties) ThreadUtils.awaitReady(waiter, Duration.Inf) waiter.value.get match { case scala.util.Success(_) => logInfo("Job %d finished: %s, took %f s".format (waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9)) case scala.util.Failure(exception) => logInfo("Job %d failed: %s, took %f s".format (waiter.jobId, callSite.shortForm, (System.nanoTime - start) / 1e9)) throw exception } } // Stage划分核心算法 private def getOrCreateShuffleMapStage( shuffleDep: ShuffleDependency[_, _, _], firstJobId: Int): ShuffleMapStage = { shuffleIdToMapStage.get(shuffleDep.shuffleId) match { case Some(stage) => stage case None => // 递归创建父Stage getMissingAncestorShuffleDependencies(shuffleDep.rdd).foreach { dep => if (!shuffleIdToMapStage.contains(dep.shuffleId)) { createShuffleMapStage(dep, firstJobId) } } createShuffleMapStage(shuffleDep, firstJobId) } } // 查找缺失的父依赖 private def getMissingAncestorShuffleDependencies( rdd: RDD[_]): ArrayStack[ShuffleDependency[_, _, _]] = { val ancestors = new ArrayStack[ShuffleDependency[_, _, _]] val visited = new HashSet[RDD[_]] val waitingForVisit = new ArrayStack[RDD[_]] waitingForVisit.push(rdd) while (waitingForVisit.nonEmpty) { val toVisit = waitingForVisit.pop() if (!visited(toVisit)) { visited += toVisit toVisit.dependencies.foreach { case shuffleDep: ShuffleDependency[_, _, _] => if (!shuffleIdToMapStage.contains(shuffleDep.shuffleId)) { ancestors.push(shuffleDep) waitingForVisit.push(shuffleDep.rdd) } case narrowDep: NarrowDependency[_] => waitingForVisit.push(narrowDep.rdd) } } } ancestors } // 提交Stage private def submitStage(stage: Stage): Unit = { val jobId = activeJobForStage(stage) if (jobId.isDefined) { if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) { val missing = getMissingParentStages(stage).sortBy(_.id) if (missing.isEmpty) { submitMissingTasks(stage, jobId.get) } else { for (parent <- missing) { submitStage(parent) } waitingStages += stage } } } } } 3.3 内存监控与优化内存存储状态监控 // 内存使用监控组件 class MemoryMonitor { // 监控Map的内存使用 def monitorMapMemory(map: SizeTrackingAppendOnlyMap[_, _]): MemoryUsage = { val estimatedSize = map.estimateSize() val currentMemory = map.currentMemory val maxMemory = map.maxMemory MemoryUsage( estimatedSize = estimatedSize, currentMemory = currentMemory, maxMemory = maxMemory, utilization = currentMemory.toDouble / maxMemory ) } // 监控Spill状态 def monitorSpillStatus(externalMap: ExternalAppendOnlyMap[_, _, _]): SpillStatus = { val spillCount = externalMap.spills.size val totalSpillSize = externalMap.spills.map(_.size).sum SpillStatus( spillCount = spillCount, totalSpillSize = totalSpillSize, averageSpillSize = if (spillCount > 0) totalSpillSize / spillCount else 0 ) } } case class MemoryUsage( estimatedSize: Long, currentMemory: Long, maxMemory: Long, utilization: Double) case class SpillStatus( spillCount: Int, totalSpillSize: Long, averageSpillSize: Long) 内存存储监控流程图 graph TD A[输入数据] --> B[PartitionedAppendOnlyMap] B --> C{内存是否足够?} C -->|是| D[内存聚合] C -->|否| E[Spill到磁盘] D --> F[返回结果] E --> G[ExternalAppendOnlyMap] G --> H[合并内存和磁盘数据] H --> F I[MemoryMonitor] --> B I --> G J[SpillMonitor] --> E 内存存储优化策略 // 内存分配优化 class MemoryOptimizer { // 动态调整内存阈值 def adjustMemoryThreshold( currentMemory: Long, maxMemory: Long, spillCount: Int): Long = { val utilization = currentMemory.toDouble / maxMemory if (utilization > 0.8 && spillCount > 0) { // 内存使用率高且有Spill，降低阈值 (maxMemory * 0.6).toLong } else if (utilization < 0.5 && spillCount == 0) { // 内存使用率低且无Spill，提高阈值 (maxMemory * 0.9).toLong } else { // 保持当前阈值 (maxMemory * 0.8).toLong } } // 优化Map初始容量 def optimizeInitialCapacity(dataSize: Long): Int = { val estimatedSize = (dataSize * 1.2).toInt math.max(64, math.min(estimatedSize, 1024 * 1024)) } } 3.4 TaskScheduler任务调度 DAG的生成与依赖分析任务提交完整流程图： ...

20.hbase

20. HBase 分布式列存储数据库技术指南目录点击展开目录 HBase基础概念什么是HBase HBase vs 关系型数据库 HBase应用场景 HBase架构原理整体架构核心组件数据存储模型 Region分片机制 HBase核心特性数据模型存储引擎一致性保证故障恢复 HBase安装部署环境要求单机模式集群模式配置优化 HBase操作指南 Shell命令 Java API 表设计最佳实践数据读写操作 HBase性能优化读写性能优化内存管理压缩策略监控与调优 HBase运维实践集群监控故障排查备份恢复版本升级 HBase面试题基础概念类架构原理类性能优化类实战应用类 HBase源码解析启动流程读写流程 Compaction机制负载均衡 HBase基础概念什么是HBase HBase（Hadoop Database）是一个分布式、可扩展、支持海量数据存储的NoSQL数据库，构建在Apache Hadoop的HDFS（Hadoop Distributed File System）之上。HBase采用了Google BigTable的设计思想，提供了对大型表的实时读写访问能力。 HBase的核心特点：列存储：数据按列族存储，支持稀疏、动态的列无模式：不需要预定义表结构，支持动态添加列强一致性：提供行级别的ACID特性自动分片：表会自动分割成多个Region进行分布式存储容错性：基于HDFS的多副本机制保证数据可靠性水平扩展：支持在线增加节点扩展存储和计算能力 HBase vs 关系型数据库特性维度 HBase 关系型数据库(MySQL/Oracle) 数据模型列族模型，稀疏表关系模型，固定schema 扩展性水平扩展，支持PB级数据垂直扩展，扩展能力有限一致性行级强一致性 ACID事务，表级一致性查询能力简单的增删改查，无SQL 复杂SQL查询，关联查询索引只有行键索引支持多种索引类型数据类型字节数组丰富的数据类型存储成本相对较低相对较高适用场景大数据量，简单查询复杂业务逻辑，事务处理 HBase应用场景 1. 时序数据存储物联网传感器数据：设备ID+时间戳作为行键，存储传感器读数日志分析系统：存储应用日志、访问日志等时间序列数据金融交易记录：存储股票价格、交易流水等历史数据 2. 内容存储系统 ...

21.flink

目录点击展开目录 - [目录](#目录) - [Flink 基础概念](#flink-基础概念) - [Flink 简介](#flink-简介) - [Flink 特点与优势](#flink-特点与优势) - [Flink 应用场景](#flink-应用场景) - [Flink 生态系统](#flink-生态系统) - [Flink 架构设计](#flink-架构设计) - [Flink 整体架构](#flink-整体架构) - [Flink 运行时架构](#flink-运行时架构) - [Flink 任务启动流程](#flink-任务启动流程) - [Flink 组件交互流程](#flink-组件交互流程) - [YARN 任务提交流程](#yarn-任务提交流程) - [YARN 资源管理流程](#yarn-资源管理流程) - [任务执行状态流转](#任务执行状态流转) - [故障恢复流程](#故障恢复流程) - [Flink 部署模式](#flink-部署模式) - [Flink 核心概念](#flink-核心概念) - [DataStream API](#datastream-api) - [DataStream API 基本架构](#datastream-api-基本架构) - [DataStream API 核心概念详解](#datastream-api-核心概念详解) - [DataStream API 高级特性](#datastream-api-高级特性) - [DataSet API](#dataset-api) - [DataSet API 基本使用](#dataset-api-基本使用) - [DataSet API 核心概念](#dataset-api-核心概念) - [Table API \& SQL](#table-api--sql) - [Table API 基本使用](#table-api-基本使用) - [Table API 核心概念](#table-api-核心概念) - [Table API 高级特性](#table-api-高级特性) - [流处理与批处理统一](#流处理与批处理统一) - [统一模型](#统一模型) - [统一API的优势](#统一api的优势) - [容错机制](#容错机制) - [检查点机制](#检查点机制) - [重启策略](#重启策略) - [性能优化](#性能优化) - [并行度设置](#并行度设置) - [资源管理](#资源管理) - [序列化优化](#序列化优化) - [DataSet API](#dataset-api-1) - [Table API \& SQL](#table-api--sql-1) - [时间语义](#时间语义) - [Watermark 机制详解](#watermark-机制详解) - [Watermark 基本概念](#watermark-基本概念) - [Watermark 生成策略](#watermark-生成策略) - [Watermark 传播机制](#watermark-传播机制) - [Watermark 与窗口触发](#watermark-与窗口触发) - [Watermark 延迟处理](#watermark-延迟处理) - [Watermark 监控与调试](#watermark-监控与调试) - [Watermark 最佳实践](#watermark-最佳实践) - [窗口机制](#窗口机制) - [窗口机制基本概念](#窗口机制基本概念) - [时间窗口详解](#时间窗口详解) - [计数窗口详解](#计数窗口详解) - [全局窗口详解](#全局窗口详解) - [窗口触发器详解](#窗口触发器详解) - [窗口驱逐器详解](#窗口驱逐器详解) - [窗口函数详解](#窗口函数详解) - [窗口机制最佳实践](#窗口机制最佳实践) - [状态管理](#状态管理) - [状态管理基本概念](#状态管理基本概念) - [键控状态详解](#键控状态详解) - [算子状态详解](#算子状态详解) - [广播状态详解](#广播状态详解) - [状态TTL（Time To Live）](#状态ttltime-to-live) - [状态管理最佳实践](#状态管理最佳实践) - [Flink 核心组件详解](#flink-核心组件详解) - [JobManager 源码分析](#jobmanager-源码分析) - [JobManager 启动流程](#jobmanager-启动流程) - [作业调度实现](#作业调度实现) - [检查点协调](#检查点协调) - [TaskManager 源码分析](#taskmanager-源码分析) - [TaskManager 启动流程](#taskmanager-启动流程) - [任务执行实现](#任务执行实现) - [内存管理](#内存管理) - [Flink 网络栈](#flink-网络栈) - [网络组件架构](#网络组件架构) - [数据传输机制](#数据传输机制) - [背压处理](#背压处理) - [Flink 状态后端](#flink-状态后端) - [MemoryStateBackend](#memorystatebackend) - [FsStateBackend](#fsstatebackend) - [RocksDBStateBackend](#rocksdbstatebackend) - [Flink 编程模型](#flink-编程模型) - [DataStream API 编程](#datastream-api-编程) - [数据源与数据汇](#数据源与数据汇) - [转换操作](#转换操作) - [窗口操作](#窗口操作) - [时间处理](#时间处理) - [Flink 常用算子详解](#flink-常用算子详解) - [数据源算子 (Source Operators)](#数据源算子-source-operators) - [1. 内置数据源](#1-内置数据源) - [2. 自定义数据源](#2-自定义数据源) - [转换算子 (Transformation Operators)](#转换算子-transformation-operators) - [1. 单流转换算子](#1-单流转换算子) - [2. 多流转换算子](#2-多流转换算子) - [3. 分区算子](#3-分区算子) - [4. 双流 Join 详解](#4-双流-join-详解) - [数据汇算子 (Sink Operators)](#数据汇算子-sink-operators) - [1. 内置数据汇](#1-内置数据汇) - [2. 自定义数据汇](#2-自定义数据汇) - [Flink 特有方法详解](#flink-特有方法详解) - [触发器 (Triggers)](#触发器-triggers) - [1. 内置触发器](#1-内置触发器) - [2. 自定义触发器](#2-自定义触发器) - [驱逐器 (Evictors)](#驱逐器-evictors) - [1. 内置驱逐器](#1-内置驱逐器) - [2. 自定义驱逐器](#2-自定义驱逐器) - [窗口分配器 (Window Assigners)](#窗口分配器-window-assigners) - [1. 内置窗口分配器](#1-内置窗口分配器) - [状态访问器 (State Accessors)](#状态访问器-state-accessors) - [1. 键控状态访问器](#1-键控状态访问器) - [2. 算子状态访问器](#2-算子状态访问器) - [时间服务 (Time Service)](#时间服务-time-service) - [侧输出流 (Side Outputs)](#侧输出流-side-outputs) - [Table API 编程](#table-api-编程) - [Table 环境配置](#table-环境配置) - [Table 操作](#table-操作) - [SQL 查询](#sql-查询) - [CEP 复杂事件处理](#cep-复杂事件处理) - [Pattern 定义](#pattern-定义) - [事件序列匹配](#事件序列匹配) - [CEP 应用场景](#cep-应用场景) - [Flink 性能优化](#flink-性能优化) - [资源配置优化](#资源配置优化) - [内存配置](#内存配置) - [并行度设置](#并行度设置-1) - [网络缓冲区](#网络缓冲区) - [状态管理优化](#状态管理优化) - [状态大小优化](#状态大小优化) - [状态访问优化](#状态访问优化) - [状态清理策略](#状态清理策略) - [检查点优化](#检查点优化) - [检查点间隔设置](#检查点间隔设置) - [检查点对齐](#检查点对齐) - [非对齐检查点](#非对齐检查点) - [背压处理优化](#背压处理优化) - [背压监控](#背压监控) - [背压缓解策略](#背压缓解策略) - [资源配置调整](#资源配置调整) - [Flink 运维与监控](#flink-运维与监控) - [集群部署](#集群部署) - [Standalone 部署](#standalone-部署) - [YARN 部署](#yarn-部署) - [Kubernetes 部署](#kubernetes-部署) - [监控管理](#监控管理) - [Metrics 监控](#metrics-监控) - [日志管理](#日志管理) - [告警配置](#告警配置) - [故障排查](#故障排查) - [常见问题诊断](#常见问题诊断) - [性能问题分析](#性能问题分析) - [故障恢复策略](#故障恢复策略) - [Flink 高级特性](#flink-高级特性) - [容错机制](#容错机制-1) - [检查点机制](#检查点机制-1) - [保存点机制](#保存点机制) - [故障恢复策略](#故障恢复策略-1) - [状态管理](#状态管理-1) - [键控状态](#键控状态) - [算子状态](#算子状态) - [广播状态](#广播状态) - [时间处理](#时间处理-1) - [事件时间](#事件时间) - [处理时间](#处理时间) - [摄入时间](#摄入时间) - [窗口计算](#窗口计算) - [时间窗口](#时间窗口) - [计数窗口](#计数窗口) - [会话窗口](#会话窗口) - [Flink 典型面试题与答疑](#flink-典型面试题与答疑) - [基础概念面试题](#基础概念面试题) - [1. Flink架构与特点](#1-flink架构与特点) - [2. 流处理vs批处理](#2-流处理vs批处理) - [3. 时间语义与窗口](#3-时间语义与窗口) - [核心组件面试题](#核心组件面试题) - [4. JobManager与TaskManager](#4-jobmanager与taskmanager) - [5. 状态管理与状态后端](#5-状态管理与状态后端) - [6. 检查点与容错](#6-检查点与容错) - [性能优化面试题](#性能优化面试题) - [7. 背压处理](#7-背压处理) - [8. 资源配置优化](#8-资源配置优化) - [9. 状态优化](#9-状态优化) - [实际应用面试题](#实际应用面试题) - [10. 实时数据处理流程](#10-实时数据处理流程) - [11. 性能调优实践](#11-性能调优实践) - [12. 最佳实践](#12-最佳实践) - [核心组件面试题](#核心组件面试题-1) - [6. JobManager与TaskManager](#6-jobmanager与taskmanager) - [7. 状态管理与状态后端](#7-状态管理与状态后端) - [8. 检查点与容错](#8-检查点与容错) - [9. 网络栈与数据传输](#9-网络栈与数据传输) - [10. 内存管理](#10-内存管理) - [性能优化面试题](#性能优化面试题-1) - [11. 背压处理](#11-背压处理) - [12. 资源配置优化](#12-资源配置优化) - [13. 状态优化](#13-状态优化) - [14. 检查点优化](#14-检查点优化) - [15. 序列化优化](#15-序列化优化) - [实际应用面试题](#实际应用面试题-1) - [16. 实时数据处理流程](#16-实时数据处理流程) - [17. 性能调优实践](#17-性能调优实践) - [18. 故障排查与监控](#18-故障排查与监控) - [19. 最佳实践总结](#19-最佳实践总结) - [20. 架构设计案例](#20-架构设计案例) - [面试技巧总结](#面试技巧总结) - [1. 技术深度](#1-技术深度) - [2. 技术广度](#2-技术广度) - [3. 问题解决能力](#3-问题解决能力) - [4. 学习能力](#4-学习能力) - [Flink 常见任务报错及解决办法](#flink-常见任务报错及解决办法) - [内存相关错误](#内存相关错误) - [1. OutOfMemoryError: Java heap space](#1-outofmemoryerror-java-heap-space) - [2. OutOfMemoryError: Direct buffer memory](#2-outofmemoryerror-direct-buffer-memory) - [3. OutOfMemoryError: Metaspace](#3-outofmemoryerror-metaspace) - [网络相关错误](#网络相关错误) - [1. ConnectionTimeoutException](#1-connectiontimeoutexception) - [2. BindException](#2-bindexception) - [序列化相关错误](#序列化相关错误) - [1. NotSerializableException](#1-notserializableexception) - [2. KryoSerializationException](#2-kryoserializationexception) - [状态相关错误](#状态相关错误) - [1. StateBackendException](#1-statebackendexception) - [2. CheckpointException](#2-checkpointexception) - [资源相关错误](#资源相关错误) - [1. NoResourceAvailableException](#1-noresourceavailableexception) - [2. ClassNotFoundException](#2-classnotfoundexception) - [数据源相关错误](#数据源相关错误) - [1. Kafka连接错误](#1-kafka连接错误) - [2. HDFS连接错误](#2-hdfs连接错误) - [调试和诊断工具](#调试和诊断工具) - [1. Flink Web UI](#1-flink-web-ui) - [2. 日志分析](#2-日志分析) - [3. 性能分析工具](#3-性能分析工具) - [4. 调试代码](#4-调试代码) - [预防措施](#预防措施) - [1. 配置优化](#1-配置优化) - [2. 代码最佳实践](#2-代码最佳实践) - [3. 监控告警](#3-监控告警) Flink 基础概念 Flink 简介 Flink 特点与优势 Apache Flink是一个开源的分布式流处理和批处理统一计算引擎，具有以下核心特点： ...

21.1.flink源码解析

21.1 Flink源码解析目录点击展开目录一、Flink核心架构与初始化 1.1 Flink运行时架构 1.2 JobManager启动流程 1.3 TaskManager启动流程二、作业图构建与优化 2.1 StreamGraph构建 2.2 JobGraph生成 2.3 ExecutionGraph创建 2.4 物理图部署三、任务调度系统 3.1 调度器架构 3.2 任务部署流程 Flink完整作业执行时序图详细技术实现时序图关键时间节点说明 Flink YARN模式完整执行时序图 Flink与Spark YARN模式对比 3.3 资源分配机制 3.4 故障恢复调度四、内存管理系统 4.1 内存管理架构 4.2 网络内存管理 4.3 堆外内存使用五、状态管理机制 5.1 状态存储架构 5.2 KeyedState实现 5.3 OperatorState实现 5.4 状态后端详解六、检查点机制 6.1 检查点协调器 6.2 分布式快照算法 6.3 检查点存储 6.4 恢复机制七、网络通信系统 7.1 网络栈架构 7.2 数据传输机制 7.3 背压处理 7.4 网络缓冲管理八、时间与窗口机制 8.1 时间语义实现 8.2 Watermark机制 8.3 窗口算子实现 8.4 定时器服务九、容错与监控机制 9.1 异常处理机制 9.2 重启策略 9.3 监控指标系统一、Flink核心架构与初始化 1.1 Flink运行时架构 Flink整体架构图 graph TD A[Client客户端] --> B[JobManager] B --> C[ResourceManager] B --> D[Dispatcher] B --> E[JobMaster] E --> F[TaskManager 1] E --> G[TaskManager 2] E --> H[TaskManager N] F --> F1[Task Slot 1] F --> F2[Task Slot 2] G --> G1[Task Slot 1] G --> G2[Task Slot 2] H --> H1[Task Slot 1] H --> H2[Task Slot 2] I[Checkpoint Coordinator] --> E J[State Backend] --> F J --> G J --> H style A fill:#e1f5fe style B fill:#fff3e0 style E fill:#e8f5e8 style I fill:#ffebee Flink组件职责组件职责核心功能 JobManager 集群主节点作业调度、检查点协调、故障恢复 TaskManager 工作节点任务执行、数据缓存、网络通信 ResourceManager 资源管理资源分配、Slot管理 Dispatcher 作业分发接收作业、启动JobMaster JobMaster 作业主控单个作业的调度和执行控制 1.2 JobManager启动流程 JobManager启动流程图 graph TD A[JobManager进程启动] --> B[创建ActorSystem] B --> C[初始化ResourceManager] C --> D[启动Dispatcher] D --> E[启动WebUI服务] E --> F[初始化HA服务] F --> G[注册到服务发现] G --> H[等待作业提交] H --> I[接收作业提交] I --> J[创建JobMaster] J --> K[启动JobMaster] K --> L[开始作业调度] style A fill:#e1f5fe style J fill:#fff3e0 style L fill:#e8f5e8 JobManager启动源码分析 // JobManagerRunner.scala - JobManager启动入口 class JobManagerRunner( jobGraph: JobGraph, configuration: Configuration, rpcService: RpcService, resourceManagerGateway: ResourceManagerGateway) { // JobMaster实例 private var jobMaster: JobMaster = _ private var jobMasterGateway: JobMasterGateway = _ // 启动JobMaster的核心方法 def start(): Unit = { try { // 1. 创建JobMaster jobMaster = new JobMaster( rpcService, jobGraph, configuration, resourceManagerGateway, heartbeatServices, scheduledExecutorService, blobWriter, highAvailabilityServices, fatalErrorHandler) // 2. 启动JobMaster jobMaster.start() // 3. 获取JobMaster网关 val timeout = Time.fromDuration(configuration.get(AkkaOptions.ASK_TIMEOUT)) jobMasterGateway = jobMaster.getSelfGateway(classOf[JobMasterGateway]) // 4. 向ResourceManager注册 registerJobMasterWithResourceManager() // 5. 开始调度执行图 jobMaster.scheduleExecutionGraph() logInfo(s"Started JobMaster for job ${jobGraph.getJobID}") } catch { case e: Exception => logError(s"Failed to start JobMaster for job ${jobGraph.getJobID}", e) throw e } } // 向ResourceManager注册JobMaster private def registerJobMasterWithResourceManager(): Unit = { val registrationFuture = resourceManagerGateway.registerJobManager( jobMasterGateway, jobGraph.getJobID, jobMaster.getAddress, jobGraph.getJobConfiguration) registrationFuture.whenComplete { (result, throwable) => if (throwable != null) { logError("Failed to register JobMaster with ResourceManager", throwable) jobMaster.failJob(throwable) } else { logInfo("Successfully registered JobMaster with ResourceManager") } } } } 1.3 TaskManager启动流程 TaskManager启动流程图 graph TD A[TaskManager进程启动] --> B[解析配置参数] B --> C[创建TaskManagerServices] C --> D[初始化内存管理器] D --> E[创建网络环境] E --> F[初始化Slot管理器] F --> G[启动心跳服务] G --> H[连接到ResourceManager] H --> I[注册TaskManager] I --> J[等待任务分配] J --> K[接收任务部署请求] K --> L[创建Task实例] L --> M[启动Task执行] M --> N[报告任务状态] style A fill:#e1f5fe style E fill:#fff3e0 style I fill:#e8f5e8 style N fill:#c8e6c9 TaskManager启动核心源码 // TaskManagerRunner.scala - TaskManager启动核心类 class TaskManagerRunner( configuration: Configuration, resourceID: ResourceID) { private var taskManager: TaskExecutor = _ private var taskManagerService: TaskManagerServices = _ // TaskManager启动的主要方法 def start(): CompletableFuture[Void] = { return CompletableFuture.runAsync(() => { try { // 1. 创建TaskManager服务组件 taskManagerService = TaskManagerServices.fromConfiguration( configuration, resourceID, rpcService, highAvailabilityServices, heartbeatServices, metricRegistry, blobCacheService, localRecoveryDirectoryProvider, fatalErrorHandler) // 2. 创建TaskExecutor taskManager = new TaskExecutor( rpcService, taskManagerService.getTaskManagerConfiguration, taskManagerService.getTaskSlotTable, taskManagerService.getJobManagerTable, taskManagerService.getJobLeaderService, taskManagerService.getTaskStateManager, taskManagerService.getMemoryManager, taskManagerService.getIOManager, taskManagerService.getNetworkEnvironment, taskManagerService.getBroadcastVariableManager, taskManagerService.getTaskEventDispatcher, taskManagerService.getKvStateService, fatalErrorHandler, taskManagerService.getPartitionTracker) // 3. 启动TaskExecutor taskManager.start() // 4. 等待终止信号 taskManager.getTerminationFuture().get() } catch { case e: Exception => logError("Failed to start TaskManager", e) throw new RuntimeException("Failed to start TaskManager", e) } }, ioExecutor) } // TaskExecutor初始化和资源连接 def connectToResourceManager(): Unit = { val resourceManagerAddress = configuration.getString( JobManagerOptions.ADDRESS) val resourceManagerPort = configuration.getInteger( JobManagerOptions.PORT) // 连接到ResourceManager val connectionFuture = taskManager.connectToResourceManager( resourceManagerAddress, resourceManagerPort) connectionFuture.whenComplete { (connection, throwable) => if (throwable != null) { logError("Failed to connect to ResourceManager", throwable) fatalErrorHandler.onFatalError(throwable) } else { logInfo("Successfully connected to ResourceManager") } } } } 二、作业图构建与优化 2.1 StreamGraph构建 StreamGraph构建流程图 graph TD A[用户程序启动] --> B[调用StreamExecutionEnvironment] B --> C[添加Source算子] C --> D[添加Transformation算子] D --> E[添加Sink算子] E --> F["调用execute()方法"] F --> G["StreamGraphGenerator.generate()"] G --> H[遍历Transformations] H --> I[创建StreamNode] I --> J[创建StreamEdge] J --> K[设置并行度和资源] K --> L[配置链接策略] L --> M[生成StreamGraph] style A fill:#e1f5fe style F fill:#fff3e0 style M fill:#e8f5e8 StreamGraph构建源码分析 // StreamGraphGenerator.scala - StreamGraph生成器 class StreamGraphGenerator( transformations: util.List[Transformation[_]], config: StreamExecutionEnvironment.Config, checkpointCfg: CheckpointConfig) { private val streamGraph = new StreamGraph(config.getExecutionConfig, checkpointCfg) private val alreadyTransformed = new util.HashMap[Transformation[_], util.Collection[Integer]]() // 生成StreamGraph的主要方法 def generate(): StreamGraph = { // 1. 遍历所有的Transformation for (transformation <- transformations.asScala) { transform(transformation) } // 2. 设置环境配置 streamGraph.setEnvironmentConfig(config) streamGraph.setCheckpointConfig(checkpointCfg) streamGraph.setScheduleMode(config.getExecutionConfig.getExecutionMode) // 3. 配置算子链接 streamGraph.setChaining(config.getExecutionConfig.isChainingEnabled) // 4. 设置状态后端 if (config.getStateBackend != null) { streamGraph.setStateBackend(config.getStateBackend) } streamGraph } // 转换单个Transformation为StreamNode private def transform(transform: Transformation[_]): util.Collection[Integer] = { if (alreadyTransformed.containsKey(transform)) { return alreadyTransformed.get(transform) } val transformationName = transform.getName val transformationUID = transform.getUid transform match { case sourceTransform: SourceTransformation[_] => transformSource(sourceTransform) case sinkTransform: SinkTransformation[_] => transformSink(sinkTransform) case oneInputTransform: OneInputTransformation[_, _] => transformOneInput(oneInputTransform) case twoInputTransform: TwoInputTransformation[_, _, _] => transformTwoInput(twoInputTransform) case multiInputTransform: MultiInputTransformation[_] => transformMultiInput(multiInputTransform) case _ => throw new IllegalStateException(s"Unknown transformation type: ${transform.getClass}") } } // 转换Source算子 private def transformSource[T]( sourceTransform: SourceTransformation[T]): util.Collection[Integer] = { // 1. 创建StreamNode val nodeId = streamGraph.addSource( sourceTransform.getOperatorFactory, sourceTransform.getInputType, sourceTransform.getOutputType, sourceTransform.getName) // 2. 设置并行度 if (sourceTransform.getParallelism != -1) { streamGraph.setParallelism(nodeId, sourceTransform.getParallelism) } // 3. 设置资源需求 if (sourceTransform.getMinResources != null) { streamGraph.setResources(nodeId, sourceTransform.getMinResources, sourceTransform.getPreferredResources) } // 4. 设置Slot共享组 streamGraph.setSlotSharingGroup(nodeId, sourceTransform.getSlotSharingGroup) val result = util.Collections.singletonList(nodeId) alreadyTransformed.put(sourceTransform, result) result } // 转换单输入算子 private def transformOneInput[IN, OUT]( transform: OneInputTransformation[IN, OUT]): util.Collection[Integer] = { // 1. 递归处理输入Transformation val inputIds = transform(transform.getInput) // 2. 创建StreamNode val nodeId = streamGraph.addOperator( transform.getOperatorFactory, transform.getInputType, transform.getOutputType, transform.getName) // 3. 创建StreamEdge连接输入和当前节点 for (inputId <- inputIds.asScala) { streamGraph.addEdge(inputId, nodeId, 0) } // 4. 配置节点属性 configureNode(nodeId, transform) val result = util.Collections.singletonList(nodeId) alreadyTransformed.put(transform, result) result } // 配置StreamNode的通用属性 private def configureNode(nodeId: Integer, transform: Transformation[_]): Unit = { // 设置并行度 if (transform.getParallelism != -1) { streamGraph.setParallelism(nodeId, transform.getParallelism) } // 设置最大并行度 if (transform.getMaxParallelism > 0) { streamGraph.setMaxParallelism(nodeId, transform.getMaxParallelism) } // 设置资源需求 if (transform.getMinResources != null) { streamGraph.setResources(nodeId, transform.getMinResources, transform.getPreferredResources) } // 设置Slot共享组 streamGraph.setSlotSharingGroup(nodeId, transform.getSlotSharingGroup) // 设置算子链接策略 streamGraph.setChainingStrategy(nodeId, transform.getChainingStrategy) } } 2.2 JobGraph生成 JobGraph优化流程图 graph TD A[StreamGraph] --> B[算子链接分析] B --> C[创建JobVertex] C --> D[设置JobEdge] D --> E[配置输入输出] E --> F[资源需求计算] F --> G[检查点配置] G --> H[生成JobGraph] B --> B1[识别可链接算子] B1 --> B2[合并算子] B2 --> B3[创建算子链] B3 --> C style A fill:#e1f5fe style B1 fill:#fff3e0 style H fill:#e8f5e8 JobGraph生成核心源码 // StreamingJobGraphGenerator.scala - JobGraph生成器 class StreamingJobGraphGenerator( streamGraph: StreamGraph, jobID: JobID) { private val jobGraph = new JobGraph(jobID, streamGraph.getJobName) private val chainedConfigs = new util.HashMap[Integer, StreamConfig]() private val vertexConfigs = new util.HashMap[Integer, StreamConfig]() // 生成JobGraph的主要入口 def createJobGraph(): JobGraph = { preValidate() // 1. 设置调度模式 jobGraph.setScheduleMode(streamGraph.getScheduleMode) jobGraph.enableApproximateLocalRecovery(streamGraph.getCheckpointConfig.isApproximateLocalRecoveryEnabled) // 2. 设置检查点配置 configureCheckpointing() // 3. 设置SavePoint配置 jobGraph.setSavepointRestoreSettings(streamGraph.getSavepointRestoreSettings) // 4. 创建算子链 setChaining() // 5. 配置JobVertex for ((vertexID, vertex) <- jobVertices.asScala) { configureJobVertex(vertex) } // 6. 设置Slot共享和Co-location约束 setSlotSharingAndCoLocation() // 7. 配置检查点钩子 configureCheckpointHooks() jobGraph } // 算子链接的核心逻辑 private def setChaining(): Unit = { // 1. 找到所有的Source节点 val sourceNodes = streamGraph.getSourceIDs.asScala for (sourceNodeId <- sourceNodes) { // 2. 从Source开始创建算子链 createChain(sourceNodeId, sourceNodeId, hashes, legacyHashes, 0, chainIndex) } } // 创建算子链的递归方法 private def createChain( startNodeId: Integer, currentNodeId: Integer, hashes: util.Map[Integer, Array[Byte]], legacyHashes: util.Map[Integer, Array[Byte]], chainIndex: Int, chainLength: Int): util.List[StreamEdge] = { val currentNode = streamGraph.getStreamNode(currentNodeId) val chainableOutputs = new util.ArrayList[StreamEdge]() val nonChainableOutputs = new util.ArrayList[StreamEdge]() // 1. 分析输出边，判断是否可以链接 for (outEdge <- currentNode.getOutEdges.asScala) { if (isChainable(outEdge, streamGraph)) { chainableOutputs.add(outEdge) } else { nonChainableOutputs.add(outEdge) } } // 2. 递归处理可链接的输出 for (chainableOutput <- chainableOutputs.asScala) { createChain( startNodeId, chainableOutput.getTargetId, hashes, legacyHashes, chainIndex, chainLength + 1) } // 3. 如果当前节点是链的起始节点，创建JobVertex if (currentNodeId == startNodeId) { val jobVertex = createJobVertex(startNodeId, hashes, legacyHashes, chainedSources) // 4. 处理非链接输出 for (nonChainableOutput <- nonChainableOutputs.asScala) { val targetChainStartNode = createChain( nonChainableOutput.getTargetId, nonChainableOutput.getTargetId, hashes, legacyHashes, chainIndex + 1, 0) // 创建JobEdge连接JobVertex val jobEdge = new JobEdge(targetVertex, DistributionPattern.POINTWISE) jobVertex.connectNewDataSetAsInput( targetVertex, DistributionPattern.POINTWISE, ResultPartitionType.PIPELINED) } } chainableOutputs } // 判断两个算子是否可以链接 private def isChainable(edge: StreamEdge, streamGraph: StreamGraph): Boolean = { val downStreamVertex = streamGraph.getTargetVertex(edge) val upStreamVertex = streamGraph.getSourceVertex(edge) // 检查链接条件 return upStreamVertex.isSameSlotSharingGroup(downStreamVertex) && areOperatorsChainable(upStreamVertex, downStreamVertex, streamGraph) && (edge.getPartitioner match { case _: ForwardPartitioner => true case _: RescalePartitioner => upStreamVertex.getParallelism == downStreamVertex.getParallelism case _ => false }) } // 创建JobVertex private def createJobVertex( streamNodeId: Integer, hashes: util.Map[Integer, Array[Byte]], legacyHashes: util.Map[Integer, Array[Byte]], chainedSources: util.List[Integer]): JobVertex = { val streamNode = streamGraph.getStreamNode(streamNodeId) val jobVertex = new JobVertex(streamNode.getOperatorName) // 1. 设置调用类 jobVertex.setInvokableClass(classOf[StreamTask[_, _]]) // 2. 设置并行度 jobVertex.setParallelism(streamNode.getParallelism) // 3. 设置最大并行度 if (streamNode.getMaxParallelism > 0) { jobVertex.setMaxParallelism(streamNode.getMaxParallelism) } // 4. 设置资源需求 if (streamNode.getMinResources != null) { jobVertex.setResources(streamNode.getMinResources, streamNode.getPreferredResources) } // 5. 配置StreamConfig val config = new StreamConfig(jobVertex.getConfiguration) setVertexConfig(streamNodeId, config, chainedSources, chainedOutputs) jobGraph.addVertex(jobVertex) jobVertices.put(streamNodeId, jobVertex) jobVertex } } 2.3 ExecutionGraph创建 ExecutionGraph构建流程图 graph TD A[JobGraph] --> B[ExecutionGraphBuilder] B --> C[创建ExecutionJobVertex] C --> D[创建ExecutionVertex] D --> E[创建Execution] E --> F[分析数据流依赖] F --> G[创建IntermediateResult] G --> H[连接ExecutionEdge] H --> I[配置调度约束] I --> J[ExecutionGraph完成] C --> C1[设置并行度] C1 --> C2[分配Slot共享组] C2 --> C3[设置Co-location约束] C3 --> D style A fill:#e1f5fe style B fill:#fff3e0 style J fill:#e8f5e8 ExecutionGraph构建源码 // ExecutionGraphBuilder.scala - ExecutionGraph构建器 object ExecutionGraphBuilder { // 从JobGraph构建ExecutionGraph的主要方法 def buildGraph( jobGraph: JobGraph, configuration: Configuration, futureExecutor: ScheduledExecutorService, ioExecutor: Executor, userCodeClassLoader: ClassLoader, checkpointRecoveryFactory: CompletedCheckpointStore, rpcTimeout: Time, blobWriter: BlobWriter, log: Logger): ExecutionGraph = { // 1. 创建ExecutionGraph实例 val executionGraph = new ExecutionGraph( jobGraph.getJobID, jobGraph.getName, jobGraph.getJobConfiguration, futureExecutor, ioExecutor, rpcTimeout, checkpointRecoveryFactory, userCodeClassLoader) try { // 2. 设置调度模式 executionGraph.setScheduleMode(jobGraph.getScheduleMode) // 3. 设置JSON计划 executionGraph.setJsonPlan(JsonPlanGenerator.generatePlan(jobGraph)) // 4. 构建ExecutionJobVertex val sortedTopology = jobGraph.getVerticesSortedTopologicallyFromSources for (jobVertex <- sortedTopology.asScala) { val executionJobVertex = createExecutionJobVertex( executionGraph, jobVertex, userCodeClassLoader, log) executionGraph.attachJobVertex(executionJobVertex) } // 5. 连接ExecutionJobVertex之间的边 connectExecutionJobVertices(executionGraph, sortedTopology, log) // 6. 配置检查点 configureCheckpointing(executionGraph, jobGraph, log) // 7. 配置Slot共享和Co-location configureSlotSharingAndCoLocation(executionGraph, jobGraph) executionGraph } catch { case e: Exception => log.error(s"Failed to build ExecutionGraph from JobGraph ${jobGraph.getJobID}", e) throw new JobException("Failed to build ExecutionGraph", e) } } // 创建ExecutionJobVertex private def createExecutionJobVertex( executionGraph: ExecutionGraph, jobVertex: JobVertex, userCodeClassLoader: ClassLoader, log: Logger): ExecutionJobVertex = { // 1. 创建ExecutionJobVertex val executionJobVertex = new ExecutionJobVertex( executionGraph, jobVertex, jobVertex.getParallelism, jobVertex.getMaxParallelism, userCodeClassLoader) // 2. 创建ExecutionVertex数组 val parallelism = jobVertex.getParallelism val taskVertices = new Array[ExecutionVertex](parallelism) for (i <- 0 until parallelism) { taskVertices(i) = new ExecutionVertex( executionJobVertex, i, createIntermediateResults(jobVertex, i), rpcTimeout) } executionJobVertex.setTaskVertices(taskVertices) // 3. 初始化算子坐标器（如果需要） val coordinatorClassName = jobVertex.getOperatorCoordinatorClassName if (coordinatorClassName != null) { val coordinatorFactory = createOperatorCoordinatorFactory( coordinatorClassName, userCodeClassLoader) executionJobVertex.setOperatorCoordinatorFactory(coordinatorFactory) } executionJobVertex } // 连接ExecutionJobVertex之间的边 private def connectExecutionJobVertices( executionGraph: ExecutionGraph, sortedTopology: util.List[JobVertex], log: Logger): Unit = { for (jobVertex <- sortedTopology.asScala) { val executionJobVertex = executionGraph.getJobVertex(jobVertex.getID) // 处理每个输入 for (i <- 0 until jobVertex.getNumberOfInputs) { val jobEdge = jobVertex.getInputs.get(i) val sourceJobVertex = jobEdge.getSource.getProducer val sourceExecutionJobVertex = executionGraph.getJobVertex(sourceJobVertex.getID) // 创建ExecutionEdge connectJobVertices( sourceExecutionJobVertex, executionJobVertex, jobEdge, log) } } } // 连接两个ExecutionJobVertex private def connectJobVertices( sourceJobVertex: ExecutionJobVertex, targetJobVertex: ExecutionJobVertex, jobEdge: JobEdge, log: Logger): Unit = { val sourceIntermediateResult = sourceJobVertex.getProducedDataSets()(jobEdge.getSourceIndex) val targetIntermediateDataSet = targetJobVertex.getInputs.get(jobEdge.getTargetIndex) // 连接中间结果 targetIntermediateDataSet.setSource(sourceIntermediateResult) // 根据分发模式创建ExecutionEdge val distributionPattern = jobEdge.getDistributionPattern distributionPattern match { case DistributionPattern.POINTWISE => connectPointwise(sourceJobVertex, targetJobVertex, sourceIntermediateResult) case DistributionPattern.ALL_TO_ALL => connectAllToAll(sourceJobVertex, targetJobVertex, sourceIntermediateResult) case _ => throw new IllegalStateException(s"Unknown distribution pattern: $distributionPattern") } } // 点对点连接模式 private def connectPointwise( sourceJobVertex: ExecutionJobVertex, targetJobVertex: ExecutionJobVertex, intermediateResult: IntermediateResult): Unit = { val sourceParallelism = sourceJobVertex.getParallelism val targetParallelism = targetJobVertex.getParallelism require(sourceParallelism == targetParallelism, "Pointwise connection requires same parallelism") for (i <- 0 until sourceParallelism) { val sourceVertex = sourceJobVertex.getTaskVertices()(i) val targetVertex = targetJobVertex.getTaskVertices()(i) val resultPartition = intermediateResult.getPartitions()(i) val inputGate = new IntermediateResultPartition(resultPartition) val executionEdge = new ExecutionEdge( sourceVertex, targetVertex, resultPartition, inputGate) targetVertex.addInputSource(executionEdge) } } // 全连接模式 private def connectAllToAll( sourceJobVertex: ExecutionJobVertex, targetJobVertex: ExecutionJobVertex, intermediateResult: IntermediateResult): Unit = { val sourceParallelism = sourceJobVertex.getParallelism val targetParallelism = targetJobVertex.getParallelism for (i <- 0 until targetParallelism) { val targetVertex = targetJobVertex.getTaskVertices()(i) for (j <- 0 until sourceParallelism) { val sourceVertex = sourceJobVertex.getTaskVertices()(j) val resultPartition = intermediateResult.getPartitions()(j) val inputGate = new IntermediateResultPartition(resultPartition) val executionEdge = new ExecutionEdge( sourceVertex, targetVertex, resultPartition, inputGate) targetVertex.addInputSource(executionEdge) } } } } 2.4 物理图部署物理部署流程图 graph TD A[ExecutionGraph] --> B[调度器启动] B --> C[分配Slot资源] C --> D[创建TaskDeploymentDescriptor] D --> E[发送部署请求到TaskManager] E --> F[TaskManager创建Task] F --> G[初始化算子] G --> H[连接网络通道] H --> I[启动Task执行] I --> J[报告任务状态] C --> C1[请求Slot] C1 --> C2[分配物理资源] C2 --> C3[建立网络连接] C3 --> D style A fill:#e1f5fe style D fill:#fff3e0 style I fill:#e8f5e8 style J fill:#c8e6c9 三、任务调度系统 3.1 调度器架构 Flink调度器架构图 graph TD A[JobMaster] --> B[SchedulerNG调度器] B --> C[ExecutionSlotAllocator] B --> D[ExecutionVertexSchedulingRequirementsProvider] B --> E[ExecutionFailureHandler] C --> F[SlotProvider] F --> G[ResourceManager] G --> H[TaskManager资源池] B --> I[DefaultScheduler] I --> J[SchedulingStrategy调度策略] J --> K[EagerSchedulingStrategy] J --> L[LazyFromSourcesSchedulingStrategy] J --> M[PipelinedRegionSchedulingStrategy] style A fill:#e1f5fe style B fill:#fff3e0 style I fill:#e8f5e8 style J fill:#ffebee 调度器核心源码 // DefaultScheduler.scala - 默认调度器实现 class DefaultScheduler( log: Logger, jobGraph: JobGraph, backtrackingStateStore: BacktrackingStateStore, ioExecutor: Executor, jobMasterConfiguration: Configuration, slotProvider: SlotProvider, scheduledExecutorService: ScheduledExecutorService, userCodeLoader: ClassLoader, checkpointCleaner: CheckpointCleaner, checkpointRecoveryFactory: CompletedCheckpointStore, failureEnricher: FailureEnricher, rpcTimeout: Time) extends SchedulerNG { // 执行图 private val executionGraph: ExecutionGraph = createAndRestoreExecutionGraph() // 调度策略 private val schedulingStrategy: SchedulingStrategy = createSchedulingStrategy() // 失败处理器 private val executionFailureHandler: ExecutionFailureHandler = new RestartPipelinedRegionFailureHandler( executionGraph, schedulingStrategy, backtrackingStateStore, rpcTimeout, log) // Slot分配器 private val executionSlotAllocator: ExecutionSlotAllocator = new DefaultExecutionSlotAllocator( slotProvider, new DefaultPreferredLocationsRetriever( StateLocations.StateAssignmentOperation.LOAD), rpcTimeout) // 启动调度 override def startScheduling(): Unit = { checkState(schedulingStrategy != null, "Scheduling strategy must be initialized") try { // 1. 准备执行图进行调度 prepareExecutionGraphForNgScheduling() // 2. 启动检查点协调器 startCheckpointScheduler() // 3. 开始调度执行 schedulingStrategy.startScheduling() log.info("Started scheduling for job {}", jobGraph.getJobID) } catch { case e: Exception => log.error("Failed to start scheduling", e) failJob(e) } } // 创建调度策略 private def createSchedulingStrategy(): SchedulingStrategy = { val schedulingStrategyFactory = jobMasterConfiguration.get( JobManagerOptions.SCHEDULING_STRATEGY) match { case "eager" => new EagerSchedulingStrategy.Factory() case "lazy_from_sources" => new LazyFromSourcesSchedulingStrategy.Factory() case "pipelined_region" => new PipelinedRegionSchedulingStrategy.Factory() case other => throw new IllegalArgumentException(s"Unknown scheduling strategy: $other") } schedulingStrategyFactory.createInstance( this, executionGraph, executionSlotAllocator, scheduledExecutorService) } // 分配Slot并部署任务 override def allocateSlotAndDeploy( executionVertexId: ExecutionVertexID, requiredSlotProfile: SlotProfile, allowQueuedScheduling: Boolean): CompletableFuture[Void] = { // 1. 分配Slot val slotAllocationFuture = executionSlotAllocator.allocateSlot( new ExecutionVertexSchedulingRequirements.Builder() .withExecutionVertexId(executionVertexId) .withSlotProfile(requiredSlotProfile) .build(), allowQueuedScheduling) // 2. 部署任务 slotAllocationFuture.thenCompose { logicalSlot => val executionVertex = getExecutionVertex(executionVertexId) val deployment = executionVertex.getCurrentExecutionAttempt deployTask(deployment, logicalSlot) } } // 部署任务到TaskManager private def deployTask( execution: Execution, logicalSlot: LogicalSlot): CompletableFuture[Void] = { try { // 1. 创建任务部署描述符 val taskDeploymentDescriptor = createTaskDeploymentDescriptor(execution, logicalSlot) // 2. 获取TaskManager网关 val taskManagerGateway = logicalSlot.getTaskManagerGateway // 3. 提交任务到TaskManager val deploymentFuture = taskManagerGateway.submitTask( taskDeploymentDescriptor, jobMasterConfiguration, rpcTimeout) // 4. 处理部署结果 deploymentFuture.whenComplete { (_, throwable) => if (throwable != null) { execution.markFailed(throwable) freeSlot(logicalSlot) } else { execution.markDeployed() } } deploymentFuture.thenApply(_ => null: Void) } catch { case e: Exception => log.error(s"Failed to deploy task ${execution.getAttemptId}", e) execution.markFailed(e) freeSlot(logicalSlot) FutureUtils.completedExceptionally[Void](e) } } // 创建任务部署描述符 private def createTaskDeploymentDescriptor( execution: Execution, logicalSlot: LogicalSlot): TaskDeploymentDescriptor = { val executionVertex = execution.getVertex val executionJobVertex = executionVertex.getJobVertex val jobVertexId = executionJobVertex.getJobVertexId // 1. 获取任务配置 val taskConfiguration = executionJobVertex.getTaskConfiguration // 2. 创建输入网关部署描述符 val inputGateDeploymentDescriptors = createInputGateDeploymentDescriptors(execution) // 3. 创建结果分区部署描述符 val resultPartitionDeploymentDescriptors = createResultPartitionDeploymentDescriptors(execution) // 4. 构建部署描述符 new TaskDeploymentDescriptor( execution.getAttemptId, executionVertex.getTaskNameWithSubtaskIndex, jobVertexId, execution.getParallelSubtaskIndex, execution.getAttemptNumber, taskConfiguration, executionJobVertex.getJobVertex.getInvokableClassName, inputGateDeploymentDescriptors, resultPartitionDeploymentDescriptors, logicalSlot.getAllocationId) } // 处理任务执行状态更新 override def updateTaskExecutionState(taskExecutionState: TaskExecutionState): Boolean = { val executionAttemptID = taskExecutionState.getID val execution = executionGraph.getRegisteredExecutions.get(executionAttemptID) if (execution != null) { val executionState = taskExecutionState.getExecutionState executionState match { case ExecutionState.RUNNING => execution.markRunning() case ExecutionState.FINISHED => execution.markFinished() onTaskFinished(execution) case ExecutionState.FAILED => val cause = taskExecutionState.getError(userCodeLoader) execution.markFailed(cause) executionFailureHandler.handleFailure(execution, cause) case ExecutionState.CANCELED => execution.markCanceled() case _ => log.warn(s"Unexpected task execution state: $executionState") } true } else { log.warn(s"Received state update for unknown execution: $executionAttemptID") false } } } 3.2 任务部署流程 Flink完整作业执行时序图 sequenceDiagram participant User as 用户客户端 participant Client as FlinkClient participant Dispatcher as Dispatcher participant RM as ResourceManager participant JM as JobMaster participant TM1 as TaskManager1 participant TM2 as TaskManager2 participant Task1 as Task实例1 participant Task2 as Task实例2 participant CC as CheckpointCoordinator Note over User,CC: 1. 作业提交阶段 User->>Client: 提交Flink作业 Client->>Client: 构建StreamGraph Client->>Client: 生成JobGraph Client->>Dispatcher: 提交JobGraph Dispatcher->>JM: 创建JobMaster JM->>JM: 构建ExecutionGraph Note over User,CC: 2. 资源申请阶段 JM->>RM: 申请TaskManager资源 RM->>RM: 处理资源请求 RM->>TM1: 启动TaskManager1 RM->>TM2: 启动TaskManager2 TM1->>RM: 注册TaskManager TM2->>RM: 注册TaskManager RM-->>JM: 返回可用资源信息 Note over User,CC: 3. Slot分配阶段 JM->>RM: 请求Task Slot RM->>TM1: 分配Slot1 RM->>TM2: 分配Slot2 TM1-->>RM: 确认Slot1分配 TM2-->>RM: 确认Slot2分配 RM-->>JM: 返回Slot分配结果 Note over User,CC: 4. 任务部署阶段 JM->>JM: 创建TaskDeploymentDescriptor JM->>TM1: 部署Task1到Slot1 JM->>TM2: 部署Task2到Slot2 TM1->>Task1: 创建Task实例 TM2->>Task2: 创建Task实例 Task1->>TM1: Task初始化完成 Task2->>TM2: Task初始化完成 TM1-->>JM: 部署确认 TM2-->>JM: 部署确认 Note over User,CC: 5. 网络连接建立 JM->>Task1: 建立上下游连接信息 JM->>Task2: 建立上下游连接信息 Task1->>Task2: 建立网络连接 Task2-->>Task1: 连接确认 Note over User,CC: 6. 检查点初始化 JM->>CC: 启动CheckpointCoordinator CC->>CC: 初始化检查点配置 CC->>Task1: 注册检查点回调 CC->>Task2: 注册检查点回调 Note over User,CC: 7. 任务启动执行 JM->>Task1: 启动Task执行 JM->>Task2: 启动Task执行 Task1->>Task1: 开始处理数据流 Task2->>Task2: 开始处理数据流 Task1->>JM: 报告RUNNING状态 Task2->>JM: 报告RUNNING状态 Note over User,CC: 8. 数据处理阶段 Task1->>Task1: 处理输入数据 Task1->>Task2: 发送处理结果 Task2->>Task2: 接收并处理数据 Task2->>Task2: 输出最终结果 Note over User,CC: 9. 检查点执行 CC->>CC: 触发定期检查点 CC->>Task1: 发起检查点barrier CC->>Task2: 发起检查点barrier Task1->>Task1: 保存状态快照 Task2->>Task2: 保存状态快照 Task1-->>CC: 检查点完成确认 Task2-->>CC: 检查点完成确认 CC->>CC: 标记检查点成功 Note over User,CC: 10. 作业监控阶段 Task1->>JM: 定期心跳上报 Task2->>JM: 定期心跳上报 JM->>JM: 监控任务状态 JM->>Client: 上报作业进度 Client-->>User: 显示作业状态 Note over User,CC: 11. 作业完成阶段 Task1->>Task1: 处理完所有数据 Task2->>Task2: 处理完所有数据 Task1->>JM: 报告FINISHED状态 Task2->>JM: 报告FINISHED状态 JM->>JM: 确认作业完成 Note over User,CC: 12. 资源清理阶段 JM->>CC: 停止检查点协调器 JM->>Task1: 停止Task执行 JM->>Task2: 停止Task执行 Task1-->>JM: 确认停止 Task2-->>JM: 确认停止 JM->>RM: 释放Slot资源 RM->>TM1: 释放Slot1 RM->>TM2: 释放Slot2 TM1-->>RM: 资源释放确认 TM2-->>RM: 资源释放确认 JM-->>Dispatcher: 作业执行完成 Dispatcher-->>Client: 返回执行结果 Client-->>User: 作业执行成功详细技术实现时序图 sequenceDiagram participant User as 用户应用 participant SG as StreamGraph participant JG as JobGraph participant EG as ExecutionGraph participant Scheduler as 调度器 participant SP as SlotProvider participant RM as ResourceManager participant TM as TaskManager participant Task as Task实例 participant OP as Operator participant State as StateBackend Note over User,State: Flink作业执行详细时序 rect rgb(240, 248, 255) Note over User,State: 阶段1: 作业图构建 User->>SG: 创建DataStream程序 SG->>SG: 构建StreamGraph SG->>JG: 转换为JobGraph JG->>JG: 优化操作链和资源配置 JG->>EG: 创建ExecutionGraph EG->>EG: 构建物理执行计划 end rect rgb(245, 255, 245) Note over User,State: 阶段2: 调度器初始化 EG->>Scheduler: 创建调度器实例 Scheduler->>SP: 初始化SlotProvider SP->>RM: 注册到ResourceManager RM-->>SP: 返回注册确认 Scheduler->>Scheduler: 初始化调度策略 end rect rgb(255, 248, 240) Note over User,State: 阶段3: 资源分配与Slot请求 Scheduler->>SP: 请求执行Slot SP->>RM: 向RM申请资源 RM->>RM: 检查可用资源 RM->>TM: 分配TaskManager资源 TM->>RM: 提供Slot信息 RM->>SP: 返回Slot分配结果 SP-->>Scheduler: Slot分配成功 end rect rgb(255, 240, 245) Note over User,State: 阶段4: 任务部署 Scheduler->>Scheduler: 创建TaskDeploymentDescriptor Scheduler->>TM: 发送任务部署请求 TM->>Task: 创建Task实例 Task->>OP: 初始化Operator链 OP->>State: 初始化状态后端 State-->>OP: 状态后端就绪 OP-->>Task: Operator初始化完成 Task-->>TM: Task创建成功 TM-->>Scheduler: 部署确认 end rect rgb(248, 240, 255) Note over User,State: 阶段5: 网络连接建立 Scheduler->>Task: 配置网络连接信息 Task->>Task: 建立InputGate Task->>Task: 建立ResultPartition Task->>TM: 网络组件初始化完成 TM->>TM: 建立Task间网络连接 end rect rgb(240, 255, 240) Note over User,State: 阶段6: 任务执行 Scheduler->>Task: 启动Task执行 Task->>OP: 调用Operator.open() OP->>State: 恢复状态数据 State-->>OP: 状态恢复完成 OP->>OP: 开始处理数据元素 OP->>OP: 执行用户定义逻辑 OP->>Task: 处理结果数据 Task->>Scheduler: 报告RUNNING状态 end rect rgb(255, 255, 240) Note over User,State: 阶段7: 检查点执行 Scheduler->>Task: 触发检查点 Task->>OP: 发起状态快照 OP->>State: 持久化状态数据 State-->>OP: 快照完成 OP-->>Task: 检查点确认 Task-->>Scheduler: 检查点完成 end rect rgb(248, 255, 248) Note over User,State: 阶段8: 任务完成与清理 OP->>OP: 处理完所有数据 OP->>Task: 调用Operator.close() Task->>Scheduler: 报告FINISHED状态 Scheduler->>SP: 释放Slot资源 SP->>RM: 归还资源到资源池 RM-->>SP: 资源释放确认 Scheduler-->>User: 作业执行完成 end 关键时间节点说明阶段关键操作主要组件耗时特点作业图构建 StreamGraph→JobGraph→ExecutionGraph 客户端编译通常1-3秒调度器初始化调度器创建、资源发现 JobMaster 通常2-5秒资源分配 Slot请求、TaskManager启动 ResourceManager 通常5-15秒任务部署 Task创建、Operator初始化 TaskManager 通常1-3秒网络建立 InputGate、ResultPartition连接网络栈通常几百毫秒任务执行数据流处理、状态计算 Operator链取决于数据量和复杂度检查点状态快照、持久化 StateBackend 通常几秒到几分钟资源清理 Slot释放、资源回收 ResourceManager 通常1-3秒 Flink YARN模式完整执行时序图 sequenceDiagram participant User as 用户 participant FlinkYarnClient as FlinkYarnClient participant HDFS as HDFS participant YarnRM as YARN ResourceManager participant YarnNM1 as YARN NodeManager1 participant YarnNM2 as YARN NodeManager2 participant YarnAM as YARN ApplicationMaster participant Dispatcher as Dispatcher participant JM as JobMaster participant FlinkRM as Flink ResourceManager participant TM1 as TaskManager1 participant TM2 as TaskManager2 participant Task1 as Task实例1 participant Task2 as Task实例2 Note over User,Task2: 1. YARN应用提交阶段 User->>FlinkYarnClient: 提交Flink作业到YARN FlinkYarnClient->>FlinkYarnClient: 准备作业JAR和配置 FlinkYarnClient->>HDFS: 上传Flink应用文件 HDFS-->>FlinkYarnClient: 上传完成 FlinkYarnClient->>YarnRM: 提交ApplicationMaster请求 YarnRM-->>FlinkYarnClient: 返回ApplicationId Note over User,Task2: 2. ApplicationMaster启动阶段 YarnRM->>YarnRM: 调度AM Container YarnRM->>YarnNM1: 分配AM Container YarnNM1->>HDFS: 下载Flink应用文件 HDFS-->>YarnNM1: 返回文件 YarnNM1->>YarnAM: 启动ApplicationMaster YarnAM->>YarnRM: 向YARN RM注册AM YarnRM-->>YarnAM: 注册成功 Note over User,Task2: 3. Flink集群初始化阶段 YarnAM->>Dispatcher: 启动Flink Dispatcher YarnAM->>FlinkRM: 启动Flink ResourceManager FlinkRM->>YarnRM: 注册为YARN资源请求者 Dispatcher->>Dispatcher: 初始化作业分发服务 FlinkRM->>FlinkRM: 初始化Slot管理器 Note over User,Task2: 4. 作业提交与JobMaster创建 FlinkYarnClient->>Dispatcher: 提交JobGraph Dispatcher->>JM: 创建JobMaster实例 JM->>JM: 构建ExecutionGraph JM->>FlinkRM: 注册JobMaster FlinkRM-->>JM: 注册确认 Note over User,Task2: 5. TaskManager资源申请 JM->>FlinkRM: 请求TaskManager资源 FlinkRM->>YarnRM: 向YARN申请Container YarnRM->>YarnRM: 调度Container资源 YarnRM->>YarnNM1: 分配Container给TM1 YarnRM->>YarnNM2: 分配Container给TM2 YarnRM-->>FlinkRM: 返回Container分配信息 Note over User,Task2: 6. TaskManager启动阶段 FlinkRM->>YarnNM1: 启动TaskManager1 FlinkRM->>YarnNM2: 启动TaskManager2 YarnNM1->>HDFS: 下载Flink运行时文件 YarnNM2->>HDFS: 下载Flink运行时文件 HDFS-->>YarnNM1: 返回文件 HDFS-->>YarnNM2: 返回文件 YarnNM1->>TM1: 启动TaskManager进程 YarnNM2->>TM2: 启动TaskManager进程 Note over User,Task2: 7. TaskManager注册与Slot提供 TM1->>FlinkRM: 注册TaskManager1 TM2->>FlinkRM: 注册TaskManager2 FlinkRM-->>TM1: 注册确认 FlinkRM-->>TM2: 注册确认 TM1->>FlinkRM: 提供可用Slot TM2->>FlinkRM: 提供可用Slot FlinkRM->>JM: 通知Slot可用 Note over User,Task2: 8. 任务部署与执行 JM->>FlinkRM: 请求分配Slot FlinkRM->>TM1: 分配Slot给Task1 FlinkRM->>TM2: 分配Slot给Task2 JM->>TM1: 部署Task1到Slot JM->>TM2: 部署Task2到Slot TM1->>Task1: 创建Task实例 TM2->>Task2: 创建Task实例 Task1-->>TM1: Task初始化完成 Task2-->>TM2: Task初始化完成 TM1-->>JM: Task1部署成功 TM2-->>JM: Task2部署成功 Note over User,Task2: 9. 网络连接与数据处理 JM->>Task1: 启动Task执行 JM->>Task2: 启动Task执行 Task1->>Task2: 建立数据传输连接 Task1->>Task1: 处理输入数据 Task1->>Task2: 发送处理结果 Task2->>Task2: 处理接收数据 Task1->>JM: 报告RUNNING状态 Task2->>JM: 报告RUNNING状态 Note over User,Task2: 10. 检查点与状态管理 JM->>Task1: 触发检查点 JM->>Task2: 触发检查点 Task1->>HDFS: 保存状态快照 Task2->>HDFS: 保存状态快照 HDFS-->>Task1: 快照保存完成 HDFS-->>Task2: 快照保存完成 Task1-->>JM: 检查点完成 Task2-->>JM: 检查点完成 JM->>JM: 标记检查点成功 Note over User,Task2: 11. 作业完成与监控 Task1->>Task1: 处理完所有数据 Task2->>Task2: 处理完所有数据 Task1->>JM: 报告FINISHED状态 Task2->>JM: 报告FINISHED状态 JM->>JM: 确认作业完成 JM-->>Dispatcher: 作业执行结果 Dispatcher-->>FlinkYarnClient: 返回执行结果 Note over User,Task2: 12. 资源清理与释放 JM->>TM1: 停止Task1 JM->>TM2: 停止Task2 Task1-->>TM1: Task停止确认 Task2-->>TM2: Task停止确认 FlinkRM->>YarnRM: 释放Container资源 YarnRM->>YarnNM1: 停止TM1 Container YarnRM->>YarnNM2: 停止TM2 Container YarnNM1-->>YarnRM: Container1释放确认 YarnNM2-->>YarnRM: Container2释放确认 YarnAM->>YarnRM: 注销ApplicationMaster YarnRM-->>YarnAM: 注销成功 YarnRM->>YarnNM1: 停止AM Container FlinkYarnClient-->>User: Flink作业执行完成 Flink与Spark YARN模式对比对比维度 Flink YARN模式 Spark YARN模式 ApplicationMaster 包含Dispatcher+ResourceManager 包含Driver(cluster模式)或只是资源协调器作业提交提交到Dispatcher 提交到SparkContext 资源管理 Flink ResourceManager + YARN RM ApplicationMaster + YARN RM 任务调度 JobMaster负责单作业调度 TaskScheduler负责任务调度 Slot管理基于Slot的细粒度资源分配基于Executor的粗粒度资源分配容错机制检查点+任务重启 RDD血统+Stage重试状态管理内置状态后端依赖外部存储或内存动态资源 Slot级别的动态申请释放 Executor级别的动态扩缩容 3.3 资源分配机制 Slot分配流程图 graph TD A[任务请求Slot] --> B[SlotManager处理请求] B --> C{是否有可用Slot} C -->|有| D[分配现有Slot] C -->|无| E[请求新TaskManager] D --> F[创建LogicalSlot] E --> G[ResourceManager分配资源] G --> H[启动新TaskManager] H --> I[TaskManager注册Slot] I --> F F --> J[连接网络通道] J --> K[Slot分配成功] style A fill:#e1f5fe style E fill:#fff3e0 style K fill:#e8f5e8 六、检查点机制 6.1 检查点协调器检查点触发流程图 graph TD A[CheckpointCoordinator定时触发] --> B[创建PendingCheckpoint] B --> C[向Source发送CheckpointBarrier] C --> D[Source接收Barrier并快照状态] D --> E[向下游发送Barrier] E --> F[下游算子对齐Barrier] F --> G[执行状态快照] G --> H[状态写入StateBackend] H --> I[向Coordinator确认完成] I --> J[所有Task确认后完成检查点] F --> F1[等待所有输入Barrier] F1 --> F2[缓存后续数据] F2 --> G style A fill:#e1f5fe style F1 fill:#fff3e0 style J fill:#e8f5e8 CheckpointCoordinator核心源码 // CheckpointCoordinator.scala - 检查点协调器 class CheckpointCoordinator( jobId: JobID, checkpointConfig: CheckpointConfig, executionGraph: ExecutionGraph, checkpointIDCounter: CheckpointIDCounter, completedCheckpointStore: CompletedCheckpointStore, checkpointStorage: CheckpointStorage, ioExecutor: Executor, sharedStateRegistryFactory: SharedStateRegistryFactory, failureManager: CheckpointFailureManager) { // 待完成的检查点 private val pendingCheckpoints = new ConcurrentHashMap[Long, PendingCheckpoint]() // 检查点统计信息 private val checkpointStatsTracker = new CheckpointStatsTracker() // 定时器服务 private val timer = new Timer("Checkpoint Timer") // 启动检查点协调器 def startCheckpointScheduler(): Unit = { if (checkpointConfig.isCheckpointingEnabled) { val baseInterval = checkpointConfig.getCheckpointInterval val randomDelay = ThreadLocalRandom.current().nextLong(baseInterval) timer.schedule(new CheckpointTriggerTask(), randomDelay, baseInterval) logInfo("Started checkpoint scheduler with interval {} ms", baseInterval) } } // 触发检查点的定时任务 private class CheckpointTriggerTask extends TimerTask { override def run(): Unit = { try { triggerCheckpoint(CheckpointTriggerRequest.periodic()) } catch { case e: Exception => logError("Failed to trigger checkpoint", e) } } } // 触发检查点的核心方法 def triggerCheckpoint( request: CheckpointTriggerRequest): CompletableFuture[CompletedCheckpoint] = { // 1. 检查是否可以触发检查点 val checkResult = isTriggerable(request) if (!checkResult.isTriggerable) { return FutureUtils.completedExceptionally( new CheckpointException(checkResult.reason)) } // 2. 生成检查点ID val checkpointId = checkpointIDCounter.getAndIncrement() val timestamp = System.currentTimeMillis() // 3. 创建PendingCheckpoint val pendingCheckpoint = createPendingCheckpoint( checkpointId, timestamp, request.getCheckpointType) // 4. 存储PendingCheckpoint pendingCheckpoints.put(checkpointId, pendingCheckpoint) // 5. 向Source节点发送CheckpointBarrier val triggerFuture = triggerCheckpointBarriers(pendingCheckpoint) // 6. 处理触发结果 triggerFuture.whenComplete { (_, throwable) => if (throwable != null) { logError(s"Failed to trigger checkpoint $checkpointId", throwable) discardPendingCheckpoint(pendingCheckpoint, throwable) } } pendingCheckpoint.getCompletionFuture } // 创建PendingCheckpoint private def createPendingCheckpoint( checkpointId: Long, timestamp: Long, checkpointType: CheckpointType): PendingCheckpoint = { // 1. 获取需要确认的ExecutionVertex val tasksToWaitFor = new util.ArrayList[ExecutionVertex]() for (jobVertex <- executionGraph.getVerticesTopologically.asScala) { for (executionVertex <- jobVertex.getTaskVertices) { if (executionVertex.getExecutionState == ExecutionState.RUNNING) { tasksToWaitFor.add(executionVertex) } } } // 2. 创建检查点存储位置 val checkpointStorageLocation = checkpointStorage.initializeLocationForCheckpoint(checkpointId) // 3. 创建PendingCheckpoint new PendingCheckpoint( jobId, checkpointId, timestamp, tasksToWaitFor, checkpointConfig.getMaxConcurrentCheckpoints, checkpointConfig.getCheckpointTimeout, checkpointStorageLocation, ioExecutor, sharedStateRegistryFactory.create(ioExecutor)) } // 向Source节点发送CheckpointBarrier private def triggerCheckpointBarriers( pendingCheckpoint: PendingCheckpoint): CompletableFuture[Void] = { val checkpointId = pendingCheckpoint.getCheckpointId val timestamp = pendingCheckpoint.getCheckpointTimestamp // 1. 获取所有Source节点 val sourceExecutions = new util.ArrayList[Execution]() for (jobVertex <- executionGraph.getVerticesTopologically.asScala) { if (jobVertex.getJobVertex.isInputVertex) { for (executionVertex <- jobVertex.getTaskVertices) { sourceExecutions.add(executionVertex.getCurrentExecutionAttempt) } } } // 2. 向Source节点发送TriggerCheckpoint消息 val triggerFutures = sourceExecutions.asScala.map { execution => val checkpointOptions = CheckpointOptions.forCheckpointWithDefaultLocation() execution.triggerCheckpoint(checkpointId, timestamp, checkpointOptions) } // 3. 等待所有Source确认 CompletableFuture.allOf(triggerFutures.toArray: _*) } // 接收检查点确认 def receiveAcknowledgeMessage( message: AcknowledgeCheckpoint, taskManagerLocationInfo: String): Boolean = { val checkpointId = message.getCheckpointId val pendingCheckpoint = pendingCheckpoints.get(checkpointId) if (pendingCheckpoint == null) { logDebug(s"Received acknowledgment for unknown checkpoint $checkpointId") return false } // 1. 确认任务状态 val acknowledgeResult = pendingCheckpoint.acknowledgeTask( message.getTaskExecutionId, message.getSubtaskState, message.getCheckpointMetrics) if (acknowledgeResult == AcknowledgeResult.SUCCESS) { // 2. 检查是否所有任务都已确认 if (pendingCheckpoint.areTasksFullyAcknowledged) { completePendingCheckpoint(pendingCheckpoint) } return true } else { logWarn(s"Failed to acknowledge checkpoint $checkpointId: $acknowledgeResult") return false } } // 完成检查点 private def completePendingCheckpoint(pendingCheckpoint: PendingCheckpoint): Unit = { val checkpointId = pendingCheckpoint.getCheckpointId try { // 1. 最终化检查点存储 val completedCheckpointStorageLocation = pendingCheckpoint.finalizeCheckpointExclusively() // 2. 创建CompletedCheckpoint val completedCheckpoint = new CompletedCheckpoint( jobId, checkpointId, pendingCheckpoint.getCheckpointTimestamp, System.currentTimeMillis(), pendingCheckpoint.getTaskStates, pendingCheckpoint.getMasterState, completedCheckpointStorageLocation, pendingCheckpoint.getExternalPointer) // 3. 存储完成的检查点 completedCheckpointStore.addCheckpoint( completedCheckpoint, checkpointsCleaner, () => pendingCheckpoint.getStatsCallback.reportCompletedCheckpoint(completedCheckpoint.getExternalPointer)) // 4. 清理PendingCheckpoint pendingCheckpoints.remove(checkpointId) // 5. 通知完成 pendingCheckpoint.reportCompletedCheckpoint(completedCheckpoint) logInfo(s"Completed checkpoint $checkpointId") } catch { case e: Exception => logError(s"Failed to complete checkpoint $checkpointId", e) discardPendingCheckpoint(pendingCheckpoint, e) } } // 丢弃失败的检查点 private def discardPendingCheckpoint( pendingCheckpoint: PendingCheckpoint, cause: Throwable): Unit = { val checkpointId = pendingCheckpoint.getCheckpointId pendingCheckpoints.remove(checkpointId) try { pendingCheckpoint.abort(CheckpointFailureReason.CHECKPOINT_COORDINATOR_SHUTDOWN) failureManager.handleCheckpointFailure(pendingCheckpoint, cause) } catch { case e: Exception => logError(s"Failed to discard checkpoint $checkpointId", e) } } } 6.2 分布式快照算法 Chandy-Lamport算法实现 graph TD A[算子接收CheckpointBarrier] --> B{是否为第一个Barrier} B -->|是| C[开始状态快照] B -->|否| D[检查Barrier对齐] C --> E[快照本地状态] E --> F[向下游发送Barrier] F --> G[继续处理数据] D --> H{所有输入Barrier到齐} H -->|否| I[缓存后续数据] H -->|是| J[执行状态快照] I --> H J --> K[处理缓存数据] K --> F style A fill:#e1f5fe style C fill:#fff3e0 style J fill:#e8f5e8 CheckpointBarrier处理源码 // CheckpointBarrierHandler.scala - CheckpointBarrier处理器 abstract class CheckpointBarrierHandler( val inputGate: IndexedInputGate, val ioExecutor: Executor) { // 检查点状态跟踪 protected val pendingCheckpoints = new util.TreeMap[Long, CheckpointBarrierCount]() // 处理CheckpointBarrier的核心方法 def processBarrier( barrier: CheckpointBarrier, channelInfo: InputChannelInfo, bufferReceivedTimestamp: Long): Unit = { val checkpointId = barrier.getId val checkpoint = pendingCheckpoints.computeIfAbsent( checkpointId, _ => new CheckpointBarrierCount(inputGate.getNumberOfInputChannels)) // 标记通道已接收Barrier if (checkpoint.markChannelBarrierReceived(channelInfo.getInputChannelIdx)) { // 如果所有通道的Barrier都已接收 if (checkpoint.isFullyReceived) { // 触发检查点 notifyCheckpoint(barrier, bufferReceivedTimestamp, checkpointId) pendingCheckpoints.remove(checkpointId) } } } // 通知检查点触发 protected def notifyCheckpoint( barrier: CheckpointBarrier, bufferReceivedTimestamp: Long, checkpointId: Long): Unit // 处理检查点取消 def processCancellationBarrier( cancelBarrier: CancelCheckpointMarker, channelInfo: InputChannelInfo): Unit = { val checkpointId = cancelBarrier.getCheckpointId pendingCheckpoints.remove(checkpointId) notifyAbort(checkpointId, new CheckpointException( CheckpointFailureReason.CHECKPOINT_DECLINED_ON_CANCELLATION_BARRIER)) } protected def notifyAbort(checkpointId: Long, cause: CheckpointException): Unit } // CheckpointBarrierAligner.scala - 精确一次对齐实现 class CheckpointBarrierAligner( inputGate: IndexedInputGate, ioExecutor: Executor, bufferStorage: BufferStorage) extends CheckpointBarrierHandler(inputGate, ioExecutor) { // 阻塞的输入通道 private val blockedChannels = new util.BitSet(inputGate.getNumberOfInputChannels) // 缓存的数据缓冲区 private val bufferedData = new util.ArrayDeque[BufferOrEvent]() override def processBarrier( barrier: CheckpointBarrier, channelInfo: InputChannelInfo, bufferReceivedTimestamp: Long): Unit = { val channelIndex = channelInfo.getInputChannelIdx val checkpointId = barrier.getId // 1. 处理Barrier if (isCheckpointPending) { // 如果已有检查点在进行中 if (checkpointId > currentCheckpointId || (checkpointId == currentCheckpointId && !blockedChannels.get(channelIndex))) { // 阻塞该通道 blockedChannels.set(channelIndex) if (blockedChannels.cardinality() == inputGate.getNumberOfInputChannels) { // 所有通道都被阻塞，触发检查点 super.processBarrier(barrier, channelInfo, bufferReceivedTimestamp) } } } else { // 第一个Barrier currentCheckpointId = checkpointId blockedChannels.set(channelIndex) if (inputGate.getNumberOfInputChannels == 1) { // 单输入通道，立即触发 super.processBarrier(barrier, channelInfo, bufferReceivedTimestamp) } } } override protected def notifyCheckpoint( barrier: CheckpointBarrier, bufferReceivedTimestamp: Long, checkpointId: Long): Unit = { // 1. 释放缓存的数据 releaseBufferedData() // 2. 重置状态 reset() // 3. 通知检查点开始 checkpointHandler.triggerCheckpointOnBarrier( barrier.asCheckpointBarrier(), bufferReceivedTimestamp) } // 缓存来自阻塞通道的数据 def bufferReceivedFromBlockedChannel(bufferOrEvent: BufferOrEvent): Unit = { val channelIndex = bufferOrEvent.getChannelInfo.getInputChannelIdx if (blockedChannels.get(channelIndex)) { // 存储到缓冲区 bufferStorage.add(bufferOrEvent) bufferedData.add(bufferOrEvent) } } // 释放缓存的数据 private def releaseBufferedData(): Unit = { for (bufferOrEvent <- bufferedData.asScala) { if (bufferOrEvent.isBuffer) { // 将缓存的数据发送给下游 outputHandler.emit(bufferOrEvent) } else { // 处理事件 outputHandler.handleEvent(bufferOrEvent.getEvent, bufferOrEvent.getChannelInfo) } } bufferedData.clear() } // 重置对齐器状态 private def reset(): Unit = { blockedChannels.clear() currentCheckpointId = -1L bufferedData.clear() } } // CheckpointBarrierUnaligner.scala - 至少一次非对齐实现 class CheckpointBarrierUnaligner( inputGate: IndexedInputGate, ioExecutor: Executor, channelStateWriter: ChannelStateWriter) extends CheckpointBarrierHandler(inputGate, ioExecutor) { override def processBarrier( barrier: CheckpointBarrier, channelInfo: InputChannelInfo, bufferReceivedTimestamp: Long): Unit = { val checkpointId = barrier.getId val channelIndex = channelInfo.getInputChannelIdx // 1. 记录通道状态 if (!hasReceivedBarrier(checkpointId, channelIndex)) { markBarrierReceived(checkpointId, channelIndex) // 2. 快照正在传输的数据 snapshotChannelStates(checkpointId, channelIndex) // 3. 立即触发检查点（不等待对齐） if (shouldTriggerCheckpoint(checkpointId)) { super.processBarrier(barrier, channelInfo, bufferReceivedTimestamp) } } } // 快照通道状态 private def snapshotChannelStates(checkpointId: Long, channelIndex: Int): Unit = { // 获取输入通道的正在传输数据 val inputChannel = inputGate.getChannel(channelIndex) val inflightData = inputChannel.getInflightData // 写入通道状态 channelStateWriter.addInputData( checkpointId, new InputChannelInfo(inputGate.getGateIndex, channelIndex), inflightData) } override protected def notifyCheckpoint( barrier: CheckpointBarrier, bufferReceivedTimestamp: Long, checkpointId: Long): Unit = { // 非对齐模式下立即触发检查点 checkpointHandler.triggerCheckpointOnBarrier( barrier.asCheckpointBarrier(), bufferReceivedTimestamp) } } 七、网络通信系统 7.1 网络栈架构 Flink网络栈架构图 graph TD A[上游Task] --> B[RecordWriter] B --> C[ResultPartition] C --> D[ResultSubpartition] D --> E[PipelinedSubpartition] E --> F[NetworkBuffer] F --> G[Netty Channel] G --> H[InputChannel] H --> I[InputGate] I --> J[RecordReader] J --> K[下游Task] L[NetworkBufferPool] --> F M[LocalBufferPool] --> L N[CreditBasedFlowControl] --> G style A fill:#e1f5fe style F fill:#fff3e0 style K fill:#e8f5e8 style N fill:#ffebee 网络栈核心组件组件功能核心职责 ResultPartition 结果分区管理Task的输出数据分区 InputGate 输入网关聚合多个输入通道的数据 NetworkBuffer 网络缓冲区数据传输的基本单位 CreditFlowControl 流量控制基于信用的背压机制 7.2 数据传输机制数据传输流程图 graph TD A[Task产生数据] --> B[序列化数据] B --> C[写入ResultSubpartition] C --> D{是否需要网络传输} D -->|本地| E[LocalInputChannel] D -->|远程| F[RemoteInputChannel] F --> G[Netty网络传输] G --> H[接收端NetworkBuffer] H --> I[反序列化数据] I --> J[下游Task消费] E --> I K[BackPressure检测] --> C L[CreditBasedFlowControl] --> F style A fill:#e1f5fe style G fill:#fff3e0 style J fill:#e8f5e8 ResultPartition数据写入源码 // ResultPartition.scala - 结果分区数据写入 abstract class ResultPartition( partitionId: ResultPartitionID, partitionType: ResultPartitionType, numberOfSubpartitions: Int, numberOfChannels: Int, resultPartitionManager: ResultPartitionManager, partitionDataAvailabilityListener: PartitionDataAvailabilityListener, bufferPoolFactory: () => BufferPool) { // 子分区数组 protected val subpartitions: Array[ResultSubpartition] = new Array[ResultSubpartition](numberOfSubpartitions) // 缓冲池 private var bufferPool: BufferPool = _ // 分区写入器 private val partitionWriter = createSubpartitionWriter() // 写入数据到指定子分区 def emitRecord(record: ByteBuffer, targetChannel: Int): Unit = { checkArgument(targetChannel < numberOfSubpartitions, s"Target channel $targetChannel exceeds number of subpartitions $numberOfSubpartitions") // 1. 获取目标子分区 val targetSubpartition = subpartitions(targetChannel) // 2. 请求网络缓冲区 val buffer = bufferPool.requestBuffer() if (buffer != null) { try { // 3. 将记录写入缓冲区 buffer.writeBytes(record) // 4. 添加到子分区 targetSubpartition.add(buffer, Buffer.DataType.DATA_BUFFER) // 5. 通知数据可用 partitionDataAvailabilityListener.notifyDataAvailable() } catch { case e: Exception => buffer.recycleBuffer() throw e } } else { // 缓冲区不足，触发背压 throw new RuntimeException("No buffer available for data emission") } } // 写入广播数据 def broadcastRecord(record: ByteBuffer): Unit = { for (i <- subpartitions.indices) { emitRecord(record, i) } } // 结束分区写入 def finish(): Unit = { for (subpartition <- subpartitions) { subpartition.finish() } // 通知所有消费者分区已完成 partitionDataAvailabilityListener.notifyPartitionFinished() } // 创建子分区视图 def createSubpartitionView( subpartitionId: Int, bufferAvailabilityListener: BufferAvailabilityListener): ResultSubpartitionView = { checkArgument(subpartitionId < numberOfSubpartitions, s"Subpartition $subpartitionId does not exist") val subpartition = subpartitions(subpartitionId) subpartition.createReadView(bufferAvailabilityListener) } } // PipelinedSubpartition.scala - 管道化子分区实现 class PipelinedSubpartition( index: Int, parent: ResultPartition) extends ResultSubpartition(index, parent) { // 缓冲区队列 private val buffers = new ArrayDeque[BufferConsumer]() // 读取视图 private var readView: PipelinedSubpartitionView = _ // 是否已完成 @volatile private var isFinished = false // 添加缓冲区 override def add(bufferConsumer: BufferConsumer, dataType: Buffer.DataType): Boolean = { synchronized { if (isFinished) { bufferConsumer.close() return false } // 1. 添加到队列 buffers.add(bufferConsumer) // 2. 通知读取视图数据可用 if (readView != null) { readView.notifyDataAvailable() } true } } // 创建读取视图 override def createReadView( availabilityListener: BufferAvailabilityListener): ResultSubpartitionView = { synchronized { checkState(readView == null, "Subpartition is being consumed") readView = new PipelinedSubpartitionView(this, availabilityListener) if (!buffers.isEmpty) { readView.notifyDataAvailable() } readView } } // 读取下一个缓冲区 def pollBuffer(): BufferAndBacklog = { synchronized { val buffer = buffers.poll() if (buffer != null) { val backlog = buffers.size() new BufferAndBacklog(buffer.build(), backlog, Buffer.DataType.DATA_BUFFER, 0) } else if (isFinished) { BufferAndBacklog.FINISHED } else { null } } } // 完成子分区 override def finish(): Unit = { synchronized { isFinished = true if (readView != null) { readView.notifyDataAvailable() } } } // 获取缓冲区积压数量 def getBuffersBacklog: Int = { synchronized { buffers.size() } } } 7.3 背压处理信用流量控制机制 graph TD A[下游Task] --> B[计算可用Credit] B --> C[发送CreditAnnouncement] C --> D[上游接收Credit] D --> E{是否有足够Credit} E -->|有| F[发送数据] E -->|无| G[暂停发送] F --> H[消费Credit] H --> I[更新Available Credit] I --> J[下游处理数据] J --> K[释放Buffer] K --> B G --> L[等待新Credit] L --> D style A fill:#e1f5fe style E fill:#fff3e0 style J fill:#e8f5e8 CreditBasedFlowControl源码 // CreditBasedPartitionRequestClientHandler.scala - 基于信用的流量控制 class CreditBasedPartitionRequestClientHandler extends ChannelInboundHandlerAdapter { // 输入通道映射 private val inputChannels = new ConcurrentHashMap[InputChannelID, RemoteInputChannel]() // 网络客户端 private var networkClient: NettyClient = _ // 处理接收到的消息 override def channelRead(ctx: ChannelHandlerContext, msg: AnyRef): Unit = { try { msg match { case bufferResponse: NettyMessage.BufferResponse => handleBufferResponse(bufferResponse) case backlogMessage: NettyMessage.BacklogAnnouncement => handleBacklogAnnouncement(backlogMessage) case errorResponse: NettyMessage.ErrorResponse => handleErrorResponse(errorResponse) case _ => throw new IllegalStateException(s"Unknown message type: ${msg.getClass}") } } catch { case e: Exception => exceptionCaught(ctx, e) } } // 处理缓冲区响应 private def handleBufferResponse(bufferResponse: NettyMessage.BufferResponse): Unit = { val receiverId = bufferResponse.receiverId val inputChannel = inputChannels.get(receiverId) if (inputChannel != null) { // 处理接收到的缓冲区 inputChannel.onBuffer( bufferResponse.buffer, bufferResponse.sequenceNumber, bufferResponse.backlog) } else { // 回收未消费的缓冲区 bufferResponse.buffer.recycleBuffer() } } // 处理积压通知 private def handleBacklogAnnouncement(backlogMessage: NettyMessage.BacklogAnnouncement): Unit = { val receiverId = backlogMessage.receiverId val inputChannel = inputChannels.get(receiverId) if (inputChannel != null) { inputChannel.onSenderBacklog(backlogMessage.backlog) } } // 添加输入通道 def addInputChannel(inputChannel: RemoteInputChannel): Unit = { inputChannels.put(inputChannel.getInputChannelId, inputChannel) // 发送初始分区请求 val partitionRequest = new NettyMessage.PartitionRequest( inputChannel.getPartitionId, inputChannel.getConsumedSubpartitionIndex, inputChannel.getInputChannelId, inputChannel.getInitialCredit) networkClient.sendMessage(partitionRequest) } // 移除输入通道 def removeInputChannel(inputChannel: RemoteInputChannel): Unit = { inputChannels.remove(inputChannel.getInputChannelId) // 发送取消分区请求 val cancelRequest = new NettyMessage.CancelPartitionRequest( inputChannel.getInputChannelId) networkClient.sendMessage(cancelRequest) } } // RemoteInputChannel.scala - 远程输入通道 class RemoteInputChannel( connectionManager: ConnectionManager, partitionId: ResultPartitionID, inputChannelId: InputChannelID, initialBackoff: Int, maxBackoff: Int, networkBuffersPerChannel: Int) extends InputChannel { // 可用信用数 @volatile private var unannouncedCredit = networkBuffersPerChannel // 缓冲区队列 private val receivedBuffers = new ArrayDeque[Buffer]() // 序列号计数器 private var expectedSequenceNumber = 0 // 请求下一个缓冲区 override def getNextBuffer(): Optional[BufferAndAvailability] = { synchronized { val buffer = receivedBuffers.poll() if (buffer != null) { val moreAvailable = !receivedBuffers.isEmpty || !isReleased // 增加未通知的信用 unannouncedCredit += 1 // 如果累积足够信用，发送信用通知 if (unannouncedCredit >= networkBuffersPerChannel / 2) { announceCredit() } Optional.of(new BufferAndAvailability(buffer, moreAvailable, 0)) } else { Optional.empty() } } } // 接收缓冲区 def onBuffer(buffer: Buffer, sequenceNumber: Int, backlog: Int): Unit = { synchronized { // 检查序列号 if (sequenceNumber == expectedSequenceNumber) { expectedSequenceNumber += 1 // 添加到接收队列 receivedBuffers.add(buffer) // 通知数据可用 notifyDataAvailable() // 更新积压信息 updateSenderBacklog(backlog) } else { // 序列号不匹配，丢弃缓冲区 buffer.recycleBuffer() throw new IllegalStateException( s"Expected sequence number $expectedSequenceNumber but got $sequenceNumber") } } } // 通知信用 private def announceCredit(): Unit = { if (unannouncedCredit > 0) { val creditAnnouncement = new NettyMessage.AddCredit( partitionId, inputChannelId, unannouncedCredit) connectionManager.getConnection(partitionId.getConnectionId) .writeAndFlush(creditAnnouncement) unannouncedCredit = 0 } } // 发送初始分区请求 def requestSubpartition(): Unit = { val partitionRequest = new NettyMessage.PartitionRequest( partitionId, subpartitionIndex, inputChannelId, networkBuffersPerChannel) connectionManager.getConnection(partitionId.getConnectionId) .writeAndFlush(partitionRequest) } // 更新发送方积压 private def updateSenderBacklog(backlog: Int): Unit = { // 基于积压调整信用策略 val creditToAnnounce = if (backlog > networkBuffersPerChannel * 2) { // 高积压，减少信用通知频率 networkBuffersPerChannel } else { // 低积压，增加信用通知频率 networkBuffersPerChannel / 4 } if (unannouncedCredit >= creditToAnnounce) { announceCredit() } } } 这个Flink源码解析文档已经涵盖了核心的架构和源码分析，包括： ...

25.数据仓库

数据仓库实战指南目录点击展开目录数据仓库实战指南目录 1. 数据仓库基础概念 1.1 数据仓库定义与特征数据仓库四大特征数据仓库与数据库对比 1.2 数据仓库发展历程技术演进路径现代数据仓库特点 1.3 数据仓库价值体现业务价值技术价值 2. 数据仓库架构设计 2.1 经典架构模式 Kimball架构 Inmon架构 Data Vault架构 2.2 现代架构模式 Lambda架构 Kappa架构湖仓一体架构 Delta Lake实现 Apache Iceberg实现 Apache Hudi实现湖仓一体最佳实践 2.3 技术架构选型存储层选型计算层选型服务层选型 3. 维度建模理论与实践 3.1 维度建模基础事实表设计维度表设计星型模型与雪花模型 3.2 高级建模技巧缓慢变化维度退化维度一致性维度 3.3 实体建模方法 3NF建模实体关系模型数据集市设计 4. 数据分层架构 4.1 分层设计原则分层目标与原则层次职责划分 4.2 详细分层设计 ODS操作数据存储层 DWD数据明细层 DWS数据汇总层 ADS应用数据服务层 4.3 分层实施策略建表规范命名规范数据流转规范 5. ETL流程设计 5.1 ETL基础概念 Extract数据抽取 Transform数据转换 Load数据加载 5.2 ELT模式 ELT与ETL对比 5.3 实时数据处理实时数仓架构设计流批一体架构实时维度关联实时OLAP存储 6. 数据治理与质量 6.1 数据治理体系 6.2 数据质量管理 6.3 元数据管理 6.4 数据安全与合规 7. 性能优化策略 7.1 存储优化 7.2 计算优化 7.3 架构优化 8. 技术组件选型 8.1 存储技术选型 HDFS分布式存储对象存储服务关系型数据库 8.2 计算引擎选型 Spark大数据计算 Flink流计算 Presto交互式查询 8.3 数据湖技术 Apache Hudi Apache Iceberg Delta Lake 8.4 云原生数据仓库 Snowflake BigQuery Redshift 9. 实战项目案例 9.1 电商数据仓库业务需求与设计思路核心模型设计关键指标设计 9.2 金融数据仓库业务需求与设计思路核心模型设计关键指标设计 9.3 物联网数据仓库数据特点与设计思路核心模型设计关键技术选型行业案例总结 10. 面试题集锦 10.1 基础理论题概念原理类架构设计类 10.2 建模设计题维度建模类分层设计类 10.3 技术实现题 ETL流程类性能优化类 10.4 场景应用题业务场景类问题解决类 10.5 数据治理与元数据管理题元数据管理类数据治理类 10.6 实时数仓与流式处理题实时数仓架构类流式计算类 10.7 数据安全与合规题数据安全类 1. 数据仓库基础概念 1.1 数据仓库定义与特征数据仓库（Data Warehouse）是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。 ...

28.scala

28. Scala语法指南目录点击展开目录 1. Scala概述 1.1 Scala简介 1.2 Scala特点 1.3 Scala与Java对比 1.4 开发环境搭建 2. 基础语法 2.1 变量与常量 2.2 数据类型 2.3 操作符 2.4 控制结构 3. 函数与方法 3.1 函数定义 3.2 方法与函数区别 3.3 高阶函数 3.4 匿名函数与柯里化 4. 面向对象编程 4.1 类与对象 4.2 构造器 4.3 继承与多态 4.4 特质(Trait) 5. 集合框架 5.1 集合框架整体架构 5.2 List、Set、Map详解 5.3 Scala与Java集合互转实战 5.4 可变与不可变集合 5.5 集合操作方法 5.6 集合性能对比与选择策略 5.7 集合性能对比 6. 模式匹配 6.1 基本模式匹配 6.2 案例类模式 6.3 集合模式匹配 6.4 提取器 7. 高级特性 7.1 隐式转换与隐式参数 7.2 泛型与类型参数 7.3 协变与逆变 8. 函数式编程 8.1 不可变性 8.2 函数组合 8.3 Monads概念 8.4 Option、Try、Either 9. 并发编程 9.1 Actor模型 9.2 Future与Promise 9.3 并行集合 9.4 同步机制 10. 系统交互与外部调用 10.1 执行Shell命令 10.2 文件系统操作 10.3 进程管理 10.4 系统属性与环境变量 11. Scala面试题集 11.1 基础语法题 11.2 面向对象题 11.3 函数式编程题 11.4 高级特性题 12. 总结与进阶方向 1. Scala概述 1.1 Scala简介 Scala（Scalable Language）是一种运行在JVM上的多范式编程语言，由Martin Odersky在2003年设计。它seamlessly结合了面向对象编程和函数式编程的特性，旨在构建可伸缩的软件系统。* 核心设计理念*： ...

29.hudi

Apache Hudi技术指南目录点击展开目录 Apache Hudi技术指南目录概述与核心概念什么是Apache Hudi 核心价值发展历程核心特性 1. 快速Upsert和Delete 2. 增量数据处理 3. 多种查询类型 4. 存储优化应用场景 1. 实时数据仓库 2. 数据湖现代化 3. 合规性要求与其他数据湖技术对比选择建议架构设计整体架构核心设计原则存储格式文件组织结构文件类型说明时间轴Timeline Timeline操作类型 Timeline状态管理索引机制索引类型对比 BloomFilter索引原理表类型与写入模式 Copy On Write (COW) 工作原理特点分析适用场景 Merge On Read (MOR) 工作原理特点分析适用场景写入模式对比选择策略决策流程图实际选择建议核心组件 HoodieRecord 核心属性操作类型记录状态转换 HoodieKey 组成结构设计原则最佳实践 HoodieTimeline Timeline结构操作状态流转 Timeline操作类型 HoodieIndex 索引接口设计索引实现对比 BloomFilter索引详解 HoodieWriteClient 核心API 写入流程配置优化数据写入操作 Insert操作执行流程性能特点代码示例 Upsert操作执行流程索引查找优化性能调优要点 Delete操作删除模式对比软删除实现硬删除实现 Bulk Insert操作与普通Insert的区别优化策略配置参数使用场景数据查询快照查询查询原理 Spark SQL查询性能优化增量查询查询模式实现方式应用场景性能考虑时间点查询查询语法实现机制配置要求查询优化分区裁剪优化列裁剪优化索引利用优化缓存策略压缩策略压缩触发机制压缩策略类型压缩配置优化压缩执行流程清理策略清理类型清理配置清理执行逻辑归档机制归档流程归档配置归档文件结构性能调优压缩性能优化清理性能优化监控指标最佳实践建议集成与部署 Spark集成依赖配置 Spark配置 DataFrame API使用 Spark SQL集成 Flink集成 Flink依赖流式写入配置 Flink SQL集成实时查询支持 Hive集成 Hive配置同步Hive元数据 Hive查询示例部署配置集群部署架构环境配置清单性能调优配置监控配置监控指标核心监控指标分类关键性能指标（KPI）监控配置自定义监控指标故障排查常见问题诊断流程典型故障场景故障排查工具性能优化写入性能优化策略具体优化配置查询性能优化最佳实践表设计最佳实践运维最佳实践容量规划建议灾难恢复策略高级特性多表事务事务管理架构多表事务实现事务隔离级别 Schema演进 Schema演进类型 Schema演进实现 Schema兼容性检查数据血缘血缘信息结构血缘追踪实现安全机制安全架构访问控制配置字段级加密审计日志基础概念题 1. 什么是Apache Hudi？它解决了什么问题？ 2. Hudi的COW和MOR表类型有什么区别？如何选择？ 3. 解释Hudi中Timeline的概念和作用 4. Hudi的索引机制是如何工作的？架构设计题 5. 设计一个基于Hudi的实时数据湖架构 6. 如何处理Hudi表的数据倾斜问题？ 7. 如何设计Hudi表的容灾和备份策略？性能优化题 8. Hudi写入性能优化有哪些策略？ 9. 如何优化Hudi的查询性能？ 10. 在大规模数据场景下，如何设计Hudi的压缩策略？实战应用题 11. 如何基于Hudi构建一个实时用户画像系统？ 12. 如何处理Hudi表的数据质量问题？概述与核心概念什么是Apache Hudi Apache Hudi（Hadoop Upserts Deletes and Incrementals）是一个开源的数据湖存储框架，专门为大规模分析数据集提供快速的upsert/delete和增量数据处理能力。 ...

32.elasticsearch

Elasticsearch 完整技术指南目录点击展开目录 Elasticsearch 完整技术指南目录 Elasticsearch 简介核心特性对比应用场景分析核心概念与架构基础概念映射节点类型详解分片与副本机制分布式原理集群发现与选主数据写入流程数据读取流程索引生命周期管理映射类型与字段属性动态映射机制分析器与分词查询DSL详解查询上下文分类 Bool查询详解 Multi-Match查询策略高级查询技巧聚合分析聚合分类体系多维度数据分析统计分析聚合聚合性能优化集群管理集群状态管理分片分配策略集群监控指标性能优化写入性能优化查询性能优化 JVM调优参数存储优化策略监控运维监控体系架构运维自动化脚本性能监控指标安全架构设计 X-Pack安全配置角色权限管理 API密钥管理故障排查常见问题诊断流程集群状态问题排查性能问题排查内存问题排查最佳实践索引设计最佳实践运维最佳实践容量规划指导高频面试题基础概念类 1. 解释Elasticsearch的核心概念及其关系 2. Elasticsearch与传统关系型数据库的区别 3. 什么是倒排索引？它是如何工作的？架构设计类 4. 设计一个支持千万级文档的Elasticsearch集群架构 5. 如何处理Elasticsearch的热点数据问题？性能优化类 6. Elasticsearch写入性能优化策略有哪些？ 7. 如何优化Elasticsearch查询性能？故障排查类 8. Elasticsearch集群出现红色状态如何排查？ 9. 如何诊断Elasticsearch内存泄漏问题？ 10. Elasticsearch分片不均衡如何解决？ Elasticsearch 简介 Elasticsearch 是基于 Apache Lucene 构建的分布式、RESTful 风格的搜索和数据分析引擎，是 Elastic Stack 的核心组件。它能够处理结构化、半结构化和非结构化数据，提供近实时的搜索和分析能力。 ...

37.delta-lake

Delta Lake 技术指南目录点击展开目录概述核心概念架构设计核心特性安装与配置基本操作高级功能性能优化最佳实践故障排查面试题概述 Delta Lake 是由 Databricks 开源的存储层，为 Apache Spark 和大数据工作负载提供 ACID 事务、可扩展的元数据处理和统一的流批处理。它在现有数据湖之上构建了一个事务层，解决了传统数据湖的可靠性、性能和治理问题。什么是 Delta Lake Delta Lake 是一个开源存储框架，它使数据湖能够提供数据仓库的可靠性。主要解决以下问题：数据可靠性问题：传统数据湖缺乏 ACID 事务保证数据质量问题：难以处理脏数据和数据不一致性能问题：小文件过多，查询性能差数据治理问题：缺乏 schema 演进和数据版本管理核心价值特性传统数据湖 Delta Lake ACID 事务 ❌ 不支持 ✅ 完全支持 Schema 演进 ❌ 困难 ✅ 自动处理时间旅行 ❌ 不支持 ✅ 支持版本回溯数据质量 ❌ 难以保证 ✅ 内置校验流批统一 ❌ 分离处理 ✅ 统一接口性能优化 ❌ 手动维护 ✅ 自动优化技术背景 Delta Lake 诞生于 Databricks 在构建大规模数据湖时遇到的实际问题。传统的数据湖虽然提供了灵活的存储能力，但在企业级应用中面临诸多挑战： ...

38.paimon

38. Apache Paimon 技术指南目录点击展开目录概述与架构什么是 Apache Paimon 核心特性架构设计与其他数据湖技术对比核心概念表格式文件布局快照机制分区策略存储引擎 LSM-Tree 存储文件组织压缩策略索引机制数据写入批量写入流式写入事务支持写入优化数据查询查询引擎集成时间旅行增量查询查询优化 Schema 演进 Schema 变更兼容性管理数据类型支持运维管理部署配置监控指标性能调优故障排查实战应用 CDC 数据同步实时数仓构建数据湖集成最佳实践面试题解析基础概念题架构设计题性能优化题实战应用题概述与架构什么是 Apache Paimon Apache Paimon 是一个流式数据湖存储，为批处理和流处理提供高性能查询。它是 Apache 软件基金会的顶级项目，专门设计用于解决传统数据湖在实时性和一致性方面的挑战。核心定位：流批一体的数据湖存储引擎支持实时写入和历史查询提供ACID 事务保证兼容多种计算引擎主要解决的问题： ...

62.Grafana可视化监控平台

Grafana可视化监控平台目录点击展开目录 Grafana可视化监控平台目录概述什么是Grafana 核心特性应用场景架构设计核心组件数据流转架构演进数据源集成支持的数据源 Prometheus集成其他常用数据源查询语法详解 PromQL基础语法 PromQL函数 PromQL运算符高级查询技巧 Grafana变量在查询中的使用 Dashboard仪表盘 Dashboard基础可视化组件变量与模板告警机制告警规则配置通知渠道告警最佳实践 Flink监控实战 Flink与Prometheus集成 Flink核心指标 Grafana Dashboard配置常见监控场景性能调优指导高级特性 Grafana 12新特性可观测性即代码动态仪表盘最佳实践 Dashboard设计原则性能优化安全配置常见问题与排查数据源连接问题查询性能问题告警不触发概述什么是Grafana Grafana是一个开源的可视化和可观测性平台，允许用户查询、可视化、告警和理解指标数据，无论数据存储在何处。它已成为监控领域的事实标准，被广泛应用于基础设施监控、应用性能监控、业务指标分析等场景。核心价值：统一可视化：将来自不同数据源的指标统一展示实时监控：提供实时数据刷新和告警能力灵活扩展：支持插件机制，可扩展数据源和可视化组件开源免费：社区活跃，企业版提供更多高级特性核心特性特性类别功能描述应用价值多数据源支持支持Prometheus、InfluxDB、Elasticsearch等50+数据源统一监控平台，避免工具碎片化丰富的可视化时序图、柱状图、热力图、地图、表格等多种图表类型满足不同场景的展示需求告警系统灵活的告警规则、多种通知渠道（邮件、Slack、钉钉等）及时发现和响应问题 Dashboard模板变量、重复面板、链接跳转等高级功能提高Dashboard复用性和交互性权限管理组织、团队、用户级别的权限控制满足企业级安全需求插件生态丰富的社区插件和自定义插件开发能力扩展平台能力应用场景 1. 基础设施监控 ...