<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>DataFrame on Ralph's Blog</title><link>https://pothos.dpdns.org/tags/dataframe/</link><description>Recent content in DataFrame on Ralph's Blog</description><generator>Hugo -- 0.147.7</generator><language>zh-cn</language><lastBuildDate>Wed, 24 Dec 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://pothos.dpdns.org/tags/dataframe/index.xml" rel="self" type="application/rss+xml"/><item><title>12.Spark</title><link>https://pothos.dpdns.org/posts/12.spark/</link><pubDate>Wed, 24 Dec 2025 00:00:00 +0000</pubDate><guid>https://pothos.dpdns.org/posts/12.spark/</guid><description>&lt;h1 id="12-spark">12. Spark&lt;/h1>
&lt;h2 id="目录">目录&lt;/h2>
&lt;details>
&lt;summary>点击展开目录&lt;/summary>
&lt;ul>
&lt;li>&lt;a href="#12-spark">12. Spark&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E7%9B%AE%E5%BD%95">目录&lt;/a>&lt;/li>
&lt;li>&lt;a href="#spark-%E6%A6%82%E8%BF%B0%E4%B8%8E%E7%8E%AF%E5%A2%83">Spark 概述与环境&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#spark%E7%AE%80%E4%BB%8B">Spark简介&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#spark%E7%89%B9%E7%82%B9%E4%B8%8E%E4%BC%98%E5%8A%BF">Spark特点与优势&lt;/a>&lt;/li>
&lt;li>&lt;a href="#spark-vs-hadoop-mapreduce">Spark vs Hadoop MapReduce&lt;/a>&lt;/li>
&lt;li>&lt;a href="#spark%E5%BA%94%E7%94%A8%E5%9C%BA%E6%99%AF">Spark应用场景&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#spark%E7%94%9F%E6%80%81%E7%B3%BB%E7%BB%9F">Spark生态系统&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E6%A0%B8%E5%BF%83%E7%BB%84%E4%BB%B6">核心组件&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#spark-%E6%A0%B8%E5%BF%83%E6%A6%82%E5%BF%B5">Spark 核心概念&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#rdd%E6%A0%B8%E5%BF%83%E6%A6%82%E5%BF%B5">RDD核心概念&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#rdd%E7%89%B9%E6%80%A7">RDD特性&lt;/a>&lt;/li>
&lt;li>&lt;a href="#rdd%E6%93%8D%E4%BD%9C%E5%88%86%E7%B1%BB">RDD操作分类&lt;/a>&lt;/li>
&lt;li>&lt;a href="#rdd%E4%BE%9D%E8%B5%96%E5%85%B3%E7%B3%BB">RDD依赖关系&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#dataframe%E4%B8%8Edataset">DataFrame与Dataset&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#dataframe%E6%A6%82%E5%BF%B5">DataFrame概念&lt;/a>&lt;/li>
&lt;li>&lt;a href="#dataset%E6%A6%82%E5%BF%B5">Dataset概念&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E4%B8%89%E8%80%85%E5%AF%B9%E6%AF%94%E5%88%86%E6%9E%90">三者对比分析&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E5%88%86%E5%8C%BA%E6%9C%BA%E5%88%B6">分区机制&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E5%88%86%E5%8C%BA%E7%AD%96%E7%95%A5">分区策略&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E5%88%86%E5%8C%BA%E8%B0%83%E4%BC%98">分区调优&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#spark-%E6%9E%B6%E6%9E%84%E4%B8%8E%E5%8E%9F%E7%90%86">Spark 架构与原理&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E6%95%B4%E4%BD%93%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1">整体架构设计&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84%E6%80%BB%E8%A7%88">系统架构总览&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E9%83%A8%E7%BD%B2%E6%9E%B6%E6%9E%84%E6%A8%A1%E5%BC%8F">部署架构模式&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E6%A0%B8%E5%BF%83%E7%BB%84%E4%BB%B6%E5%8E%9F%E7%90%86">核心组件原理&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#sparkcontext---%E5%BA%94%E7%94%A8%E7%A8%8B%E5%BA%8F%E5%85%A5%E5%8F%A3">SparkContext - 应用程序入口&lt;/a>&lt;/li>
&lt;li>&lt;a href="#driver-program---%E9%A9%B1%E5%8A%A8%E7%A8%8B%E5%BA%8F">Driver Program - 驱动程序&lt;/a>&lt;/li>
&lt;li>&lt;a href="#cluster-manager---%E9%9B%86%E7%BE%A4%E7%AE%A1%E7%90%86%E5%99%A8">Cluster Manager - 集群管理器&lt;/a>&lt;/li>
&lt;li>&lt;a href="#executor---%E4%BB%BB%E5%8A%A1%E6%89%A7%E8%A1%8C%E5%99%A8">Executor - 任务执行器&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E4%BB%BB%E5%8A%A1%E8%B0%83%E5%BA%A6%E6%9C%BA%E5%88%B6">任务调度机制&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E8%B0%83%E5%BA%A6%E6%A1%86%E6%9E%B6%E6%80%BB%E8%A7%88">调度框架总览&lt;/a>&lt;/li>
&lt;li>&lt;a href="#dag%E8%B0%83%E5%BA%A6%E5%99%A8%E5%8E%9F%E7%90%86">DAG调度器原理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E4%BB%BB%E5%8A%A1%E8%B0%83%E5%BA%A6%E5%99%A8%E5%AE%9E%E7%8E%B0">任务调度器实现&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%9C%AC%E5%9C%B0%E6%80%A7%E8%B0%83%E5%BA%A6%E7%AD%96%E7%95%A5">本地性调度策略&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%8E%A8%E6%B5%8B%E6%89%A7%E8%A1%8C%E4%B8%8E%E5%AE%B9%E9%94%99">推测执行与容错&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E5%AD%98%E5%82%A8%E4%B8%8E%E5%86%85%E5%AD%98%E7%AE%A1%E7%90%86">存储与内存管理&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#blockmanager%E5%AD%98%E5%82%A8%E5%BC%95%E6%93%8E">BlockManager存储引擎&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E7%BB%9F%E4%B8%80%E5%86%85%E5%AD%98%E7%AE%A1%E7%90%86">统一内存管理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E7%BC%93%E5%AD%98%E4%B8%8E%E6%8C%81%E4%B9%85%E5%8C%96%E7%AD%96%E7%95%A5">缓存与持久化策略&lt;/a>&lt;/li>
&lt;li>&lt;a href="#spark-16%E5%86%85%E5%AD%98%E7%AE%A1%E7%90%86%E6%BC%94%E8%BF%9B%E4%B8%8E%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE">Spark 1.6内存管理演进与参数配置&lt;/a>&lt;/li>
&lt;li>&lt;a href="#yarn-container-oom%E5%AE%9E%E6%88%98%E6%8E%92%E6%9F%A5">YARN Container OOM实战排查&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#shuffle%E6%95%B0%E6%8D%AE%E4%BA%A4%E6%8D%A2">Shuffle数据交换&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#shuffle%E6%9C%BA%E5%88%B6%E5%8E%9F%E7%90%86">Shuffle机制原理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#shuffle%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96">Shuffle性能优化&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%95%B0%E6%8D%AE%E5%80%BE%E6%96%9C%E5%A4%84%E7%90%86">数据倾斜处理&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E5%AE%B9%E9%94%99%E4%B8%8E%E5%8F%AF%E9%9D%A0%E6%80%A7">容错与可靠性&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E8%A1%80%E7%BC%98%E5%85%B3%E7%B3%BB%E5%AE%B9%E9%94%99">血缘关系容错&lt;/a>&lt;/li>
&lt;li>&lt;a href="#checkpoint%E6%A3%80%E6%9F%A5%E7%82%B9">Checkpoint检查点&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%95%85%E9%9A%9C%E6%81%A2%E5%A4%8D%E6%9C%BA%E5%88%B6">故障恢复机制&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E8%B5%84%E6%BA%90%E7%AE%A1%E7%90%86%E4%B8%8E%E9%80%9A%E4%BF%A1">资源管理与通信&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E8%B0%83%E5%BA%A6%E7%AE%97%E6%B3%95%E7%AD%96%E7%95%A5">调度算法策略&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E5%8A%A8%E6%80%81%E8%B5%84%E6%BA%90%E5%88%86%E9%85%8D">动态资源分配&lt;/a>&lt;/li>
&lt;li>&lt;a href="#rpc%E9%80%9A%E4%BF%A1%E6%9C%BA%E5%88%B6">RPC通信机制&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E5%BA%8F%E5%88%97%E5%8C%96%E4%B8%8E%E7%BD%91%E7%BB%9C%E4%BC%A0%E8%BE%93">序列化与网络传输&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#spark-sql%E4%B8%8Ecatalyst">Spark SQL与Catalyst&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#spark-sql%E6%A6%82%E8%BF%B0">Spark SQL概述&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E4%B8%BB%E8%A6%81%E7%89%B9%E6%80%A7">主要特性&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#catalyst%E4%BC%98%E5%8C%96%E5%99%A8">Catalyst优化器&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#catalyst%E6%9E%B6%E6%9E%84%E5%8E%9F%E7%90%86">Catalyst架构原理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E4%BC%98%E5%8C%96%E6%B5%81%E7%A8%8B%E8%AF%A6%E8%A7%A3">优化流程详解&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%A0%B8%E5%BF%83%E4%BC%98%E5%8C%96%E8%A7%84%E5%88%99">核心优化规则&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%B7%B1%E5%85%A5%E4%BC%98%E5%8C%96%E8%A7%84%E5%88%99%E5%AE%9E%E7%8E%B0">深入优化规则实现&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%88%90%E6%9C%AC%E4%BC%98%E5%8C%96%E5%99%A8cbo">成本优化器（CBO）&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E4%BB%A3%E7%A0%81%E7%94%9F%E6%88%90%E5%BC%95%E6%93%8E">代码生成引擎&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E8%87%AA%E9%80%82%E5%BA%94%E6%9F%A5%E8%AF%A2%E6%89%A7%E8%A1%8Caqe">自适应查询执行（AQE）&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E4%BC%98%E5%8C%96%E5%99%A8%E6%89%A9%E5%B1%95%E4%B8%8E%E5%AE%9A%E5%88%B6">优化器扩展与定制&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#sparksql-%E5%AE%9E%E7%94%A8%E5%87%BD%E6%95%B0%E4%B8%8E%E8%AF%AD%E6%B3%95">SparkSQL 实用函数与语法&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E6%95%B0%E6%8D%AE%E9%87%87%E6%A0%B7%E4%B8%8E%E6%9F%A5%E7%9C%8B">数据采样与查看&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%97%A5%E6%9C%9F%E4%B8%8E%E6%97%B6%E9%97%B4%E5%A4%84%E7%90%86">日期与时间处理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E5%AD%97%E7%AC%A6%E4%B8%B2%E5%A4%84%E7%90%86">字符串处理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E7%9B%B4%E6%8E%A5%E6%96%87%E4%BB%B6%E6%9F%A5%E8%AF%A2file-based-query">直接文件查询（File-based Query）&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%95%B0%E7%BB%84%E4%B8%8E%E9%9B%86%E5%90%88%E6%93%8D%E4%BD%9C">数组与集合操作&lt;/a>&lt;/li>
&lt;li>&lt;a href="#json%E5%A4%84%E7%90%86">JSON处理&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%9D%A1%E4%BB%B6%E4%B8%8E%E5%88%A4%E6%96%AD">条件与判断&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%9D%A1%E4%BB%B6%E8%AE%A1%E6%95%B0%E4%B8%8E%E8%81%9A%E5%90%88">条件计数与聚合&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E5%94%AF%E4%B8%80id%E7%94%9F%E6%88%90%E6%96%B9%E6%B3%95">唯一ID生成方法&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E7%AA%97%E5%8F%A3%E5%87%BD%E6%95%B0">窗口函数&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E8%81%9A%E5%90%88%E5%87%BD%E6%95%B0">聚合函数&lt;/a>&lt;/li>
&lt;li>&lt;a href="#udfudaf-%E6%B3%A8%E5%86%8C%E4%B8%8E%E4%BD%BF%E7%94%A8">UDF/UDAF 注册与使用&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98%E4%B8%8E%E4%BC%98%E5%8C%96">性能调优与优化&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E5%86%99%E5%87%BA%E6%8E%92%E5%BA%8F%E4%BC%98%E5%8C%96">写出排序优化&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%9F%A5%E8%AF%A2%E4%B8%8E%E4%BD%9C%E4%B8%9A%E4%BC%98%E5%8C%96">查询与作业优化&lt;/a>&lt;/li>
&lt;li>&lt;a href="#join%E4%BC%98%E5%8C%96">Join优化&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E7%BC%93%E5%AD%98%E4%B8%8E%E6%8C%81%E4%B9%85%E5%8C%96">缓存与持久化&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E4%BB%A3%E7%A0%81%E5%B1%82%E9%9D%A2%E4%BC%98%E5%8C%96">代码层面优化&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E7%BD%91%E7%BB%9C%E4%B8%8Eio%E4%BC%98%E5%8C%96">网络与I/O优化&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E5%B8%B8%E8%A7%81%E6%80%A7%E8%83%BD%E9%97%AE%E9%A2%98">常见性能问题&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E7%9B%91%E6%8E%A7%E4%B8%8E%E8%AF%8A%E6%96%AD">监控与诊断&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E5%B8%B8%E8%A7%81%E9%94%99%E8%AF%AF%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88">常见错误解决方案&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E5%86%85%E5%AD%98%E7%9B%B8%E5%85%B3%E9%94%99%E8%AF%AF">内存相关错误&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E7%BD%91%E7%BB%9C%E7%9B%B8%E5%85%B3%E9%94%99%E8%AF%AF">网络相关错误&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E5%BA%8F%E5%88%97%E5%8C%96%E7%9B%B8%E5%85%B3%E9%94%99%E8%AF%AF">序列化相关错误&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E8%B5%84%E6%BA%90%E7%9B%B8%E5%85%B3%E9%94%99%E8%AF%AF">资源相关错误&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%95%B0%E6%8D%AE%E7%9B%B8%E5%85%B3%E9%94%99%E8%AF%AF">数据相关错误&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E8%B0%83%E8%AF%95%E5%92%8C%E8%AF%8A%E6%96%AD%E5%B7%A5%E5%85%B7">调试和诊断工具&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E9%A2%84%E9%98%B2%E6%8E%AA%E6%96%BD">预防措施&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#%E5%85%B3%E9%94%AE%E5%8F%82%E6%95%B0%E4%B8%8E%E9%85%8D%E7%BD%AE%E6%A8%A1%E6%9D%BF">关键参数与配置模板&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#jvm%E7%9B%B8%E5%85%B3%E5%8F%82%E6%95%B0">JVM相关参数&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#spark%E9%AB%98%E9%A2%91%E9%9D%A2%E8%AF%95%E9%A2%98">Spark高频面试题&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5%E9%A2%98">基础概念题&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%9E%B6%E6%9E%84%E5%8E%9F%E7%90%86%E9%A2%98">架构原理题&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98%E9%A2%98">性能调优题&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E5%AE%9E%E6%88%98%E5%BA%94%E7%94%A8%E9%A2%98">实战应用题&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%B7%B1%E5%BA%A6%E6%8A%80%E6%9C%AF%E5%8E%9F%E7%90%86%E9%A2%98">深度技术原理题&lt;/a>&lt;/li>
&lt;li>&lt;a href="#%E6%95%85%E9%9A%9C%E6%8E%92%E6%9F%A5%E4%B8%8E%E8%BF%90%E7%BB%B4%E9%A2%98">故障排查与运维题&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;hr>
&lt;/details>
&lt;h2 id="spark-概述与环境">Spark 概述与环境&lt;/h2>
&lt;h3 id="spark简介">Spark简介&lt;/h3>
&lt;p>&lt;strong>Apache Spark&lt;/strong> 是一个快速、通用的大数据处理引擎，专为大规模数据处理而设计。它提供了高级API（Java、Scala、Python、R），并支持用于SQL查询、流处理、机器学习和图形处理的优化引擎。&lt;/p></description></item></channel></rss>