Spark SQL distinct优化原理与实践指南

Aelius Censorius

1. 为什么需要关注Spark SQL的distinct优化

第一次在千万级数据表上执行distinct操作时，我盯着那个卡住不动的进度条整整十分钟。作为从传统数据库转战大数据平台的老DBA，这种性能落差让我意识到：在分布式环境下，看似简单的去重操作背后藏着完全不同的游戏规则。

Spark SQL的distinct操作本质上是一个特殊的聚合运算，它需要将所有数据按目标字段重新洗牌（shuffle）到相同节点进行比较。当处理GB级以上的数据时，这种全局排序去重的代价会呈指数级增长。去年我们团队就遇到过生产事故：一个本该30分钟完成的报表任务，因为开发人员随意使用了多个distinct，最终导致集群资源耗尽超时失败。

2. distinct操作的执行原理剖析

2.1 物理执行计划解析

用EXPLAIN EXTENDED观察一个简单查询：

sql复制SELECT DISTINCT department FROM employees

在Spark 3.2的执行计划中会显示：

code复制HashAggregate(keys=[department#20], functions=[])
+- Exchange hashpartitioning(department#20, 200)
   +- HashAggregate(keys=[department#20], functions=[])
      +- FileScan parquet [department#20]...

这个计划揭示了两阶段处理：

先在各个executor本地做初步去重（内层HashAggregate）
通过Exchange操作进行全局shuffle
最后在reduce端完成全局去重

2.2 内存消耗模型

假设我们处理1亿条记录，每条记录的去重字段平均占用16字节：

原始数据量：100,000,000 × 16B ≈ 1.6GB
HashSet内存开销：考虑到Java对象头开销和哈希表负载因子，实际内存占用可达3-4GB
如果并发200个task，峰值内存需求可能突破800GB

这就是为什么在spark-defaults.conf中需要配置：

properties复制spark.sql.shuffle.partitions=200  # 根据集群规模调整
spark.executor.memoryOverhead=1g  # 预防OOM

3. 生产环境优化方案

3.1 替代方案性能对比

我们在TPC-DS 100GB数据集上测试不同方案：

方案	执行时间	Shuffle数据量	CPU耗时
直接DISTINCT	78s	12.4GB	214s
GROUP BY替代	65s	11.8GB	198s
预聚合+广播变量	41s	2.3GB	157s
布隆过滤器预处理	53s	8.7GB	182s

3.2 最佳实践组合拳

分区裁剪优先：

sql复制-- 坏味道
SELECT DISTINCT user_id FROM logs

-- 优化后
SELECT DISTINCT user_id FROM logs 
WHERE dt BETWEEN '2023-01-01' AND '2023-01-31'

巧用GROUP BY改写：

sql复制-- 原始写法
SELECT DISTINCT product_id, category FROM sales

-- 优化写法（减少一次聚合计算）
SELECT product_id, category FROM sales
GROUP BY product_id, category

预聚合+广播join：

python复制# 先在维度表去重
dim_df = spark.sql("SELECT DISTINCT dept_id FROM departments")
dim_df.persist(StorageLevel.MEMORY_AND_DISK)

# 广播到事实表关联
fact_df = spark.sql("SELECT * FROM transactions")
result = fact_df.join(broadcast(dim_df), "dept_id")

参数调优模板：

bash复制spark-submit \
  --conf spark.sql.adaptive.enabled=true \
  --conf spark.sql.adaptive.coalescePartitions.enabled=true \
  --conf spark.sql.shuffle.partitions=300 \
  --conf spark.executor.memory=8g \
  --conf spark.sql.skewJoin.skewedPartitionFactor=5 \
  your_app.py

4. 高阶优化技巧

4.1 倾斜数据处理方案

当遇到数据倾斜时，可以通过采样分析键值分布：

python复制from pyspark.sql.functions import col

# 找出热点键值
skew_keys = (df.groupBy("department")
             .count()
             .orderBy(col("count").desc())
             .limit(5)
             .collect())

处理方案：

加盐处理：

sql复制-- 原始倾斜SQL
SELECT DISTINCT user_id FROM click_logs

-- 加盐优化版
SELECT split(user_id, '_')[0] AS real_user_id 
FROM (
  SELECT concat(user_id, '_', ceil(rand()*10)) AS user_id 
  FROM click_logs
) 
GROUP BY split(user_id, '_')[0]

两阶段聚合：

python复制# 第一阶段局部聚合
stage1 = df.groupBy(
  col("product_id"), 
  (rand() * 10).cast("int").alias("salt")
).agg(count("*").alias("cnt"))

# 第二阶段全局聚合
stage2 = stage1.groupBy("product_id").agg(sum("cnt").alias("total"))

4.2 存储格式优化

使用Delta Lake的Z-Ordering加速distinct：

python复制delta_df = spark.read.format("delta").load("/data/events")
delta_df.optimize().executeZOrderBy("user_id")

实测效果：

Parquet格式：shuffle 45GB，耗时120s
Z-Ordered Delta：shuffle 12GB，耗时38s

5. 监控与异常处理

5.1 关键指标监控

在Spark UI中重点关注：

Shuffle Read Size/Records：突然增大可能预示倾斜
GC Time：频繁GC可能因去重集合过大
Task Duration：长尾任务通常由数据倾斜导致

配置Prometheus监控：

yaml复制rules:
  - alert: DistinctShuffleTooLarge
    expr: spark_shuffle_read_bytes > 5e9
    for: 5m
    labels:
      severity: warning

5.2 常见异常处理

案例1：OOM错误

log复制java.lang.OutOfMemoryError: Java heap space
  at java.util.HashMap.resize(HashMap.java:704)
  at org.apache.spark.util.collection.ExternalAppendOnlyMap.insertAll(ExternalAppendOnlyMap.scala:152)

解决方案：

增加spark.sql.objectHashAggregate.sortBased.fallbackThreshold（默认128）
设置spark.executor.memoryOverhead为堆内存的30%

案例2：数据倾斜

log复制18/01/01 15:33:21 WARN scheduler.TaskSetManager: 
Stage 3 contains a task of very large size (5324 KB)

解决方案：

使用spark.sql.adaptive.enabled=true
配置spark.sql.adaptive.advisoryPartitionSizeInBytes=128MB

6. 实战经验总结

字段选择黄金法则：

优先对低基数字段（<1000唯一值）使用distinct
高基数字段考虑用approx_count_distinct替代

sql复制-- 精确去重（资源消耗大）
SELECT COUNT(DISTINCT user_id) FROM logs

-- 近似去重（误差0.1%以内）
SELECT approx_count_distinct(user_id, 0.001) FROM logs

执行计划检查清单：
- 出现Exchange表示有shuffle
- HashAggregate比SortAggregate更高效
- 确保Filter操作在distinct之前执行

参数调优经验值：

properties复制# 中小集群(20节点以下)
spark.sql.shuffle.partitions=集群核数×3

# 大集群(100节点以上)
spark.sql.adaptive.coalescePartitions.minPartitionNum=2000

一个真实故障复盘：
某次促销活动分析中，开发人员写了如下SQL：

sql复制SELECT DISTINCT a.user_id, b.product_id, c.category
FROM clicks a JOIN orders b ON a.user_id=b.user_id
             JOIN products c ON b.product_id=c.id

优化后方案：

sql复制WITH user_products AS (
  SELECT user_id, product_id 
  FROM orders GROUP BY user_id, product_id
)
SELECT a.user_id, a.product_id, p.category
FROM user_products a JOIN products p ON a.product_id=p.id