Hive on Spark内存配置问题解析与调优-代码聚汇网

Hive on Spark内存配置问题解析与调优

孙宝英

1. 报错现象与问题定位

最近在使用Hive on Spark模式执行数据查询时，遇到了一个典型的内存配置问题。具体报错信息如下：

code复制0: jdbc:hive2://hadoop102:10000> select count(1) from dwd_report_energy_data;
Error: Error while processing statement: FAILED: Execution Error, return code 30042 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client due to invalid resource request: Required executor memory (2048 MB), offHeap memory

这个错误的核心在于Spark申请的资源（特别是内存）超出了YARN集群能够提供的最大限制。在实际生产环境中，这是Spark on YARN部署模式下最常见的问题之一。

关键提示：这类错误通常发生在以下场景：

新部署的Spark集群首次运行较大任务时

从Standalone模式迁移到YARN模式时未调整配置

业务数据量增长后原有配置不再适用

2. 问题根源深度解析

2.1 YARN资源管理机制

YARN作为Hadoop的资源调度器，对每个容器(Container)的内存使用有严格限制。这些限制包括：

yarn.scheduler.maximum-allocation-mb：单个容器可申请的最大内存
yarn.nodemanager.resource.memory-mb：每个NodeManager可用的总物理内存
yarn.scheduler.minimum-allocation-mb：单个容器最小内存分配单位

当Spark作为YARN的应用程序运行时，它申请的Executor和Driver内存必须符合这些限制，否则就会抛出我们遇到的错误。

2.2 Spark内存组成结构

Spark在YARN上运行时，每个Executor的内存由以下几部分组成：

Executor Memory：通过spark.executor.memory设置
Off-Heap Memory：通过spark.yarn.executor.memoryOverhead设置
其他开销：包括JVM自身开销、执行内存等

总内存需求 = Executor Memory + MemoryOverhead。这个总和不能超过YARN单个容器的最大限制。

2.3 典型配置冲突场景

在我们的案例中，报错显示申请了2048MB的Executor内存。假设集群配置如下：

yarn.scheduler.maximum-allocation-mb = 2048MB
spark.executor.memory = 2048MB
spark.yarn.executor.memoryOverhead = 默认值(executorMemory * 0.10)

此时总内存需求 = 2048 + 204 = 2252MB，已经超过了YARN的2048MB限制，导致申请被拒绝。

3. 解决方案与配置调整

3.1 调整YARN资源配置

这是最根本的解决方法，需要修改YARN的配置参数：

xml复制<!-- yarn-site.xml -->
<property>
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>8192</value>
</property>
<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>16384</value>
</property>

调整后需要重启YARN服务：

bash复制stop-yarn.sh
start-yarn.sh

注意事项：

新值应根据物理服务器实际内存配置

通常保留20%内存给系统和其他服务

修改后要通过yarn node -list确认资源生效

3.2 优化Spark内存配置

如果无法修改YARN配置，可以调整Spark的内存参数：

bash复制# 设置executor内存为1800MB，保留足够overhead空间
spark.executor.memory=1800MB

# 显式设置memoryOverhead（通常为executor内存的10%-20%）
spark.yarn.executor.memoryOverhead=384MB

# 对于Hive on Spark特别设置
set spark.executor.memory=1800MB;
set spark.yarn.executor.memoryOverhead=384MB;

对于Hive on Spark，还可以在hive-site.xml中永久配置：

xml复制<property>
  <name>spark.executor.memory</name>
  <value>1800MB</value>
</property>
<property>
  <name>spark.yarn.executor.memoryOverhead</name>
  <value>384MB</value>
</property>

3.3 动态资源分配策略

对于负载变化大的场景，建议启用动态分配：

properties复制spark.dynamicAllocation.enabled=true
spark.dynamicAllocation.initialExecutors=2
spark.dynamicAllocation.minExecutors=1
spark.dynamicAllocation.maxExecutors=10

这样Spark可以根据任务需求自动调整Executor数量，避免固定配置造成资源浪费或不足。

4. 配置验证与测试方法

4.1 验证YARN资源配置

bash复制# 查看YARN节点资源情况
yarn node -list

# 输出示例：
Node-Id         Node-State Node-Http-Address  Number-of-Running-Containers
hadoop103:45454 RUNNING    hadoop103:8042    0
   Resource Utilization: CPU: 0.0/8 cores, Memory: 0/16384MB

4.2 Spark任务提交测试

使用spark-submit测试资源配置：

bash复制spark-submit \
--master yarn \
--deploy-mode client \
--executor-memory 1800M \
--executor-cores 2 \
--num-executors 3 \
--conf spark.yarn.executor.memoryOverhead=384M \
your_application.jar

4.3 Hive on Spark测试

在Hive客户端执行：

sql复制SET spark.executor.memory=1800M;
SET spark.yarn.executor.memoryOverhead=384M;
SELECT count(1) FROM dwd_report_energy_data;

5. 高级调优建议

5.1 Executor数量与内存的平衡

Executor配置需要遵循以下原则：

每个Executor 5-15个core为佳
每个Executor内存建议4-8GB
避免单个Executor过大导致GC压力
避免过多小Executor导致调度开销

计算公式：

code复制num_executors = (总核数 - spark.driver.cores) / 每个executor的核数

5.2 内存分配比例优化

Spark内存分为以下几部分：

Storage Memory：缓存数据用（spark.memory.storageFraction）
Execution Memory：计算用（spark.memory.fraction）
User Memory：用户数据结构（剩余部分）

典型配置：

properties复制spark.memory.fraction=0.6
spark.memory.storageFraction=0.5

5.3 监控与日志分析

关键监控指标：

GC时间：过高说明内存不足
Shuffle溢出：spark.sql.shuffle.partitions可能需要调整
Executor丢失：可能因内存不足被YARN终止

日志分析位置：

YARN ApplicationMaster日志
Spark UI的Executor页面
NodeManager的系统日志

6. 常见问题排查指南

6.1 错误现象：Container killed by YARN for exceeding memory limits

可能原因：

MemoryOverhead设置不足
存在内存泄漏
数据倾斜导致单个Executor负载过高

解决方案：

增加spark.yarn.executor.memoryOverhead
检查代码中的缓存使用
分析数据分布，优化分区策略

6.2 错误现象：ApplicationMaster被终止