Hadoop单节点集群搭建与配置指南

埃琳娜莱农

1. Hadoop单节点集群搭建指南

1.1 环境准备与系统要求

在开始搭建Hadoop单节点集群之前，我们需要确保系统环境满足基本要求。我建议使用Ubuntu 20.04 LTS或CentOS 8作为操作系统，这两个版本都有较好的社区支持和长期维护。

硬件要求：

至少4GB RAM（8GB更佳）
20GB可用磁盘空间（SSD能显著提升性能）
64位处理器架构

软件依赖：

Java JDK 8或11（OpenJDK推荐）
SSH服务（用于节点间通信）
基本的Linux命令行工具（wget, tar等）

注意：虽然Hadoop支持Java 11，但某些组件可能对Java 8兼容性更好。在生产环境中，建议使用与团队其他系统一致的Java版本。

验证系统环境的命令如下：

bash复制# 检查系统版本
cat /etc/os-release

# 检查Java安装情况
java -version

# 检查SSH服务状态
sudo systemctl status sshd

如果系统缺少这些基础组件，可以通过以下命令安装：

bash复制# Ubuntu系统
sudo apt update && sudo apt install -y openjdk-8-jdk ssh

# CentOS系统
sudo yum install -y java-1.8.0-openjdk-devel openssh-server

1.2 创建专用Hadoop用户

虽然可以在root用户下安装Hadoop，但出于安全考虑，我强烈建议创建一个专用用户。这不仅能隔离系统文件，还能模拟真实生产环境中的权限管理。

bash复制# 创建hadoop用户并设置密码
sudo useradd -m hadoop
sudo passwd hadoop

# 将hadoop用户加入sudo组（便于管理）
sudo usermod -aG sudo hadoop

# 切换到hadoop用户
su - hadoop

在实际操作中，我发现为Hadoop用户配置适当的sudo权限可以简化很多管理操作，但要注意不要过度授权。可以通过编辑/etc/sudoers文件来精确控制权限。

2. Hadoop安装与配置详解

2.1 SSH免密登录配置

Hadoop集群中各节点需要通过SSH通信，配置免密登录可以避免频繁输入密码。这是搭建过程中最容易出问题的环节之一。

bash复制# 安装SSH客户端和服务器
sudo apt install -y openssh-client openssh-server

# 生成RSA密钥对（一路回车使用默认值）
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

# 将公钥添加到授权列表
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

# 设置正确的权限（关键步骤！）
chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

# 测试SSH连接
ssh localhost

常见问题：如果SSH连接失败，检查/var/log/auth.log日志文件。我遇到过几次权限设置不正确导致的问题，记住.ssh目录权限必须是700，authorized_keys文件权限必须是600。

2.2 Java环境配置

Hadoop是Java编写的，正确配置JAVA_HOME至关重要。我推荐使用OpenJDK 8，因为它经过了Hadoop社区的广泛测试。

bash复制# 查找Java安装路径
sudo update-alternatives --config java

# 输出类似：
# /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java

# 编辑~/.bashrc文件
nano ~/.bashrc

# 添加以下内容（根据实际路径调整）
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin

# 使配置生效
source ~/.bashrc

验证Java配置是否正确：

bash复制echo $JAVA_HOME  # 应该输出正确的路径
java -version    # 应该显示Java 8

2.3 Hadoop安装与目录结构

我建议从Apache官网下载Hadoop二进制包，而不是通过包管理器安装，这样可以获得最新版本和完全控制权。

bash复制# 下载Hadoop 3.4.3（截至2024年1月的最新稳定版）
wget https://downloads.apache.org/hadoop/common/hadoop-3.4.3/hadoop-3.4.3.tar.gz

# 验证文件完整性（可选但推荐）
wget https://downloads.apache.org/hadoop/common/hadoop-3.4.3/hadoop-3.4.3.tar.gz.sha512
sha512sum -c hadoop-3.4.3.tar.gz.sha512

# 解压到/usr/local目录
sudo tar -xzvf hadoop-3.4.3.tar.gz -C /usr/local
sudo mv /usr/local/hadoop-3.4.3 /usr/local/hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop

Hadoop目录结构说明：

code复制/usr/local/hadoop/
├── bin/        # 可执行命令
├── sbin/       # 管理脚本
├── etc/        # 配置文件
│   └── hadoop/ # Hadoop核心配置
├── lib/        # 库文件
├── logs/       # 日志文件
├── share/      # 文档和示例
└── tmp/        # 临时文件

配置环境变量：

bash复制nano ~/.bashrc

# 添加以下内容
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME

# 使配置生效
source ~/.bashrc

3. Hadoop核心配置解析

3.1 基础配置文件

Hadoop的配置文件位于$HADOOP_HOME/etc/hadoop目录下，我们需要修改以下几个关键文件：

hadoop-env.sh - 设置Java环境变量

bash复制nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

# 确保JAVA_HOME设置正确
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

core-site.xml - 核心配置

xml复制<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>

hdfs-site.xml - HDFS配置

xml复制<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///usr/local/hadoop/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///usr/local/hadoop/hdfs/datanode</value>
    </property>
    <property>
        <name>dfs.blocksize</name>
        <value>128m</value>
    </property>
</configuration>

mapred-site.xml - MapReduce配置

xml复制<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

yarn-site.xml - YARN配置

xml复制<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

3.2 初始化HDFS

在首次启动Hadoop前，需要格式化NameNode：

bash复制# 创建必要的目录
mkdir -p /usr/local/hadoop/hdfs/namenode
mkdir -p /usr/local/hadoop/hdfs/datanode
mkdir -p /usr/local/hadoop/tmp

# 格式化NameNode（仅在第一次执行）
hdfs namenode -format

重要提示：格式化NameNode会清除所有HDFS数据！在生产环境中，这是一个危险操作。在单节点环境中，如果遇到HDFS问题，重新格式化通常是可行的解决方案。

4. 启动Hadoop集群与服务验证

4.1 启动Hadoop服务

Hadoop提供了方便的脚本来启动和停止服务：

bash复制# 启动HDFS服务
start-dfs.sh

# 启动YARN服务
start-yarn.sh

# 启动历史服务器（用于查看已完成作业）
mapred --daemon start historyserver

验证服务是否正常运行：

bash复制jps

# 应该看到以下进程：
# 1. NameNode
# 2. DataNode
# 3. SecondaryNameNode
# 4. ResourceManager
# 5. NodeManager
# 6. JobHistoryServer

4.2 Web UI访问

Hadoop提供了丰富的Web界面用于监控和管理：

HDFS NameNode UI: http://localhost:9870
YARN ResourceManager UI: http://localhost:8088
MapReduce JobHistory UI: http://localhost:19888

在本地浏览器中访问这些URL，你应该能看到相应的管理界面。如果无法访问，检查防火墙设置：

bash复制# Ubuntu防火墙设置
sudo ufw allow 9870/tcp
sudo ufw allow 8088/tcp
sudo ufw allow 19888/tcp

4.3 运行测试作业

验证集群功能是否正常的最简单方法是运行内置的WordCount示例：

bash复制# 在HDFS中创建目录
hdfs dfs -mkdir -p /input

# 创建本地测试文件
echo "Hello World Hello Hadoop" > test.txt

# 上传文件到HDFS
hdfs dfs -put test.txt /input/

# 运行WordCount作业
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.4.3.jar wordcount /input/test.txt /output

# 查看结果
hdfs dfs -cat /output/part-r-00000

预期输出：

code复制Hadoop    1
Hello    2
World    1

5. 性能调优与日常管理

5.1 内存配置优化

在单节点环境中，合理分配内存资源至关重要。以下是针对4GB内存系统的优化建议：

yarn-site.xml:

xml复制<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>2048</value>
</property>
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>1536</value>
</property>
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

mapred-site.xml:

xml复制<property>
    <name>mapreduce.map.memory.mb</name>
    <value>512</value>
</property>
<property>
    <name>mapreduce.reduce.memory.mb</name>
    <value>1024</value>
</property>

5.2 常用管理命令

bash复制# 检查HDFS状态
hdfs dfsadmin -report

# 检查磁盘使用情况
hdfs dfs -df -h

# 列出HDFS文件
hdfs dfs -ls /

# 查看运行中的YARN应用
yarn application -list

# 停止特定应用
yarn application -kill <application_id>

# 安全模式下操作（谨慎使用）
hdfs dfsadmin -safemode enter|leave|get

5.3 日志管理

Hadoop的日志文件位于$HADOOP_HOME/logs目录下，对于问题排查非常重要：

bash复制# 查看NameNode日志
tail -f $HADOOP_HOME/logs/hadoop-hadoop-namenode-*.log

# 查看DataNode日志
tail -f $HADOOP_HOME/logs/hadoop-hadoop-datanode-*.log

# 查看YARN日志
tail -f $HADOOP_HOME/logs/yarn-hadoop-resourcemanager-*.log

对于长期运行的开发环境，建议配置日志轮转：

bash复制sudo nano /etc/logrotate.d/hadoop

# 添加以下内容
/usr/local/hadoop/logs/*.log {
    daily
    missingok
    rotate 30
    compress
    delaycompress
    notifempty
    create 640 hadoop hadoop
    sharedscripts
    postrotate
        /usr/bin/find /usr/local/hadoop/logs -name "*.log.*" -mtime +30 -exec rm {} \;
    endscript
}

6. 常见问题与解决方案

6.1 SSH连接问题

症状：执行ssh localhost时提示权限被拒绝或需要密码。

解决方案：

检查.ssh目录权限：必须是700
检查authorized_keys文件权限：必须是600

检查sshd_config配置：

bash复制sudo nano /etc/ssh/sshd_config
# 确保以下设置：
# PermitRootLogin prohibit-password
# PubkeyAuthentication yes
# AuthorizedKeysFile .ssh/authorized_keys
sudo systemctl restart ssh

6.2 端口冲突

症状：启动服务时报端口已被占用。

解决方案：

bash复制# 查找占用端口的进程
sudo netstat -tulnp | grep :9000

# 可以修改Hadoop使用的默认端口
# 在core-site.xml中修改fs.defaultFS的值
# 例如改为hdfs://localhost:9001

6.3 Java版本问题

症状：启动Hadoop时报Java版本不兼容。

解决方案：

确保JAVA_HOME在所有配置文件中一致
检查hadoop-env.sh中的JAVA_HOME设置
验证java -version输出与配置的版本一致

6.4 HDFS无法写入

症状：执行hdfs dfs -put时报权限被拒绝。

解决方案：

bash复制# 检查HDFS目录权限
hdfs dfs -ls /

# 修改权限（开发环境中可以使用）
hdfs dfs -chmod -R 777 /

注意：在生产环境中，应该配置适当的用户和组权限，而不是简单地使用777。

7. 安全配置建议（可选）

虽然单节点集群主要用于开发和测试，但了解基本的安全配置仍然有价值：

7.1 基本安全措施

防火墙配置：

bash复制sudo ufw enable
sudo ufw allow ssh
sudo ufw allow 9870/tcp  # NameNode
sudo ufw allow 8088/tcp  # YARN

禁用不必要的服务：

bash复制sudo systemctl disable bluetooth
sudo systemctl stop bluetooth

定期更新系统：

bash复制sudo apt update && sudo apt upgrade -y

7.2 Hadoop安全配置

配置HDFS权限：

bash复制hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/hadoop
hdfs dfs -chown hadoop:hadoop /user/hadoop

启用HDFS回收站（在core-site.xml中）：

xml复制<property>
    <name>fs.trash.interval</name>
    <value>1440</value> <!-- 保留时间(分钟) -->
</property>

限制网络访问（在hdfs-site.xml中）：

xml复制<property>
    <name>dfs.namenode.http-bind-host</name>
    <value>127.0.0.1</value>
</property>

8. 监控与维护

8.1 基本监控

使用内置Web UI：
- NameNode UI (9870端口)：监控HDFS状态和存储使用情况
- YARN UI (8088端口)：监控资源使用和运行中的应用
- JobHistory UI (19888端口)：查看已完成作业的历史记录

命令行监控：

bash复制# 查看HDFS使用情况
hdfs dfsadmin -report

# 查看YARN节点状态
yarn node -list

# 查看磁盘空间
hdfs dfs -df -h

8.2 日志分析技巧

Hadoop日志通常包含大量有价值的信息。我常用的grep命令模式：

bash复制# 查找错误日志
grep -i "error" $HADOOP_HOME/logs/*.log

# 查找特定时间段的日志
sed -n '/2024-01-01 10:00/,/2024-01-01 11:00/p' $HADOOP_HOME/logs/hadoop-*-namenode-*.log

# 统计错误类型
grep -o "ERROR [^ ]*" $HADOOP_HOME/logs/*.log | sort | uniq -c | sort -nr

8.3 定期维护任务

清理临时文件：

bash复制# 清理Hadoop临时目录
hdfs dfs -expunge
rm -rf /usr/local/hadoop/tmp/*

检查磁盘空间：

bash复制# 设置HDFS配额防止磁盘写满
hdfs dfsadmin -setSpaceQuota 10g /user/hadoop

备份关键配置：

bash复制# 备份Hadoop配置文件
tar -czvf hadoop-config-backup.tar.gz $HADOOP_HOME/etc/hadoop

9. 扩展学习建议

搭建好单节点集群后，你可以进一步探索以下内容：

HDFS高级操作：
- 文件快照管理
- 数据平衡操作
- 权限和ACL控制
YARN资源管理：
- 队列配置和资源分配
- 应用优先级设置
- 资源调度器选择
MapReduce编程：
- 编写自定义Mapper和Reducer
- 优化作业配置
- 使用Combiner减少数据传输
生态系统组件集成：
- Hive数据仓库
- HBase数据库
- Spark计算框架

我在实际工作中发现，单节点集群虽然不能体现Hadoop的分布式优势，但非常适合学习和原型开发。当你在单节点上熟悉了基本操作和配置后，扩展到多节点集群会顺利很多。

已经到底了哦

精选内容

1 2026年研究生论文AI降重工具评测与实用技巧 2 FrankenPHP性能优化：PHP与Caddy的高效整合实践 3 VideoDownloadStudio：高效跨平台视频下载工具开发解析 4 Rust语言：内存安全与高性能编程实践 5 短剧创业系统定制开发指南与实战经验 6 SpringBoot教材订购系统设计与高并发实践 7 高校公寓管理系统设计与毕业答辩全攻略 8 游戏战绩数字海报生成器的设计与实现 9 Node.js彻底卸载指南与最佳实践 10 Kubernetes etcd高可靠备份与恢复方案实践

最新内容

有限状态机(FSM)在游戏AI开发中的核心应用

有限状态机(FSM)是游戏AI开发中最基础且实用的编程范式之一，它将复杂的行为逻辑分解为离散的状态和转换条件。FSM的工作原理是通过定义对象可能处于的各种状态（如巡逻、追击、攻击等），以及状态间转换的触发条件，使AI行为变得模块化和可维护。在游戏开发中，FSM特别适合模拟具有明确行为模式的实体，如敌人AI、角色状态机等。以经典游戏《吃豆人》为例，红幽灵的AI就是通过FSM实现了散射、追逐、恐惧等状态的精妙转换。现代游戏开发中，FSM常与行为树、实用AI等技术结合，既能保持代码清晰度，又能实现复杂的决策逻辑。掌握FSM的核心原理和实现技巧，是游戏程序员开发高质量AI的基础能力。

快速剪切板工具：提升办公效率的16键配置方案

文本输入效率工具是现代办公场景中的关键技术组件，其核心原理是通过预设内容与快捷键映射，实现信息的快速复用。这类工具采用全局钩子机制和内存映射技术，在保证数据安全的同时显著提升操作效率。从技术价值看，它们解决了传统剪贴板单条存储、内容易丢失等痛点，特别适合客服话术、代码片段等重复输入场景。快速剪切板作为典型代表，通过创新的双配置模式支持16种快捷键组合，相比Ditto等工具更轻量高效。实际测试表明，该方案能使重复操作时间缩短75%，错误率降低至0.2%，是提升Windows办公自动化水平的实用选择。

企业主数据管理：解决数据孤岛与编码混乱的实践指南

主数据管理是企业数据治理的核心环节，通过建立统一的数据标准和实时同步机制，解决多系统间的数据孤岛问题。其技术原理在于构建企业级的'数据身份证'体系，对客户、物料等关键业务实体实现标准化定义和全链路追踪。在数字化转型背景下，主数据管理能显著提升运营效率（如某物流公司调度效率提升40%），降低管理成本（如减少80%库存差异）。典型应用场景包括制造业的物料编码统一、医疗行业的患者ID关联等。本文深入分析数据清洗与主数据管理的本质区别，并给出包含数据标准体系、质量管控、共享机制在内的完整实施框架。

SpringBoot高校实习系统：微服务架构与智能推荐实践

微服务架构通过将系统拆分为独立部署的业务单元，显著提升了复杂系统的可维护性和扩展性。其核心原理是基于领域驱动设计(DDD)划分业务边界，配合SpringCloud生态实现服务治理。在高校信息化场景中，这种架构特别适合处理像实习信息管理这类多角色、多流程的协作系统。结合Redis缓存热点数据和Elasticsearch实现精准搜索，系统能支撑300+并发用户毫秒级响应。本文详解的实习平台创新性地采用混合推荐算法（内容匹配+协同过滤），使岗位申请转化率提升37%，为类似教育信息化项目提供了可复用的技术方案。

Speedtest-X开源网络测速工具优化实践

网络测速是评估网络性能的基础技术，通过测量上传下载速度、延迟等关键指标，帮助诊断网络问题。开源工具Speedtest-X基于PHP和JavaScript实现，相比商业方案更灵活可控。其核心原理是通过前后端交互完成带宽测试，并将结果存储在轻量级数据库中。针对企业内网和IDC机房等场景，优化数据持久化存储和前端交互体验尤为重要。通过修改report.php取消数据覆盖逻辑，并添加记录上限控制，实现了历史测速数据的完整保存。同时优化前端JavaScript的onend回调处理，区分正常结束和手动中止状态，显著提升了运维工作效率。这些改进使Speedtest-X成为网络质量监测的可靠工具，特别适合需要长期跟踪网络性能变化的场景。

GreenLogAudit：轻量高效的Windows日志审计系统

日志审计系统是IT运维与安全管理的核心组件，通过采集、存储和分析系统日志实现安全监控与合规审计。传统方案普遍存在部署复杂、资源占用高等问题。GreenLogAudit采用轻量化设计理念，基于SQLite WAL模式实现高并发日志处理，支持RFC3164/RFC5424标准协议，特别适合中小型团队使用。其4.63MB的绿色版特性实现了解压即用，内置智能队列管理和多级索引优化，在Windows平台上提供完整的日志采集、存储和检索功能。典型应用场景包括等保合规审计、分支机构日志集中和开发环境监控，是资源受限环境下理想的日志审计解决方案。

数码配件无库存电商实战：选品、Shopify搭建与营销策略

无库存电商模式（Dropshipping）是当前电商创业的热门选择，尤其适合标准化程度高、物流成本低的数码配件品类。该模式通过供应商直发消除库存压力，结合Shopify等建站工具可快速搭建线上店铺。核心技术原理在于选品策略与供应链管理，需借助Google Trends、AliExpress等工具分析市场趋势，并严格筛选供应商的响应速度与产品质量。在工程实践层面，Shopify主题优化、必备插件配置（如Oberlo自动化订单处理）以及Facebook/TikTok的精准广告投放（突出磁吸、快充等痛点关键词）构成核心增长引擎。这种模式特别适合手机支架、MagSafe配件等轻量化产品，通过组合销售和邮件营销体系可显著提升客单价与复购率。

SpringBoot+Vue校园健康监测系统架构设计与实现

现代Web应用开发中，前后端分离架构已成为主流技术方案，通过RESTful API实现数据交互。SpringBoot凭借自动配置和Starter依赖等特性，大幅简化了Java后端开发流程，结合MyBatis可高效操作关系型数据库。Vue.js作为渐进式前端框架，能够构建响应式管理界面。在校园健康监测这类数据密集型系统中，合理的数据库设计与查询优化尤为关键，MySQL的JSON类型支持和窗口函数能有效处理健康数据存储与分析需求。通过Spring事件机制和Quartz定时任务，可实现体温异常等关键指标的实时监测与预警，满足校园健康管理的特殊场景要求。

基于Django的高校毕业设计双选系统开发实践

Web开发框架Django以其高效开发、安全可靠的特点，成为构建教育管理系统的理想选择。通过MTV架构和内置ORM组件，开发者可以快速实现数据模型与业务逻辑的映射。在高校教务场景中，基于Django开发的毕业设计双选系统，利用智能推荐算法解决师生匹配难题，同时采用WebSocket实现实时通知。系统通过三级缓存架构和数据库查询优化，确保在高并发场景下的性能表现。这种技术方案不仅适用于毕业设计管理，也可扩展至课程选课、导师双选等教育管理场景，其中Django Admin后台和Bootstrap响应式布局显著提升了系统的易用性。

前端三剑客：HTML、CSS与JS的协同开发实践

HTML、CSS和JavaScript是构建现代网页的三大核心技术，分别负责结构、样式和交互。HTML5的语义化标签如article和section提升了内容可读性和SEO友好性，CSS的BEM命名规范和变量系统增强了样式可维护性，而JavaScript的DOM操作和事件处理则实现了动态交互效果。这三者的协同工作能够高效实现表单验证、主题切换等常见功能，同时需要注意性能优化如减少重绘回流和使用事件委托。掌握这些基础技术的协作原理，是提升前端开发效率的关键，也为学习React、Vue等现代框架奠定坚实基础。

Hadoop单节点集群搭建与配置指南

1. Hadoop单节点集群搭建指南

1.1 环境准备与系统要求

1.2 创建专用Hadoop用户

2. Hadoop安装与配置详解

2.1 SSH免密登录配置

2.2 Java环境配置

2.3 Hadoop安装与目录结构

3. Hadoop核心配置解析

3.1 基础配置文件

3.2 初始化HDFS

4. 启动Hadoop集群与服务验证

4.1 启动Hadoop服务

4.2 Web UI访问

4.3 运行测试作业

5. 性能调优与日常管理

5.1 内存配置优化

5.2 常用管理命令

5.3 日志管理

6. 常见问题与解决方案

6.1 SSH连接问题

6.2 端口冲突

6.3 Java版本问题

6.4 HDFS无法写入

7. 安全配置建议（可选）

7.1 基本安全措施

7.2 Hadoop安全配置

8. 监控与维护

8.1 基本监控

8.2 日志分析技巧

8.3 定期维护任务

9. 扩展学习建议

内容推荐