头哥实践平台之MapReduce数据处理实战

KXZDQ

1. 从零开始搭建Hadoop环境

第一次接触Hadoop时,我被它庞大的生态体系吓到了。但实际搭建起来,发现并没有想象中那么复杂。这里我分享下在头哥实践平台上搭建Hadoop环境的详细步骤,帮你避开我踩过的那些坑。

首先需要准备一个干净的Linux环境,推荐使用Ubuntu 18.04 LTS版本。这个版本稳定性好,社区支持完善。安装完系统后,第一步是配置Java环境。Hadoop是用Java开发的,所以JDK必不可少。我建议安装OpenJDK 8,这是目前最稳定的选择:

bash复制sudo apt update
sudo apt install openjdk-8-jdk -y
java -version  # 验证安装

接下来下载Hadoop二进制包。我强烈建议使用3.2.3版本,这是目前最稳定的发布版。下载后解压到/usr/local目录:

bash复制wget https://archive.apache.org/dist/hadoop/common/hadoop-3.2.3/hadoop-3.2.3.tar.gz
sudo tar -xzvf hadoop-3.2.3.tar.gz -C /usr/local
sudo mv /usr/local/hadoop-3.2.3 /usr/local/hadoop

配置环境变量是容易出错的地方。编辑~/.bashrc文件,添加以下内容:

bash复制export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

保存后执行source ~/.bashrc使配置生效。接下来修改Hadoop的核心配置文件,这些文件都位于$HADOOP_HOME/etc/hadoop目录下:

  1. core-site.xml - 配置HDFS地址和临时目录
  2. hdfs-site.xml - 配置副本数和数据目录
  3. mapred-site.xml - 配置MapReduce框架
  4. yarn-site.xml - 配置YARN资源管理

配置完成后,执行格式化命令初始化HDFS:

bash复制hdfs namenode -format

最后启动Hadoop集群:

bash复制start-dfs.sh
start-yarn.sh

验证集群是否正常运行:

bash复制jps  # 应该看到NameNode、DataNode等进程
hdfs dfsadmin -report  # 查看集群状态

2. 学生成绩分析项目实战

现在我们来实战一个完整的学生成绩分析项目。这个项目会用到MapReduce的核心思想,通过三个关键步骤完成:数据准备、Map阶段处理和Reduce阶段汇总。

首先准备测试数据。我们创建一个students.txt文件,包含学生姓名和成绩:

code复制张三 85
李四 92
王五 78
张三 90
李四 88
赵六 95

将数据上传到HDFS:

bash复制hadoop fs -mkdir -p /user/test/input
hadoop fs -put students.txt /user/test/input

接下来编写MapReduce程序。核心思路是:Mapper读取每行数据,输出<学生姓名, 成绩>键值对;Reducer找出每个学生的最高成绩。完整代码如下:

java复制public class MaxScore {
    public static class TokenizerMapper 
        extends Mapper<LongWritable, Text, Text, IntWritable> {
        
        private Text name = new Text();
        private IntWritable score = new IntWritable();
        
        public void map(LongWritable key, Text value, Context context
                       ) throws IOException, InterruptedException {
            String[] parts = value.toString().split(" ");
            name.set(parts[0]);
            score.set(Integer.parseInt(parts[1]));
            context.write(name, score);
        }
    }
    
    public static class IntMaxReducer 
        extends Reducer<Text, IntWritable, Text, IntWritable> {
        
        private IntWritable result = new IntWritable();
        
        public void reduce(Text key, Iterable<IntWritable> values,
                          Context context
                          ) throws IOException, InterruptedException {
            int max = Integer.MIN_VALUE;
            for (IntWritable val : values) {
                max = Math.max(max, val.get());
            }
            result.set(max);
            context.write(key, result);
        }
    }
    
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "max score");
        job.setJarByClass(MaxScore.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntMaxReducer.class);
        job.setReducerClass(IntMaxReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

打包程序为maxscore.jar,然后提交到Hadoop集群运行:

bash复制hadoop jar maxscore.jar MaxScore /user/test/input /user/test/output

查看结果:

bash复制hadoop fs -cat /user/test/output/part-r-00000

输出应该是每个学生的最高成绩:

code复制张三 90
李四 92
王五 78
赵六 95

3. 文件合并与去重实战

在实际项目中,经常需要合并多个数据源并去除重复记录。下面我们通过一个具体案例来掌握这个技巧。

假设有两个学生信息文件file1.txt和file2.txt:

file1.txt内容:

code复制1001 张三 男
1002 李四 女
1003 王五 男

file2.txt内容:

code复制1002 李四 女
1004 赵六 男
1005 钱七 女

我们的目标是合并这两个文件,并去除重复记录(学号相同即为重复)。MapReduce程序的实现思路是:Mapper直接输出原始记录,Reducer利用Set集合自动去重。

完整代码如下:

java复制public class MergeDedup {
    public static class Map 
        extends Mapper<Object, Text, Text, Text> {
        
        private Text studentId = new Text();
        private Text studentInfo = new Text();
        
        public void map(Object key, Text value, Context context
                      ) throws IOException, InterruptedException {
            String[] parts = value.toString().split(" ", 2);
            studentId.set(parts[0]);
            studentInfo.set(parts[1]);
            context.write(studentId, studentInfo);
        }
    }
    
    public static class Reduce 
        extends Reducer<Text, Text, Text, Text> {
        
        public void reduce(Text key, Iterable<Text> values,
                          Context context
                         ) throws IOException, InterruptedException {
            // 使用Set自动去重
            Set<String> uniqueRecords = new HashSet<>();
            for (Text val : values) {
                uniqueRecords.add(val.toString());
            }
            
            // 输出唯一记录
            for (String record : uniqueRecords) {
                context.write(key, new Text(record));
            }
        }
    }
    
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "merge and dedup");
        job.setJarByClass(MergeDedup.class);
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

运行程序并查看结果:

bash复制hadoop jar mergededup.jar MergeDedup /user/tmp/input /user/tmp/output
hadoop fs -cat /user/tmp/output/part-r-00000

输出结果应该是合并后的唯一记录:

code复制1001 张三 男
1002 李四 女
1003 王五 男
1004 赵六 男
1005 钱七 女

4. 数据关联分析实战

最后一个实战案例是关联分析,我们将通过MapReduce挖掘家族关系中的祖孙关系。这个案例展示了MapReduce处理复杂数据关联的能力。

假设有一个child-parent.txt文件,内容如下:

code复制张三 张伟
李四 张伟
王五 李强
赵六 王五
钱七 赵六

我们的目标是找出所有的祖孙关系。实现思路是:Mapper将每条记录转换为两种形式(parent作为key和child作为key),Reducer通过连接操作找出祖孙关系。

完整代码实现:

java复制public class FamilyTree {
    public static class Map 
        extends Mapper<Object, Text, Text, Text> {
        
        public void map(Object key, Text value, Context context
                      ) throws IOException, InterruptedException {
            String[] relations = value.toString().split(" ");
            if (relations.length != 2) return;
            
            String child = relations[0];
            String parent = relations[1];
            
            // 作为左表输出
            context.write(new Text(parent), new Text("1:" + child));
            // 作为右表输出
            context.write(new Text(child), new Text("2:" + parent));
        }
    }
    
    public static class Reduce 
        extends Reducer<Text, Text, Text, Text> {
        
        private static List<String> children = new ArrayList<>();
        private static List<String> parents = new ArrayList<>();
        
        public void reduce(Text key, Iterable<Text> values,
                          Context context
                         ) throws IOException, InterruptedException {
            children.clear();
            parents.clear();
            
            for (Text val : values) {
                String[] parts = val.toString().split(":");
                if (parts[0].equals("1")) {
                    children.add(parts[1]);
                } else {
                    parents.add(parts[1]);
                }
            }
            
            // 连接操作找出祖孙关系
            for (String child : children) {
                for (String parent : parents) {
                    context.write(new Text(child), new Text(parent));
                }
            }
        }
    }
    
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "family tree");
        job.setJarByClass(FamilyTree.class);
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

运行程序并查看结果:

bash复制hadoop jar familytree.jar FamilyTree /user/reduce/input /user/reduce/output
hadoop fs -cat /user/reduce/output/part-r-00000

输出结果展示了所有的祖孙关系:

code复制张三 张伟
李四 张伟
赵六 李强
钱七 王五

这个案例展示了MapReduce处理复杂数据关联的强大能力。通过两次MapReduce作业,我们可以处理更复杂的多级关系分析。

内容推荐

别再死记硬背Java的static了!从单例模式到工具类,5个实战场景帮你彻底搞懂
本文通过5个实战场景深入解析Java中`static`关键字的实际应用,包括单例模式、常量定义、工具类封装、静态代码块和静态内部类。帮助开发者摆脱死记硬背,真正掌握`static`在项目开发中的灵活运用,提升代码质量和效率。
微信小程序权限管理实战:从用户拒绝到优雅引导的完整策略
本文详细解析微信小程序权限管理的实战策略,涵盖用户拒绝授权后的优雅引导方案。通过wx.getSetting和wx.authorize的深度应用,解决摄像头权限、位置权限等核心痛点,提升用户体验与转化率。特别针对中老年用户设计三步引导法,结合代码示例展示完整权限管理流程。
从黑盒到白盒:用SHAP可视化拆解随机森林回归的预测逻辑
本文深入探讨了如何利用SHAP值可视化工具拆解随机森林回归模型的黑箱预测逻辑。通过电商销量预测和房价预测等实际案例,详细展示了SHAP值的计算原理、可视化方法及业务解读技巧,帮助数据科学家向非技术人员清晰解释模型决策过程。文章还提供了计算性能优化和常见问题排查的实用建议,是提升模型可解释性的实战指南。
别再让同事乱改IP了!手把手教你用华为交换机IPSG功能锁定终端IP(附配置命令)
本文详细介绍了华为交换机IPSG功能的应用,通过IP-MAC-端口的三元组绑定,有效防止员工私自修改IP地址导致的网络冲突。文章从原理到配置手把手教学,包括静态绑定和动态学习的混合部署策略,帮助企业网络管理员彻底解决IP地址混乱问题,提升网络安全性和运维效率。
RK3588平台驱动调试篇 [ GPIO实战 ] - 从DTS配置到用户空间控制
本文详细介绍了在RK3588平台上进行GPIO驱动调试的全流程,从DTS配置到用户空间控制。内容涵盖GPIO基础概念、设备树配置详解、内核驱动开发实战以及用户空间控制方案,特别针对RK3588芯片特性提供了调试技巧与避坑指南,帮助开发者高效完成GPIO操作控制。
用Python+OpenCV+YOLO写个游戏‘外挂’:自动砍树采矿的脚本保姆级教程
本文详细介绍了如何使用Python、OpenCV和YOLO构建一个智能游戏采集助手,实现自动砍树采矿的功能。通过目标检测、PID控制和多线程任务调度等技术,该脚本能高效识别游戏中的资源并自动操作,大幅提升游戏效率。教程涵盖环境配置、模型训练、实时检测和性能优化等关键步骤,适合对AI和自动化技术感兴趣的开发者。
IJCAI 2024 投稿全攻略:从论文准备到提交的实战指南
本文详细解析了IJCAI 2024投稿的全流程,包括两阶段审稿机制、论文准备策略、格式要求及重投技巧。特别强调了选题创新性、7页正文的结构优化和新增的LLM使用声明等关键点,为人工智能领域研究者提供实用投稿指南。
从模型训练到板端部署:CanMV K230的kmodel转换实战解析
本文详细解析了从TensorFlow模型训练到CanMV K230开发板部署的全流程,重点介绍了kmodel转换的关键步骤和实战技巧。通过ONNX中间格式转换、维度修正、nncase量化工具使用以及MicroPython板端部署等环节,帮助开发者高效实现AI模型在边缘计算设备上的落地应用。
从零到一:基于STM32 HAL库的MCP4725 DAC驱动实战
本文详细介绍了基于STM32 HAL库的MCP4725 DAC驱动实战,涵盖硬件连接、CubeMX配置、HAL库驱动实现及常见问题排查。通过I2C接口实现精准电压输出,适用于嵌入式系统开发,提供实用代码示例和调试技巧,帮助开发者快速掌握MCP4725的应用。
【VSCode+SSH】告别重复输入:配置SSH密钥实现VSCode远程服务器免密登录全攻略
本文详细介绍了如何通过配置SSH密钥实现VSCode远程服务器的免密登录,解决重复输入密码的烦恼。从密钥生成、上传到VSCode配置,全程手把手指导,并提供了常见问题排查和高级安全建议,帮助开发者提升工作效率和安全性。
【Linux系统运维】进程与网络状态全链路监控实战:从静态快照到动态追踪(ps, top, systemctl, ss, netstat)
本文详细介绍了Linux系统运维中进程与网络状态的全链路监控实战技巧,涵盖ps、top、systemctl、ss和netstat等核心命令的使用方法。通过静态快照与动态追踪相结合的方式,帮助运维人员快速定位系统性能瓶颈,提升服务器管理效率。文章还分享了实战案例和自动化监控方案,适用于各类Linux服务器运维场景。
用逻辑分析仪验证STM32的DMA+PWM波形:以WS2812驱动为例的实战调试
本文详细介绍了如何使用逻辑分析仪验证STM32的DMA+PWM波形,以WS2812驱动为例进行实战调试。通过硬件信号层的波形抓取和时序分析,帮助开发者解决WS2812显示异常的疑难问题,特别适合代码正确但灯珠显示异常的情况。文章涵盖了调试环境搭建、PWM参数计算、逻辑分析仪配置技巧及典型波形问题诊断,为STM32F4开发者提供了实用的硬件级调试方法。
安川MP3300做TCP服务端?C#上位机连接与数据解析实战(含16进制/ASCII处理)
本文详细介绍了安川MP3300控制器作为TCP服务端的配置方法,以及如何使用C#上位机实现稳定连接与混合数据流(16进制/ASCII)的智能解析。内容涵盖网络参数设置、工业级连接策略、多格式数据识别算法等关键技术点,为工业自动化系统集成提供实用解决方案。
ARM TrustZone实战:手把手教你用SMC指令在Android支付场景切换Secure模式
本文深入解析ARM TrustZone技术在Android支付场景中的应用,详细介绍了如何通过SMC指令和SCR_EL3寄存器实现Secure与Non-secure模式的安全切换。文章涵盖硬件架构、SMC指令工作原理及实战中的安全加固策略,为开发者提供硬件级安全保护的实现指南。
告别HttpCanary和Charles:一站式用Burp搞定App加密抓包与SSL Pinning绕过
本文详细介绍了如何利用Burp Suite整合Frida和Objection,实现移动应用加密抓包与SSL Pinning绕过的一体化解决方案。通过环境配置、工具链协同、加密流量解析和SSL Pinning绕过技术,帮助安全测试人员提升效率,告别传统多工具切换的繁琐流程。
Vivado综合时,你的BRAM为啥总被偷偷换成LUTRAM?一个复位信号引发的‘血案’
本文深入分析了Vivado综合过程中BRAM被意外替换为LUTRAM的常见原因,特别是复位信号对BRAM推断的影响。通过对比BRAM与LUTRAM的特性差异,提供了一套完整的诊断与修复方案,包括代码规范、综合条件清单和实战案例,帮助FPGA开发者避免这一常见陷阱。
【IR】Vision-Language Tracking:从代理令牌到统一表征的演进之路
本文深入探讨了Vision-Language Tracking技术的演进历程,从早期的视觉跟踪到代理令牌技术,再到统一表征学习的突破。重点分析了TransVLT框架和ModaMixer架构的创新设计,以及在实际应用中的性能表现和挑战。文章还提供了开发者实战指南,包括快速入门方案和调参经验,并展望了结合扩散模型和大语言模型的未来发展方向。
Redis哨兵模式选举算法深度解析:Raft与Paxos的实战抉择
本文深度解析Redis哨兵模式中的选举算法,对比Raft与Paxos在实战中的表现与抉择。通过实际案例和性能数据,探讨如何在高可用架构中预防脑裂、提升选举效率并保障数据一致性,为分布式系统设计提供实用建议。
保姆级教程:用CANoe CAPL脚本一步步实现UDS Bootloader刷写(附源码下载)
本文提供了一份详细的CANoe CAPL脚本教程,指导汽车电子工程师如何实现UDS Bootloader自动化刷写。从工程环境搭建到核心服务模块化实现,再到异常处理与鲁棒性设计,全面覆盖了刷写流程中的关键步骤和优化策略,并附有可直接使用的源码下载。
从思科转战Juniper SRX防火墙?这份命令对照表帮你快速上手
本文为思科工程师提供了Juniper SRX防火墙的快速上手指南,详细对比了两者在操作模式、常用命令、配置理念和防火墙功能上的差异。通过实用的命令对照表和排错技巧,帮助工程师快速适应Juniper SRX的配置方式,提升工作效率。
已经到底了哦
精选内容
热门内容
最新内容
5G手机为啥更省电?深入RRC_INACTIVE状态,聊聊协议设计中的‘待机’艺术
本文深入解析5G手机如何通过RRC_INACTIVE状态实现更优续航表现。这种创新协议状态在RRC_CONNECTED和RRC_IDLE之间取得平衡,保留快速响应能力的同时大幅降低能耗。文章详细探讨了其信令流程优化、智能状态转换策略及实际应用效果,揭示5G续航提升的技术奥秘。
从RTL到GDSII:拆解DC综合在数字IC全流程中的真实角色与三大阶段(附避坑指南)
本文深入解析Design Compiler(DC)在数字IC设计流程中的关键作用,详细拆解其三大核心阶段:转换、映射与优化,并分享SDC约束设置与前后端协同的实战经验。特别针对28nm以下工艺节点,提供物理感知综合策略与常见避坑指南,助力工程师实现时序、面积与功耗的最佳平衡。
poi-tl实战:5分钟搞定Java生成复杂Word合同(含动态表格和公司logo)
本文详细介绍了如何使用poi-tl在Java中快速生成包含动态表格和公司logo的复杂Word合同。通过模板设计、数据绑定和渲染策略配置,实现高效自动化文档生成,提升企业级开发效率。特别适合处理批量合同、个性化通知书等场景。
给甲方看方案不用愁!手把手教你用SketchUp+Enscape导出独立可执行文件(EXE/Web版)
本文详细介绍了如何利用SketchUp和Enscape将设计成果导出为独立可执行文件(EXE/Web版),解决与甲方沟通时的软件兼容性问题。通过实时渲染技术,设计师可以创建无需安装任何软件的交互式展示文件,提升专业展示效果和沟通效率。文章包含模型优化、渲染设置、导出流程及交付优化等实用技巧。
车载通讯协议安全剖析:从CAN到SOME/IP-TP,如何抵御DoS/DDoS攻击?
本文深入剖析车载通讯协议(如CAN、SOME/IP-TP)的安全漏洞,揭示其面临的DoS/DDoS攻击风险。通过实际案例分析,探讨了从硬件防火墙到协议增强的多层次防御手段,为构建车载网络安全防护体系提供实用解决方案。
QtCreator界面设计实战:深入解析Layout的layoutStretch属性与控件尺寸协同策略
本文深入解析QtCreator中Layout的layoutStretch属性与控件尺寸协同策略,帮助开发者掌握界面伸缩的核心技术。通过实战案例展示如何设置layoutStretch属性,解决嵌套布局和动态调整等常见问题,提升UI设计的灵活性和用户体验。
WebGL矩阵变换:从数学公式到图形操控的实践指南
本文深入解析WebGL中矩阵变换的核心原理与实践技巧,从数学公式推导到图形操控的完整实现。通过旋转、平移等基础变换的矩阵构造,结合WebGL着色器编程实战,揭示矩阵在3D图形渲染中的高效性与统一性优势。特别包含矩阵组合顺序、性能优化等进阶技巧,帮助开发者掌握图形编程的矩阵思维。
Unlocking Volta's Power: A Deep Dive into CUTLASS's Native Tensor Core GEMM Implementation
本文深入探讨了CUTLASS如何利用NVIDIA Volta架构的Tensor Core实现高效的GEMM运算。通过分析内存搬运策略、warp级数据复用和共享内存优化等关键技术,揭示了Tensor Core在矩阵乘法中的8-10倍性能提升秘诀,为开发者提供了实用的CUDA编程指南和性能调优经验。
Qlib实战:如何为A股T+1交易定制你的机器学习标签(Label)?
本文详细介绍了如何在Qlib框架下为A股T+1交易定制机器学习标签(Label),涵盖从基础收益率计算到高级分类标签设计的全过程。通过具体代码示例和策略分析,帮助量化投资者掌握数据标注技巧,优化交易模型表现,特别适合从入门到精通的量化研究者。
gPTP 实战解析:从协议原理到车载TSN网络精准同步
本文深入解析gPTP协议在车载TSN网络中的精准同步应用,对比gPTP与标准PTP的关键差异,探讨AUTOSAR架构下的实现要点。通过硬件时间戳、P2P延时测量等技术,gPTP在ADAS传感器融合等场景中实现亚微秒级同步,提升车载以太网的可靠性和兼容性。