课程简介
互联网企业和云计算服务企业每天都会产生大量的数据并面临高并发的严峻考验,传统的关系型数据库已经无法满足大数据量高并发的要求,何以解忧?Hadoop!本课程针对Hadoop大数据处理技术的项目实战需求,有针对性设计;以帮助学员实现基于Hadoop的应用开发。
课程目标
- 全面掌握Hadoop的架构原理和使用场景;
- 全程项目实战训练;
- 彻底掌握使用Hadoop进行MapReduce程序开发;
- 熟悉分布式计算领域的常用算法;
课程纲要
- 第 一讲 由案例引入Hadoop技术
-
- 案例背景
- 案例功能模块简介
- 数据导入:Flume
- 数据分析
- Hadoop MapReduce
- Hadoop MapReduce Streaming编程
- MapReduce分布式程序
- Hadoop 核心代码剖析
- HDFS分布式文件系统编程
- 第二讲 Hadoop Mapreduce高级编程
-
- ToolRunner介绍
- 使用MRUnit进行测试
- 利用Combiners来减少中间数据
- 使用Configure和Close方法来进行Map/Reduce设置和关闭
- 编写Partitioner来优化负载平衡
- 直接访问Hadoop分布式文件系统(HDFS)
- 使用分布式缓存(Distributed Cache)
- 第三讲 MapReduce的优化
-
- map优化
- reduce优化
- 小文件优化
- 第四讲 MapReduce的任务调度
- Queue调度的使用
- 公平调度的使用
- 能力调度的使用
- 第五讲 MapReduce编程实战
-
- Hadoop的join操作
- Hadoop的二次排序
- Hadoop的海量日志分析
- 第六讲 flume+hadoop日志收集实战
- flume核心组件讲解
- flume自带的组件分析
- flume二次开发实战
- 第七讲 用户行为分析系统案例解析与技术分享
- 第八讲 CDR详单系统案例解析与技术分享