课程简介
【课程优势】
本课程的优势就是:
1、整个培训过程老师带着学员进行全程上机操作,因此要求每个学员带笔记本电脑。
2、整个过程老师带着学员进行全程上机操作外,学员会进行全程实战演练,并且在演练过程中会以实际项目案例为主。在演练过程中老师会进行不断的指导,使培训课程真正落地。
【主讲老师】
刘 刚:
原阿里集团-阿里云研发中心大数据资深技术经理, 大数据专家,国内资深大数据实战专家。
刘老师现就职于某国际跨国专业大数据公司中国研发中心任高级技术经理,大中华区大数据总负责人。目前主要负责该国际跨国专业大数据公司在大中华区各大商业银行、电信等领域大数据系统的研发与现场实践。
刘老师同时是国内资深的、最早的一批大数据技术专家、虚拟
化专家,在进入阿里之前曾就职于高德等知名IT企业,担任Hadoop高级工程师。对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB、OpenStack等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富项目实施经验。
刘老师近年主持或参与的主要典型项目有:上海电信网络优化、中国移动广东移动省公司请账单系统和广州移动详单实时查询系统、中国银联大数据数据票据详单平台、中国光大银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等等。
【课程大纲】
“Hadoop数据分析与挖掘实战”课程内容
课程模块 | 课程主题 | 主要内容 | 案例和演示 |
模块一 | Hadoop组件详解 | 1、Hadoop HDFS 基本结构 2、Hadoop HDFS 副本存放策略 3、Hadoop NameNode 详解 4、HadoopSecondaryNameNode 详解 5、Hadoop DataNode 详解 6、Hadoop JobTracker 详解 7、Hadoop TaskTracker 详解 8、Yarn资源管理系统详解 9、Resourcemanager详解 10、NodeManager详解 | 1、Hadoop Mapper类核心代码 2、Hadoop Reduce类核心代码 3、Hadoop 核心代码 |
模块二 |
数据分析的算法详解 | 1、K-means算法详解 2、线性回归详解 3、机器学习详解 4、Canopy算法详解 5、贝叶斯算法详解 |
|
模块三 | Hive实战(数据分析) | 1、Hive (1)Hive的负载均衡搭建 (2)Hive的访问方式 (3)Hive的元数据存储到Mysql (4)Hive的数据类型 (5)Hive表的创建 (6)Hive加载数据 (7)Hive的CLI操作介绍 2、hive数据定义 (1)内部表和外部表 (2)表的分区 (3)删除表 (4)修改表 (5)查询语句 (6)where语句 3、Hive高级查询语句 (1)group by操作 (2)Join操作 (3)Order by和Sort by (4)Union all (5)索引 4、Hive的存储类型和复合数据类型 (1)TextFile (2)Sequence File (3)RCFile (4)Hive的自定输入格式 (5)Array (6)Map (7)Struct 5、Hive的内置函数和自定义UDF和UDAF实战 6、Hive的调优 (1)explain (2)队列设置 (3)Join优化 (4)本地模式和并行执行 (5)设置Mapper和Reducer的个数 (6)JVM重用 (7)索引 (8)动态分区调整 (9)推测执行 (10)Hive的debug调试 7、hive的安全 (1)Hive的hadoop安全的整合 (2)使用Hive进行验证 (3)Hive的权限管理 (4)分区级别的权限 (5)自定授权 8、Hive的案例实战 (1)nginx日志实战 (2)某公司的Hive项目 | 1、nginx日志实战 2、某公司的Hive项目 |
模块四 | Mahout实战(数据挖掘) | 1、Mahout安装测试 (2)基于项目的推荐器 | u |
模块五 | 数据挖掘在电信的案例 | 1、基站数据分析 2、人流的动态分析 3、拉链算法的案例详解 4、套餐的更改轨迹分析 5、客户中心的数据情感分析和挖掘 6、用户的通话记录分析 7、套餐的营销分析 8、分析流式的用户和挖掘潜在的客户 | u |
模块六 | 数据挖掘在银行的案例 | 1、财务分析 2、客户价值&风险定价 3、巴塞尔3 &信用风险 4、绩效管理 5、客户关系管理(CRM) 6、客户访问分析 7、流失路径 8、购买路径 9、欺诈路径 10、多渠道营销 11、欺诈 12、数据挖掘&原型设计 13、营销归因 14、投诉&销售合规 15、情感分析 | u |
“Spark实战”课程内容
模 块 | 培训大纲 |
Spark 运行架构和解析 | 1、Spark的运行架构 2、基本术语 3、运行架构 4、Spark on Standalone运行过程 5、Spark on YARN 运行过程 6、Spark运行实例解析 7、Spark on Standalone实例解析 8、Spark on YARN实例解析 |
Spark 监控和调优 | 1、Spark的监控 2、Spark调优 |
Spark 编程模型和解析 | 1、Spark的编程模型 2、Spark编程模型解析 3、RDD的特点、操作、依赖关系 4、Spark应用程序的配置 |
Spark scala编程 | 1、Scala基本语法 2、Scala开发环境搭建 3、Scala开发Spark应用程序 |
Spark Streaming原理和实践 | 1、Spark Streaming原理 2、Spark流式处理架构 3、DStream的特点 4、Dstream的操作和RDD的区别 5、Spark Streaming的优化 6、Spark Streaming实例 7、文本实例 8、网络数据处理 |
Spark SQL 原理和实践 | 1、Spark SQL原理 2、Spark SQL的Catalyst优化器 3、Spark SQL内核 4、Spark SQL和Hive 5、Spark SQL的实例和编程 6、Spark SQL的实例操作demo 7、Spark SQL的编程 |
Spark 源码研读 | 1、Spark源码研读 2、Spark源码下载和研读环境搭建 3、Spark Core介绍 4、SparkContext 5、Executor 6、Deploy 7、RDD和Storage 8、Scheduler和Task 9、Spark Examples |
Spark应用 案例实战 | 1、基于spark日志分析 2、个性化推荐系统:带你揭开其神秘面纱 3、在线投放引擎 4、揭开淘宝点击推荐系统的神秘面纱 5、京东商城数据服务架构—实时计算平台 |