Hadoop从零基础到直接工作培训课程

课程介绍:

    Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。
如何从零基础开始,在实际企业级动手操作中深入浅出并循序渐进的掌握Hadoop是本课程的核心。不断动手实际操作,循序渐进中掌握Hadoop,直到能够直接进行企业级开始,是困惑很多对云计算感兴趣的朋友的核心问题,本课程正是为解决此问题而生,学习者只需要按照视频一步步的看并跟着视频动手操作,即可完全无痛掌握Hadoop企业级开发,不需要进行任何额外的学习。
同时本课程会对Hadoop的核心源码进行剖析,使学习者具备一定的修改Hadoop框架的能力,从而能够根据实际的业务情况来打造自己的框架。
   Hadoop领域4个开创先河
    1,学习此课程不需要任何基础,所有的内容在课程中都会细致的剖析,学员不需要额外学习任何内容
    2,从零基础到直到进入企业工作,全程覆盖Hadoop的所有核心内容
    3,全程注重动手实作,循序渐进中掌握Hadoop企业级实战技术
    4,在授课的过程中会对Hadoop的核心源码进行深度剖析,使得学员具有改造Hadoop框架的能力

课程目标:

1、对云计算、分布式数据存储于处理、大数据等感兴趣的朋友
2,传统的数据库,例如Oracle、MaySQL、DB2等的管理人员
3,Java开发者
4,网站服务器端的开发人员
5,在校大学生、中专生或者刚毕业的学生

课程对象:

• 彻底理解Hadoop 代表的云计算实现技术的能力
• 具备构建并驾驭Hadoop集群能力
• 具备修改Hadoop框架的能力
• 具备开发自己网盘的能力
• 具备修改HDFS具体源码实现的能力
• 从代码的角度剖析MapReduce执行的具体过程并具备开发MapReduce代码的能力
• 具备掌握Hadoop如何把HDFS文件转化为Key-Value让供Map调用的能力
• 具备掌握MapReduce内部运行和实现细节并改造MapReduce的能力
• 具体Hadoop企业管理员的实际能力
• 具备理解并通过命令行和Java两种方式操作ZooKeeper的能力
• 具备掌握HBase企业级开发和管理的能力
• 具备掌握Pig企业级开发和管理的能力
• 具备掌握Hive企业级开发和管理的能力
• 具备使用Sqoop自由转换传统关系型数据库和HDFS中数据的能力
• 具备使用Flume收集和管理分布式日志的能力

学员基础:

对云计算有强烈的兴趣,能够看懂基本的Java语法,无其它任何要求。

课程时长:3天

课程方式:

传统的面对面授课方式。

 

课程大纲:

一、Hadoop三问    
1、Hadoop为什么是云计算分布式大数据的事实开源标准软件框架?
2、Hadoop的具体是如何工作?
3、Hadoop的生态架构和每个模块具体的功能是什么?

二、Hadoop集群与管理    
1、Hadoop集群的搭建
2、Hadoop集群的监控
3、Hadoop集群的管理
4、集群下运行MapReduce程序

三、彻底掌握HDFS(一)    
1、HDFS体系架构剖析    
2、NameNode、DataNode、SecondaryNameNode架构
3、保证NodeName高可靠性最佳实践
4、DataNode中Block划分的原理和具体存储方式
5、修改Namenode、DataNode数据存储位置
6、使用CLI操作HDFS
7、使用Java操作HDFS
8、Hadoop 2.2.0中集群的HA高可靠架构和配置详解

四、彻底掌握HDFS(二)    
1、RPC架构剖析    
2、源码剖析Hadoop构建于RPC之上
3、源码剖析HDFS的RPC实现
4、源码剖析客户端与与NameNode的RPC通信

五、彻底掌握MapReduce(一)    
1、MapReduce执行的经典步骤    
2、wordcount运行过程解析
3、Mapper和Reducer剖析
4、自定义Writable
5、新旧API的区别以及如何使用就API
6、把MapReduce程序打包成Jar包并在命令行运行

六、彻底掌握MapReduce(二)    
1、Hadoop是如何把HDFS文件转化为键值对的?
2、源码剖析Hadoop读取HDFS文件并转化为键值对的过程实现
3、源码剖析转化为键值对后供Map调用的过程实现
4、Hadoop的Streaming编程的原理及用法
5、Streaming编程不用语言实战:C/C++、Shell、Python等

七、彻底掌握MapReduce(三)    
1、 Hadoop内置计数器及如何自定义计数器
2、 Combiner具体的作用和使用以及其使用的限制条件
3、 Partitioner的使用最佳实践
4、 Hadoop内置的排序算法剖析
5、 自定义排序算法
6、 Hadoop内置的分组算法
7、 自定义分组算法
8、 MapReduce常见场景和算法实现

八、Hadoop集群高级实践    
1、 动态增加Hadoop的Slave节点
2、 动态修改Hadoop的Replication数目
3、 使用命令管理Hadoop集群实践
4、 剖析Hadoop的安全模式
5、 日志剖析实践

九、实战ZooKeeper    
1、ZooKeeper架构剖析及集群搭建
2、使用命令行操作ZooKeeper
3、使用Java操作ZooKeeper

十、实战HBase    
1、 HBase架构实现
2、 HBase的数据模型和存储模型
3、 使用CLI操作HBase
4、 使用Java操作HBase
5、 使用MapReduce代码向HBase中导入批量数据

十一、实战Pig    
1、 Pig架构
2、 使用Pig操作数据的内幕
3、 使用Pig实例数据

十二、实战Hive    
1、 Hive架构剖析
2、 Hive在HDFS中存储实现
3、 使用MySQL作为Hive的Metastore
4、 内部表、分区表、外部表、桶表
5、 视图
6、 自定义Hive的函数

十三、实战Sqoop    
1、Sqoop架构
2、实战Sqoop把MySQL中的数据导入到HDFS中
3、实战Sqoop把HDFS中的数据导入到MySQL中
4、定义Sqoop任务

十四、实战Flume    
1、 Flume架构体系剖析
2、 Agent配置信息
3、 动态监控文件夹中文件的变化
4、 把数据导入到HDFS中
5、 实例监控文件夹文件的变化并把数据导入到HDFS中

十五、电信日志项目    
通过电信商搜集用户接打电话、上网等产生的日志对用户的电话和网络行为进行分析和监控,初步贯穿前面讲解的主要内容,使大家熟悉Hadoop一个完整项目的分析、开发、部署的全过程
十六、论坛项目    
存储和分析论坛的数据
十七、电商项目    
互联网公司尤其是电商类公司日志分析的典型案例