Cloudera Apache Hadoop 培训及认证帮助您进阶大数据知识及技能。
Cloudera大学为期4天的Hadoop管理员培训将帮助学员综合理解并全面掌握通过Cloudera Manager对Hadoop机群的运维管理,包括:安装,配置、 负载平衡及性能调优等。通过该培训,Hadoop 系统管理员将能准备好应对实 际运维中遇到的挑战。
通过郭大师幽默浅显易懂的课堂讲解,以及带领实操练习,学员将学习以下内容:
• Cloudera Manager 管理机群的特性,譬如日志汇总、配置管理、报告、 报警及服务管理。
• YARN、MapReduce、Spark 及 HDFS 的工作原理。
• 如何为你的机群选取合适的硬件和架构。
• 如何将 Hadoop 机群和企业已有的系统进行无缝集成。
• 如何使用Flume 进行实时数据采集以及如何使用Sqoop 在 RDBMS 和 Hadoop 机群之间进行数据导入导出。
• 如何配置公平调度器为 Hadoop 上的多用户提供服务级别保障。
• 产品环境中 Hadoop 机群的较佳运维实践。
• Hadoop 机群排错、诊断问题和性能调优。
第1课 Apache Hadoop 介绍
• Hadoop 动机
• 基本概念
• Hadoop 核心部件
第2课 Hadoop 机群安装
• 机群管理方案
• Cloudera Manager 特性
• Cloudera manager 安装
• Hadoop (CDH) 安装
第3课 Hadoop 分布式文件系统 (HDFS)
• HDFS 特性
• 读写文件
• NameNode 内存考虑
• HDFS 安全简介
• HDFS Web UI
• 使用 HDFS Shell
第4课 YARN 上的 MapReduce 和 Spark
• 计算平台在 Hadoop 里扮演的角色
• YARN:机群资源管理器
• MapReduce 概念
• Apache Spark 概念
• Yarn 上的计算平台
• YARN Web UI 及 Shell
• YARN 应用运行日志
第5课 Hadoop 配置及服务运行日志
• Cloudera Manager 配置管理机制
• 定位配置参数及进行配置变更
• 管理角色实例及添加服务
• 配置 HDFS 服务
• 配置 Hadoop 服务运行日志
• 配置 YARN 服务
第6课 向 HDFS 导入数据
• 使用 Flume 从外部数据源实时导入数据
• 使用 Sqoop 从关系数据库导入数据
• REST 接口
• 导入数据的较佳实践
第7课 Hadoop 机群规划
• 规划考虑因素
• 硬件选择
• 虚拟化选项
• 网络因素 • 节点配置
第8课 Hive,Impala 及 Pig 的安装及配置
• Hive
• Impala
• Pig
第9课 Hadoop 客户端及Hue
• 什么是 Hadoop 客户端
• 安装及配置 Hadoop 客户端
• 安装及配置 Hue
• 使用 Hue 进行身份验证及授权
第10课 集群高级配置
• 高级配置参数
• Hadoop 端口配置
• HDFS 机柜感知配置
• HDFS 高可靠性配置
第11课 Hadoop 安全
• Hadoop 安全的重要性
• Hadoop 安全性概念
• Kerberos 简介
• 使用 Kerberos 保护Hadoop机群
• 其他安全特性
第12课 资源管理
• 使用静态服务池配置 Linux cgroup
• 公平调度器 • 配置动态资源池
• YARN 内存及 CPU 设置
• Impala 查询调度
第13课 机群维护
• 检查 HDFS 状态
• 机群间复制数据
• 添加/移除机群节点
• 机群数据负载平衡
• 目录快照 • 机群升级
第14课 机群监控及排错
• Cloudera Manager 监控特性
• 监控 Hadoop 机群
• Hadoop 机群排错
• 常见配置不当问题
1、 学习方式:老师发布教学资料、教材,幻灯片和视频,学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。
2、 学习作业:每课均有布置课后作业,学员完成书面作业后则可进入下一课学习。
3、 老师辅导:通过论坛站内信及邮件等多种方式与老师进行一对一互动。
4、 完成课程:最后一课作业交纳后,老师完成作业批改,即可完成课程并取回相应剩余的逆向学费。
GMT+8, 2024-11-23 09:10 , Processed in 0.092542 second(s), 35 queries .