大数据分析工具培训班
认证课程培训安排:
全日脱产班,早9:00-下午5:00 周一至周五上课。
在职周末班,早9:00-下午5:00 周六或周日上课。
在职晚班,晚19:00-晚21:30 周一到周四上课。
了解考试或培训费用、开班时间、培训方式、报名考试,可直接在线咨询或者电话咨询:
在线咨询
24小时电话咨询:020-87226924
QQ咨询:1424329766
微信咨询:17137623652
经过Cloudera公司的ApacheHadoop培训将您的知识提升到一个新的水平。
Cloudera大学提供的为期4天的数据分析培训课程专注于ApachePig、Hive和ClouderaImpala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。Cloudera为数据专业人员提供了基于SQL和其它熟悉的脚本编程语言的工具,用来访问、操作、转换和分析复杂数据集。
学习掌握现代大数据分析工具
学员在本课程中将学习掌握以下现代大数据分析工具:
● ApacheImpala(孵化项目)作为一个SQL运行环境提供对Hadoop里的数据进行即时交互式分析的能力。
● ApacheHive为数据分析师、数据库管理员以及其他非Java编程人员提供了一个类-SQL的查询语言HiveQL来分析处理Hadoop数据。
● ApachePig提供脚本编程工具来分析处理Hadoop数据。
一.培训内容
经过讲师在课堂上的讲解,以及实操练习,学员将熟悉Hadoop生态系统,学习主题包括:
● 使用Pig,Hive及Impala获取、存储及分析数据。
● 使用Hadoop工具执行基本的ETL工作(抽取-extract,转换-transform和加载-load)。
● 使用Pig、Hive及Impala改善典型分析任务的效率。
● 关联不同及丰富的数据源以获取全面和真实的商业价值。
● 对数据集进行交互式和复杂查询。
二.培训对象及学员基础
本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备ApacheHadoop知识。
● 需具备一定的SQL知识水平。
● 基本熟悉Linux命令行。
● 培训学员至少熟悉一种脚本语言知识(例如,Bash脚本编程、Perl、Python和Ruby)将会更有帮助,但不是必需的。
三.认证
结束本课程培训后,我们建议学员准备并注册参加ClouderaCCA数据分析师认证考试。经过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。
四.课程大纲
1. Hadoop基础知识
● Hadoop动机
● Hadoop概览
● 数据存储:HDFS
● 分布式数据处理:YARN、MapReduce和Spark
● 数据处理与分析:Pig、Hive和Impala
● 数据集成:Sqoop
● 其它的Hadoop数据工具
● 练习分析场景说明
2. Pig简介
● Pig是什么
● Pig的特点
● Pig使用案例
● 与Pig的交互
3. Pig基本数据分析
● PigLatin语法
● 加载数据
● 简单数据类型
● 字段定义
● 数据输出
● 架构查看
● 数据筛选和排序
● 常用函数
4. 使用Pig处理复杂的数据
● 数据存储格式
● 复合/嵌套数据类型
● 数据分组
● 复杂数据内置函数
● 遍历分组数据
5. Pig多数据集操作
● 数据集合并技术
● 在Pig中联接数据集
● 集合运算
● 拆分数据集
6. Pig故障诊断和性能优化
● Pig故障排除
● 日志
● 使用Hadoop的WebUI
● 数据采样及调试
● 性能概述
● 了解执行计划
● 提高Pig作业性能的技巧
7. Hive和Impala简介
● 什么是Hive
● 什么是Impala
● 为什么使用Hive和Impala
● 架构和数据存储
● Hive及Impala与传统数据库的比较
● Hive使用案例
8. 使用Hive和Impala进行数据查询
● 数据库和表
● 基本的Hive和Impala查询语言语法
● 数据类型
● 使用Hue来执行查询
● 使用Beeline(HiveShell)
● 使用ImpalaShell
9. Hive及Impala数据管理
● 数据存储
● 创建数据库和表
● 加载数据
● 修改数据库和表
● 使用视图简化查询
● 存储查询结果
10. 数据存储和性能
● 对表进行分区
● 分区表的数据加载
● 何时使用分区
● 文件格式的选取
● 使用Avro及Parquet文件格式
11. 使用Hive和Impala进行关系数据分析
● 连接数据集
● 常见的内置函数
● 聚合和窗口函数
12. 复杂数据类型
● 在Hive里使用复杂数据
● 在Impala里使用复杂数据
13. 使用Hive及Impala分析文本数据
● 在Hive及Impala里使用正则表达式
● 在Hive里经过SerDe加载处理文本
● 情感分析及n-gram
14. Hive优化
● 了解查询性能
● Bucketing(分桶)
● 索引数据
● HiveonSpark
15. Impala优化
● Impala如何执行查询
● 改善Impala性能
16. 扩展Hive及Impala
● 使用SerDe加载特殊格式文件
● 经过定制脚本来转换数据
● 用户自定义函数
● 参数化查询
17. 选择zui佳工具
● 比较Pig、Hive、Impala和关系数据库该选择哪一个
18. 总结
Cloudera大数据课程体系
腾科环境
提交后,免费为您匹配专业课程
机构入驻 | 帮选课 | 公司介绍 | 联系我们 | 版权隐私 | 网站地图| 广告服务| 违规举报
版权所有:© 2019-2023 淘高分网 All Rights Reserved 备案号:豫ICP备2023000855号-2
微信扫描关注