大数据分析工具培训班-淘高分网

大数据分析工具培训班

认证课程培训安排：

全日脱产班，早9：00－下午5：00 周一至周五上课。

在职周末班，早9：00－下午5：00 周六或周日上课。

在职晚班，晚19：00-晚21：30 周一到周四上课。

了解考试或培训费用、开班时间、培训方式、报名考试，可直接在线咨询或者电话咨询：

在线咨询

24小时电话咨询：020-87226924

QQ咨询：1424329766

微信咨询：17137623652

经过Cloudera公司的ApacheHadoop培训将您的知识提升到一个新的水平。

Cloudera大学提供的为期4天的数据分析培训课程专注于ApachePig、Hive和ClouderaImpala，将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。Cloudera为数据专业人员提供了基于SQL和其它熟悉的脚本编程语言的工具，用来访问、操作、转换和分析复杂数据集。

学习掌握现代大数据分析工具

学员在本课程中将学习掌握以下现代大数据分析工具：

● ApacheImpala（孵化项目）作为一个SQL运行环境提供对Hadoop里的数据进行即时交互式分析的能力。

● ApacheHive为数据分析师、数据库管理员以及其他非Java编程人员提供了一个类-SQL的查询语言HiveQL来分析处理Hadoop数据。

● ApachePig提供脚本编程工具来分析处理Hadoop数据。

一．培训内容

经过讲师在课堂上的讲解，以及实操练习，学员将熟悉Hadoop生态系统，学习主题包括：

● 使用Pig，Hive及Impala获取、存储及分析数据。

● 使用Hadoop工具执行基本的ETL工作（抽取－extract，转换－transform和加载－load）。

● 使用Pig、Hive及Impala改善典型分析任务的效率。

● 关联不同及丰富的数据源以获取全面和真实的商业价值。

● 对数据集进行交互式和复杂查询。

二．培训对象及学员基础

本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备ApacheHadoop知识。

● 需具备一定的SQL知识水平。

● 基本熟悉Linux命令行。

● 培训学员至少熟悉一种脚本语言知识（例如，Bash脚本编程、Perl、Python和Ruby）将会更有帮助，但不是必需的。

三．认证

结束本课程培训后，我们建议学员准备并注册参加ClouderaCCA数据分析师认证考试。经过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。

四．课程大纲

1. Hadoop基础知识

● Hadoop动机

● Hadoop概览

● 数据存储：HDFS

● 分布式数据处理：YARN、MapReduce和Spark

● 数据处理与分析：Pig、Hive和Impala

● 数据集成：Sqoop

● 其它的Hadoop数据工具

● 练习分析场景说明

2. Pig简介

● Pig是什么

● Pig的特点

● Pig使用案例

● 与Pig的交互

3. Pig基本数据分析

● PigLatin语法

● 加载数据

● 简单数据类型

● 字段定义

● 数据输出

● 架构查看

● 数据筛选和排序

● 常用函数

4. 使用Pig处理复杂的数据

● 数据存储格式

● 复合/嵌套数据类型

● 数据分组

● 复杂数据内置函数

● 遍历分组数据

5. Pig多数据集操作

● 数据集合并技术

● 在Pig中联接数据集

● 集合运算

● 拆分数据集

6. Pig故障诊断和性能优化

● Pig故障排除

● 日志

● 使用Hadoop的WebUI

● 数据采样及调试

● 性能概述

● 了解执行计划

● 提高Pig作业性能的技巧

7. Hive和Impala简介

● 什么是Hive

● 什么是Impala

● 为什么使用Hive和Impala

● 架构和数据存储

● Hive及Impala与传统数据库的比较

● Hive使用案例

8. 使用Hive和Impala进行数据查询

● 数据库和表

● 基本的Hive和Impala查询语言语法

● 数据类型

● 使用Hue来执行查询

● 使用Beeline（HiveShell）

● 使用ImpalaShell

9. Hive及Impala数据管理

● 数据存储

● 创建数据库和表

● 加载数据

● 修改数据库和表

● 使用视图简化查询

● 存储查询结果

10. 数据存储和性能

● 对表进行分区

● 分区表的数据加载

● 何时使用分区

● 文件格式的选取

● 使用Avro及Parquet文件格式

11. 使用Hive和Impala进行关系数据分析

● 连接数据集

● 常见的内置函数

● 聚合和窗口函数

12. 复杂数据类型

● 在Hive里使用复杂数据

● 在Impala里使用复杂数据

13. 使用Hive及Impala分析文本数据

● 在Hive及Impala里使用正则表达式

● 在Hive里经过SerDe加载处理文本

● 情感分析及n-gram

14. Hive优化

● 了解查询性能

● Bucketing（分桶）

● 索引数据

● HiveonSpark

15. Impala优化

● Impala如何执行查询

● 改善Impala性能

16. 扩展Hive及Impala

● 使用SerDe加载特殊格式文件

● 经过定制脚本来转换数据

● 用户自定义函数

● 参数化查询

17. 选择zui佳工具

● 比较Pig、Hive、Impala和关系数据库该选择哪一个

18. 总结

Cloudera大数据课程体系

腾科环境

大数据分析工具培训班

大数据分析工具培训班

课程介绍

推荐课程

最新发布