• 招生咨询热线:17796657115
  • 手机版
招生咨询热线
17796657115
首页>淘课程>>大数据分析工具培训班
大数据分析工具培训班
人气:191 分享 收藏 举报

大数据分析工具培训班

  • 价格详询
  • 授课类型面授
  • 班级类型一对一
  • 课时 详询
  • 授课校区广州腾科网络技术有限公司
  • 上课时段 周末班   
立即报名 在线咨询

课程介绍

大数据分析工具培训班

认证课程培训安排:

全日脱产班,早9:00-下午5:00 周一至周五上课。

在职周末班,早9:00-下午5:00 周六或周日上课。

在职晚班,晚19:00-晚21:30 周一到周四上课。

了解考试或培训费用、开班时间、培训方式、报名考试,可直接在线咨询或者电话咨询:

在线咨询

24小时电话咨询:020-87226924

QQ咨询:1424329766

微信咨询:17137623652

经过Cloudera公司的ApacheHadoop培训将您的知识提升到一个新的水平。

Cloudera大学提供的为期4天的数据分析培训课程专注于ApachePig、Hive和ClouderaImpala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。Cloudera为数据专业人员提供了基于SQL和其它熟悉的脚本编程语言的工具,用来访问、操作、转换和分析复杂数据集。

学习掌握现代大数据分析工具

学员在本课程中将学习掌握以下现代大数据分析工具:

● ApacheImpala(孵化项目)作为一个SQL运行环境提供对Hadoop里的数据进行即时交互式分析的能力。

● ApacheHive为数据分析师、数据库管理员以及其他非Java编程人员提供了一个类-SQL的查询语言HiveQL来分析处理Hadoop数据。

● ApachePig提供脚本编程工具来分析处理Hadoop数据。

一.培训内容

经过讲师在课堂上的讲解,以及实操练习,学员将熟悉Hadoop生态系统,学习主题包括:

● 使用Pig,Hive及Impala获取、存储及分析数据。

● 使用Hadoop工具执行基本的ETL工作(抽取-extract,转换-transform和加载-load)。

● 使用Pig、Hive及Impala改善典型分析任务的效率。

● 关联不同及丰富的数据源以获取全面和真实的商业价值。

● 对数据集进行交互式和复杂查询。

二.培训对象及学员基础

本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备ApacheHadoop知识。

● 需具备一定的SQL知识水平。

● 基本熟悉Linux命令行。

● 培训学员至少熟悉一种脚本语言知识(例如,Bash脚本编程、Perl、Python和Ruby)将会更有帮助,但不是必需的。

三.认证

结束本课程培训后,我们建议学员准备并注册参加ClouderaCCA数据分析师认证考试。经过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。

四.课程大纲

1. Hadoop基础知识

● Hadoop动机

● Hadoop概览

● 数据存储:HDFS

● 分布式数据处理:YARN、MapReduce和Spark

● 数据处理与分析:Pig、Hive和Impala

● 数据集成:Sqoop

● 其它的Hadoop数据工具

● 练习分析场景说明

2. Pig简介

● Pig是什么

● Pig的特点

● Pig使用案例

● 与Pig的交互

3. Pig基本数据分析

● PigLatin语法

● 加载数据

● 简单数据类型

● 字段定义

● 数据输出

● 架构查看

● 数据筛选和排序

● 常用函数

4. 使用Pig处理复杂的数据

● 数据存储格式

● 复合/嵌套数据类型

● 数据分组

● 复杂数据内置函数

● 遍历分组数据

5. Pig多数据集操作

● 数据集合并技术

● 在Pig中联接数据集

● 集合运算

● 拆分数据集

6. Pig故障诊断和性能优化

● Pig故障排除

● 日志

● 使用Hadoop的WebUI

● 数据采样及调试

● 性能概述

● 了解执行计划

● 提高Pig作业性能的技巧

7. Hive和Impala简介

● 什么是Hive

● 什么是Impala

● 为什么使用Hive和Impala

● 架构和数据存储

● Hive及Impala与传统数据库的比较

● Hive使用案例

8. 使用Hive和Impala进行数据查询

● 数据库和表

● 基本的Hive和Impala查询语言语法

● 数据类型

● 使用Hue来执行查询

● 使用Beeline(HiveShell)

● 使用ImpalaShell

9. Hive及Impala数据管理

● 数据存储

● 创建数据库和表

● 加载数据

● 修改数据库和表

● 使用视图简化查询

● 存储查询结果

10. 数据存储和性能

● 对表进行分区

● 分区表的数据加载

● 何时使用分区

● 文件格式的选取

● 使用Avro及Parquet文件格式

11. 使用Hive和Impala进行关系数据分析

● 连接数据集

● 常见的内置函数

● 聚合和窗口函数

12. 复杂数据类型

● 在Hive里使用复杂数据

● 在Impala里使用复杂数据

13. 使用Hive及Impala分析文本数据

● 在Hive及Impala里使用正则表达式

● 在Hive里经过SerDe加载处理文本

● 情感分析及n-gram

14. Hive优化

● 了解查询性能

● Bucketing(分桶)

● 索引数据

● HiveonSpark

15. Impala优化

● Impala如何执行查询

● 改善Impala性能

16. 扩展Hive及Impala

● 使用SerDe加载特殊格式文件

● 经过定制脚本来转换数据

● 用户自定义函数

● 参数化查询

17. 选择zui佳工具

● 比较Pig、Hive、Impala和关系数据库该选择哪一个

18. 总结

Cloudera大数据课程体系

腾科环境

大数据分析工具培训班大数据分析工具培训班

大数据分析工具培训班大数据分析工具培训班

机构入驻 | 帮选课 | 公司介绍 | 联系我们 | 版权隐私 | 网站地图| 广告服务| 违规举报

版权所有:© 2019-2023 淘高分网 All Rights Reserved 备案号:豫ICP备2023000855号-2