• 招生咨询热线:17796657115
  • 手机版
招生咨询热线
17796657115
首页>淘课程>>广州Spark及Hadoop开发员培训
广州Spark及Hadoop开发员培训
人气:582 分享 收藏 举报

广州Spark及Hadoop开发员培训

  • 价格详询
  • 授课类型面授
  • 班级类型一对一
  • 课时 详询
  • 授课校区广州腾科网络技术有限公司
  • 上课时段 周末班   
立即报名 在线咨询

课程介绍

来看看,你拿不了高薪的原因到底是什么?

①学历一般,专科、普通本科毕业,没有研究生、博士学历②刚毕业没有职称经验,企业一般不招学徒③没有技术,学习的东西比较滞后,并且都是理论,职称用不上④选错行业,现在是互联网时代,IT行业是高薪行业⑤面试没有技巧,海投简历总算等来面试机会,却因为紧张没能拿到offer⑥你没自己想象的重要,技术岗位一般无可代替,然后你做的是文职⑦工作多年,却一直薪水上不去,那你可以考虑换行了⑧不断的学习才能提升,技能培训相当重要

学习如何使用Hadoop生态系统关键性技术来导入并处理数据。

在为期4天的培训中,学员将学习关键概念和掌握使用新技术和工具将数据采集到Hadoop集群并进行处理。经过学习掌握诸如Spark(包括SparkStreaming和SparkSQL)、Flume、Kafka以及Sqoop这样的Hadoop生态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力。使用Spark,不同行业的开发人员可以为不同的商业应用和系统架构编写复杂的并行应用,得以更**地获取更优的商业决策,帮助决策人员进行及时应对。

一.培训内容

● 经过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:

● 在Hadoop集群上进行分布式存储和处理数据。

● 经过在Hadoop集群上编写、配置和部署ApacheSpark应用。

● 使用Sparkshell进行交互式数据分析。

● 使用SparkSQL查询处理结构化数据。

● 使用SparkStreaming处理流式数据。

● 使用Flume和Kafka为SparkStreaming采集流式数据。

二.培训对象及学员基础

● 本课程适合于具有编程经验的开发员及工程师。无需ApacheHadoop基础。

● 培训内容中对ApacheSpark的介绍所涉及的代码及练习使用Scala和Python,因此需至少掌握这两个编程语言中的一种。

● 需熟练掌握Linux命令行。

● 对SQL有基本了解。

三.课程大纲

1. Hadoop及生态系统介绍

● ApacheHadoop概述

● 数据存储和摄取

● 数据处理

● 数据分析和探索

● 其他生态系统工具

● 练习环境及分析应用场景介绍

2. ApacheHadoop文件存储

● 传统大规模系统的问题

● HDFS体系结构

● 使用HDFS

● ApacheHadoop文件格式

3. ApacheHadoop集群上的数据处理

● YARN体系结构

● 使用YARN

4. 使用ApacheSqoop导入关系数据

● Sqoop简介

● 数据导入

● 导入的文件选项

● 数据导出

5. ApacheSpark基础

● 什么是ApacheSpark

● 使用SparkShell

● RDDs(可恢复的分布式数据集)

● Spark里的函数式编程

6. SparkRDD

● 创建RDD

● 其他一般性RDD操作

7. 使用键值对RDD

● 键值对RDD

● MapReduce

● 其他键值对RDD操作

8. 编写和运行ApacheSpark应用

● Spark应用对比SparkShell

● 创建SparkContext

● 创建Spark应用(Scala和Java)

● 运行Spark应用

● Spark应用WebUI

9. 配置ApacheSpark应用

● 配置Spark属性

● 运行日志

10. ApacheSpark的并行处理

● 回顾:集群环境里的Spark

● RDD分区

● 基于文件RDD的分区

● HDFS和本地化数据

● 执行并行操作

● 执行阶段及任务

11. Spark持久化

● RDD演变族谱

● RDD持久化简介

● 分布式持久化

12. ApacheSpark数据处理的常见模式

● 常见Spark应用案例

● 迭代式算法

● 机器学习

● 例子:K-Means

13. Dataframes和SparkSQL

● ApacheSparkSQL和SQLContext

● 创建Dataframes

● 变更及查询Dataframes

● 保存Dataframes

● Dataframes和RDD

● SparkSQL对比Impala和Hive-on-Spark

● Spark2.x版本上的ApacheSparkSQL

14. ApacheKafka

● 什么是ApacheKafka

● ApacheKafka概述

● 如何扩展ApacheKafka

● ApacheKafka集群架构

● ApacheKafka命令行工具

15. 使用ApacheFlume采集实时数据

● 什么是ApacheFlume

● Flume基本体系结构

● Flume源

● Flume槽

● Flume通道

● Flume配置

16. 集成ApacheFlume和ApacheKafka

● 概要

● 应用案例

● 配置

17. ApacheSparkStreaming:DStreams介绍

● ApacheSparkStreaming概述

● 例子:Streaming访问计数

● DStreams

● 开发Streaming应用

18. ApacheSparkStreaming:批处理

● 批处理操作

● 时间分片

● 状态操作

● 滑动窗口操作

19. ApacheSparkStreaming:数据源

● Streaming数据源概述

● ApacheFlume和ApacheKafka数据源

● 例子:使用Direct模式连接Kafka数据源

20. 结论

Cloudera大数据课程体系

机构入驻 | 帮选课 | 公司介绍 | 联系我们 | 版权隐私 | 网站地图| 广告服务| 违规举报

版权所有:© 2019-2023 淘高分网 All Rights Reserved 备案号:豫ICP备2023000855号-2