本课程讲述Spark项目技术知识, 全面分析Spark内部的数据API, 掌握大数据计算的开发和部署运行, 并了解Spark相关开源项目,包括Streaming,机器学习MLlib等。
时间2天。
大数据概述
- 海量数据处理
- Hadoop 项目
- 函数式处理
- Yarn 部署运行
Spark 开发
- 项目介绍
- 部署使用
- 核心概念
- 数据API: RDD, DataFrame, DataSet
- DataFrame 数据处理
- 函数操作
- 使用数据库表等数据源
- DataSet数据处理
- 有状态计算
Spark 技术生态
- Scala和Python 语言开发
- Spark Streaming
- MLlib 机器学习