Spark批式处理

本课程讲述Spark项目技术知识, 全面分析Spark内部的数据API, 掌握大数据计算的开发和部署运行, 并了解Spark相关开源项目,包括Streaming,机器学习MLlib等。

时间2天。

大数据概述

  • 海量数据处理
  • Hadoop 项目
  • 函数式处理
  • Yarn 部署运行

Spark 开发

  • 项目介绍
  • 部署使用
  • 核心概念
  • 数据API: RDD, DataFrame, DataSet
  • DataFrame 数据处理
  • 函数操作
  • 使用数据库表等数据源
  • DataSet数据处理
  • 有状态计算

Spark 技术生态

  • Scala和Python 语言开发
  • Spark Streaming
  • MLlib 机器学习