大数据系列课程

本系列课程由

等组成,包括大数据相关技术。

大数据

数据处理和分析

本课程讲述数据处理和分析技术知识, 通过使用Excel工具和Python交互式界面处理数据, 使用SQL语言读写数据并进行分析, 学习Kettle ETL项目,完整了解数据抽取、转换、发布处理分析全过程。

  • Excel 快速数据分析
  • Python简述
  • SQL
  • Kettle ETL

Spark批式处理

本课程讲述Spark项目技术知识, 全面分析Spark内部的数据API, 掌握大数据计算的开发和部署运行, 并了解Spark相关开源项目,包括Streaming,机器学习MLlib等。

  • 大数据概述
  • Spark 开发
  • Spark 技术生态

本课程全方位讲述流式计算技术知识, 通过对 Apache Beam 项目的分析,全面了解流式计算知识, 再深入剖析 Flink 项目,掌握流式计算的开发和部署运行, 并了解其他相关流处理项目。

  • 流式计算
  • Apache Beam
  • Flink 核心
  • Flink 技术生态
  • 相关流技术

数据治理

本课程讲述数据治理体系, 详细说明元数据、主数据、数据质量等业务功能和方法论, 针对数据生命周期管理和安全、架构等进行技术分析。

  • 数据治理
  • 元数据治理
  • 主数据治理
  • 数据质量
  • 其他数据治理

数据模型

本课程讲述业务建模过程, 分析企业的通用数据模型, 通过开源项目学习 Java 实体模型, 了解大型软件公司的开放数据模型。

  • 通用数据模型
  • 企业数据模型
  • 模型开源项目分析
  • 开放数据模型