Apache Spark

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,是Apache顶级开源项目。 2009年由加州大学伯克利分校的 AMPLab 开发。

Spark提供了一个全面、统一的框架,用于管理各种有着不同性质(文本数据、图表数据等)的数据集,处理批量数据或实时的流数据,满足大数据处理的需求。 和Hadoop集群中的应用相比,Spark在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。

组成有:

  • Spark Core:包含Spark的核心功能。其他Spark的库都是构建在RDD和Spark Core之上的
  • Spark SQL:提供通过 SQL变体查询语言与Spark进行交互
  • Spark Streaming:对实时数据流进行处理和控制
  • MLlib:一个常用机器学习算法库,包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作
  • GraphX:控制图、并行图操作和计算的一组算法和工具的集合

网址为:

版本发布采用经典版本 x.y.z 方式,如v3.5.0

我们提供针对 Spark 项目的技术支持和软件应用开发。