Apache Flink

Apache Flink 是一个框架和分布式处理流式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。 Flink 能在所有常见集群环境中运行,并能以内存速度进行计算。处理任意规模的数据集合。

Apache Flink 功能强大,支持开发和运行多种不同种类的应用程序。 主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。

流处理主要针对的是数据流,特点是无界、实时,对系统传输的每个数据依次执行操作,一般用于实时统计。在流处理中,数据被视为无限连续的流,并且会尽快地进行处理。 Flink在此模型下可以提供秒级甚至毫秒级的延迟,使其成为需要快速反应和决策的场景(例如实时推荐、欺诈检测等)的理想选择。

Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。 在启用高可用选项的情况下,它不存在单点失败问题。

Flink 本身提供了多层 API:

  • Stateful Stream Processing :最低级的抽象接口是状态化的数据流接口
  • DataStream/DataSet API: 是 Flink 提供的核心 API ,DataSet 处理有界的数据集,DataStream 处理有界或者无界的数据流。用户可以通过各种方法(map / flatmap / window / keyby / sum / max / min / avg / join 等)将数据进行转换 / 计算
  • Table API: 提供了例如 select、project、join、group-by、aggregate 等操作
  • SQL: 提供的最高层级的抽象是 Flink SQL

版本发布采用经典版本 x.y 方式,如v1.18

网址为 Apache Flink

我们提供针对 Apache Flink 项目的技术支持和软件应用开发。