每秒几十亿实时处理，大厂超大规模 Flink 集群运维分析

说一下阿里的流计算引擎，2015年在 Galaxy 自研的流计算，2014年的时候阿里就有了流计算，那个时候还有JStorm和Flink，分别分布在搜索和中间件其他的部门。

之后经常在内网上PK，这几套引擎谁最牛逼。2017年左右 Flink 以低延时、高吞吐、一致性，从几个流计算引擎里面脱颖而出，后来整个集团做了技术统一，其他引擎全部抛弃，用Flink来做，Flink是阿里统一的流计算引擎。有了这样的基础之后，业务不断发展，所有的流计算引擎往 Flink 上迁移。

另外一个方面，我们对于数据的处理要求越来越高，现在尽可能往实时化，现在越来越多的Flink本身已经有很多批计算的逻辑和机器学习，综合这三点，导致阿里的 Flink 集群发展非常大。

据我了解，像谷歌、Facebook 没有用。只要用 Flink，阿里的 Flink 集群是全世界最大的。

现在我们的集群规模有几万个计算节点，大部分还是传统的物理机，还有大部分是 ECS和容器；有几百个集群，Flink 一部分用户是阿里内部的，集群最大的规模可能是五六千台，但是对外阿里云上售卖的，一个用户可以开通一个集群。

所以有上百个集群，一个集群可以有成百上千台机器，整个系统非常复杂，因为 Flink是一个计算的，不负责数据的源和目标存储，所以要从上游读数据，然后写到下游的数据库或者其他系统里面去，大概几十个上下游，而且整个 Flink 的底座也很多。

最早有基于 Hadoop 的底座和阿里飞天系的底座，还有现在基于云原生 Kubernetes 的底座。另外，出口非常多，基本上分布在全世界各地都是可以看到 Flink 的应用。

现在仅阿里内部的 Flink，每秒处理几十亿条数据，这个数据量非常庞大，一条数据1K，你想想这个数据有多大。规模这么大，运维上碰到了很多问题，挑战分为下面几部分：

站长网