精选优质文档-倾情为你奉上 对流处理与批处理的认识 说到对流处理与批处理的认识,首先要知道大数据系统中的一个最基本的组件:处理框架。所谓处理框架就是负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。下面是一些常见的框架:(1)仅批处理框架:Apache Hadoop(2)仅流处理框架:Apache Storm,Apache Samza(3)混合框架:Apache Spark,Apache Flink。 首先,我们先了解批处理。批处理在大数据世界有着悠久的历史。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征: 有界:批处理数据集代表数据的有限集合。 持久:数据通常始终存储在某种类型的持久存储位置中。 大量:批处理操作通常是处理极为海量数据集的唯一方法。 批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时,必须将数据集作为一