五种大数据框架你必须要知道

2019年11月7日大数据 935 views

学习大数据不可不知的五种大数据框架，码笔记分享大数据框架Hadoop、Storm、Samza、Spark和Flink五种大数据框架详解：

一：Hadoop大数据框架

Hadoop

大数据框架？第一映入眼帘的就是这枚大象Hadoop，Hadoop是一个由Apache基金会所开发的分布式系统基础架构，它是目前应用最广泛的大数据工具，Hadoop拥有容错率和极低的硬件价格。

Hadoop是成为了一个广阔的生态圈的批处理框架，Hadoop提出的Map和Reduce的计算模式简洁而优雅，它实现了大量算法和组件。但是，由于Hadoop的计算任务需要在集群的多个节点上多次读写，因此在速度上会稍显劣势，但是Hadoop的吞吐量也同样是其他框架所不能匹敌的。

二：Storm大数据框架

Storm由Twitter开源并且托管在GitHub上的，Storm大数据框架与Hadoop的批处理模式不同，Storm采用的是流计算框架。但Storm与Hadoop相似之处是也提出了Spout和Bolt两个计算角色。

举个通俗的例子来说明Storm和Hadoop的不同之处，Hadoop类似水桶，而Storm类似水龙头，想要获取水，Hadoop是一桶一桶的去扛回来，而Storm只需要打开水龙头就行了。Storm流计算框架使用的是内存，延迟上具有优势，但是不会持久化数据。

Storm对Java、Ruby、Python等语言都有很好的支持。

三：Samza大数据框架

Samza大数据框架与Storm一样都是流计算框架，Samza必须和Kafka共用，Samza目前只支持JVM语言。

四：Spark大数据框架

Spark和Flink

Spark大数据框架是一种混合式的计算框架，Spark自带实时流处理工具；Spark也可以与Hadoop集成代替MapReduce；甚至Spark还可以单独拿出来借助HDFS等分布式存储系统部署集群。

Spark的运算速度与Storm相似，Spark的速度大约为Hadoop的一百倍，而Spark的成本要比Hadoop低，但是Spark目前还没有Hadoop拥有上万级别的集群，所以现阶段将Spark和Hadoop搭配起来使用是比较不错的方案。

五：Flink大数据框架

Flink大数据框架也是一种混合式的计算框架，Fink与Spark相反的地方在于Fink重点在于处理流式数据，目前Fink还不算成熟。

云服务器租用优惠价格，2025年最新：

阿里云：服务器99元1年，新老同享，续费99元1年（多配置报价明细）

腾讯云：服务器秒杀28元1年，更多2核2G/2核4G/4核8G/4核16G/8核价格表

京东云：轻量云主机36元1年，2核4G5M 158元/4核8G5M 498元/8核16G/16核费用清单

华为云：服务器最便宜36元1年，2核4G 99元/4核8G 328元/8核16G/16核优惠活动

一：Hadoop大数据框架

二：Storm大数据框架

三：Samza大数据框架

四：Spark大数据框架

五：Flink大数据框架

相关文章