大数据平台学习笔记 - 郑志彬的博客

TIPS && NOTES

MapReduce计算模型对多轮迭代的DAG作业支持不给力，每轮迭代都需要将数据落盘，极大地影响了作业执行效率，另外只提供Map和Reduce这两种计算因子，使得用户在实现迭代式计算（比如：机器学习算法）时成本高且效率低。
Storm和Flink都是是实时流式数据处理，面向行处理，单条延时比较低。Spark是近实时流式处理，面向RDD处理，吞吐量比较高。如果应用对实时性要求比较高建议试用Storm或者Flink, 否则大家可以考虑利用Spark的丰富的数据操作能力。

参考文章