大数据频道 频道

大数据混战:谁将撼动Spark的地位

  【IT168 翻译】目前由于Apache Spark的不断发展,其已逐步成为大数据云时代的重要组成部分。但Spark远非那么完美,当然,它确实在逐步改善中,但正如2.0版所示,如果竞争者提供了一个比Spark更赞的处理方式,必然会吸引开发者的注意。

大数据混战:Spark面临的四大挑战

  如下列出的四项很可能会撼动Spark的地位,Spark以对传统内存批处理和流处理的全新方法而闻名。并且,目前该方法也持续奏效。那接下来这四位又有哪些优势呢?

  Apache Apex

  Apache Apex最初由DataTorrent开发出来,目前已作为孵化器项目被捐赠给Apache基金会。它可以在YARN下的Hadoop上执行流处理和批处理。

大数据混战:Spark面临的四大挑战

  优点:Apex是真正的流处理,而Spark的流处理实际上只是一个微小的批处理而已。

  缺点:虽然Apex经由Hadoop使其本身具备容错能力,但这意味着Apex和Hadoop是紧密耦合的。而Spark有没有Hadoop都可以。并且,Apex至今没有具备Spark的机器学习能力。

  Heron

  Twitter采用流处理系统Heron替代了Apache Storm,Heron现在作为一个开源项目,可以认为其是Spark的竞争者之一。

大数据混战:Spark面临的四大挑战

  优点:Heron通过容器管理调度程序进行流处理。因此,它比其他解决方案更易集成,更易调试,部署和集群运行。为了吸引Storm用户,它同时兼容Storm API和共享Storm的很多概念。

  Apache Flink

  Apache Flink是一款大数据流处理引擎,这个目标看起来和Spark类似。

大数据混战:Spark面临的四大挑战

  优点:和Apex一样,Flink是一款真正的流处理模型,而不像Spark那样只是微小的批处理。Flink对数据流中迭代或者重复的进程有明确规定,并且它有一些与Spark类似的特点,例如机器学习和图形处理。但是,Flink目前来说仍然是比较新的项目,今年稍早些时候刚推出1.0版本。

  Onyx

  Onyx是一个无中心,支持云的,容错的高性能分布式计算系统。根据其官方介绍,Onyx同时具备批处理和流处理能力。

  优点:它由基础语言Clojure而不是Scala编写而成,Onyx把流处理放在第一位,批处理操作基本上是基于小的流处理操作实现的。Onyx允许开发人员使用Clojure或Java语言,例如Clojure的向量和地图等,进一步定义如何处理数据。一旦Onyx流行起来,很可能是由于Java的受欢迎程度而不是Clojure的原因。

  原文链接:http://www.infoworld.com/article/3101729/big-data/big-data-brawlers-4-challengers-to-spark.html

0
相关文章