大数据频道 频道

解救选择困难,Hadoop在线分析处理选型

  【IT168 评论】数据分析市场从来都很活跃,就好像随时随地都会诞生无数的新工具新技术新框架一样,其实无非就两种,充满了大鱼吃小鱼故事的商业软件市场和开源数据处理软件。在互联网精神和开源情怀的引导下,各种专业领域的开源软件日益壮大。百花齐放的情况下,到底要如何选择呢?

  Hadoop是一个非常好的数据存储平台。在开源世界,Hadoop将人们引入了大数据时代,处理TB级别的大数据成为一种可能,但实时性能一直是Hadoop的伤痛。直到14年,Spark横空出世,通过最大利用内存处理数据的方式,大大改进了数据处理的响应时间,快速发展出一个较为完备的生态系统。联机分析处理(OLAP)通常是针对一些传统的专有平台上比较小的数据集。幸运的是,现在有很多Apache Hadoop项目已经开始实现OlAP了。

  Apache Kylin

解救选择困难,Hadoop在线分析处理选型

  Apache Kylin,中文名麒(shen)麟(shou),是Hadoop家族中的重要成员。Apache Kylin是一个开源分布式分析引擎。针对企业使用Hadoop管理数据中现有分析工具难以水平扩展、无法处理超大规模数据等痛点产生的。最初由eBay开发贡献至开源社区,Kylin从Hive中读取源数据,使用MapReduce计算多维度的任意组合,并把预计算结果保存在HBase中。它可以支持PowerBI,Tableau和Excel或者未来可能可以支持更多工具。

 解救选择困难,Hadoop在线分析处理选型

  你可以在其上做MOLAP多维数据集处理并且支持多用户数以亿计的快速行查询。同时,Apache Kylin也提供JDBC和ODBC的驱动程序。

  Druid

解救选择困难,Hadoop在线分析处理选型

  Druid是另一个十分强大的提供Hadoop上SQL联机分析处理的解决方案。该项目的文档说明对熟悉OLAP的DBA,数据架构师,数据工程师以及对大数据项目感兴趣的程序员来说十分简单易懂,Druid提供亚秒级别的OLAP列方向查询,并且倒排索引启用多维过滤,可以对聚合和过滤数据进行扫描。此外,Airbnb和Alibaba都在使用该项目。

  Apache Lens

解救选择困难,Hadoop在线分析处理选型

  Apache Lens提供了统一数据分析接口。Lens削减数据分析的孤岛,通过提供一个跨多个分层数据存储的单一视图,并优化查询分析执行的环境。无缝集成Hadoop实现类似传统数据仓库的功能。它的安装速度十分快,并且可以兼容Hive,JDBC以及OLAP多维分析。此外,还有一个Apache Zepplin接口,目前并没有太多关于此接口的消息,不过似乎是个不错的主意。

  其他可供选择的工具:

  1、SnappyData(强大的SQL即时分析,内存速度极快和GemfireXD)

  2、Apache HAWQ(强大的SQL支持和Greenplum)

  HAWQ是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受SQL,返回结果集。但它具有大规模并行处理很多传统数据库以及其他数据库没有的特性及功能。

  3、Splice Machine(现已开源)

  4、Hive LLAP目前已进入OLAP领域,性能在逐步提升。

  5、Apache Phoenix

  Phoenix可以在Saiku的支持下做一些基础的OLAP工作,可以看一下Saiku的OLAP BI工具。Phoenix可以处理大数据的查询和并发问题,但是目前的Phoenix可能缺乏一些用户需要的OLAP特定工具支持。没准,Apache Calcite和Phoenix将会成为不错的OLAP工具。如果你在实践中发现有好的开源工具可以推荐,欢迎留在评论里。目前看来,似乎Apache Kylin和Druid的表现更优异。

0
相关文章