走访Hadoop发行商:Gartner看衰论断如何理解-大数据频道专区

走访Hadoop发行商:Gartner看衰论断如何理解

作者：钰莹编辑：赵钰莹 2018-04-28 15:40 IT168网站原创

　　【IT168 评论】2013年，Gartner研究总监Svetlana Sicular在其博客发表了一篇题为“大数据光环的幻灭”的文章，暗指Hadoop即将过时，大数据泡沫即将随着用户失败案例的增多而破裂。

　　随后，Ovum(一家在世界电信产业界富有权威性的中立咨询顾问公司)发布报告，证明在分析了220万条与大数据相关的推文后发现，对大数据厂商正面评价的推文是负面的三倍，大数据厂商口碑较好，用户依旧对大数据充满热情并表示认可。

走访Hadoop发行商:Gartner看衰论断如何理解
▲Svetlana Sicular当时给出的变化曲线

　　2015年，Gartner研究总监Svetlana Sicular再次发布题为“大数据七大失败案例”的报告，对包括谷歌在内的众多公司在大数据项目上的失败案例进行了总结。

　　2017年，Gartner发布的《2017年数据管理技术成熟度曲线》再次将Hadoop掀上舆论巅峰，报告极其明显的标识出Hadoop即将进入淘汰席。Gartner预测，到2018年，70%的Hadoop部署无法实现节约成本和收入增长的目标。对于这一系列“Hadoop将死”的断言，国内的Hadoop服务厂商如何看待呢?

走访Hadoop发行商:Gartner看衰论断如何理解

　　本期走访厂商——星环科技(以下简称：星环)，星环Transwarp Data Hub是Gartner认可的Hadoop国际主流发行版。对于Hadoop的命运，星环是如何理解的呢?

　　Hadoop确实有问题，但不能成为“看衰”论断的主要原因!

　　星环的创业团队很早之前就在做Hadoop发行版的工作，选定Hadoop是因为看到了它的优点，比如可扩展性，容错性，支持从GB到PB级别多种业务的需求,支持PB级别海量数据批处理的需求。

　　在使用中，星环也承认Hadoop有一些缺点，比如使用门槛略高，技术迭代快导致学习成本和运维成本升高。不过，这些缺点并不是致命的。星环选定的技术路线是基于Hadoop以及Spark技术的解决方案，这可以有效解决开源Hadoop的相关问题，提供更高性能、高可靠、易于使用(业内SQL兼容支持第一，图形化交互界面)的大数据平台。

　　通过之前的调研，笔者发现多数大数据服务厂商都会选择自己的方式对开源Hadoop进行改良以规避其自身的一些问题，因此这些问题并不是“Hadoop衰落”的主要原因。既然可以规避，那么客户部署失败的原因会是什么呢?

　　星环TDH是目前国内落地案例最多的一站式Hadoop发行版，客户几乎覆盖全行业，比如金融、能源、交通、运营商、零售、物流等等。干得多了自然见识得也多，星环认为这些客户大致可以分为两种，一种是原来不具有或者放弃已有数据库平台的;另一种则是延用已有数据库平台的;前者全盘接收星环提供的大数据和人工智能平台一站式服务，这样的部署失败率自然极低。后者涉及的问题就十分复杂了，情况不同，原有平台的使用程度和选购厂商也各有不同，需要一段时间磨合才能成功投入使用。

　　Gartner论断主要针对国外用户，国外厂商未发挥Hadoop全部优势!

　　Gartner连续多年坚持“Hadoop将死”的观点，肯定不是空口无凭。星环认为原因可以归结为两个方面：

　　1、Hadoop方面的问题。Hadoop的使用有一定门槛，虽然过去几年人才供应数量在不断增加，但是企业对人才的需求增加速度更快，所以企业构建Hadoop团队的人才成本较高，初次构建成本偏高。

　　2、国内外大数据环境的差异。Gartner的调查客户主要集中在国外，而国外Hadoop厂商给客户提供的功能，无法完全取代传统数据库的地位，未能将Hadoop的优势全部体现，导致国外用户对Hadoop的应用比较简单，未能充分体现新技术带来的优势，故容易得出Hadoop投入产出比较低、能力局限较大的结论。

　　对于Gartner的这一结论，国内的舆论多数认为Hadoop地位稳固，无需担心。确实，Hadoop生态系统在国内大数据平台处于主流地位，已经成为大数据领域的事实标准，目前已有大量企业基于Hadoop构建数据生态圈。

　　国内用户对Hadoop的认可度偏高，是因为国内使用Hadoop技术时，无论是数据量还是应用场景，复杂度都远超国外用户，譬如数据量比国外用户至少高一个数量级，带来的技术难度也是成倍增加。另外在应用场景方面，国内用户不仅将Hadoop用于批处理等简单场景，更多的是用于构建数据仓库、实时流处理，全文搜索，机器学习，拓扑图分析等。

　　新技术替换旧技术的过程给国内用户带来的价值显著，例如整体成本降低，性能提升，扩展方便，基于新技术进行的业务场景创新等，这些都让国内用户切实感受到Hadoop生态的强大。

　　叫好的Spark、Flink未来会和Hadoop以哪种方式相处?

　　Gartner不看好Hadoop倒也不是完全否定大数据解决方案，反而认为企业对大数据解决方案的需求将会不断增长，只是随之增长的将会是Spark等新兴解决方案，而Spark生态将逐渐成熟以脱离Hadoop完全独立运行。

　　星环认为这是因为国外公有云的渗透率非常高，因此不少Spark服务都基于S3作为存储，而国内目前这方面还比较少，所以Spark大部分情况下是与Hadoop配合出现，Spark作为通用计算引擎，而Hadoop提供存储和资源管理框架等服务。除此之外，Hadoop中也有不少表现不佳的组件，星环就选择用Kubernetes替换YARN作为资源管理引擎，用Spark替换被认为是Hadoop生态增长瓶颈的MapReduce，这种组件替换现象在国内非常普遍。

　　对于目前国内正处于火热状态的Flink，星环认为Flink只是一种实时计算引擎，概念上无法与Hadoop完全匹配，譬如没有存储服务、NoSQL或者资源管理服务，现阶段的Flink生态并不成熟，不对Hadoop构成替代关系。

　　未来，Hadoop负责底层存储、管理等服务，Flink和Spark都可以成为它的领域计算引擎，如Flink负责实时类业务的计算引擎，而Spark作为批处理或者机器学习领域的计算引擎，三者配合将会有非常不错的效果。此外，云和AI技术与大数据相辅相成，因此，Hadoop未来的技术发展可与云、AI技术互相结合，更大地方便用户开发数据服务。

关注我们