【IT168 评论】2013年,Gartner研究总监Svetlana Sicular在其博客发表了一篇题为“大数据光环的幻灭”的文章,暗指Hadoop即将过时,大数据泡沫即将随着用户失败案例的增多而破裂。
随后,Ovum(一家在世界电信产业界富有权威性的中立咨询顾问公司)发布报告,证明在分析了220万条与大数据相关的推文后发现,对大数据厂商正面评价的推文是负面的三倍,大数据厂商口碑较好,用户依旧对大数据充满热情并表示认可。
2015年,Gartner研究总监Svetlana Sicular再次发布题为“大数据七大失败案例”的报告,对包括谷歌在内的众多公司在大数据项目上的失败案例进行了总结。
2017年,Gartner发布的《2017年数据管理技术成熟度曲线》再次将Hadoop掀上舆论巅峰,报告极其明显的标识出Hadoop即将进入淘汰席。Gartner预测,到2018年,70%的Hadoop部署无法实现节约成本和收入增长的目标。对于这一系列“Hadoop将死”的断言,国内的Hadoop服务厂商如何看待呢?
本期走访厂商——星环科技(以下简称:星环),星环Transwarp Data Hub是Gartner认可的Hadoop国际主流发行版。对于Hadoop的命运,星环是如何理解的呢?
Hadoop确实有问题,但不能成为“看衰”论断的主要原因!
星环的创业团队很早之前就在做Hadoop发行版的工作,选定Hadoop是因为看到了它的优点,比如可扩展性,容错性,支持从GB到PB级别多种业务的需求,支持PB级别海量数据批处理的需求。
在使用中,星环也承认Hadoop有一些缺点,比如使用门槛略高,技术迭代快导致学习成本和运维成本升高。不过,这些缺点并不是致命的。星环选定的技术路线是基于Hadoop以及Spark技术的解决方案,这可以有效解决开源Hadoop的相关问题,提供更高性能、高可靠、易于使用(业内SQL兼容支持第一,图形化交互界面)的大数据平台。
通过之前的调研,笔者发现多数大数据服务厂商都会选择自己的方式对开源Hadoop进行改良以规避其自身的一些问题,因此这些问题并不是“Hadoop衰落”的主要原因。既然可以规避,那么客户部署失败的原因会是什么呢?
星环TDH是目前国内落地案例最多的一站式Hadoop发行版,客户几乎覆盖全行业,比如金融、能源、交通、运营商、零售、物流等等。干得多了自然见识得也多,星环认为这些客户大致可以分为两种,一种是原来不具有或者放弃已有数据库平台的;另一种则是延用已有数据库平台的;前者全盘接收星环提供的大数据和人工智能平台一站式服务,这样的部署失败率自然极低。后者涉及的问题就十分复杂了,情况不同,原有平台的使用程度和选购厂商也各有不同,需要一段时间磨合才能成功投入使用。
Gartner论断主要针对国外用户,国外厂商未发挥Hadoop全部优势!
Gartner连续多年坚持“Hadoop将死”的观点,肯定不是空口无凭。星环认为原因可以归结为两个方面:
1、Hadoop方面的问题。Hadoop的使用有一定门槛,虽然过去几年人才供应数量在不断增加,但是企业对人才的需求增加速度更快,所以企业构建Hadoop团队的人才成本较高,初次构建成本偏高。
2、国内外大数据环境的差异。Gartner的调查客户主要集中在国外,而国外Hadoop厂商给客户提供的功能,无法完全取代传统数据库的地位,未能将Hadoop的优势全部体现,导致国外用户对Hadoop的应用比较简单,未能充分体现新技术带来的优势,故容易得出Hadoop投入产出比较低、能力局限较大的结论。
对于Gartner的这一结论,国内的舆论多数认为Hadoop地位稳固,无需担心。确实,Hadoop生态系统在国内大数据平台处于主流地位,已经成为大数据领域的事实标准,目前已有大量企业基于Hadoop构建数据生态圈。
国内用户对Hadoop的认可度偏高,是因为国内使用Hadoop技术时,无论是数据量还是应用场景,复杂度都远超国外用户,譬如数据量比国外用户至少高一个数量级,带来的技术难度也是成倍增加。另外在应用场景方面,国内用户不仅将Hadoop用于批处理等简单场景,更多的是用于构建数据仓库、实时流处理,全文搜索,机器学习,拓扑图分析等。
新技术替换旧技术的过程给国内用户带来的价值显著,例如整体成本降低,性能提升,扩展方便,基于新技术进行的业务场景创新等,这些都让国内用户切实感受到Hadoop生态的强大。
叫好的Spark、Flink未来会和Hadoop以哪种方式相处?
Gartner不看好Hadoop倒也不是完全否定大数据解决方案,反而认为企业对大数据解决方案的需求将会不断增长,只是随之增长的将会是Spark等新兴解决方案,而Spark生态将逐渐成熟以脱离Hadoop完全独立运行。
星环认为这是因为国外公有云的渗透率非常高,因此不少Spark服务都基于S3作为存储,而国内目前这方面还比较少,所以Spark大部分情况下是与Hadoop配合出现,Spark作为通用计算引擎,而Hadoop提供存储和资源管理框架等服务。除此之外,Hadoop中也有不少表现不佳的组件,星环就选择用Kubernetes替换YARN作为资源管理引擎,用Spark替换被认为是Hadoop生态增长瓶颈的MapReduce,这种组件替换现象在国内非常普遍。
对于目前国内正处于火热状态的Flink,星环认为Flink只是一种实时计算引擎,概念上无法与Hadoop完全匹配,譬如没有存储服务、NoSQL或者资源管理服务,现阶段的Flink生态并不成熟,不对Hadoop构成替代关系。
未来,Hadoop负责底层存储、管理等服务,Flink和Spark都可以成为它的领域计算引擎,如Flink负责实时类业务的计算引擎,而Spark作为批处理或者机器学习领域的计算引擎,三者配合将会有非常不错的效果。此外,云和AI技术与大数据相辅相成,因此,Hadoop未来的技术发展可与云、AI技术互相结合,更大地方便用户开发数据服务。