大数据频道 频道

抛开Hadoop生死论,我们可以聊聊生态演进!

  【IT168 评论】2017年,Gartner的一份《2017年数据管理技术成熟度曲线》报告极其明显得标识出Hadoop即将进入衰落席。对此,IT168走访了国内一系列大数据厂商,在过去几个月,我们共同探讨了Gartner提出该观点的依据、用户对Hadoop生死存亡言论的看法、Hadoop生态中各大组件的生命力以及其他可能替代品的发展现状,并且调研了Hadoop生态体系在国内数十家一线互联网公司及大数据厂商内部的应用现状。

  在过去几个月的走访中,几乎所有厂商都在肯定Hadoop生态对大数据领域的重大基础作用以及Hadoop生态核心组件旺盛的生命力,我们也讨论了部分边缘组件的可替换性。如今,在单纯的生死存亡之外,我们或许应该更进一步了解Hadoop生态的演进过程及其对大数据领域的重大影响。

  本期走访厂商——天云大数据。从大数据市场布道者,到践行者。天云大数据(以下简称:天云)是国内为数不多的大数据PaaS层组件研发厂商,其BDP(Beagledata Platform)平台是一款基于Hadoop生态体系的企业级大数据中间件平台。

抛开Hadoop生死论,我们可以聊聊生态演进!

  抛开Hadoop生死论,我们聊聊Hadoop生态演进及组件研发!

  在Hadoop开源生态的基础上,天云提供面向新型计算环境的PaaS层技术框架,并自主研发了面向高并发、规模化、OLTP的数据服务“Hubble”;面向日益复杂的关系,关系型数据库瓦解的,无法量化关联关系这些数据结构的表达“Hilbert”。

  基于对Hadoop生态的了解,天云认为Hadoop已不是单纯的技术选择,而是一个泛在的生态。企业应该将注意力从Hadoop本身转移到Hadoop+的演变方向上。在这个过程中,我们不再讨论Hadoop本身某一组件的优劣,而是应该考虑如何配合Hadoop生态的演进逐步发展自己的大数据架构。

  既然,Hadoop生态在大数据领域地位稳固,与其花心思研究其组件级别的优劣,不如将更多精力放在Hadoop生态演进以及自我大数据架构的优化上。虽然基于Hadoop,但天云在复杂关键的操作上自研了一些组件,从内部实验室到客户现场,支持开源组件的同时,天云也在支撑一些大公司运维较少的组件,比如内存计算的Presto、Drill。面向复杂的关联结构以及高并发的OLTP操作,天云主要在应用自研组件。据天云方面的描述,该组件的代码行数已达百万级,超越众多开源项目,比如Hbase。

  天云认为,Hadoop未来发展还是泛生态的发展,它会是整个通用计算框架演进迭代的一个过程。国内现在多数企业在做应用开源组件的实施,但也有两三个厂商在做PaaS层的组件研发工作,比如天云大数据的Hubble,就是一个面向高并发、规模化、OLTP的数据服务。

  Spark与Flink尚不具备与Hadoop叫板的实力,但合作或许可共赢!

  即便坚定,但面对Gartner的报告,我们还是应该保留一份严谨,对于Hadoop可能的竞争对手——Spark和Flink,天云也给出了自己的理解。

  早在2012年,天云就参加了在硅谷举办的Hadoop大会,当时Hadoop之父已经提出一个概念,“Apache Hadoop forms the kernel of an operating system for Big Data,So, narrowly speaking, Hadoop alone is an operating system.” 也就是说,“Apache Hadoop构成了大数据操作系统的内核。所以,狭义地说,Hadoop就是一个操作系统。”天云认为,Spark虽然不沉淀在HDFS上,但也是整个生态的组件之一,并不会与Hadoop构成直接竞争关系。

  至于Flink,虽然其团队成员多在欧洲导致其公开交流并不多,但Flink对复杂业务逻辑的表达非常清晰,Flink之父Kostas Tzoumas很早就提出“fully unifying the, now separate, worlds of “batch” and “streaming” analytics.”的说法,这意味着Flink正是用统一的方式来分析批量和流,这正好补足了Hadoop的短板。

  总结来看,相比于Hadoop生死的言论,天云大数据更关心其PaaS层大数据组件的研发工作,更关心Hadoop整个生态未来的演进方向,希望在Hadoop的基础上打造更符合国内大数据环境的产品。至于Spark和Flink,天云似乎更倾向于合作共赢的方式,这倒也应了不少用户的心意。

0
相关文章