【IT168 评论】前不久,笔者整理了部分一线互联网公司的大数据平台架构图(感兴趣可自行查看《摸底10余家一线互联网公司大数据架构图:Hadoop渗透力太强!》),引来不少用户的关注。从文章可以看出:Hadoop生态系统对互联网公司大数据平台架构的渗透力是极其强大的。
我们似乎习惯了在提到大数据的时候想起Hadoop,但是为什么企业(当然,不单指互联网公司)都在用Hadoop?没有其他更合适更完美的解决方案吗?Spark生态日趋完善,频频叫嚣Hadoop,Hadoop会陷入危机吗?
针对上述问题,笔者将对有代表性的大数据服务厂商的一线技术专家进行走访,了解他们对Hadoop的选择意愿以及原因、搭建大数据平台时最看重哪些因素、对Hadoop的未来持何种态度。
本期嘉宾:
王苹,荣之联解决方案架构师。曾就职于IBM大数据团队,具有多年大数据平台研发经验。目前专注于大数据企业级应用的方案设计及技术选型,同时带领团队研发荣之联大数据产品。
地位堪比芯片:为什么企业愿意使用Hadoop?
荣之联对企业用户提供大数据平台产品DataZoo,最底层的基础层基于Hadoop开源生态构建,目前已在公安,证券、电商,新媒体、车联网和生物医疗几大领域落地。速度上明显落后Spark的Hadoop到底有什么优点?荣之联为什么这样选择?企业用户对大数据平台有哪些需求?
荣之联选择Hadoop的原因很简单:Hado平台研发op足以解决现阶段企业用户的大数据问题;Hadoop生态成熟完整,成功案例众多,站在巨人的肩膀上看得更远;我们有相关人才,具有大数据能力的专业团队。
想必正在使用Hadoop的厂商和荣之联有不少共鸣。除了Hadoop自身的优势,人才也是重要因素。当Hadoop工程师开始慢慢增多,国内的Hadoop生态发展进入升温阶段。
企业用户愿意用Hadoop,原因也很简单:满足需求,支持全面。大多数时候,企业用户没有互联网公司乐于冒险,他们更愿意选择成熟稳定的解决方案。王苹透露,企业用户往往很看重性能指标,还有易用性、稳定性等。Spark虽然速度足够快,但稳定性上远远不如Mapreduce,二者合作使用是很受欢迎的方案。
此外,Hadoop的支持十分成熟完善,有来自开源社区的支持还有像荣之联这类大数据服务厂商的支持。随着信息技术的发展,越来越多的传统企业开始拥有自己的信息化团队,相比昂贵的商用解决方案,他们更倾向于基于开源基础搭建,Hadoop生态系统中的组件丰富使之成为优先选择对象,国内大数据服务厂商的技术支持也让他们有了底气。当然,不具备信息化团队的企业同样可以通过全盘接收荣之联等厂商的大数据服务享受到Hadoop的优势,这类企业在选择时会更加谨慎,更加倾向于应用企业较多的解决方案。
综上,这些原因造成企业用户大批量选择Hadoop,大数据服务类厂商使用Hadoop的现状。
王苹认为,Hadoop足以解决目前企业用户面临的大数据问题,并且也是目前最合适的解决方案。
Gartner:25%的Spark正在脱离Hadoop生态单独运行!
Gartner报告其实是该系列调查的导火索。在早前的报告中,Gartner曾指出,尽管企业对大数据解决方案的需求不断增长,但对Hadoop的需求没有像预期那样加速。同时,25%的Spark已经开始脱离Hadoop生态单独运行。
这在预示着Spark的崛起和Hadoop的衰落吗?
作为一线大数据工程师,王苹认为在快节奏的IT圈,任何一种技术发展到一定阶段都会被挑战。当然,无风不起浪,Hadoop作为分布式系统基础架构,本身确实有一定问题,但这并不代表新兴技术已经具备抗衡Hadoop的能力,新技术的挑衅恰恰会促进Hadoop的发展。Gartner肯定了大数据解决方案仍然是目前的热门领域,而Hadoop已经进入成熟期。
对,没错,是成熟期。王苹解释道,企业做大数据是价值导向,通过数据驱动业务。正是因为Hadoop已经进入成熟期,国内外企业基本已经布局完成,对Hadoop的关注度才会下降,对Hadoop的需求也会相应减少,这就比如现在都在关注人工智能,因为那是未来。
Hadoop当然不是完美的,但它在大数据平台中的地位是标志性的。Spark生态确实日渐成熟,它早已不是单枪匹马的战斗了。对于数据量较小、存储需求较小的企业而言,单独构建Spark系统架构是可以的,但Spark面临的问题远比Hadoop要多。
总之,Spark与Hadoop本可成为最默契的战友,相互配合完成一场漂亮的防御战,没必要成为商业厮杀的武器。
大数据领域,即便出现新技术,不与Hadoop打配合,何谈市场?
众所周知,Hadoop源于谷歌描述GFS和MapReduce的研究论文,Hadoop社区很多优秀的工程师坐标也都在国外,对Hadoop叫嚣最猛烈的浪潮基本也来自国外。曾经,谷歌造就了Hadoop,之后,谷歌又找到了Caffeine、Dremel等开始替代Hadoop生态系统中的组件。
王苹对谷歌的做法并不意外,也并不慌乱。她认为,谷歌作为技术领先型的互联网企业,追求技术创新很正常,但这与国内企业用户的需求并不完全吻合。就现状而来,Hadoop的未来应该是逐渐成熟,而不是走向衰落。
即便Hadoop有一天真的失宠了,那就意味着一定有新的足以接手Hadoop的技术出现。反过来想,现在的大数据领域,任何新技术的出现恐怕都会考虑与Hadoop的兼容性,否则市场将很难开展。
采访最后,王苹表示,即便Hadoop真的不行了,荣之联也不并担心。DataZoo的基础层可以随时抽出替换新的技术。
企业不妨想想,你目前应用的大数据架构是否具备未雨绸缪的能力呢?