【IT168 评论】国庆期间,大数据领域的两大巨头公司Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收购Hortonworks,Cloudera股东最终获得合并公司60%的股份。 这笔交易意味着Hadoop市场再也无法维持两大竞争对手对峙的状态了。
在Hadoop的世界中,规模最大、知名度最高的公司就是Cloudera。Cloudera努力为开源Hadoop提供支持,同时将数据处理框架延伸到一个全面的“企业数据中心”范畴。Hortonworks也是企业级全球数据管理平台,同时也是服务和解决方案的领先供应商,为100强企业中的一多半提供‘任何类型数据’的可操作信息。此次最大的两家数据服务商Cloudera和Hortonworks宣布合并,表示要创建世界领先的数据平台。
本次交易要点:
1、创建世界领先的数据平台,增加规模和资源,提供业界第一个企业级数据云,提高公共云的易用性和灵活性;
2、制定清晰的行业标准;
3、加速市场发展,推动物联网、流媒体、数据仓库、混合云、机器学习、人工智能等领域的创新
4、利用补充产品扩大市场机会,包括Hortonworks DataFlow和Cloudera Data Science Workbench
5、加强与公共云供应商和系统集成商的伙伴关系
6、预计将产生重大的经济利益并改善利润率:
收入约为7.2亿美元
超过2,500名客户
800多名客户超过$ 100,000 ARR
超过120家客户的ARR超过100万美元
超过1.25亿美元的年度成本协同增效
CY20的现金流超过1.5亿美元
超过5亿美元的现金,没有债务
顾问、管理层以及董事会等动向
交易完成后,Cloudera的首席执行官Tom Reilly将担任首席执行官;Hortonworks的首席运营官Scott Davidson将担任首席运营官;Hortonworks的首席产品官Arun C.Murthy将担任合并后公司的首席产品官;Cloudera的首席财务官Jim Frankola将担任合并后公司的首席财务官。Hortonworks的首席执行官RobBearden将加入董事会。现任Cloudera董事会成员MartyCole将担任董事会主席。
新成立公司的董事会最初将由九名董事组成。包括Bearden先生在内的四位董事将来自Hortonworks现有的董事会。包括Reilly先生在内的五位董事将来自Cloudera现有的董事会。合并后的董事会将选出第十名董事。
其中,Morgan Stanley&Co.LLC担任Cloudera的财务顾问,Fenwick&West.LLP担任其法律顾问。Qatalyst Partners担任Hortonworks的财务顾问,Latham&Watkins.LLP担任其法律顾问。
Hadoop多年来一直是大数据的代名词,但市场和客户需求已经发生了变化,此次两大公司合并无疑会是对Hadoop的一记重创。在几大趋势的推动下,Hadoop的影响正在逐渐降低!
公有云浪潮正在上升
第一个大趋势是企业向公有云的转变。各种规模的公司都在增加对AWS、Azure和Google Cloud服务的采用,而牺牲了内部部署基础架构和软件。根据IDC和Gartner的报告,企业服务器收入连续下降。前三大云提供商(占云市场份额的90%)提供自己的托管Hadoop/Spark服务,例如亚马逊的Elastic Map Reduce(EMR)。这些都是完全集成的产品,具有较低的购置成本并且更便宜。 如果企业正在转向云计算,那么选择这类将Hadoop产品视为其中一部分的云平台既省时又省力,这几乎是一个很自然的决策。并且,具有讽刺意味的是,Cloudera并没有加入云时代,这个在Hadoop上优势明显的公司并未发掘这一先机。
存储成本 降低
第二大趋势是什么?云存储的经济性正在碾压Hadoop的存储成本。 在2005年推出时,Hadoop分布式文件系统(HDFS)是革命性的一大改进,它将服务器与普通硬盘驱动器结合,并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。当时,我们没有类似的东西可以选择,它就是一个关键组件,允许并行处理不适合单个机器运行的大规模数据集。但那是13年前的事了, 如今有许多便宜得多的替代品,主要是对象存储服务,如AWS S3,Azure Blob存储和Google云端存储。 一个TB的云对象存储成本约每月20美元,而HDFS每月约100美元(不包括运营成本)。 例如,谷歌的HDFS服务仅仅是将HDFS操作转换为对象存储操作,但价格却便宜了5倍。
更快,更好,更便宜的云数据库
Hadoop的问题并不止于此,因为它不仅受到云供应商Hadoop/Spark服务和对象存储服务的直接竞争。第三大趋势是“无服务器”,它的出现完全消除了运行Hadoop或Spark的需要。Spark的一个常见用例是为用户处理ad-hoc分布式SQL查询。谷歌率先在2011年推出了名为BigQuery的革命性服务,以完全不同的方式解决了同样的问题。它允许对存储在其对象存储服务中的任何数据量运行即席查询(无需将其加载到HDFS等特殊存储中),用户只需为计算时间付费:如果需要1,000个core,只需3.5秒即可运行查询,这就是所支付的全部费用。企业无需配置服务器、安装操作系统、安装软件、配置所有内容以将集群扩展到1,000个节点,以及像Hadoop/Spark一样提供和关注集群。谷歌做了所有这些繁琐的工作,因此这个名字叫“无服务器”。有些银行运行着2000个节点的Hadoop/Spark集群,由数十名IT人员操作和维护,无法与BigQuery的灵活性、速度和规模相匹敌,还必须支付所有硬件、软件和人员费用才能运行和维护Hadoop。
BigQuery就是一个例子。 其他云数据库服务同样具有大规模,高度灵活,全球分布等特点。初创公司Snowflake,Google Big Table,AWS Aurora和Microsoft Cosmos等,他们所提供的服务比安装Hadoop/Spark更容易使用,用户可以在5分钟内启动并运行,整个过程只需要数十美元,不需要50万美元的采购订单和数周的安装、配置和培训。
容器、Kubernetes和机器学习
第四大趋势是容器和Kubernetes。 Hadoop / Spark不仅仅是一个存储环境,也是一个计算环境。同样,早在2005年,Hadoop的另一个革命性产品诞生,这就是MapReduce,Map-Reduce方法为Java应用程序的并行计算提供了框架。但Cloudera和Hortonworks基础设施以Java为中心(以Scala为中心的Spark)与今天的数据科学家在Python和R中进行机器学习是不一致的。企业需要不断迭代和改进机器学习模型并让其学习生产数据,这就意味着Python和R模型是本地部署所必需的,如果你希望借助机器学习的能力。
容器和Kubernetes与Python和R一样,为分布式计算提供了更加灵活和强大框架。无论如何,这些都是软件开发团队的目标,他们或许并不打算在Hadoop/Spark之上分发新的微服务应用程序,因为这过于复杂和有所限制。
经过了近10年,Cloudera和Hortonworks才得以成为大数据世界的中心,然而,如今大数据的重心已经转移到其他地方。领先的云计算公司没有像Cloudera和Hortonworks一样运行大型Hadoop/Spark集群,他们更喜欢在容器等之上运行分布式云数据库和应用程序。他们使用Python,R和其他非Java语言进行机器学习。越来越多的企业正在转向类似的方法,因为他们希望获得相同的速度和规模效益。
本文作者
Mathew Lodge是Anaconda的产品和营销高级副总裁。他在云计算和产品方面拥有20多年的丰富经验。在加入Anaconda之前,他曾担任Weaveworks的首席运营官,Weaveworks是容器和微服务网络和管理初创公司; 他曾担任VMware云服务部门的副总裁,并共同创立了VMware的vCloud Air IaaS服务。