大数据频道 频道

华为陈亮:大数据即席查询秒级响应实现

  【IT168 现场报道】10月28日,第八届SACC系统架构师大会的第二天。八年安守一颗平常心,作为中国规模最大的架构师盛会,SACC始终坚持以技术为主,为参会者提供一场技术与思想碰撞的饕餮盛宴。站在创新的风口,本届SACC以“架构创新之路”为主题,为IT从业人员量身定制多个分会场,技术与创新擦出的火花,点燃SACC2016的起点与终点。

  目前已入驻Apache孵化器的Apache CarbonData,是华为开源的数据分析工具。难道没有其他可供选择的数据存储分析工具吗?华为开发这样一款工具背后有哪些苦衷呢?为什么选择开源呢?这些问题激起了我浓厚的兴趣,华为大数据开源开发部Leader陈亮分享了Apache CarbonData的心路历程。

华为陈亮:大数据即席查询秒级响应实现
▲陈亮

  目前可供选择的数据存储工具有哪些?

  陈亮列出了目前市场上比较流行的几大数据存储工具,比如NoSQL数据库,通过Key-Valve的存储方式,NoSQL可以实时查询,延迟也比较低,大概在5毫秒以下,但NoSQL最大的痛点是无法解决多维度查询,可以以空间换时间,事先统计好数据维度,但维度越来越大的情况下,NoSQL是合适的工具吗?可以解决多维度计算的数据库,可能又无法与大数据生态很好集成,搜索引擎又不支持SQL查询,以及多维度聚合查询。

  目前,很多企业都会选择Hadoop上的SQL分析,但陈亮表示,这种方式的主要发力点可能是在计算层,性能往往达不到要求。不难看出,大多技术是与场景一对一的,数据重复性高,很难找到适用于多场景的技术出现,这就是华为发现的业务难点与用户需求点,这就是Apache CarbonData的诞生前兆。

  从业界的角度看,可能无法找到合适的技术,换个角度看问题,是很有利于思考的。从数据本身来看,互联网数据属于一个稀疏矩阵的形态,一项大数据即时分析技术的设计会首先想到什么呢?陈亮提出的思路是,具备分布式能力,快速查询秒级响应,高效数据存储方式以及与大数据生态无缝集成。一项与目前的生态环境格格不入的技术,即便性价比再高,客户可能也并不愿意买单。陈亮提到,一项数据存储层技术,要发挥价值,需要与计算层、查询层有效集成在一起,形成E2E生态,才能发挥最大价值。

华为陈亮:大数据即席查询秒级响应实现

  CarbonData可能只是一项大数据存储层技术,但它所具备的独特的价值特性,却足以引发广大技术人员的深入思考。采用的多种索引(MDK,MinMax,倒排)快速找到目标数据,按需获取数据的方式,以及字典编码概念的引入,有效减少了计算开销,支持行列混合存储,与大数据生态无缝集成,具有HDFS分布式、可靠性等优点,这对大数据存储技术厂商来说,是非常有价值的探索。

  Apache CarbonData既然已经走向社区(Apache CarbonData源代码地址: https://github.com/apache/incubator-carbondata),未来一定会在社区的贡献中得到更好的发展,陈亮也对未来的CarbonData发展提出了希冀,比如与Spark 2.x集成,与各种主流BI tools集成,支持流式数据导入,实时查询以及预聚合,与主流大数据生态系统的集成。

  如果你选择走得更快,那你可能要孤独前行。如果你想要走得更远,一定要选择同行,这便是开源最好的诠释。随着微软、谷歌等各大厂商越来越开放,开源社区就像众人拾柴火焰高一样,促进技术的不断发展。未来,希望越来越多的企业与技术可以坚持开源的态度。

华为陈亮:大数据即席查询秒级响应实现
更多信息尽在IT168现场报道专题

0
相关文章