基于Hadoop生态高性能数据存储CarbonData-大数据频道专区

基于Hadoop生态高性能数据存储CarbonData

作者：东软编辑：赵钰莹 2018-07-11 09:03 来源：云栖�

　　【IT168 评论】CarbonData在数据查询的性能表现比Parquet好很多，在写一次读多次的场景下非常适合使用;社区比较活跃，响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成，增加了支持标准的Hive分区，支持流数据准实时入库等新特性，相信会有越来越多的项目会使用到。

　　1)网络拓扑图

　　服务器配置

　　1)测试数据

基于Hadoop生态高性能数据存储CarbonData

　　Parquet和CarbonData在过滤查询场景下的性能对比

　　3）聚合计算场景测试

　　Parquet和CarbonData在聚合计算场景下的性能对比

　　在过滤查询中，CarbonData的查询效率比parquet效率好，主要体现在列数据的索引查询，极大地提高了精确查询的性能。在聚合查询中，CarbonData通过使用全局字典编码来加快计算速度，这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据，数据只有在返回结果给用户的时候才转换成用户可读的形式，通过索引有效过滤文件数据块减少磁盘的IO，提高查询性能。

基于Hadoop生态高性能数据存储CarbonData

　　原文发布时间为：2018-07-06本文作者：东软本文来自云栖社区合作伙伴“ Linux宝库”，了解相关信息可以关注“ Linux宝库”。

关注我们