大数据频道 频道

企业出现频率最高的问题,你中招了吗?

  【IT168 评论】每家企业的成长都历经磨练,踩过很多坑,走过很多弯路,在摸爬滚打中总结经验,战战兢兢地前进。在DTCC大会即将召开之际,笔者有幸采访到了一位云端数据仓库领域的创业者——简丽荣,凭借着在行业内的多年打拼和为企业提供数据技术服务的经验,他提出了企业大数据分析方面出现频率最高的三大类问题,你中招了吗?

企业出现频率最高的问题,你中招了吗?
▲酷克数据 简丽荣

  简丽荣,HashData(一家专注于云端数据仓库的初创公司)的联合创始人兼CEO,开源分布式分析型数据库Apache HAWQ的创始committer和Greenplum Database的contributor。创业前,先后在IBM中国研究院、雅虎北京研发中心和Pivotal中国研发中心从事分布式计算相关的研发工作,发表了多篇国际会议期刊论文(包括数据库优异会议SIGMOD和计算机网络优异会议INFOCOM)和十多个国际专利,涉及无线网络、云计算、Hadoop和分布式数据库。2008年清华大学计算机本科,2010年香港科技大学计算机硕士。

  企业大数据分析出现频率最高的问题,你中招了吗?

  酷克数据致力于云端分布式数据仓库技术,由来自Pivotal,Teradata,IBM,Yahoo!等公司的分布式数据库、云计算和Hadoop专家组成。公司产品为用户提供高性能、低成本、高可用的数据仓库解决方案,帮助企业降低大数据分析门槛。由于酷克是提供分析型数据库的,所以简丽荣总结了为企业提供数据技术服务时碰到的三类问题:

  价格高昂的软硬件导致巨大的前期投入:无论是成熟商业数据仓库的软件许可,还是开源大数据系统的商业技术支持,价格都不菲。在此基础上,企业还需要购买相应硬件。最后,企业会发现整个前期投入阶段耗费了大量资金。

  漫长的项目实施周期,纷繁复杂的系统运维:从技术选型、概念验证到购买硬件设备,部署大数据分析软件,测试调优,最后用于生产系统,整个周期跨度以年为单位计算。系统部署完毕,还需配置运维团队,负责数据分析系统的正常运行,进行如数据备份、扩容、运行参数调优、错误恢复等极易出错的工作。

  IT资源规划是一个令人头疼的问题,特别是做未来多年的规划:在全球经济前景不明朗的大背景下,企业业务发展有很大的不确定性,这给规划大数据处理所需的计算存储资源带来了巨大挑战:资源配置过低,大数据系统无法及时分析业务数据和充分挖掘数据价值,企业将错失大量商业机会;资源配置过高,造成浪费的同时增加运营成本,降低企业在行业中的竞争力。

  两大热点探寻:以Hadoop的HDFS为代表的分布式文件系统 VS 对象存储系统

  Gartner的一份报告称:到2019年,30%的机构将使用对象存储作为私有部署的数据存储系统,从而将云架构带入传统数据中。简丽荣表示,私有部署尚且如此,公有云就更不用说了。他认为,对象存储替代HDFS是必然趋势,但可能还需要很长一段时间。

  正因为坚信这个观点,即使作为SQL-on-Hadoop的老兵,酷克数据团队在构建下一代SQL-on-Cloud解决方案时,还是毅然放弃HDFS,选择了对象存储作为云端数据仓库HashData的数据存储层。相比于HDFS,对象存储在支持高并发、高可用、扩展性、低成本、存储持久性方面均有显著优势,尤其是在公有云上面。

  2、云数据库趋势不可逆转,但其安全令人堪忧

  由于企业越来越多地将应用部署在云上面,无论是交易型(OLTP)还是分析型(OLAP)云数据库的需求都在快速增长,简丽荣认为未来云数据库趋势不可逆转。

  关于云数据库的安全,简丽荣表示可以从两方面看:一是数据库系统防护。数据库云服务一般由专业厂商提供,这些云服务提供商或数据库厂商有很强的技术实力,数据库系统的防护能力也远高于绝大部分企业,因此能够提供比一般企业更高的安全性和可靠性;二是数据加密。任何数据库的数据最终都需要落盘,如何确保在数据落盘后被泄漏的情况下,数据库的数据依旧可以得到保护,这也是云数据库应该考虑的问题。但由于数据加密/解密会对数据库性能造成负面影响,目前更多的安全工作还是集中于数据库系统防护阶段。

  结语

  云计算的敏捷性与低成本推动了企业基础设施新变革。随着企业将越来越多的应用部署在云平台上面,产生和积累了爆炸性增长的数据,云端大数据分析势在必行。

  本届DTCC,简丽荣将带来《云端数据仓库HashData的设计与实现》为主题的分享,HashData是一个真正意义上的云原生数据仓库,其具体特性也将在大会上曝光,让我们拭目以待吧!

0
相关文章