大数据 频道

数据湖“水深火热”,小心匆匆上马翻船

  【IT168  评论】数据有多重要呢?有人说它是新石油,是等待挖掘的矿藏。在笔者上篇文章《转型有风险,企业数字化要如何有序推进?》中对数据的价值以及重要性做了简单的讨论。实际上数据还有很多等待我们去探索的奥秘,正如一位技术专家所说的:

  “我相信就像我们不了解宇宙和海洋一样,我们现在对于数据的认识一定是肤浅的,甚至大量的数据我们都还没记录下来,一定有更大奥秘隐藏在这海量的数据中。”

  探索数据的奥秘离不开技术的支持,在耳熟能详的大数据技术之外,“数据湖”来到了数据的海洋。

  2011年出现的数据湖概念容易与数据仓库混淆,也曾一度被怀疑是新瓶装旧酒。实际上数据湖可以看作是数据仓库的进化,数据仓库一般用来存储结构化数据,数据湖以原始形态储存数据,包括结构化的、半结构化的和非结构化的数据。在数据处理方面,不同于数据仓库中需要先定义好数据再加载转化,数据湖是在数据到使用时再定义模型结构,可以加载原始数据,具有更高的灵活性。

  在数据智能时代,云计算、AI的发展推动了数据湖的发展,图片、视频等海量非结构化数据的处理问题传统的数据仓库已经无法满足,数据湖有了用武之地。在不断实践中数据湖不断演进,也被越来越多的企业所接受。

  数据显示,全球数据湖市场在2019年的规模为37.4亿美元,预计到2025年将达到176亿美元,预计2020 – 2025年期间的复合年增长率为29.9%。

  值得一提的是在国内数据湖的发展还处在初级阶段,为了让数据更好的流动起来创造价值,已经有部分企业开始尝试使用数据湖改进原有的数据仓库系统。企业引入新的技术需要有讴歌循序渐进的过程,不能太盲目。

  派拉软件大数据架构师高超指出数据湖要避免一次性过度投入,数据湖项目应该按阶段按步骤实施,欲速则不达。国外相关专家也曾指出没有人能够将所有数据全部投入到数据湖中,更可取方法是挑选某个功能区域(如营销)和要解决的重要业务问题(如优化潜在客户转换率等)进行试水。然后收集与该特定问题相关的所有数据,并将其投入数据湖。这很可能是内部结构化数据、内部非结构化数据(博客)以及来自第三方和合作伙伴的各种外部数据的组合。

  另一方面,在开源和商业解决方案的选择上。可以区分公司核心业务与外围业务,大数据技术本来是开源的,在外围业务合理使用开源的大数据技术,可以有效降低成本。

  此外,数据湖项目初期最大的投入是硬件支出,因此在硬件购买上需要慎重。建设数据湖平台过程中要以业务驱动,结合业务开发项目实施,从而分担成本,降低整体投入。

  高超还指出,传统业务人员难以使用数据湖的功能和技术,需要通过更加友好的工具或者标准化接口来推广数据湖。

  不少业内专家均指出,数据湖与原有的数据仓库、数据库、大数据技术并不是并不是替代关系,而是要相辅相成让企业更好地解决烟囱、数据孤岛问题,释放数据价值。很常见的情况是几十年的积累,使得企业组织已经积累了数十个或数百个系统,它看起来像一个技术历史博物馆,对其改造升级通常都是牵一发而动全身,引入新技术要平衡好成本和价值,企业也不能忽略传统软件和技术的作用。

  日前,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》正式公布。作为中央第一份关于要素市场化配置的文件,《意见》将数据纳入了生产要素范围,要加速培育数据要素市场。数据生产要素属性的提升,关系着经济增长长期动力,关系着国家发展的未来,也关系着企业的明天。

  数据湖对于很多国内企业组织而言依然是崭新的,在充满不确定性的变革中,对于新技术的探索与实践,勇气之外也需要一丝智慧的谨慎。

0
相关文章