大数据 频道

六大关于使用云数据平台的想法

  引言

  随着公司通过分析寻求竞争优势,其使用的数据正在发生巨大变化。越来越多的组织正在收集各种数据,包括结构化,半结构化和非结构化数据。实际上,TDWI研究表明,收集“新”数据类型(例如文本数据和机器数据)已经进入主流应用。这些数据来自公司内部和外部多种渠道,它大部分是在云平台中产生的。例如,企业正在从各种渠道收集社交媒体数据,订阅外部数据服务和数据市场,并从IoT设备收集数据。

  许多组织已经收集了TB甚至PB的数据。他们希望使用更高级的分析方法(例如机器学习或自然语言处理(NLP))来分析收集到的数据。随着组织意识到数据分析的价值,对高级分析的需求持续增长。

  分析大量不同的数据可能很复杂。在TDWI,我们看到组织转移数据到多个平台来支持高级分析,因为本地数据仓库可能不足以处理许多数据类型以及更高级的分析。组织还希望统一其数据以进行分析,并提供单一来源的可信数据。企业正以多种方式例如集成堆栈,数据平台和数据虚拟化来实现这一目标。

  在现代数据管理和分析中越来越流行的一种方法是利用云数据平台-云上可用的单独集成的平台,其中包含各种数据并提供诸如数据仓库,数据湖,分析,治理和/或管理的服务工具。云数据平台支持多种工作负载和数据类型。它提供了一个能够存储和访问数据以供分析和其他用例使用的地方。作为平台的一部分,数据可以跨多个节点存储在仓库或数据湖中,两者都可以属于同一云平台。

  云数据平台的一些优点与云的优点相同:弹性,可伸缩性和灵活性。云数据平台可以帮助提高生产力,提供跨工作负载的敏捷性并缩短实现价值的时间。

  本篇文章将会介绍云数据平台,分析其价值并分享为何使用云数据平台的想法。

  想法1 了解云数据平台的价值主张

  IDEA

  除了利用云的功能来实现其功能和灵活性外,组织迁移到云数据平台的原因之一就是简化其数据环境。不断发展的数据环境非常复杂,给需要使用多个连接点和集成来管理复杂数据源和类型的组织带来了麻烦。云数据平台通过供应,支持和维护分布式基础架构来提高内部生产力,使组织能够专注于从数据中获取价值,而不是让IT团队分散精力对其进行优化和管理。

  利用云数据平台还可以提高技术生产率。例如,ETL工作负载可以在分布式云环境中同时运行,以提高性能。将工作负载集中在一个分布式平台上,而不是利用多个不同的平台,这也是有效的。

  最后,在云数据平台中,计算和存储是分开的。尽管许多DBMS都这样做,但某些较新的平台(例如Hadoop)并不是为此目的而设计的。例如,在Hadoop发行版中,每个节点都包括存储和计算,因此当一个节点增长时,另一个节点也必须增长。这可能是昂贵的,特别是对于分析而言。将两者分开更有意义。例如,数据保留在对象存储中,并在需要时使用计算。这种分离可以帮助降低成本并提高性能。

  想法2 云数据平台支持多种数据类型

  IDEA

  随着组织增强其分析能力,他们通常希望合并各种数据类型。尽管传统的云数据仓库在用于报表,仪表板和可视化的结构化数据方面表现良好,但通常在处理更多奇异数据时却表现不佳。然而,新数据类型(例如非结构化数据)对于高级分析很重要。

  在TDWI,我们看到许多组织都在分析呼叫中心说明,社交媒体帖子和故障单中的文本,以了解客户的意愿和意图。组织正在为从医学诊断到在线销售二手车等用例捕获图像数据,它们正在利用传感器数据预测何时需要维护机器。用例很多。可以单独分析此数据,也可以将其与结构化数据一起进行分析以丰富分析数据。云数据平台为多种数据类型提供了灵活性。

  云数据平台从多个来源提取,合并和存储此多样化数据。它还可以提供用于数据管理的服务,包括元数据服务或用于数据质量的服务。在运行其他工作负载(例如查询)时,转换和其他过程可以在平台内部进行。

  通常,数据湖是云数据平台的一部分,并用作暂存区或原始数据的存储区。云数据仓库服务可能会容纳更多已处理的数据。实际上,云数据仓库和云数据湖可以在平台中并排工作。两者都可能使用关系数据库管理系统。仓库可用于高价值数据和报告,而数据湖可用于通过各种分析来探索原始数据。两种服务紧密集成。

  除了支持多种数据类型,云数据平台还可以提供数据共享和协作服务。例如,一些提供数据的数据市场。这些数据可能包括能够丰富和改进分析的人口统计,天气或行业特定数据。各组织正在利用市场来访问新数据源,通过市场与合作伙伴合作,甚至通过市场让自己的数据获利。作为服务提供并与云数据平台集成的市场可以快速访问经过审查的数据。

  想法3: 云数据平台支持现代数据分级

  IDEA

  现代分析是数字化转型的关键。TDWI了解到,与分析能力较差的企业相比,利用机器学习等技术的组织常常会对营收带来正面影响。(上限和下限的提升)。云数据平台不仅支持仪表板和报告(传统数据仓库的领域),还应支持一系列分析和不同角色的使用者。

  云数据平台将分析作为服务提供。这包括数据可视化以及机器学习,NLP和其他高级分析。该平台可以提供对开源分析项目的访问,也可以与商业产品供应商建立伙伴关系。关键是服务被集成为平台的一部分,因此可以无缝使用平台中存储的数据和这些服务。

  与支持一系列分析紧密结合,该平台还应支持具有各种技能和能力的用户使用。这些通常被称为角色,并且分析中涉及很多,包括数据科学家,业务分析师,业务用户和数据工程师等。每个人都可以根据自己的技能以特定的方式与之交互并分析数据。

  想法4: 了解云数据平台的隐性成本

  IDEA

  许多组织转而使用云技术,认为它比在内部存储和维护数据中心便宜。尽管大多数TDWI调查受访者都认为使用云技术的成本符合预期,但企业必须了解云定价模型,以避免隐性成本,其中可能包括:

  • 数据迁移和设置成本

  将数据迁移到云平台或从云平台迁移出来可能会产生费用。有时,如果不收取将数据初始传输到云的费用,则当组织将其数据从云移回内部部署或其他云提供商时,可能会收取网络费用。传输的数据越多,成本就越高。值得注意的是,多云或多区域云数据平台可以消除或降低这些成本。换句话说,如果您的云数据平台支持多个云提供商(例如AWS或Google),并且您希望将数据从一个云移动到另一个云,则这些费用可能会更低,因为该服务是由云数据平台提供的。

  • 基础设施成本

  一些平台价格低廉,但是一旦开始部署,成本可能会增加。如果没有自动取消资源配置(通常由流量来衡量),这可能包括花费时间来启动/关闭集群,以及手动执行此类任务。查看平台的服务级别协议和过去的中断也很重要,因为服务中断会导致时间浪费,从而增加数据平台的成本。最后,将旧数据库移至云端可能需要时间来管理索引,对数据进行分区以及管理多个副本,

  • 合规成本

  在某些情况下,与云相关的额外合规成本。尽管云提供商可以处理很多事情,但他们对HIPAA,GDPR或PCI DSS合规性不承担任何责任。不合规的后果可能会使企业付出比合规活动高出2.71倍的成本,而业务中断则是最昂贵的因素。公司可能需要审核云提供商,以确保该提供商保持合规。您的组织需要确保自身满足合规性要求,其中包括了解数据的存储位置以及访问方式和访问方式。这都会增加你的成本。

  • 使用成本

  云技术提供了灵活性,但是监视一个组织的使用情况也很重要。一些开发人员可能在开发的同时启动服务器并使其保持运行状态,这将产生大量的费用。但是,云工具一般都会设置防护,防止以上情况的发生。

  想法5: 治理和安全的因素

  IDEA

  管理可能包含云数据平台的现代数据架构是复杂的挑战;在TDWI调研中,受访者将云数据治理列为首要挑战。这个反馈其实意味着组织正在考虑管理不在其本地的服务。而云技术的提供者也正在提供帮助,他们正在了解什么对客户来说很重要,并改善他们自己的内部流程和控制。

  治理包括两个广泛的领域:业务合规性和共享数据模型的技术标准。当利用云数据平台构建可信数据源时,您的组织将需要找到更全面的治理方法。

  当然,数据保护本身对于云数据平台至关重要,包括对存储在平台上的数据进行身份验证和基于角色的访问策略。它还包括保护平台上的敏感数据。保护静止,移动和使用中的敏感数据的关键是使其对潜在的入侵者不可读或不可用。加密和屏蔽是两种技术,通常在组织的敏感数据数据安全计划中脱颖而出。

  服务级安全性对于确保选择的云平台提供商使用正确的安全流程来保护您的企业数据并帮助满足您必须遵守的任何行业特定的合规性要求(例如HIPAA,SOX或GDPR)也很重要。

  想法6: 云数据仓库计划

  IDEA

  在迁移到云数据平台之前,请确保云平台能够让您的组织有利。评估组织当前和期望的状态,检查组织当前的数据中心,评估所有费用。如果确实有必要迁移到云平台,则构建并执行您的计划。

  分阶段部署组织的云数据平台;不要尝试大爆炸的方法。务实,从一个平台迁移到另一个平台可能需要进行新的开发,以使数据在新平台上工作。它将需要调整数据模型和接口,以在新平台上获得最佳性能。

  分阶段迁移。第一次交付应该很容易但是有用。此外,如果要将数据从一个平台移至另一个平台,请确保对数据进行改进,借此机会提高数据质量,以使相同的问题不会在新平台上永久存在。您可能还需要改善元数据。

  人才也是一个需要考虑的角度,需要相关的人才,以便迁移到云。您将需要数据工程师来做好数据准备并建立数据管道以进行提取和转换。数据架构师必须确保环境与您组织的其他平台集成,并支持我们提到的不同角色。您还将需要IT和开发部门的成员。

0
相关文章