大数据频道 频道

大数据标准有多重要,为什么厂商都积极推动?

  【IT168 技术】大数据对于企业的重要性已经不言而喻了,现在企业都在积极收集结构化和非结构化数据进行实时处理和分析,并希望从中寻找到新的业务机会。随着技术的发展,数据的开源也渐渐变得多样化,例如,传感器、物联网、社交等等,企业也在积极投资大数据项目,如从数据湖、处理框架到分析工具再到英特尔硬件等等。

  当大量的数据涌入到系统中,如何采集和管理信息就变成了关键。

  用户可以利用由x86处理器横向扩展配置所提供的增加的分析计算能力,但并不是所有的公司都对数据质量很挑剔。

  新时代,不准确的数据可能会导致很严重的后果,所以数据需要更可靠的技术。例如一家金融服务公司,是根据客户位置信息和购物数据来销售保险的,如果数据在创建、传输、存储和分析等环节中出错,那么很可能会有很多不好的结果产生。

  Melanie Mecca表示有偿的数据并没有获得足够的重视,它被视为功能,技术和自动化功能管中的牙膏,而本身从未被视为组织业务的基础和生命之源。

大数据标准有多重要,为什么厂商都积极推动?

  大数据标准应该是什么样?

  国家物理实验室(NPL)试图解决这个问题,不良资产正在努力通过引入一种系统的方法来创造数据可信度。NPL院士Alistair Forbes表示:"我们试图将我们的思维方式应用到测量领域,思考它如何应用到数字领域。

  在考虑大数据质量时,NPL将着眼于四个方面:收集,连接,理解和信心。

  收集意味着验证数据的来源并评估其可信度和准确性。从一个未经验证的数据源获取数据而没有测量数据质量是一个隐患很多的举动。

  连接之后如何传输数据以及在干扰情况下是否进行了适当的纠错。

  理解意味着确保数据"正确"。当我们使用来自多个来源的数据进行分析时,我们如何确保通过这些数据源的不确定性传播得到正确理解。现在传播建模的非常好的工具是由NPL和国际社会开发的"测量不确定度指南"(GUM)。它描述了不确定性如何在不同的传感器和数据源之间传播,以及决策的意义。

  Stansfield 表示"如果你试图引导人们收集信息,并放在一起使用,这就是不确定性的流动。所以你在进行系统级的设计时就要考虑好这个问题。

  Forbes将其描述为一个相对较窄的指南,而不良贷款研究机构正在进行这项研究,将其扩展到不确定性传播的范围。我们正在从不确定性传播范式转变为不确定性量化范式,这是对不确定性来源的全面评估,并试图使用更好的统计工具对其进行解释。

  今天,我们通过建模来确定事物的确定性,但随着模型变得越来越复杂,这种方式也会变得越来越困难。NPL正在开发一种方法来量化与模型相关的不确定性,它主要是针对工程领域,卫星成像以及生命科学的其他领域。除此之外,NPL还在探索如何将有质量的数据存储为机器可读,使这些数据更易于访问。

  当然,除了NPL在对数据源提供信心,还有很多其他组织也在积极努力。例如,英特尔与美国能源部的国家能源研究科学计算中心(NERSC)和五个英特尔并行计算中心(IPCC)合作建立了一个大数据中心(BDC),为创建用于数据管理的强大基础架构而努力。

  同时针对于特定行业的解决方案也逐渐成形,今年夏天,英特尔与汽车制造商丰田(Toyota)等公司宣布建立汽车边缘计算联盟(Automotive Edge Computing Consortium)。该小组将致力于汽车行业新兴移动技术的标准,非常好的实践和体系结构。

  进一步看大数据标准

  英特尔也一直努力在大数据方面寻求突破,例如调整英特尔架构上的数据处理平台,与开源企业数据管理方面Hadoop专家Cloudera合作。Hadoop正在逐步成为行业标准的大数据处理平台,而英特尔在全球数据中心市场的份额超过90%,这意味着两者之间可能存在重叠的部分。英特尔和Hortonworks正在制定联合路线图,以加速加密和解密,数据压缩和解压缩,缓存和I / O密集型工作负载的性能。

  与此同时,SAS正在制定可以帮助改善大数据环境质量管理的指标。其数据产品管理总监Ron Agresta表示,在客户互动中经常使用的指标包括完整性,一致性和准确性。很多企业都会积极做检查分类,以便及时有效的汇总起来,并反映到仪表盘上。当然,每个客户对于指标以及数据使用的要求都有所不同。

  SAS数据管理高级产品营销经理Todd Wright表示:"我认为在当前的环境中看不到任何标准的数据管理方式。大数据质量的标准只在医疗保健等严格管理的领域得到了具体部门的处理。即使在同一行业,每个组织都面临着各种各样的问题,尤其是在供应商中,没有一个标准的方式来解决大数据的这些问题。

  数据质量和治理框架应该放在更高的层面上。Mecca企业发起了数据管理成熟度(DMM)。它侧重于我们管理堆栈的上层,查看人们用来确保数据质量和一致性的技术。

  这是我们必须要做的事情,这个组织并不是从技术角度出发,而是侧重于数据决策,是一个人员流程。DMM着眼于数据管理(为数据和元数据存储库创建业务词汇表),数据治理和数据质量等领域。

  EDM委员会也有自己有效管理大数据的框架,称为数据管理能力评估模型(DCAM)。EDM委员会的语义和标准主管Mike Bennett表示:他们可以提供一个包含数据质量各个方面的圆形图表。

  大数据为更多的洞察力和新业务提供了巨大的潜力,但随着更多的设备连接和数据合并在一起,潜在错误明显增加,而缺少对数据管理的统一标准或共识将使这种情况加剧。

  随着供应商和研究人员应用更多的专业知识帮助客户提高数据的质量和管理水平,达成大数据管理共识将是可实现的现实。如果数据是新石油,那么一种新的经营方式就变得至关重要,不仅要识别数据中的错误,而且要能够追溯到原来的数据。

0
相关文章