【IT168 评论】大数据以及大数据技术的爆发使得人们渐渐把“数据为王”的论调奉为圭臬,甚至有很多公司在数据管理、商业智能和分析方面砸数百万美元,企图从中获得价值,但是只要利用了数据,企业就一定会成功吗?
成为数据驱动型企业已经是大部分企业的目标,为了实现这一目标,企业往往会在内部设立一个首席数据官(CDO),但是Gartner报告显示只有一半的CDO成功了。为什么你的企业采用了数据驱动,还是会失败?我们在肯定数据能够提高企业绩效的同时,也要看到数据的局限性。
数据通常是模糊的,并且极有可能存在偏差
企业中的绝大多数数据都是存储在数据库中的结构化数据,这些数据通常是在原始数据阶段被收集,然后从非结构化格式转换为结构数据存储起来,数据的结构通常是由应用程序(包括数据库)或技术人员的个人习惯来确定的。例如,在基于活动的成本计算分析中,如果应用只能捕获开始和结束时间,不能捕获活动的全过程,那么对于活动的分析几乎是不可能实现的。因此,数据的上下文预先确定或失真就意味着捕获和存储的原始数据不仅是模糊的,而且还有可能是有偏差的。统计学家Nate Silver表示:没有毫无偏差的数据,偏差是数据的自然状态。
数据并不总是能转化为行动
即使数据质量良好,要想将数据转换为洞察、决策和行动也有很多其它的决定因素,如组织结构、适当的培训,授权员工采取行动等等。虽然数据依赖于逻辑,但是决定通常是基于情感的,单纯的逻辑是永远不能驱动行动的。
假设有两家公司同时售卖汽油,公司1的汽油价格(87.9美分)比公司2(93.9美分)的汽油价格低6美分,公司2的员工即使明知这个状况也无法改变,因为汽油价格的变动需要上层领导批准。在这种情况下,你明明掌握了最及时准确的数据,但是却无法做出行动。爱迪生曾说“一个想法的价值在于使用它”,如果数据的分析洞察没有付诸行动,那么分析就毫无意义。
数据的相关性是时间和空间的函数
由于不断变化的业务需求和政府法规,现在相关的数据可能在未来的某个时刻就会变得不再相关。假设有两个工厂,工厂A的企业装运是基于交付优先级的,工厂B则是基于客户类型,所以对于工厂B来说装运优先级就是不必要的数据。但是,企业往往会误解数据的相关性,花费大量的时间和精力来管理不必要的数据,而且这不是个例,是信息管理中的常见问题,研究人员玛莎·费尔德曼和詹姆斯·马奇在1981年就表示管理者经常要求他们管理一些不必要的数据和信息。
数据有可能导致分析瘫痪
Google前CEO埃里克·施密特曾表示现在人类两天内产生的数据量与从文明开化到2003年以来产生的数据量相同;IBM表示现在每天产生2.5兆字节的数据......在这样数据爆发的时代,想要获取高质量数据并从中获得有助益的决策会面临更多挑战。Oracle的调查显示,超过300名CXO表示目前他们企业收集和管理的业务数据比两年前多出85%,但是47%的受访者表示他们企业并不能从这些数据中得出正确的决策,所以数据虽然重要,但是更重要的是正确的数据。
先哲爱因斯坦早在很多年前就给予了我们启示:不是所有可以计算的东西都是重要的,也不是所有重要的东西都可以被计算。
数据的实际使用远超过预期
数据可能会由不同的利益相关者以不同的方式消费。例如,销售代理使用电话号码字段来进行客户呼叫,而税务分析员则可能使用电话号码的区号来获得每个管辖区的税率,通过这个例子我们可以看到电话号字段的实际使用超过其预期使用,元数据本身也是具有挑战性的。 此外,在大多数情况下,数据和信息之间的边界并不是那么清楚的,一个人的数据对于其他人来说可能就是信息,如海洋的轻微变化可能对原油交易者来说就是一个决定性的信息,但是对于其他人来说可能一文不值。
数据管理是昂贵且耗时的
虽然企业一直想要通过有质量的数据来获取洞察,但是数据质量的获取和管理是十分昂贵的,数据的创建、存储、处理、共享、聚合、清理、复制等操作都是需要时间和金钱的。根据MIT Howard Rubin博士的研究:金融服务部门的92%的业务成本是与数据有关的。即使数据质量得到了改善,整个数据的生命周期中也还是需要管理的,因为数据质量会以每年7%的速率下降。数据管理是一场马拉松,而不是冲刺,所以如果企业需要高质量的数据,那么数据管理计划应该被提升到企业级持续改进计划的层面。
数据可能会约束创新
数据只是在揭示过去的事情,但是并不能改变未来。《Getting Change Right》的作者Seth Kahan曾说过:只依据数据来做决定就像是只利用后视镜来驾驶汽车。如果企业在困难时期,想要利用过去的决定来摆脱困境,那么只能是越来越倒退,过去只能表示你去过哪些地方,并不能为你的未来指路。
数据永远不会是实时的
现在很多公司都在谈论数据实时分析,但是其实数据永远都不可能是实时的,数据实时分析本身就是个伪命题,因为数据在发起和捕获之间总是有时间滞后的,在plant/SCADA/PoS 系统中这种时间滞后可能是几微秒,但是IT / OLTP系统数据库中的数据的格式化、清理、验证、策划和提交可能需要几个月。另外,在对BI / OLAP数据集执行分析操作之前,需要从不同的系统合并并聚合数据,所以时间延迟会进一步延长。
聚合数据分析与流数据分析虽然截然不同,但是在这两种情况下,数据的发起和分析之间都存在时间滞后,聚合数据的时间滞后的单位可能是天、周或月,而流媒体数据的时间滞后的单位可能是分钟或者小时。所以即使企业设法做到了实时获取数据,但是通过数据进行的趋势、规范和预测分析也还是需要时间的,有意义的数据分析永远不会是实时的。
数据可能误导决策
数据误导决策的方式主要有三个:KPI,图表和样本大小。首先,不完全的KPI数据是被误导的常见来源,企业环境中的分析通常需要使用企业级LoB的KPI集合来实现,但是企业中LoB的目标通常是有冲突的,并且使用LoB级别的数据可能会对企业决策造成误导。如营销LoB的KPI是客户忠诚度的百分比增长,这对营销来说肯定是一个积极的绩效指标,但是由于活动成本的增加,这对金融KPI来说会产生不利影响。因此,KPI中的数据可能无法提供企业性能完整和准确的画像。
数据误导的第二个来源是图表,由于图表的表现形式有很多种(如不同的度量、轴等等),而且加入了图表设计师的主观想法,所以读者很可能会被图表数据误导。
数据误导的第三个来源是数据源或者是样本大小的选择,在业务转型中我们常常会听到这样一句玩笑话“你想得到什么样的结论,我来帮你准备合适的数据”。根据爱丁堡大学在2009年的一项调查显示,33.7%的受访科学家承认他们的科学实践是有问题的,其中包括修改美化研究结果、对数据进行主观解释、根据个人感觉对一些敏感的细节和下降趋势做保守处理等等。更多的情况是根据业务或收益操控数据。
2007年,英国广告标准管理局叫停了高露洁牙膏广告,因为其“八成牙医推荐高露洁牙膏”的广告语存在两大问题,一是误导消费者理解为牙医推荐高露洁牙膏超过推荐其他品牌牙膏,二是误导消费者认为高露洁所有产品都获得了专业牙医的医学认可。之后,英国广告标准管理局对牙医进行了电话调查,“推荐什么品牌牙膏给消费者”,调查结果显示除了高露洁之外,还有一个品牌的牙膏也备受推崇,且“八成牙医推荐高露洁”的广告内容意味着牙医对该产品的专业认同,但高露洁并没有得到牙医的书面批准,因此认定该广告有误导之嫌并叫停了广告。
结语
在这个万物互联的时代,任何决定都不是在真空中做出的,数据对于企业运营来说就像是燃料一样重要,但是如果盲目投入时间和精力建设数据驱动型企业有可能会徒劳无功,甚至还会赔了夫人又折兵。那么在什么情况下,不宜采取数据管理举措呢?
高级管理层没有承诺将数据评估为共享企业资产(这里指的不是LoB或功能层面);
企业没有长远的规划来运行和维持数据管理计划;
数据洞察不能快速转化为行动;
数据的相关性随时间、空间和利益相关者不断变化;
企业对业务流程或活动没有侧重点。