大数据频道 频道

ACM图灵奖获得者:想从大数据中获益,先解决集成问题!

  【IT168 评论】如今,大数据对所有行业都产生了深远影响:从医疗保健、汽车、电信到物联网。随着数据浪潮的持续,企业都在寻找更新的管理和分析方法、收集可行的见解并应对安全和隐私的双重挑战。

想从大数据中获益,先解决集成问题吧!

  计算机协会(ACM)刚刚结束了ACM A.M.50年的庆祝活动。图灵奖(俗称“诺贝尔计算奖”)在旧金山举行了为期两天的会议。会议汇集了一些计算行业的翘楚,探讨计算机的未来发展以及该领域的领先地位。以下是与麻省理工学院计算机科学与人工智能实验室(CSAIL)兼职教授Michael Stonebraker的对话,其是ACM 2014图灵奖的获得者。

  问:Gartner估计,目前有大约49亿台物联网设备(汽车,家用电器,工业设备等)可以生成数据。预计到2020年将达到250亿。你认为这一波数据带来的主要挑战和机遇是什么?

  Michael Stonebraker:从我的观点来看,大数据有三个潜在的问题,可以分成三个“V”。首先是volume(规模)问题,意味着如今企业有太多的数据;其次是velocity(速度)问题,数据来临的速度太快;最后是variety(类型)问题,数据来源太多,数据类型繁杂。我们来分别看一下这三个V。

  如果企业存在规模问题,并且只对在大量数据上运行SQL风格的商业智能感兴趣,那么在数据仓库中,至少有几十个生产仓库正在进行中。在这方面,如果企业只想做商业智能,那么规模问题基本上是可以解决的。

  第二个“V”(速度)也是相当简单,如果处理一百万条消息希望是一秒钟,当前的流处理引擎完全可以满足这一点。就我目前所知道的而言,这个速度已经足够快了。当然,随着社会的发展,未来可能会对速度有更高的要求,但我并不认为速度问题很难解决。

  第三个“V”(类型),我认为多样化才是真正的问题。当数据有太多不同的来源时,企业就会遇到数据集成挑战。这几乎是所有企业都面临的难点,大多数企业是孤立的,这意味着他们可能会为每个业务部门独立构建数据存储。问题就出在这,业务部门可能会存储客户数据,并且希望识别客户以进行交叉销售。合并数据将有助于获得更好的见解,从而可以节省成本并提高运营效率。但是,当企业想要整合这些数据时,每个仓库都有自己的数据存储,并且通常没有跨单元客户标识符,这件事情就变得很难了。

  所以,我认为难倒企业的倒不见得是物联网设备增多了,而是企业需要将这些孤立的数据整合在一起。无论是医疗、制造还是金融服务领域,所有这些独立结构的数据库都将是一个杀手。

想从大数据中获益,先解决集成问题吧!

  问:您认为应该如何处理隐私问题呢?包括我们的个人隐私以及企业收集的信息中的隐私数据。

  Michael Stonebraker:大数据时代,隐私是一个非常好的话题。举一个简单的例子,你在医院完成了一个X光检查,你希望医生可以查询一下,你的X射线与哪些患者比较像,这些患者的诊断说明是什么,发病率是多少等等信息,这可能就要整合全国的在线医疗数据库,甚至扩展到多少个国家的数据库。虽然这对你而言可能是有益的,但这就造成了难以置信的隐私问题。

  大体而言,虽然面临着数据集成方面的挑战,但技术层面的问题还是可以解决的。但原则上来说,任何一家机构都无权直接或间接披露用户的隐私数据。

  我认为隐私问题本质上是一个法律问题,国家可推出相应的法律法规来规避这一问题可能造成的风险。不幸的是,隐私对社会带来的价值是可观的,所以导致很多人屡屡涉险。

  问:现在有越来越多的企业会使用预测性数据分析,您认为预测分析还存在哪些问题?我们如何克服这些挑战?我们谈到了隐私方面的问题了,还有其他什么问题吗?

  Michael Stonebraker:预测模型的问题在于,它们由人类自然构建,因此容易产生偏见。比如特朗普总统大选事件,事后证明很多预测分析模型都没有做出正确的判断。

  预测分析问题的另一个很好的例子就是学校教师考评,通过对学生的升学之初和学期结束时的成绩进行考核,决定教师的教课水平,这就会导致N年级的教师对N+1年级的教师产生影响,这种决策是片面的。

  预测模型的问题就是模型本身,我们对模型预测过于信任。如果模型中不包括欺诈,偏见等,还可能会得到一个不错的答案。

想从大数据中获益,先解决集成问题吧!

  问:安全是关于大数据的热门话题,大数据在很大程度上对安全提出了新的挑战?如何修复可能存在的安全问题?安全问题的责任如何划分?最大的问题是什么?

  Michael Stonebraker:从历史上看,绝大多数的数据泄露都是从内部开始的。虽然也存在黑客从外部入侵的事件,但有很大一部分是通过内部员工的用户名和密码直接登录内部系统造成的。因此,我认为公司为数据中心安全人员支付更高的薪酬是有必要的,至少可以修复一部分内部人士的数据泄露事件。这不是说没必要防范远程攻击和黑客,只是解决内部问题可能优先级更高一些。

  问:大数据可以如何更好地利用,以提高公众利益。比如医疗领域的部分数据共享等。

  Michael Stonebraker:大数据产生社会效益的例子有很多,无论是提高竞争力,还是大幅改善医疗服务方面,很多例子都与社会福利挂钩,但需要首先解决的还是隐私问题,如何获得合理的数据而不破坏个人隐私,这或许是值得探讨的。

  问:您对大数据的未来还有什么样的想法呢?

  Michael Stonebraker:我们期望从大数据中获得的所有效益,都取决于数据无缝集成的程度。解决改进数据集成问题将成为从所有数据中获益的关键。

0
相关文章