大数据频道 频道

"有效播放"让网播剧数据造假无处遁行!

  【IT168 评论】影视数据大量造假可以说已经是业内公开的秘密,各种票房注水、收视率造假、刷播放量、刷好评等案例时有发生,引发社会强烈关注。

影视“有效播放”背后是PB级数据支撑!

  今年两会,全国人大代表曹可凡在接受媒体采访时就表示,虚假的票房、虚假的点击率、虚假的收视率等,这些建立在造假基础上的大数据,严重影响人们对一部好作品的评判。因此,打击影视数据造假势在必行,但这缺乏一个公平客观的文艺评价体系或者说数据标准。

  去伪存真:有效播放还原市场真实现状

  针对这一现状,4月6号,云合数据在北京召开战略发布会,推出了独家的网络“有效播放”概念,并基于此概念分析了目前网络剧市场注水情况,其结果真是触目惊心,见下图。

影视“有效播放”背后是PB级数据支撑!

  云合数据CEO李雪琳在接受笔者采访时表示,揭露影视数据造假并不是云合数据的核心目的,因为这并不创造价值,真正创造价值的是通过“有效播放”,实现了网络点击量去水分,为行业评估影视作品的网络真实播放表现提供了标尺。

  三步曲:如何算出“有效播放”?

影视“有效播放”背后是PB级数据支撑!

  云合数据CTO刘浩从技术的角度、为笔者具体介绍了“有效播放”的算法。刘浩表示,如何算出“有效播放”,分为三步:

  第一步,把播放量中的花序、预告片、剪辑等等都去掉。为什么去掉?因为,视频平台为了做量,把花序、预告都算在播放量里面。

  第二步,播放周期会有一些实时的曲线,如果是一个正常的播放曲线会非常规律。但是如果是造假,曲线就会很不正常。出现异常量,机器自动通过异常识别技术,把异常量去掉。

  第三步,如果去淘宝买量,花很多钱,按照人的生活规律去刷,看着曲线挺像真实的,怎么办呢?通过机器学习,把每一部剧的评论、点赞、弹幕以及在社媒平台,微信、微博阅读发给机器,同时把前台播放发给机器,机器能尝试自己去建立这二者之间的关系,把这种不正常的筛出来。

  背后秘密:PB级数据量的支撑

  在回答笔者关于云合数据核心竞争力的问题时,刘浩表示,云合数据作为娱乐垂直行业的大数据平台,深度挖掘行业数据,并以机器学习为技术基础,构建核心竞争力。他认为,云合数据在数据采集、数据挖掘、机器学习方面是有较强的技术优势。比如说弹幕,目前没有发现友商能够完整地采集弹幕,这是有一定技术门槛的。

影视“有效播放”背后是PB级数据支撑!

  他同时还向笔者透露,云合数据的数据来源主要是微信、微博和视频平台,抓取的数据有400多个维度,日抓取数据规模稳定在3TB左右。而云合数据成立到现在已经有一年多了,这不仅意味着“有效播放”背后有着PB级的数据支撑,同时还构筑起了一道基于时间的门槛,有些事情并不是说技术到了就行,没有历史数据的积累是无法做到预测的。

  发布会现场,刘浩还从技术的角度预测了目前大热的《人民的名义》最终网络有效播放量将达到【95亿】。而尚未播出一直热议不断的【如懿转】最终网络有效播放量将达到【122亿】。

  浓缩精华:基于大数据的四大产品

  发布会上云合数据还基于所拥有的数据库,发布了服务于影视行业的多个服务工具,分别是:

影视“有效播放”背后是PB级数据支撑!

  数据中心-涵盖连续剧、电影、综艺、艺人、小说多维度信息服务订阅平台。行业大屏-一屏尽览全行业信息。行业图谱-剧、人、公司等关系网连接起来。四象消息流-以两仪生四象,四象生八卦为品牌理念研发的消息流产品,一键推送你想关注的影视信息。

  四大产品最大特点是将影视行业信息更广更全的做了整合,做到基于兴趣主动、实时推送。

  据了解,四大产品现在均能在云合数据微信公众号获取。

0
相关文章