大数据频道 频道

日增量超10TB 爱奇艺,饿了么大数据平台初探

  【IT168 评论】昨天,我们在《没白来,滴滴知乎腾讯大数据平台架构图到手》文章谈到,大数据作为数据应用分析的基础技术未来将会变的越来越重要,企业对大数据的追求已然无法阻挡,但大数据平台选型是一个复杂的过程,因此,知名企业的大数据平台架构图就有着重要的参考作用,并介绍了滴滴、知乎、腾讯云大数据平台架构图。

  10月20日,中国系统架构师大会(SACC 2017)进入第二天。架构师大会不晒架构图就是耍流氓!就在今天下午的《大数据平台架构技术实践(下)》专场中,来自百度外卖大数据首席架构师梁福坤,饿了么资深研发工程师王海华,爱奇艺高级技术经理张超又为我们分享了各司大数据平台架构图及相应的数据规模。

日增量80TB 爱奇艺、饿了么大数据平台初探
▲爱奇艺广告大数据平台架构图

  广告是爱奇艺商业变现的重要手段,爱奇艺广告数据系统需要支持海量数据处理和高维ad hoc分析,同时要保证查询高性能,低延迟以及准确性。

  爱奇艺广告数据应用场景,主要有3个方面:一是查询,能自助查询广告收入分成,订单投放效果,库存使用。二是分析,可视化分析包含(UV转化漏斗,Post-buy人群,N+Reach);三是发现,主要是异常检测,数据挖掘。

  目前,爱奇艺广告数据规模,日均新增百亿级日志,10T+,存储量达PB级别,单表最高40+个维度,3000亿行数据,时间跨度长:需要保存至少2年以上。

日增量80TB 爱奇艺、饿了么大数据平台初探

  张超特别介绍了查询引擎Impala选型的5个原因:一、性能,给出的引擎查询时间比较,原因就不用多说。二、支持SQL,支持Join。三、实时与离线统一:无缝支持Kudu。四、水平扩展。五、与Hadoop生态体系的兼容。

日增量80TB 爱奇艺、饿了么大数据平台初探
▲饿了么离线大数据平台架构图

  饿了么离线大数据平台架构图比较简单,显然是做了简化,不过依然具有参考意义。

  王海华不仅介绍了饿了么离线大数据平台的架构演进,还给出了目前饿了么离线大数据平台数据规模,增量80TB/天,集群规模1000-1500节点,调度任务2万+,任务数10W+,计算吞吐量3PB/天。

日增量80TB 爱奇艺、饿了么大数据平台初探
▲百度外卖大数据架构v4.1

  百度外卖大数据架构已经发展到4.1版,进化原力毋庸置疑是业务需求倒逼。梁福坤称,以往实时交付方案存在实时性差,流程多周期长,数据库半产品化、效率差、数据0建模等问题。

  梁福坤特别强调了对Druid选型是基于三点考虑:一、是化简为繁采集即计算;二、性能,可扩展,支持高性能,高并发,高吞吐;三、丰富的查询接口。

  而冲击波(ShockWave)则作为在Druid基础之上构建的采集即计算的开源项目,主要目的能够实现百度外卖业务场景下预设数据需求规则,可以实现数据的持续、实时的交付。

  冲击波除了支持Druid原生态查询API之外,可以通过定义数据源选择、数据分组、数据过滤计算规则下数据指标的聚合运算,同时不同时间频次周期下的入库规则,交付数据支持自定义目的库和数据推送,是一套完整的从数据源接入、计算最终交付的整体解决方案。

0
相关文章