大数据频道 频道

SACC2017: 大数据平台架构专场(下)分享

  【IT168 资讯】一年一度的中国系统架构师大会震撼来袭了! SACC2017于10月19日-21日在北京新云南皇冠假日酒店盛大召开。今年,大会以“云智未来”为主题,云集国内外优异专家,诚邀百余名演讲嘉宾,围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。

  20日下午,大数据平台架构技术实践(下)专场由爱奇艺云平台技术总监刘俊晖主持,百度外卖大数据首席架构师梁福坤、饿了么资深研发工程师王海华、蘑菇街技术经理刘旭晖(天火)、荣之联架构师王苹、爱奇艺高级技术经理张超和唯品会高级架构师钟翔为大家奉上了一场大数据平台架构技术实践的饕餮盛宴。

  基于Druid的大数据采集即计算实践 

SACC2017:大数据平台架构专场(下)分享
百度外卖大数据首席架构师梁福坤

  今天下午的第一位主题演讲嘉宾是梁福坤,百度外卖大数据首席架构师。2014年加入百度,先后带团队建设为百度地图6大Place场景做数据分析,后专注于百度外卖大数据生态从0开始孵化并最终完善。自主研发涉及到数据采集3大平台、开放式ETL4件套、OLAP分析平台、Adhoc、大数据分布式调度、数据集市、数据仓库等,另外技术驱动数十个辅助业务分析角色的分析挖掘平台。为大数据研发打造离线、实时数据整套解决方案,同时构建并推广AI学习平台系统。

  今天,他带来了《基于Druid的大数据采集即计算实践》的主题分享,不仅介绍了百度外卖大数据架构,还特别强调了对Druid选型是基于三点考虑:一、是化简为繁采集即计算;二、性能,可扩展,支持高性能,高并发,高吞吐;三、丰富的查询接口。

  而冲击波(ShockWave)则作为在Druid基础之上构建的采集即计算的开源项目,主要目的能够实现百度外卖业务场景下预设数据需求规则,可以实现数据的持续、实时的交付。 冲击波除了支持Druid原生态查询API之外,可以通过定义数据源选择、数据分组、数据过滤计算规则下数据指标的聚合运算,同时不同时间频次周期下的入库规则,交付数据支持自定义目的库和数据推送,是一套完整的从数据源接入、计算最终交付的整体解决方案。

  饿了么离线大数据平台实践  

SACC2017:大数据平台架构专场(下)分享
饿了么资深研发工程师王海华

  第二位主题演讲嘉宾是王海华,饿了么资深研发工程师。目前在饿了么大数据平台负责大规模Hadoop集群和相关生态系统的维护和研发工作,对常见分布式系统有丰富的实践经验和深入理解,曾经在滴滴负责数千节点规模Hadoop集群的平台研发工作,Apache Hive/Spark/Alluxio代码贡献者。

  今天,他带来了《饿了么离线大数据平台实践》的主题分享,他认为饿了么团队的高效工作有益于他们的工作口号——“Everything in 30min”。随着公司业务规模的飞速增长,饿了么离线大数据平台也面临巨大的挑战。在主题演讲中,他主要介绍饿了么离线大数据平台的架构演进、全流程数据化平台运维监控的新思路和平台化服务治理方面面临的问题和一些实践经验。

  王海华指出,离线平台治理有3大挑战:如何在分布式环境里快速发现和定位问题?如何把握平台大盘趋势?如何做到用户自助错误/性能分析?而解决办法就是数据化运维。

  演讲的最后,他还介绍了团队对数据化治理未来的规划。

  大数据平台调度系统架构理论和实践  

SACC2017:大数据平台架构专场(下)分享
蘑菇街技术经理刘旭晖(天火)

  第三位主题演讲嘉宾是刘旭晖(天火),蘑菇街数据平台资深架构师,负责蘑菇街大数据服务平台整体产品规划和架构设计工作。此前多年供职于Intel开源技术中心,Spark/Hadoop/HBase/Phoenix等开源项目贡献者。在久远历史中,还曾在内核驱动,操作系统中间件,输入法,浏览器等方向有多年开发和开源贡献经验。

  他今天带来了《大数据平台调度系统架构理论和实践》的主题分享,他特别强调:“调度系统是大数据系统中非常核心的一块,调度系统有2大类,一个是资源调度系统,一个是作业调度系统,并花费较大的篇幅重点讨论工作流调度系统为什么要这样做,而不是Show我们具体是怎么做。因为怎么做,取决于你的目标。”

  在此背景下,他结合蘑菇街自研Jarvis调度系统两年多的思考和实践经验,和大家一起探讨了一个以易用性和可维护性为导向的作业调度系统应该如何规划产品功能定位。

  最后,他还指出开源既不是单向输出,也不要奢望别人无偿奉献。要做到这一点,维护者得花费大量的精力去维护社区的氛围。

  荣之联大数据平台的应用实践  

SACC2017:大数据平台架构专场(下)分享
荣之联架构师王苹

  第四位主题演讲嘉宾是王苹,荣之联架构师。曾就职于IBM大数据团队,具有多年大数据平台研发经验。目前专注于大数据企业级应用的方案设计及技术选型,同时带领团队研发荣之联大数据产品。

  今天带来了《荣之联大数据平台的应用实践》的主题分享,她指出,大数据在ToB和ToC市场的玩法是非常不同的,To B市场必须要有产品去帮助客户,DataZoo被荣之联定位为新一代大数据平台产品,它是基于Hadoop但不仅仅只是Hadoop。并介绍了DataZoo的功能特性及相关案例。

SACC2017:大数据平台架构专场(下)分享
DataZoo架构

  从DataZoo公布的架构图可以看出,DataZoo将hadoop生态层作为平台的基础层,并集成了开源社区Hadoop、Hive、HBase、 Spark、Zookeeper、Kafka、Flume、 Sqoop等核心项目。

  爱奇艺广告大数据实践  

SACC2017:大数据平台架构专场(下)分享
爱奇艺高级技术经理张超

  第五位主题演讲嘉宾是张超,爱奇艺高级技术经理。带领广告前端及数据团队,负责从SDK埋点,数据处理,到查询,可视化,分析应用等整个端到端广告数据体系。

  今天带来了《爱奇艺广告大数据实践》的主题分享,爱奇艺广告数据系统需要支持海量数据处理和高维ad hoc分析,同时要保证查询高性能,低延迟以及准确性。本次分享针对以上广告业务数据的挑战,介绍爱奇艺广告数据平台的整体设计及一些实践中的经验。

  爱奇艺广告数据应用场景,主要有3个方面:一是查询,能自助查询广告收入分成,订单投放效果,库存使用。二是分析,可视化分析包含(UV转化漏斗,Post-buy人群,N+Reach);三是发现,主要是异常检测,数据挖掘。

  目前,爱奇艺广告数据规模,日均新增百亿级日志,10T+,存储量达PB级别,单表最高40+个维度,3000亿行数据,时间跨度长:需要保存至少2年以上。

  唯品会机器学习平台架构实践  

SACC2017:大数据平台架构专场(下)分享
唯品会高级架构师钟翔

  第六位主题演讲嘉宾是钟翔,唯品会高级架构师。曾在Databricks,Intel工作,现主要负责大数据部门机器学习平台的建设工作。

  今天带来了《唯品会机器学习平台架构实践》的主题分享,此次演讲介绍了唯品会架构机器学习平台的建设实践。钟翔从问题、思路和方案三个方向为大家讲解了以下五个问题:

  建设机器学习平台的动机和想解决的问题;如何基于Notebook架构交互式的快速迭代的开发环境;如何基于容器构建弹性的机器学习集群;如何用Tensorflow和其他技术支持分布式的深度学习;如何架构数据,满足算法共享,数据共享,模型共享的需求。

  最后,钟翔指出,唯品会机器学习平台的最高目标是提高生产力和支撑前沿探索系统需求。  

SACC2017:大数据平台架构专场(下)分享
更多信息尽在IT168现场报道专题 http://sacc.it168.com/topic2017/


0
相关文章