登录 / 注册
IT168大数据频道
IT168首页 > 大数据 > 大数据评论 > 正文

十年磨一剑!SACC带你领略企业大数据平台实践优化!

2018-10-22 15:24    it168网站 原创  作者: 赵钰莹 编辑: 赵钰莹

  【IT168 评论】十余年来,企业架构经过了数次迭代和变迁,ITPUB是这一切的重要见证者,同样陪伴了无数架构师的成长。10月17日,第十届中国系统架构师大会以“十年架构,成长之路”为主题,云集了国内CTO、研发总监、高级系统架构师、开发工程师和IT经理等技术人群,与会规模超千人。本届大会特设四大主线,其中,主线二为基于大数据平台的应用实践,数位技术专家倾囊相授,SACC十年磨砺,涅槃起航!

  搜狗云平台资深高级开发工程师申贤强:YARN基于负载的调度引擎优化

  随着公司业务的增长和规模扩大,内部多Hadoop集群的状况导致整个集群的负载并不均衡,资源需求在增加,但资源的整体利用率却不高。搜狗在Hadoop平台调度引擎优化方面做了很多工作,比如集群间基于负载的弹性伸缩调度模型,以及集群内基于node真实负载的调度模型。调度引擎优化的目的是解决集群间负载不均衡,以及集群内node节点间负载差距大问题,同时降低单一或者多个node资源争抢对业务的影响,均衡集群负载,充分合理利用资源,提升业务稳定性。

  面对预算不多但需要更多资源,集群高低峰时期的资源利用率差异明显等问题,搜狗认为弹性伸缩调度不失为一个可行的解决方案。最初,搜狗在客户端集成集群负载判断逻辑,但是,这种状态很容易实现“伸”但并不易实现“缩”。通过在Yarn 3.0版本中提出的AMRM Proxy技术,搜狗很好得解决了第一版本中存在的问题。最终解决了计算随着存储的问题,均衡了集群负载,提高了资源利⽤率且对业务透明。

  苏宁易购IT总部中台研发技术总监钱津津:苏宁智慧零售之电商大数据实践

  在众多的电商购物狂欢节中,苏宁一直都是不容忽视的存在,可能很多人对苏宁的印象还停留在电器层面,但如今的苏宁已经成长为全品类经营、全渠道运营、全球化拓展的O2O零售商。随着苏宁战略转型中业务形态越来越复杂,大数据在苏宁战略中扮演的角色也越来越重要。

  钱津津介绍了苏宁智慧零售的现状,结合对苏宁新一代数据产品诸葛大师的业务和系统架构剖析, 及在建设过程中的关键技术升级和选型,详细说明如何利用大数据技术解决业务的痛点和难点。对于企业普遍面临的数据海量、分片严重、业务系统弹性伸缩、时效要求高等问题,诸葛大师在数据采集方面应用了业务系统下发、埋点日志、Streaming抽取、Q/Bin log同步和爬虫等核心技术来解决数据丢失、重复或拥堵等可能的问题。诸葛为了满足不同的业务需求,几乎集成了主流的各种计算引擎。最终,整个系统实现了数据驱动业务,进行数据化管理与运营,并给领导者以决策支持。

  白帽汇创始人兼CTO龙专:网络空间测绘的实现与架构

  网络空间测绘是近几年兴起的网络安全技术,它通过快速的端口扫描、协议识别等技术来对全球的资产进行梳理,结合产品规则库对全球资产进行画像。在安全漏洞突发的时候,能够快速进行漏洞专扫,这种新技术的架构到底是什么样呢?

  龙专表示,网络空间测绘是一种资产建模技术,通过识别联网的对象,获取IP、端口、协议和产品信息,以搜索引擎的方式提供服务并支持快速、轻量级漏洞专扫。其四大要素包括端口扫描、协议识别、产品识别和漏洞专扫。历经了多轮技术迭代和架构升级,龙专所在的白帽汇的FQFA最终可在三分钟内完成全网漏洞报告。

  品友互动首席架构师王晓鹏:品友大数据分析平台的架构和演化

  王晓鹏本身是一位技术界的老兵,他对于大数据、数据分析以及架构设计均做过很多思考。大数据分析主要包括数据收集、数据清理、数据建模、数据分析和数据可视化等步骤。其中,数据分析又分为四大层次:描述性分析、诊断性分析、预测性分析和处方性分析。

  品友对大数据分析的应用主要体现在投放分析和企业数据管理两大平台,广告投放平台主要用户为广告投放运营,企业数据管理平台的数据来源丰富,主要受众群体是企业市场、IT人员和数据分析师等。对于数据存储,品友基于多年经验给出了部分建议:鉴于用户换机周期为1.5年,因此建议广告行为数据存储1.5年;一方标签数据、分析数据、报表数据永久存储;建议分配存储与研发部确认。针对品友数据分析平台的研发经验,王晓鹏认为根据数据量,使用者角色设计设计分析平台很重要;对工具的选择来说,没有银弹;企业还是需要走工具+自我开发的道路。

  字节跳动数据基础架构工程师李亚坤:Hadoop YARN 在字节跳动的实践

  字节跳动公司的今日头条、抖音短视频、火山小视频、西瓜视频等一系列产品,在最近几年内数据量一直呈现出爆炸性增长趋势,数据基础架构部门在离线计算、流式计算等多个方向上遭遇到了一系列前所未有的挑战。从0到3.6万+计算结点的YARN集群管理,以及在调度优化、流式作业支持等多个方面,字节跳动都经历了哪些坑呢?

  李亚坤表示,Hadoop生态圈主要分三层:物理层、分布式系统层和用户层。 其中,在分布式系统层,分布式计算资源由Yarn统一管理并运行了很多计算框架。对于原生Yarn存在的一些稳定性、易用性等方面的问题,字节跳动在资源调度等多个层面进行了定制化开发,比如Dominant Resource Fairness 延迟调度,Fair Scheduler的动态预留以及Fair Scheduler的多线程版本等。未来,字节跳动的主要工作是平衡集群间的资源利用并实现更好得节点隔离。

  在本届SACC大会的主线二《大数据平台架构实践》上半场,我们了解了不同企业在数据分析、资源调度和集群配置等方面的实践优化。“十年磨一剑,砺得梅花香”,第十届中国系统架构师大会准备了三天传统技术大会演讲,两天深度主题培训,更多精彩议题欢迎访问大会专题页面(http://zt.it168.com/topic/sacc2018/)。

关键字: 大数据 , Hadoop , Yarn
  • IT168企业级IT168企业级
  • IT168文库IT168文库

扫一扫关注

  • 推荐文章
  • 推荐产品
行车视线文章推荐

首页 评论 返回顶部