【TOP100summit】六大技术专家同台：数据平台搭建如何有效“避坑”？-大数据专区

【TOP100summit】六大技术专家同台：数据平台搭建如何有效“避坑”？

作者：赵钰莹编辑：赵钰莹 2018-12-03 14:51 IT168网站原创

　　【IT168 评论】在数据时代，不少企业学会以数据驱动决策。但是，谈及实践，不少企业又犯了难：如何从海量数据中选择对业务增长有价值的部分?如何清洗并分析数据以驱动决策?如何不让庞大的数据降低整体计算性能?这些问题或许都可以在第七届TOP100全球软件案例研究峰会(简称TOP100summit)的【数据平台】专场找到答案。

　　杨波：Spark系统在Uber的架构设计及大规模实践

　　近几年，Spark频频出现在各大企业的大数据架构图中，甚至承载了不少业务关键型数据。Uber是一家数据驱动决策的企业，杨波从Uber的数据平台、对Apache Spark的使用，应用挑战和改进三方面全面介绍了Spark在Uber内部的架构设计及大规模实践。

　　Uber资深工程师杨波

　　Uber一直希望为用户提供高可靠的运输体验，通过挖掘用户数据、调研使用习惯不断调整平台功能。在数据驱动的背后，Spark起到了非常重要的作用，这也是Uber在数据处理方面使用较多的工具之一。杨波表示，当数据量非常庞大时，Spark是最简单且开源可用的工具，相较于其他产品，实现同样功能所需的代码量更少，其编程接口和语言的选择也更加丰富。

　　Uber通过Marmary将数据从Kafka转入Hadoop平台，Marmary是一个基于Hadoop的通用数据摄取和分散框架。当数据进入Hadoop之后，Uber有三大数据查询工具：Hive(on Spark)，Presto，Spark。杨波建议，数据平台可以建立在开源组件之上，目前Uber的批处理工作以Spark为主。Uber对Spark的一些问题也进行了很多改进，并将部分问题反馈到了开源社区。

　　吴疆：企业数字化转型案例：Liberty Mutual数字化转型之路

　　据调研，国内有七成企业处于数字化转型的关键期，而不少传统企业尚没有很好的方案来迈出数字化转型的第一步，这份Liberty Mutual数字化转型案例绝对值得一看。

　　Pivotal 资深产品经理吴疆

　　数字化转型时代，新技术正在逐渐颠覆传统行业。传统企业要想扭转颓势，必须了解数字化转型的特点以快速适应迅速变化的市场，比如快速发布应用、移动为先、云原生和大数据驱动。Liberty Mutual是一家全球职业健康与安全服务研究的领导者，是一家非常典型的传统企业。

　　Liberty Mutual选择与Pivotal合作，从技术选型、开发流程等多维度开展数字化转型，从应用频次不是很高的摩托车保险在线销售开始，在该业务有效运转并取得了高于行业平均水平的转化率后，Liberty Mutual选择与Pivotal全面合作，开启云原生实践、持续交付和Hackathon。在项目开始两年后，Liberty Mutual运行在公有云上面的应用从5%增加至60%;50%的应用做到按天发布;75%的IT人员要写代码;通过自动化重复性手工工作节省了1亿美元成本，这也体现了Pivotal应用迁移等开源工具的巨大价值。

　　吕海：Apache Beam: 领英流式计算平台的最新实践

　　在领英内部，大量部署和使用了Apache Samza作为公司的流计算引擎。Samza是由领英开发并开源的大数据流计算系统。目前，Samza在超大数据规模的场景下有很多针对性优化，但其前端API尚未完善，因此领英决定引入Beam并将其运行在Samza之上。

　　领英实时流计算基础架构团队技术负责人吕海

　　Apache Beam是一套数据处理的编程模型，目前的Beam IO支持Avro，Kafka，HDFS，HBase和JDBC等，并即将对HDFS(Python)，Kafka(Python)等提供支持。吕海对如何划分数据-窗口、数据-事件时间以及Samza主要应用场景等内容进行了介绍。未来，领英将继续优化并推广使用Samza，继续整合Samza Table API并整合离线计算与流式计算，在流式计算部分使用Samza，离线计算使用Spark，利用Beam统一API。

　　姚依非：The Evolution Path of Spark/Hadoop on the Cloud

　　近年来，用户和服务每天生成的数据量呈指数级增长，这意味着需要在云中处理的数据量也会激增，这将给云分析系统带来巨大压力。姚依非介绍了谷歌如何在云平台中集成开源数据处理框架，比如Hadoop和Spark，服务组件和框架如何非常好的集成到云生态系统以及谷歌对这些框架和组件进行了哪些改进以实现非常好的性能。

　　Google senior software enginee 姚依非

　　姚依非表示，谷歌Dataproc是一个快速的，易于使用的，低成本且全管理的服务，传统的Hadoop和Spark集群在成本、管理等层面存在一些问题，谷歌Dataproc会帮助企业管理集群，比如Hadoop、Spark等;无论节点数量如何，均可以快速部署集群，且按秒付费;可随时增加和减少worker，且没有延迟;可以与其他工具或者包进行集成。

　　通过在Google Cloud上成功集成Hadoop/Spark集群，谷歌让许多大客户成功地将其数据处理管道和工作负载迁移上云。与其他云产品的改进性能和紧密集成为谷歌提供了优于其他解决方案的性能和用户体验优势。通过自动扩展，高可用性和存储连接器提高性能和可靠性;通过可调整大小的集群，度量工具和简单的ML集成提供了更好的用户体验，这是谷歌在易用与高性能结合方面的一次成功实践。

　　王哲涵：京东大数据平台进化之路

　　如今，大数据技术日趋成熟，Hadoop不再高高在上，已是作为如同数据库般的基础软件设施提供计算与存储服务。京东大数据平台从无到有，从量到质，从微创到革新经历了五年实践，集群规模一步步由数百到数万规模演化。

　　京东离线平台研发团队负责人王哲涵

　　随着技术的不断演进和发展，京东大数据平台持续面对集群规模增长带来的风险与挑战，其大数据平台按照规模划分，可以分为四个演进阶段。在这个过程中，京东逐渐解决了集中式和多集群;突破了规模增长与性能下降的魔咒;保证任务SLA稳定完成;保证物理资源发挥200%的效能;降低部分slave节点故障对集群的影响;保证集群每日上线并保证故障隔离;跨机房多主多活架构设计等技术难题。

　　王哲涵认为，稳定性、性能和规模是京东大数据的三大关键问题。就稳定性而言，京东解决了数据热点、硬件故障、基础设施故障和异常任务等常见问题;就性能而言，京东做了多区域智能调度、存储计算分离、跨机房容灾-多活架构等。未来，京东会继续促进计算、调度和存储的独立进化，降低各层之间的耦合性;在各层独立服务的基础上，构建统一的“大脑”指挥协调各层系统发挥“1+1=10”的效果;消除“客户端”模式，增加“服务层”与“资源池”的概念，对外建立统一的API服务列表，让用户与集群资源完全分离。

　　张小龙：北京银行金融级NewSQL数据库探索与实践

　　随着互联金融对传统企业的冲击，提升系统性能只能靠替换式的硬件升级，传统“巨头们”在逐渐老化，北京银行开始了数据库转型之路。考虑到高性能、可弹性扩展且可自主掌握支持等需求，OLTP场景的数据库成为北京银行系统建设的优先选择方案。考虑到银行的科技及业务特点，并参考互联网的成功经验，充分验证行内使用效果，最终，北京银行确定采用NewSQL分布式数据库。

　　北京银行核心系统架构设计张小龙

　　通过多维度的评测体系对技术架构进行转型，逐渐实现可扩展性和高可用目标，摆脱技术束缚，打破传统数据库替换式升级局面，改变传统数据库一锤定音的建设方式，实现无感知的平滑升级。未来，北京银行将继续寻求自主可控能力，主动在模式和管理层面进行创新，与互联网思维和技术不断切磋、碰撞、融合，最终打造出具有北京银行特色的创新驱动力。

关注我们