大数据 频道
  • 如何避免HBase写入过快引起的各种问题

    直接限制队列堆积的大小。当堆积到一定程度后,事实上后面的请求等不到server端处理完,可能客户端先超时了。并且一直堆积下去会导致OOM,1G的默认配置需要相对大内存的型号。当达到queue上限,客户端会收到CallQueueTooBigException 然后自动重试。通过这个可以防止写入过快时候把server端写爆,有一定反压作用。线上使用这个在一些小型号稳定性控制上效果不错。

    赵钰莹 · 2018-05-31 17:550
  • Spark及Spark Streaming核心原理及实践

    Spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。本文依次从spark生态,原理,基本概念,spark streaming原理及实践,还有spark调优以及环境搭建等方面进行介绍,希望对大家有所帮助。

    赵钰莹 · 2018-05-31 17:540
  • 如何在万亿级别规模的数据量上使用Spark?

    Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平台是如何使用好Spark的。

    赵钰莹 · 2018-05-30 17:560
  • 技术解析:HDFS应用场景、原理和基本架构

    HDFS是什么? 易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务。HDFS是什么? 易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务。源自于Google的GFS论文发表于2003年10月HDFS是GFS克隆版Hadoop Distributed File System易于扩展的分布式文件系统运行在大量普通廉价机器上

    赵钰莹 · 2018-05-25 14:290
  • 对数据科学家来说最重要的算法和统计模型

    作为一个在这个行业已经好几年的数据科学家,在LinkedIn和QuoLa上,我经常接触一些学生或者想转行的人,帮助他们进行机器学习的职业建议或指导方面相关的课程选择。一些问题围绕教育途径和程序的选择,但许多问题的焦点是今天在数据科学领域什么样的算法或模型是常见的。

    田晓旭 · 2018-05-24 20:230
  • 深度:如何从系统层面优化深度学习计算?

    在图像、语音识别、自然语言处理、强化学习等许多技术领域中,深度学习已经被证明是非常有效的,并且在某些问题上已经达到甚至超越了人类的水平。然而,深度学习对于计算能力有着很大的依赖,除了改变模型和算法,是否可以从系统的层面来优化深度学习计算,进而改善计算资源的使用效率?本文中,来自微软亚洲研究院异构计算组资深研究员伍鸣与大家分享他对深度学习计算优化的一些看法。

    赵钰莹 · 2018-05-24 16:110
  • Accordion :一种HBase内存压缩算法介绍

    现如今,人们对基于HBase的产品的读写速度要求越来越高。在理想情况下,人们希望HBase 可以在保证其可靠的持久存储的前提下能并拥有内存数据读写的速度。为此,在HBase2.0中引入Accordion算法。

    赵钰莹 · 2018-05-22 15:330
  • 从程序安装到设置,Kafka的配置属性解析!

    Kafka是由Scala和Java编写的最流行的发布者 - 订阅者模型之一。它最初由LinkedIn开发,后来经过开源。Kafka是一种高吞吐量的分布式发布订阅消息系统,因可以处理重负载量的信息而著名。这里从安装到设置为您详解Kafka的各种属性。

    赵钰莹 · 2018-05-22 09:300
  • Kafka Connect如何实现同步RDS binlog数据?

    本文介绍如何在E-MapReduce上使用Kafka Connect实现同步RDS binlog数据。在我们的业务开发中,往往会碰到下面这个场景:业务更新数据写到数据库中,业务更新数据需要实时传递给下游依赖处理,所以传统的处理架构可能会这样:

    赵钰莹 · 2018-05-14 08:570
  • 基于Alluxio的HDFS多集群统一入口的实现

    随着苏宁大数据平台的规模越来越大,HDFS集群Namenode逐渐出现性能瓶颈,特别是在凌晨任务的高并发期,Namenode的RPC响应延迟较高,单次写RPC请求甚至超过1s,严重影响了集群的计算性能。因此解决HDFS的扩展性问题,势在必行。

    赵钰莹 · 2018-05-09 10:270
  • Tensorflow快餐教程(8) - 深度学习简史

    如果要给机器学习划分流派的话,初步划分可以分为『归纳学习』和『统计学习』两大类。所谓『归纳学习』,就跟我们平时学习所用的归纳法差不多,也叫『从样例中学习』。归纳学习又分为两大类,一类是像我们归纳知识点一样,把知识分解成一个一个的点,然后进行学习。因为最终都要表示成符号,所以也叫做『符号主义学习』;另一类则另辟蹊径,不关心知识是啥,而是模拟人脑学习的过程,人脑咋学咱们就照着学。

    赵钰莹 · 2018-05-07 09:080
  • 专访陶天林:解读达梦大数据平台的特色

    大数据产业在我国已经有了数年的发展,但从整体来看,我国信息化程度还不是特别完善。因此,目前还处于探索的阶段,想要进一步发展还是需要经历一段时间。近几年大数据产业也有很多崛起的大数据公司,各种类型的大数据公司比比皆是,不管什么类型的产品,都号称采用了大数据技术。那么什么是一款好的大数据产品呢? 企业的大数据选型最应该看重哪些因素?我们选那种类型的大数据平台?达梦大数据平台的优势又在哪里?

    田晓旭 · 2018-04-23 13:200
  • 大数据创新应用:高速公路的数据存储及处理

    通过分析信息化建设脉络中高速公路数据的海量产生,结构复杂的海量数据存储及处理,阐述大数据平台在智慧高速建设中的作用,总结大数据在智慧高速中的客户服务、运营优化、稽查分析、应急资源调度、预测预警等方面的具体应用,对交通指挥中心工作提供支持。

    覃里 · 2018-04-10 11:230
  • 中国邮政大数据平台建设之总体架构与实现

    通过对数据处理阶段性发展的解析,分析大数据、人工智能技术的发展趋势。结合实际生产需求,验证了基于容器云架构的新一代大数据与人工智能平台在数据分析、处理、挖掘等方面的强大优势。

    覃里 · 2018-04-10 10:270
  • 2018年一定要收藏的20款免费预测分析软件!

    本文推荐一些免费的预测分析软件,它们主要用于分析统计使用,机器学习和数据挖掘来寻找关于客户行为,市场趋势和原始数据集中其他领域的线索的相关性和模式。其中一些预测建模解决方案可通过许可,免费获得开源或社区版本;其中一些预测分析软件是商业版本的免费版或社区版,但提供的功能较少。

    陈毅东 · 2018-02-14 09:000
  • 最适合人工智能的框架和库,大公司都在用

    在很长一段时间内,人工智能都被认为是阳春白雪的科技技术,只有搞学术的和天才才会研究,但是近年来,随着各种框架和库的发展,人工智能领域开始变得友好,更多的技术人才开始进入到这个领域。

    田晓旭 · 2018-01-22 18:330
  • 大数据标准有多重要,为什么厂商都积极推动?

    大数据对于企业的重要性已经不言而喻了,现在企业都在积极收集结构化和非结构化数据进行实时处理和分析,并希望从中寻找到新的业务机会。随着技术的发展,数据的开源也渐渐变得多样化,例如,传感器、物联网、社交等等,企业也在积极投资大数据项目,如从数据湖、处理框架到分析工具再到英特尔硬件等等。

    田晓旭 · 2017-11-29 10:030
  • 这个平台有点酷!数据收集,存储,分析都在行

    如果多个来源的大数据无法容易地收集,存储,分析并获得重要的洞察力,帮助企业提供更好的业务决策,那么这些数据对于企业来说可能就没有太多价值。数据可能来自许多不同的来源,可能处于静止或者运动状态,可能是本地、云端或者是网络边缘创建的,并由不同的数据治理策略进行管理。

    田晓旭 · 2017-11-29 09:580
  • 炫酷报表工具 FineReport 9.0新特性预览

    FineReport是由帆软开发的一款商用报表软件,本质来说是一个通用的报表制作和数据可视化工具。因为其应用场景广泛,操作方式简单,在业内拥有不错的口碑。

    覃里 · 2017-11-21 15:490
  • 小米云深度学习平台的架构设计与实现

    本文介绍了实现企业级云深度学习平台需要的概念和知识,基于小米cloud-ml服务探讨了云平台的设计、架构、实现以及实践这四方面的内容,希望大家看完有所收获。?

    覃里 · 2017-06-09 16:430