大数据 频道
  • 调研:中国超过85%%的APP用户数据遭受泄露!

    中国消费者协会的一项调查报告显示,中国85.2%%的APP用户曾遭遇数据泄露。常见现象为:推销电话、信息骚扰、垃圾邮件、非法链接、账号密码被盗等。

    刘美利 · 2018-08-31 18:05
  • 分析机构报告称Splunk在IT运维管理、安全市场和AIOps的增速超对手

    近日,率先从机器数据带来惊喜时刻的 Splunk公司 (NASDAQ: SPLK)宣布,据全球著名的分析机构IDC和Gartner的 2017年市场份额报告显示 ,Splunk在IT运维分析(ITOA)、IT运营管理(ITOM)以及安全与漏洞管理方面呈持续增长态势。

    赵钰莹 · 2018-08-30 13:30
  • 诞生至今,大数据的真正含义到底是什么?

    在五六年前,大数据已经成为了流行趋势。但目前的大数据还保持着原来的含义吗?Micro Focus南非区域总经理Gary De Menezes给予了否定回答。

    刘美利 · 2018-08-29 16:59
  • 余利华:网易大数据平台架构实践分享!

    随着网易云音乐、新闻、考拉、严选等互联网业务的快速发展,网易开始加速大数据平台建设,以提高数据获取速度,提升数据分析效率,更快发挥数据价值。

    赵钰莹 · 2018-08-28 09:25
  • 使用Scala开发Apache Kafka的TOP 20大最佳实践!

    本文作者是一位软件工程师,他对20位开发人员和数据科学家使用Apache Kafka的方式进行了最大限度得深入研究,最终将生产实践环节需要注意的问题总结为本文所列的20条建议。

    赵钰莹 · 2018-08-24 09:03
  • Uber永久定位系统实时数据分析过程实践!

    根据Gartner所言,到2020年,每个智慧城市将使用约13.9亿辆联网汽车,这些汽车配备物联网传感器和其他设备。城市中的车辆定位和行为模式分析将有助于优化流量,更好的规划决策和进行更智能的广告投放。例如,对GPS汽车数据分析可以允许城市基于实时交通信息来优化交通流量。电信公司正在使用移动电话定位数据,识别和预测城市人口的位置活动趋势和生存区域。

    赵钰莹 · 2018-08-22 09:26
  • 京东物流数据同步平台“数据蜂巢”架构演进之路

    数据蜂巢平台是京东物流自主研发的分布式、高性能、高可用、支持异构,离线和实时的大数据同步与管理平台。关键技术:HA;离线与实时同步整合;binlog采集,存储与订阅;客户端并发消费;一致性校验与修复;任务隔离。 目前已经在京东物流系统中大规模应用,比如单源和多源复制,从全国各地仓储园区集群(上百个)实时复制到IDC,从mysql到ES,从mysql到cassandra等等。

    刘美利 · 2018-08-21 10:25
  • 实时工业大数据产品实践——上汽集团数据湖

    立足于汽车制造与服务为代表的制造行业,服务于车联网与工业大数据相融合的应用场景,采用开源软件架构,自研发实时大数据集成平台。降低企业使用大数据技术的成本,为数据分析师、业务分析师提供更高效易用的工具,加速数据应用的建设和推广,并提供全字段金融等级3DES加密,自动无感知的密钥更新,防止密钥泄露。单元格级别权限控制和数据脱敏访问。

    赵钰莹 · 2018-08-20 09:03
  • 洪增林:网易游戏统一数据流平台架构与实践

    1. 网易游戏的数据业务特点和数据流的挑战 2. 数据流采集架构和实践 (1). 数据流平台架构 (2). 服务器日志采集的设计与实现 (3). 客户端数据提交入口设计 (4). 后续迭代计划 3. 基于数据流支撑的业务介绍 (1). 游戏数据集成 (2). 程序/运维类日志归集与应用 (3). 通用数据处理和转换 4. 总结展望 技术点:日志归集、数据集成、数据流平台、golang、高并发、性能优化 面向人群:大数据平台设计和开发人员

    赵钰莹 · 2018-08-17 08:46
  • 数据仓库架构到底选择内部部署还是上云?

    对任何一家企业而言,建立数据仓库都是非常必要的。随着技术的进步,我们在这件事情上也有了很多新的选择,比如内部部署或者基于云。无论选择哪种方案,最终都可以实现从数据中获取商业智能从而辅助决策的目的,那么我们自然需要衡量哪种方案的性价比更高。

    赵钰莹 · 2018-08-15 09:10
  • HDFS系列之DataNode磁盘管理解析及实践!

    在单一DataNode管理多个磁盘的情况下,执行普通写操作时的每个磁盘用量比较平均。但是,添加或者更换磁盘将会导致DataNode磁盘用量严重不均衡,传统的HDFS均衡器关注点是DataNode之间(inter-)而不是intra-,但是Hadoop 3.0及以上版本中,新的HDFS Intra-DataNode磁盘平衡器可以很好得解决上述问题。

    赵钰莹 · 2018-08-14 09:21
  • 手把手教你HDFS基础配置安装及命令使用!

    HDFS是基于Java的文件系统,可在Hadoop生态系统中提供可扩展且可靠的数据存储。因此,我们需要了解基本的HDFS配置和命令才能正常使用它。在使用之前,我们首先讨论如何配置安装HDFS。Hadoop以及HDFS都运行在java环境中,因此我们都需要安装JDK:

    赵钰莹 · 2018-08-13 09:04
  • 扫盲:Hadoop分布式文件系统(HDFS)基础概念讲解!

    无论你如何将Hadoop与Spark进行对比,无论Spark生态多么成熟和完善,其底层终归要基于HDFS,毕竟这是目前最成熟的分布式底层文件系统,几乎没有哪家公司愿意重新花费精力研发一个全新的文件系统。

    赵钰莹 · 2018-08-13 08:53
  • TOP 3大开源Python数据分析工具!

    在大数据库领域,Python是最常被使用的编程语言,因此了解与其相关的数据分析工具是很有必要的。如果你正在使用virtualenv、pyenv或其他变体在自己的环境中运行Python,那么,可以尝试本文推荐的三大开源工具。

    赵钰莹 · 2018-08-09 09:11
  • 耗时两个月,国内传统企业对Hadoop到底什么态度?

    年初,笔者开始调研Hadoop在国内企业的应用现状,在前期的互联网企业应用现状调研中,笔者发现目前比较知名的互联网企业基本都在使用Hadoop,其生态组件,比如HDFS、Zookeeper、MapReduce等出现频率极高(完整调研可在文末获取链接)。但是,Hadoop在国外却接连遇冷,前有Gartner报告对Hadoop发行版的看衰论断,后有加拿大皇家银行和美国富国银行对Hadoop应用的不看好(详细内容见文末链接),到底国内传统企业对Hadoop持什么态度?是否与国内的互联网企业一致呢?Hadoop生态中哪些组件获一致好评?哪些组件被群嘲?

    赵钰莹 · 2018-08-08 09:51
  • 消息中间件Kafka+Zookeeper集群简介、部署和实践

    Kafka是一种高吞吐量的 分布式 发布订阅消息系统,它可以处理消费者规模的网站中所有动作流数据。Kafka的目的是通过Hadoop 并行加载机制统一线上和离线消息处理,并通过 集群 提供实时消息。本文内容较基础,主要围绕kafka的体系架构和功能展开。

    赵钰莹 · 2018-08-06 09:11
  • Oracle与Hadoop对比:一致性和高性能不可兼得!

    提起Hadoop,我们就可以想到大数据;提起Oracle,我们就可以想到数据库。国内确实有不少企业习惯于将Hadoop作为数据库使用,因此将其与数据库领域同样占据重要位置的Oracle进行对比是有意义的。

    赵钰莹 · 2018-08-03 09:08
  • 分布式消息队列服务Kafka商业化发布!

    消息队列Kafka是一个分布式的、高吞吐量、高可扩展性消息队列服务,广泛用于日志收集、监控数据聚合、流式数据处理、在线和离线分析等,是大数据生态中不可或缺的产品之一,阿里云提供全托管服务,用户无需部署运维,更专业、更可靠、更安全。本文就将带你走进消息队列Kafka。

    赵钰莹 · 2018-08-01 09:27
  • 人工智能识别性格,只需看眼睛便可实现

    根据《经济时报》(The Economic Times)的报道,科学家开发了一种新的人工智能系统,可以通过跟踪一个人的眼球运动,来识别他们的性格类型。包括来自德国斯图加特大学(University of Stuttgart)和澳大利亚弗林德斯大学(University of Stuttgart)的研究人员,使用最先进的机器学习算法展示了个人性格特点与眼球运动之间的关系。

    田晓旭 · 2018-07-31 18:56
  • Hadoop生态组件Yarn之长期运行服务支持篇!

    众所周知,Yarn是大数据核心调度组件,其使用覆盖率非常高。在“Hadoop是否已失宠”的选题调研中,不少专家都对Yarn这一核心组件的生命力表达了自己的看法。

    赵钰莹 · 2018-07-31 09:06