大数据 频道
  • 干货:如何将Hadoop存储容量提升4倍?

    在Hadoop 1.0中,HDFS的单NameNode设计带来诸多问题,包括单点故障、内存受限制约集群扩展性和缺乏隔离机制(不同业务使用同一个NameNode导致业务相互影响)等。为了解决这些问题,Hadoop 2.0就引入了基于共享存储的HA解决方案和HDFS Federation,HDFS Federation是指HDFS集群可同时存在多个NameNode,这些NameNode分别管理一部分数据,且共享所有DataNode存储资源。

    赵钰莹 · 2018-07-30 09:32
  • CNN论文研读之AlexNet及Tensorflow实现

    在 Yann Lecun 提出 Le-Net5 之后的十几年内,由于神经网络本身较差的可解释性以及受限于计算能力的影响,神经网络发展缓慢且在较长一段时间内处于低谷。2012年,深度学习三巨头之一、具有神经网络之父之称的 Geoffrey Hinton 的学生 Alex Krizhevsky 率先提出了 AlexNet,并在当年度的 ILSVRC(ImageNet大规模视觉挑战赛)以显著的优势获得当届冠军,top-5 的错误率降至了 16.4%%,相比于第二名 26.2%% 的错误率有了极大的提升。

    赵钰莹 · 2018-07-26 09:05
  • 开发者如何挑选最合适的机器学习框架?

    如今,各种各样的机器学习工具活跃在开源社区,这些工具有助于减轻配置和测试AI相关工作的负载。但是,如何评估并选择适合自己的工具成为了开发者必须认真思考的问题,有些人可能希望在训练新的AI算法时专注于易用性,而其他人可能会优先考虑参数优化和生产部署,不同的框架在不同的领域又具备着不同的优劣势,这让开发者难以抉择。

    赵钰莹 · 2018-07-25 08:44
  • 专家分享:深度学习笔记之Tensorflow入门!

    从前面的学习笔记中,笔者和大家一起使用了 numpy 一步一步从感知机开始到两层网络以及最后实现了深度神经网络的算法搭建。而后我们又讨论了改善深度神经网络的基本方法,包括神经网络的正则化、参数优化和调参等问题。这一切工作我们都是基于numpy 完成的,没有调用任何深度学习框架。在学习深度学习的时候,一开始不让大家直接上手框架可谓良苦用心,旨在让大家能够跟笔者一样

    赵钰莹 · 2018-07-24 09:22
  • 业务实践分享:美团点评团队云真机平台实践

    随着美团点评业务越来越多,研发团队越来越庞大,对测试手机的需求显著增长。这对公司来说是一笔不小的开支,但现有测试手机资源分配不均,利用率也非常有限,导致各个团队开发、测试过程中都很难做到多机型覆盖。怎么样合理、高效利用这些测试手机资源,是摆在我们面前的一道难题。

    赵钰莹 · 2018-07-23 09:13
  • Oracle终按捺不住加入区块链即服务阵营!

    本周,Oracle宣布推出自己的区块链即服务技术,正式加入IBM、SAP、Microsoft、HPE和Amazon Web Services的游戏中,至此,国际知名的几大厂商基本聚齐。由于今年5月份,Oracle已经对外透露过区块链即服务的相关消息,因此用户对这一消息并没有感到特别惊讶。

    赵钰莹 · 2018-07-23 09:00
  • 小企业如何利用区块链和大数据来获利?

    根据2014 EY报告,大数据正在改变企业的运营方式,并且甚至助力企业成功超越竞争对手。而现实情况却是很多企业并不能有效使用的大数据。“采集和存储海量数据的能力正在以前所未有的速度增长,但是汇总和分析这些数据的技术能力却刚刚冒芽。”

    田晓旭 · 2018-07-19 10:36
  • 为何MongoDB股价2018上半年大幅上涨67%?

    近日,根据S&P Global Market Intelligence的最新数据显示,MongoDB(纳斯达克股票代码:MDB)的股票在2018年上半年上涨了67.4%%。从股份数据库软件领域专业分析师提供的季度报告来看,MongoDB的股票大涨几乎之前是没有任何明显征兆的,并且连续几个季度都在上升,到底是什么原因导致MongoDB的股价在2018年上半年上涨超过67%%的呢?

    赵钰莹 · 2018-07-16 09:54
  • 客户倒逼!F-One如何2C和2B双模式齐下?

    相比于根基深厚的大型企业,创业公司往往更急于做市场和PR,这也不难理解,大型企业已经具备成熟的商业模式,具备较高的盈利能力,而创业公司刚刚起步,只能自己卖力吆喝客户。但是,也有一些创业公司喜欢在产品打磨相对成熟之后再对外发声,每次看到这类公司,笔者都会惊讶于其不短的创业时长和低调的过往。

    赵钰莹 · 2018-07-12 14:02
  • 基于Hadoop生态高性能数据存储CarbonData

    CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。

    赵钰莹 · 2018-07-11 09:03
  • HBase高性能随机查询之道 – HFile原理解析

    在各色数据库系统百花齐放的今天,能让大家铭记的,往往是一个数据库所能带给大家的差异化能力。正如梁宁老师的产品思维课程中所讲到的,这是一个数据库系统所能带给产品使用者的"确定性"。

    赵钰莹 · 2018-07-05 09:38
  • 同样是智能语音,云讯云雀哪里与众不同?

    人工智能的大浪轰轰烈烈得拍过来,有的企业学会了乘风破浪,有的则被冲击得遍体鳞伤。谈到智能语音,不少人会略显兴奋,毕竟,这算得上是最早让用户感受到AI成果的一大应用了。当智能语音进入电销和客服领域,企业的态度是什么?用户的使用体验如何?智能语音是否又会带来一波失业浪潮?在智能语音的大框架下,云讯科技所做得事情又有什么不同呢?

    赵钰莹 · 2018-07-02 10:23
  • 蓝皮书、纪录片...软博会怎么谈数字经济?

    在第二十二届中国国际软件博览会(以下简称2018软博会)第二场“数字经济引领智慧未来”全球软件产业发展高峰论坛上,首部大数据题材纪录片正式开机,发布蓝皮书,来自泰国、瑞士、联合国等国研究机构代表发言,海尔、文思海辉、360、SAS、中国大唐、北汽福田等企业代表围绕数字经济发表了主题演讲。面对数字经济这一全球性话题,软博会做出了什么样的解读呢?

    赵钰莹 · 2018-07-01 16:21
  • 直击软博会|大佬眼中的新软件是什么样子?

    近日,2018软博会首场全球软件产业发展高峰论坛在北展高峰论坛场馆举办。在新的时代背景下,我们应该如何理解软件的定义呢?华为、百度、用友、字节跳动等企业高层对新时代下的软件有着怎样的理解呢?未来,软件将为世界带来哪些改变呢?

    赵钰莹 · 2018-07-01 16:10
  • 神级总结:七种功能强大的聊天机器人平台

    聊天机器人发布平台是用户访问和使用聊天机器人的媒介,现在流行的一些聊天机器人发布平台有FB Messenger、Kik、Slack、Telegram以及WeChat。而聊天机器人开发平台是可以创建聊天机器人的工具,常见的聊天机器人开发平台有Chatfuel、 WotNot、 Botsify等。聊天机器人平台可以通过创建流、提供机器学习功能和API集成等方式,帮助你向机器人添加更多功能。下面将介绍顶尖的七大聊天机器人平台。

    赵钰莹 · 2018-06-28 09:23
  • 5分钟用上毫秒级NoSQL数据库,让你提前下班

    NoSQL数据库这么火,时序数据库这么火,轨迹数据怎么存?领导吩咐要调研一下HBase/OpenTSDB/GeoMesa。卷起袖子开始做,可是加班加点过了两三天,环境还没搭建好,又遇到一个BUG,正在潜心研究,领导过来问:“HBase/OpenTSDB究竟是否符合需求?”,“还在搭环境呢”,老板嘟哝”不就是开源软件嘛,拿过来用一用,这么难“,顺便带着鄙视的小眼神看着你。

    赵钰莹 · 2018-06-25 16:04
  • 满成见:猎聘网数据治理实践全流程经验分享

    猎聘网业务规模的高速发展,线上产品与线下销售、客服业务的高度融合,猎头、企业、经理人多角色的招聘生态闭环,多元化与多组织层次的数据统计与运营分析需求......在这些复杂业务环境下如何做好数据治理实践的?猎聘DIG数据平台中MySql、GreenPlum、Hive多源数据库共存,整合了结构化和半结构化的数据,为实时统计、T+N的企业管理报表、机器学习提供更适合的基础设施,同时以数据生命周期和数据血缘的管理作为数据治理的两大核心

    赵钰莹 · 2018-06-25 08:57
  • 机器学习实践:如何将Spark与Python结合?

    Apache Spark是处理和使用大数据最广泛的框架之一,Python是数据分析、机器学习等领域最广泛使用的编程语言之一。如果想要获得更棒的机器学习能力,为什么不将Spark和Python一起使用呢?

    赵钰莹 · 2018-06-22 08:39
  • CXO视角:国外企业部署Hadoop犹豫什么?

    随着“Hadoop是否已失宠”的选题调研进程过半,国内外企业以及厂商的观点确实存在很大分歧,有人认为是国外Hadoop厂商所提供的服务以及架构不如国内厂商完善,也有观点表明国外大部分企业的数据量根本达不到使用Hadoop的层级,因此对Hadoop比较冷漠。那么,事实到底是什么样的呢?

    赵钰莹 · 2018-06-21 09:24
  • 企业部署ETL工具的三种方式,应该怎么选?

    数十年来,由于可从数据库提取信息、重新格式化转换数据,并将数据加载到数据仓库,ETL一直是企业基础架构的关键组件。随着云、SaaS和大数据的出现,新数据源和数据流的急剧增加,迫切需要更强大和更复杂的数据集成工具出现。新一代ETL工具可以实时获取数据,处理数十亿交易以及支持任何来源的结构化或非结构化数据(无论是内部部署还是云中)

    赵钰莹 · 2018-06-19 17:19