大数据 频道
  • 从上世纪80年代到今天,达梦数据库技术架构演进与应用全记录

    传统关系数据库经过几十年的发展,架构是否已经到了演进尽头?MPP、读写分离、共享存储、分库分表……琳琅满目的架构从何处来向何处去?未来关系数据库架构可能会如何发展?本主题以达梦数据库架构演进与创新为例,向大家分享我们的看法。

    刘美利 · 2018-08-10 17:070
  • MaxCompute数据仓库在更新插入、加载、全量历史表三大算法中的数据转换实践

    MaxCompute包含临时层、基础数据层、应用层三个层次,数据上云后将数据源中的数据先传输到MaxCompute里的临时层中,并将数据进行处理,接着将数据经过简单的转换传输到基础数据层,最后将数据进一步汇总到应用层进而提供服务。

    赵钰莹 · 2018-08-02 15:040
  • 下一代分布式消息队列Apache Pulsar从入门到实现

    Apache Pulsar是一个企业级的分布式消息系统,最初由Yahoo开发并在2016年开源,目前正在Apache基金会下孵化。Plusar已经在Yahoo的生产环境使用了三年多,主要服务于Mail、Finance、Sports、 Flickr、 the Gemini Ads platform、 Sherpa以及Yahoo的KV存储。

    赵钰莹 · 2018-08-02 09:340
  • 目标检测技术演化:从R-CNN到Faster R-CNN

    目标检测旨在准确地找到给定图片中物体的位置,并将其正确分类。准确地来讲,目标检测需要确定目标是什么以及对其定位。

    田晓旭 · 2018-07-30 20:470
  • 机器学习到底是什么?

    关于机器学习最简单的定义来自于Berkeley所表述的:机器学习是AI的一个分支,它探索了让计算机根据经验提高效率的方法。

    田晓旭 · 2018-07-30 20:290
  • 教程:MySQ 数据库主从同步安装与配置详解

    MySQL5.6 数据库主从同步安装与配置详解(Master/Slave)本篇文章主要介绍了MySQL5.6 数据库主从同步安装与配置详解,具有一定的参考价值,有兴趣的可以了解一下。安装环境

    刘美利 · 2018-07-30 16:090
  • 大数据云的数据交换共享平台架构探索

    本文将具体解读如何借助大数据和云计算技术解决数据孤岛,烟囱开发,技术门槛等痛点,满足用户多元化、复杂的需求,降低数据开发、管理的难度。

    覃里 · 2018-07-26 11:200
  • 如何在.NET中使用MongoDB和CRUD操作教程

     NoSQL是一种面向文档的数据库系统,以特定的格式储存,如JSON。MongoDB是当前NoSQ数据库产品中最热门的一种,它具高性能、易部署、易使用的特点,以及丰富的轻量级二进制格式。 MongoDB最大的特点是支持的查询语言非常强大,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引,是一个面向集合的,模式自由的文档型数据库。

    刘美利 · 2018-07-23 14:320
  • 美团如何基于深度学习实现图像的智能审核?

    AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团数亿消费者和数百万商户改善服务和体验,帮大家吃得更好,生活更好。

    赵钰莹 · 2018-07-16 10:300
  • AIOps智能监控在阿里故障管理工作中的实践!

    在自动化运维还不普及的时候,运维人员更多的运用手动的方式完成运维工作,这种方式耗时长,效率低。由此,如何合理发挥人工智能技术辅助运维人员进行故障管理工作逐步成为了业界关注的焦点。阿里巴巴的GOC团队通过研究并使用AIOps系统到运维业务场景中的方式,积累了大量的智能运营的方法论和技术体系。

    赵钰莹 · 2018-06-27 08:570
  • 实践:一小时神经网络从入门到精通(放弃)

    目前本人对于机器学习也还只是入门状态,对于很多名词仍然是一知半解(感觉机器学习中的很多术语本身也是模棱两可的),对于很多公式也是不求甚解,因此这篇文章是尝试用自己的语言和理解来复述所学习到的知识,如果有错误之处还望大牛们不吝斧正。

    赵钰莹 · 2018-06-20 17:030
  • Kubeflow实战系列:阿里云上小试TFJob

    模型训练是机器学习最主要的实践场景,尤其以使用机器学习框架TensorFlow进行模型训练最为流行,但是随着机器学习的平台由单机变成集群,这个问题变得复杂了。GPU的调度和绑定,涉及到分布式训练的编排和集群规约属性的配置(cluster spec)也成了数据科学家们巨大的负担。

    赵钰莹 · 2018-06-13 18:110
  • 一条数据HBase之旅,简明HBase入门教程开篇

    这是HBase入门系列的第1篇文章,介绍HBase的数据模型、适用场景、集群关键角色、建表流程以及所涉及的HBase基础概念,本文内容基于HBase 2.0 beta2版本。本文既适用于HBase新手,也适用于已有一定经验的HBase开发人员。

    赵钰莹 · 2018-06-12 18:030
  • DFSMN在阿里应用及采用开源代码训练模型

    DFSMN模型是语音识别中一种先进的声学模型,语音识别中的声学模型是语音识别技术中的核心所在。具体来说,声学模型是根据输入语音进行发音可能性的识别,结合语言模型、解码器,就构成了完整的语音识别系统。本次开源的DFSMN模型,是阿里巴巴的高效工业级实现,相对于传统的LSTM、BLSTM等声学模型,该模型具备训练速度更快、识别更高效、识别准确率更高和模型大小压缩等效果。

    赵钰莹 · 2018-06-12 17:470
  • 深度学习在美团搜索广告排序的应用实践

    AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好。

    赵钰莹 · 2018-06-11 17:390
  • 阿里巴巴资深大数据工程师:大数据处理实践

    不同于以往的授课式课堂风格,这次斯坦福大学的教授Hadley Wickham开设了一门论文讨论课。课程名为:Readings in Applied Data Science。要求学生每周阅读3~4篇论文,并给出反馈。

    赵钰莹 · 2018-06-10 19:330
  • Python数据预处理:Dask和Numba并行化加速!

    如果你善于使用Pandas变换数据、创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作。单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Numba+Dask基本上算是无敌的存在。

    赵钰莹 · 2018-06-07 05:000
  • 大数据存储平台之异构存储实践深度解读

    经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。

    赵钰莹 · 2018-06-07 05:000
  • 刘博宇:Druid在滴滴应用实践及平台化建设

    Druid是一款支持数据实时写入、低延时、高性能的OLAP引擎,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有特定的应用场景,是大数据基础架构建设中重要的一环。Druid在滴滴承接了包括实时报表、监控、数据分析、大盘展示等应用场景的大量业务,作为大数据基础设施服务于公司多条业务线。本次演讲我们将介绍Druid的核心特性与原

    赵钰莹 · 2018-06-06 10:090
  • Sqoop数据导入到HBase遇上的问题及解决方法

    运行bin/sqoop import --connect jdbc:mysql://ip:port/database --username *** --password ****--hbase-bulkload --hbase-create-table --column-family info --hbase-row-key username --hbase-table detects --table detects将Mysql中detects表导入到Hbase中的detects表,提示找不到users Class错误

    赵钰莹 · 2018-05-31 17:550