IT168首页 | 产品报价 | 渠道168 | ChinaUnix社区 | ITPUB社区 | OA维修站 | 文库 | 博客 | 会议 | 自测 | 专题 | 订阅 | IT选型顾问
大数据
热点推荐 加盟IT168选型顾问俱乐部 获享5大权益

最新文章

Apache Spark是处理和使用大数据最广泛的框架之一,Python是数据分析、机器学习等领域最广泛使用的编程语言之一。如果想要获得更棒的机器学习能力,为什么不将Spark和Python一起使用呢?

22日更新
机器学习实践:如何将Spark与Python结合?

随着“Hadoop是否已失宠”的选题调研进程过半,国内外企业以及厂商的观点确实存在很大分歧,有人认为是国外Hadoop厂商所提供的服务以及架构不如国内厂商完善,也有观点表明国外大部分企业的数据量根本达不到使用Hadoop的层级,因此对Hadoop比较冷漠。那么,事实到底是什么样的呢?

21日更新
标签:Hadoop 大数据 CTO
CXO视角:国外企业部署Hadoop犹豫什么?

目前本人对于机器学习也还只是入门状态,对于很多名词仍然是一知半解(感觉机器学习中的很多术语本身也是模棱两可的),对于很多公式也是不求甚解,因此这篇文章是尝试用自己的语言和理解来复述所学习到的知识,如果有错误之处还望大牛们不吝斧正。

20日更新
实践:一小时神经网络从入门到精通(放弃)

数十年来,由于可从数据库提取信息、重新格式化转换数据,并将数据加载到数据仓库,ETL一直是企业基础架构的关键组件。随着云、SaaS和大数据的出现,新数据源和数据流的急剧增加,迫切需要更强大和更复杂的数据集成工具出现。新一代ETL工具可以实时获取数据,处理数十亿交易以及支持任何来源的结构化或

19日更新
企业部署ETL工具的三种方式,应该怎么选?

开源ETL工具俨然成为商用解决方案的低成本替代品。就像商业解决方案一样,它们也有其优点和缺点。如果没有时间或资源自定义ETL解决方案或者不能接受商用方案的购买成本,开源解决方案将是一个实用选择。

19日更新
主流可选的开源ETL工具清单及优劣说明!

在“Hadoop是否已失宠?”的选题调研中,笔者调查了银行、Hadoop发行商、Hadoop企业用户以及部分工程师的意见,所处环境、业务需求以及看问题角度的不同让这些组织或个人有着不同的意见。如果你的数据量和增长速度还未达到使用Hadoop的级别,你一定会认为Hadoop是十分不明智的选择;相反,当你已经从Hado

19日更新
Hadoop、PostgreSQL与Storm多维度对比!

现实生活中异常检测的应用非常广泛,作为机器学习算法的一种常见应用,从银行安全到自然科学,从药学到营销,从金融工程到计量经济学,都能看到它的踪影,在今天数据领域爆炸式发展的时刻,异常检测更是人工智能一种形式的体现。

15日更新
机器学习之 Anomaly Detection 异常检验

在银行业中使用数据科学不仅仅是一种趋势,它已成为保持竞争的必要条件。 银行必须认识到,大数据技术可以帮助他们有效地集中资源,做出更明智的决策并提高绩效。以下我们罗列银行业使用的数据科学用例清单,让您了解如何处理大量数据以及如何有效使用数据。

14日更新
科普文:银行业9大数据科学应用案例解析!

在笔者持续调研国内Hadoop生态系统生存现状的同时,KDnuggets发布的2018年数据科学和机器学习工具调查报告再次将“Hadoop失宠”言论复活。报告一出,“Hadoop被抛弃”几个字瞬时成为各大标题党的最爱,充斥在不同的新闻平台。这些报告和数据是否足以动摇Hadoop在国内大数据领域的事实标准地位?本身并不

13日更新
苏宁易购:Hadoop失宠前提是出现更强替代品

模型训练是机器学习最主要的实践场景,尤其以使用机器学习框架TensorFlow进行模型训练最为流行,但是随着机器学习的平台由单机变成集群,这个问题变得复杂了。GPU的调度和绑定,涉及到分布式训练的编排和集群规约属性的配置(cluster spec)也成了数据科学家们巨大的负担。

13日更新
Kubeflow实战系列:阿里云上小试TFJob

这是HBase入门系列的第1篇文章,介绍HBase的数据模型、适用场景、集群关键角色、建表流程以及所涉及的HBase基础概念,本文内容基于HBase 2.0 beta2版本。本文既适用于HBase新手,也适用于已有一定经验的HBase开发人员。

12日更新
一条数据HBase之旅,简明HBase入门教程开篇

DFSMN模型是语音识别中一种先进的声学模型,语音识别中的声学模型是语音识别技术中的核心所在。具体来说,声学模型是根据输入语音进行发音可能性的识别,结合语言模型、解码器,就构成了完整的语音识别系统。本次开源的DFSMN模型,是阿里巴巴的高效工业级实现,相对于传统的LSTM、BLSTM等声学模型,该模

DFSMN在阿里应用及采用开源代码训练模型

近日,著名数据科学网站 KDnuggets 发布了 2018 年数据科学和机器学习工具调查结果。超过 2000 人对自己「过去 12 个月内在项目开发中使用过的数据挖掘/机器学习工具和编程语言」进行了投票。该统计还对过去三年来的排名进行了对比分析。

11日更新
2018数据科学和机器学习调查:Hadoop被抛弃!

AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大

11日更新
深度学习在美团搜索广告排序的应用实践

不同于以往的授课式课堂风格,这次斯坦福大学的教授Hadley Wickham开设了一门论文讨论课。课程名为:Readings in Applied Data Science。要求学生每周阅读3~4篇论文,并给出反馈。

10日更新
阿里巴巴资深大数据工程师:大数据处理实践

哈希算法一直是索引中最为经典的方法,它们能高效地储存与检索数据。但在去年 12 月,Jeff Dean 与 MIT 等研究者将索引视为模型,探索了深度学习模型学习的索引优于传统索引结构的条件。本文首先将介绍什么是索引以及哈希算法,并描述在机器学习与深度学习时代中,如何将索引视为模型学习比哈希算法更高

10日更新

6月8日消息,华云数据集团今日在北京召开产品及生态战略发布会,不仅发布了2018年产品、生态战略、最新企业超融合产品,还披露完成10亿元人民币Pre-IPO轮融资。

08日更新
标签:云计算
华云数据Pre-IPO轮融10亿 上市目标锁定A股

数据分析老鸟都知道,相比于自己作出好的数据分析报告,“教别人如何入门数据分析”这事情简单多了。什么for循环,def函数,print输出,自变量a赋值,字符串和数字转换,相关分析,回归分析,方差分析,聚类分析,判别分析,决策树分析等。函数太多,方法太多,套路太多,技巧太多……可现实是,大多数

08日更新
学完68个Python函数,为啥还做不好数据分析?

经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。

07日更新
大数据存储平台之异构存储实践深度解读

如果你善于使用Pandas变换数据、创建特征以及清洗数据等,那么你就能够轻松地使用Dask和Numba并行加速你的工作。单纯从速度上比较,Dask完胜Python,而Numba打败Dask,那么Numba+Dask基本上算是无敌的存在。

07日更新
Python数据预处理:Dask和Numba并行化加速!
金秋十月 与你饮酒论道
热门文章

热门活动

it168文库会议频道上线

热门标签

热点推荐