大数据 频道
  • 可自动生成代码,5款基于AI的顶级开发工具

    如今,对机器学习潜力感兴趣的程序员都在讨论如何使用人工智能和基于人工智能的软件开发工具构建应用程序。例如PyTorch和TensorFlow之类的解决方案。

    谢涛 · 2019-11-05 16:22
  • 让数据库运行在浏览器里?TiDB + WebAssembly 告诉你答案

    作为一名数据库技术人员,一直以来都有个梦想,希望有一个数据库能够弹性扩展(分布式)到成百上千节点的规模,易于学习和理解,可以运行在私有云,公有云,multi-cloud, kubernetes, 也能够跑在嵌入式设备(比如树莓派)上,更酷的是也能够直接运行在浏览器里,且不需要任何浏览器扩展(Extension),变成口袋数据库,就像那部电影《蚁人》。   今天,这一切都变成了现实: TiDB 可以直接运行在浏览器本地。

    闫志坤 · 2019-11-05 14:43
  • 一篇文章读懂“GAN”——生成式对抗网络

    机器学习是一个不断发展的领域,因此对于很多人来说,时刻跟踪这一领域的最新进展是很难的。GAN(生成式对抗网络)是最近引起广泛关注的新兴领域之一,为了让大家能够更好地跟上技术发展的脚步,我们安排了一个简短的GAN速成文章。

    谢涛 · 2019-10-29 18:01
  • YouTube 的视频推荐是如何实现的?

    最近,谷歌研究人员发表了一篇论文​,并在RecSys 2019(丹麦哥本哈根)的论坛上公布,论文中对他们的视频平台Youtube用户视频推荐方式进行了阐述。在这篇文章中,笔者将试着总结我阅读这篇论文后的发现。

    谢涛 · 2019-10-22 18:06
  • 关于强化学习你应该知道的三件事

    如果您有在关注科技相关的新闻,可能读过有关人工智能(AI)应用程序如何通过强化学习训练,在围棋、国际象棋等棋类游戏以及电子游戏中击败人类玩家的报道。作为一名工程师、科学家或研究人员,您可能会希望利用这种新的和不断发展的技术。但是该如何开始呢?最好的起点是什么?如何理解它的概念?如何实现强化学习?以及它是不是解决某个问题的正确办法。

    谢涛 · 2019-10-17 16:58
  • AI核心难点之一:情感分析的常见类型与挑战

    情感分析或情感人工智能,在商业应用中通常被称为意见挖掘,是自然语言处理(NLP)的一个非常流行的应用。文本处理是该技术最大的分支,但并不是唯一的分支。情绪AI有三种类型及其组合。

    谢涛 · 2019-10-10 16:55
  • 什么是机器行为?它将如何解释AI?

    理解人工智能(AI)代理或程序的“行为方式”,是未来十年人工智能的关键挑战之一。某些方法提供了对AI程序行为的洞察,对于这些方法,我们称其是具备可解释性的。到现在为止,大多数可解释性技术都集中于探索深度神经网络的内部结构。

    谢涛 · 2019-09-18 16:03
  • 用于可解释机器学习的四个Python库

    我们知道,人工智能也可能存在偏差,随着大家对这一点的关注度越来越高,企业越来越需要能够对其模型产生的预测进行解释,了解模型本身是如何工作的。好的一点是,有越来越多的Python库正在开发中,试图解决这个问题。在这篇文章中,笔者将简要介绍四个最成熟的机器学习模型解释软件包。

    谢涛 · 2019-09-16 17:58
  • 如何避免人类偏见对数据分析产生影响

    随着越来越多的企业开始采用机器学习技术以实现流程的自动化,人们也逐渐开始质疑计算机决策中的伦理含义。我们如何处理计算机系统中潜在的偏见?相对较少被提及但同样重要的,是人类本身的偏见,它与分析和商业决策有很大关系。

    谢涛 · 2019-09-06 16:24
  • 数据科学中的“帕累托法则”

    一个多世纪以前,政治经济学教授维弗雷多·帕累托发表了他对于社会财富分配的研究结果。他所观察到的严重的不平等,例如20%的人拥有80%的财富,令经济学家、社会学家和政治科学家感到惊讶。

    谢涛 · 2019-09-06 14:55
  • 两年Flink迁移之路:从standalone到on yarn,处理能力提升五倍

    随着近几年业务量不断扩大,需要选择一个性能更强、功能更完善的流式引擎来逐步升级我们的流式服务。调研从2016年底开始,主要是从Flink、Heron、Spark streaming中作选择,最终,我们选择了Flink

    覃里 · 2019-08-29 18:44
  • Github上评分最高的5个机器学习项目

    Github堪称是世界上最大的开源项目托管平台,受到了千百万名开发人员的关注,也因此有许多高质量代码展示于其中。作为近几年备受关注的热门技术,机器学习项目在Github上也很常见。

    谢涛 · 2019-07-31 15:46
  • DTCC 干货 | 腾讯营销数据平台

    腾讯基于 hadoop 构建了高性能高可靠性的营销数据平台,在保证数据安全前提下,提供在线分析处理和特征建模能力,支持腾讯的广告营销和智慧零售等业务高速发展。

    胡孟依 · 2019-07-10 17:55
  • 做机器学习项目数据不够?这里有5个不错的解决办法

    许多开展人工智能项目的公司都具有出色的业务理念,但是当企业AI团队发现自己没有足够多的数据时,就会慢慢变得十分沮丧......不过,这个问题的解决方案还是有的。 本文将简要介绍其中一些经笔者实践证明确实有效的办法。

    谢涛 · 2019-06-28 16:58
  • 数据科学家都应该知道的5个统计学知识

    数据科学实际上可以定义为我们从数据中获取额外信息的一个过程,在做数据科学时,我们真正想要做的其实就是解释除了数字之外,所有数据在现实世界中的实际含义。

    谢涛 · 2019-06-26 16:48
  • 张翼:Spark SQL在携程的实践经验分享!

    之前,大多数公司大数据的数仓都是构建在Hive上的,数据开发的ETL任务以及用户对于数据的即时查询主要使用的工具也是Hive,随着Spark以及其社区的不断发展,Spark及Spark SQL本身技术的不断成熟,Spark在技术架构和性能上都展示出Hive无法比拟的优势,如何使用Spark构建大数据的数仓?如何将现有的数仓平台从Hive转到Spark上?

    赵钰莹 · 2018-11-29 09:17
  • 网易马进:DDB从分布式数据库到结构化数据中心的架构变迁

     分布式数据库DDB是网易研发最早的分布式系统,过去十几年来一直为网易各大互联网产品提供稳定透明的分库分表服务,四年前我们推出了私有云DDB,为开发和运维人员在使用DDB和弹性伸缩上提供了极大便利。现今随着网易内外部应用的网络环境更加复杂,应用场景日益繁多,对DDB的易用性,平台化,面向机房和多租户的解决方案提出更多需求和挑战,这次分享将带大家一起见证DDB在向结构化数据中心进化过程中的思考和架构变迁。

    刘美利 · 2018-11-14 18:21
  • 数据海洋可视化,Splunk平台价值实现

    我们身处数据爆发时代,世界正从IT走向DT。在移动互联网、云计算和大数据的穹顶之下,IT运维管理被赋予了更多信息挖掘和数据分析重任。信息碎片化加大了选择成本的空间,如何有效采集和分析数据、排除阅读噪音成为IT部门在大数据时代亟待解决的难题。

    刘美利 · 2018-09-20 13:24
  • 如何使用Java Streams进行数据库查询?

    本文介绍了如何编写能够处理现有数据库数据的Java应用程序,而无需编写单行SQL(或类似语言)代码,也无需浪费时间将所有的内容组合在一起。在您的应用程序准备就绪之后,您可以通过添加两行代码,使用in-JVM-acceleration加速性能。

    刘美利 · 2018-09-14 15:36
  • 万达集团李明昊:地域分布式系统设计与实践

    本次分享,深入剖析了主流的一致性协议paxos,raft等的历史渊源和设计细节,阐述了它们的优缺点与适用场景;并结合公司的实际场景,对raft协议做了改进,使自研的分布式存储系统可以运行于这个具体环境之上,同时兼顾性能,可靠性与硬件、网络成本。

    刘美利 · 2018-09-13 12:04