大数据 频道
  • 从初创到顶级技术公司,都在用哪些数据科学技术栈?

    如果你正在组建一个新的团队、组织或公司的时候,一开始你可能需要效仿某个现成的技术栈,再依据需求来构建自己的技术栈,还需要对一些过时的技术进行升级。

    任朝阳 · 2020-05-13 09:380
  • 如何让企业一方数据助力程序化广告提效?

    本文将盘点现存的由一方数据直接参与的程序化广告投放模式,并结合品牌方的需求和痛点,谈谈这些模式的利与弊。

    任朝阳 · 2020-04-16 14:340
  • 一份关于机器学习“模型再训练”的终极指南

    机器学习模型的训练,通常是通过学习某一组输入特征与输出目标之间的映射来进行的。一般来说,对于映射的学习是通过优化某些成本函数,来使预测的误差最小化。在训练出最佳模型之后,将其正式发布上线,再根据未来生成的数据生成准确的预测。这些新数据示例可能是用户交互、应用处理或其他软件系统的请求生成的——这取决于模型需要解决的问题。在理想情况下,我们会希望自己的模型在生产环境中进行预测时,能够像使用训练过程中使用的数据一样,准确地预测未来情况。

    谢涛 · 2019-12-31 17:520
  • 合理建立Hadoop数据湖的7个步骤

    数据湖的概念起源于大数据的出现——且数据已成为企业的核心资产,Hadoop则是作为存储和管理数据的平台而出现。但是,盲目地投入Hadoop数据湖建设并不一定会使您的企业进入大数据时代——至少不是以一种成功的方式。

    谢涛 · 2019-11-18 17:230
  • 可自动生成代码,5款基于AI的顶级开发工具

    如今,对机器学习潜力感兴趣的程序员都在讨论如何使用人工智能和基于人工智能的软件开发工具构建应用程序。例如PyTorch和TensorFlow之类的解决方案。

    谢涛 · 2019-11-05 16:220
  • 让数据库运行在浏览器里?TiDB + WebAssembly 告诉你答案

    作为一名数据库技术人员,一直以来都有个梦想,希望有一个数据库能够弹性扩展(分布式)到成百上千节点的规模,易于学习和理解,可以运行在私有云,公有云,multi-cloud, kubernetes, 也能够跑在嵌入式设备(比如树莓派)上,更酷的是也能够直接运行在浏览器里,且不需要任何浏览器扩展(Extension),变成口袋数据库,就像那部电影《蚁人》。   今天,这一切都变成了现实: TiDB 可以直接运行在浏览器本地。

    闫志坤 · 2019-11-05 14:430
  • 一篇文章读懂“GAN”——生成式对抗网络

    机器学习是一个不断发展的领域,因此对于很多人来说,时刻跟踪这一领域的最新进展是很难的。GAN(生成式对抗网络)是最近引起广泛关注的新兴领域之一,为了让大家能够更好地跟上技术发展的脚步,我们安排了一个简短的GAN速成文章。

    谢涛 · 2019-10-29 18:010
  • YouTube 的视频推荐是如何实现的?

    最近,谷歌研究人员发表了一篇论文​,并在RecSys 2019(丹麦哥本哈根)的论坛上公布,论文中对他们的视频平台Youtube用户视频推荐方式进行了阐述。在这篇文章中,笔者将试着总结我阅读这篇论文后的发现。

    谢涛 · 2019-10-22 18:060
  • 关于强化学习你应该知道的三件事

    如果您有在关注科技相关的新闻,可能读过有关人工智能(AI)应用程序如何通过强化学习训练,在围棋、国际象棋等棋类游戏以及电子游戏中击败人类玩家的报道。作为一名工程师、科学家或研究人员,您可能会希望利用这种新的和不断发展的技术。但是该如何开始呢?最好的起点是什么?如何理解它的概念?如何实现强化学习?以及它是不是解决某个问题的正确办法。

    谢涛 · 2019-10-17 16:580
  • AI核心难点之一:情感分析的常见类型与挑战

    情感分析或情感人工智能,在商业应用中通常被称为意见挖掘,是自然语言处理(NLP)的一个非常流行的应用。文本处理是该技术最大的分支,但并不是唯一的分支。情绪AI有三种类型及其组合。

    谢涛 · 2019-10-10 16:550
  • 什么是机器行为?它将如何解释AI?

    理解人工智能(AI)代理或程序的“行为方式”,是未来十年人工智能的关键挑战之一。某些方法提供了对AI程序行为的洞察,对于这些方法,我们称其是具备可解释性的。到现在为止,大多数可解释性技术都集中于探索深度神经网络的内部结构。

    谢涛 · 2019-09-18 16:030
  • 用于可解释机器学习的四个Python库

    我们知道,人工智能也可能存在偏差,随着大家对这一点的关注度越来越高,企业越来越需要能够对其模型产生的预测进行解释,了解模型本身是如何工作的。好的一点是,有越来越多的Python库正在开发中,试图解决这个问题。在这篇文章中,笔者将简要介绍四个最成熟的机器学习模型解释软件包。

    谢涛 · 2019-09-16 17:580
  • 如何避免人类偏见对数据分析产生影响

    随着越来越多的企业开始采用机器学习技术以实现流程的自动化,人们也逐渐开始质疑计算机决策中的伦理含义。我们如何处理计算机系统中潜在的偏见?相对较少被提及但同样重要的,是人类本身的偏见,它与分析和商业决策有很大关系。

    谢涛 · 2019-09-06 16:240
  • 数据科学中的“帕累托法则”

    一个多世纪以前,政治经济学教授维弗雷多·帕累托发表了他对于社会财富分配的研究结果。他所观察到的严重的不平等,例如20%的人拥有80%的财富,令经济学家、社会学家和政治科学家感到惊讶。

    谢涛 · 2019-09-06 14:550
  • 两年Flink迁移之路:从standalone到on yarn,处理能力提升五倍

    随着近几年业务量不断扩大,需要选择一个性能更强、功能更完善的流式引擎来逐步升级我们的流式服务。调研从2016年底开始,主要是从Flink、Heron、Spark streaming中作选择,最终,我们选择了Flink

    覃里 · 2019-08-29 18:440
  • Github上评分最高的5个机器学习项目

    Github堪称是世界上最大的开源项目托管平台,受到了千百万名开发人员的关注,也因此有许多高质量代码展示于其中。作为近几年备受关注的热门技术,机器学习项目在Github上也很常见。

    谢涛 · 2019-07-31 15:460
  • DTCC 干货 | 腾讯营销数据平台

    腾讯基于 hadoop 构建了高性能高可靠性的营销数据平台,在保证数据安全前提下,提供在线分析处理和特征建模能力,支持腾讯的广告营销和智慧零售等业务高速发展。

    胡孟依 · 2019-07-10 17:550
  • 做机器学习项目数据不够?这里有5个不错的解决办法

    许多开展人工智能项目的公司都具有出色的业务理念,但是当企业AI团队发现自己没有足够多的数据时,就会慢慢变得十分沮丧......不过,这个问题的解决方案还是有的。 本文将简要介绍其中一些经笔者实践证明确实有效的办法。

    谢涛 · 2019-06-28 16:580
  • 数据科学家都应该知道的5个统计学知识

    数据科学实际上可以定义为我们从数据中获取额外信息的一个过程,在做数据科学时,我们真正想要做的其实就是解释除了数字之外,所有数据在现实世界中的实际含义。

    谢涛 · 2019-06-26 16:480
  • 张翼:Spark SQL在携程的实践经验分享!

    之前,大多数公司大数据的数仓都是构建在Hive上的,数据开发的ETL任务以及用户对于数据的即时查询主要使用的工具也是Hive,随着Spark以及其社区的不断发展,Spark及Spark SQL本身技术的不断成熟,Spark在技术架构和性能上都展示出Hive无法比拟的优势,如何使用Spark构建大数据的数仓?如何将现有的数仓平台从Hive转到Spark上?

    赵钰莹 · 2018-11-29 09:170