- 李东军:商业语义原生广告核心技术
在广告日志系统设计方面,可通过展现日志、点击日志、第三方数据到法计算层面,CTR评估商业行为分析,从而完成监控、报表、线上服务等。 目前,利用机器学习来实现商业价值分析,不需要开发复杂的匹配规则,模型更加柔和。但效果非常依赖特征工程的质量,需要非常多的特征工程经验,需要的是大量的标注数据。
朱立娜 · 2017-05-17 16:27 - 李翔:魅族广告平台算法与模型解析
李翔表示,互联网广告是大多数互联网公司最大的收益来源,其核心算法就是关于CTR的预测,由于预测模型涉及的训练样本非常大,需要采用较快的模型,LR作为一个线性模型,它的易分布处理和可解释性使其非常适合这个问题的场景,但由于它的学习能力比较有限,需要做的特征工程就显得尤其重要,通过降维、组合、选择等多个处理方式使得模型可以得到充分的训练,从而预估出较为合理和准确的CTR,帮助公司的广告业务带来尽可能多的营收。
朱立娜 · 2017-05-16 10:08 - 360数据中心傅志华:数据实施的三大误区
人类对自然的探索起源于某一个不再畏惧火焰的原始人,但未来的终点会停留在哪里,恕我直言,恐怕那是上帝也曾不知道的秘密。所以,任何一个当下,都是承上启下的当下,我们每一位数据人,都是开启未来大门的人。
覃里 · 2017-05-16 09:01 - 百度、苏宁、链家、微软机器学习对比
机器学习的概念炒作时期显然已经过去了,现在该进入实践阶段了。DTCC大会的第二天下午,来自百度、苏宁、链家、微软机器学习相关领域的技术人员分享了各自在机器学习方面的进展。
覃里 · 2017-05-14 11:21 - 企业出现频率最高的问题,你中招了吗?
每家企业的成长都历经磨练,踩过很多坑,走过很多弯路,在摸爬滚打中总结经验,战战兢兢地前进。在DTCC大会即将召开之际,笔者有幸采访到了一位云端数据仓库领域的创业者——简丽荣,凭借着在行业内的多年打拼和为企业提供数据技术服务的经验,他提出了企业大数据分析方面出现频率最高的三大类问题,你中招了吗?
覃里 · 2017-05-08 16:22 - 星环站队"BAT"获腾讯领投2.35亿C轮融资
5月4日, 大数据公司星环科技(以下简称:星环)在上海宣布,完成 2.35 亿元人民币C 轮融资,本轮融资由腾讯公司领投,前海勤智、基石资本和兴瑞智新跟投。
覃里 · 2017-05-05 09:19 - Hadoop没有消亡,它是大数据的未来
人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章《为什么 Hadoop 正在消亡?(Why Hadoop is Failing)》的观点,他在自己的博客上写了一篇论述自己看法的文章,他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台。
覃里 · 2017-05-04 09:20 - Python 是慢,但我无所谓
让我从关于 Python 中的 asyncio 这个标准库的讨论中休息一会,谈谈我最近正在思考的一些东西:Python 的速度。对不了解我的人说明一下,我是一个 Python 的粉丝,而且我在我能想到的所有地方都积极地使用 Python。人们对 Python 最大的抱怨之一就是它的速度比较慢,有些人甚至拒绝尝试使用 Python,因为它比其他语言速度慢。这里说说为什么我认为应该尝试使用 Python,尽管它是有点慢。
覃里 · 2017-05-02 09:43 - 复杂网络分析之数据准备篇
我给大家编了下面两组原始数据,试图画出abcd四元素之间的关系nodes_data = [‘a’, ‘b’, ‘c’, ‘d’]raw_data = [‘acW’, ‘aca’, ‘caE’, ‘ec’, ‘cd’, ‘dc’]我们做关系网络前的最初始数据最好就是上面这样子,这种数据格式还是比较简单的。
覃里 · 2017-05-02 09:38 - 人工智能能做什么?三个酷炫用例告诉你
AI其实就在我们身边,静静地在后台工作或者通过多种设备与我们互动。很多行业正在使用AI完成不同的目标,例如确保航班准时到达或者更科学的灌溉田地。随着时间的推移,我们与AI的互动变得越来越先进,也许在不久的将来,个人数字助理会比我们更了解自己。下面我们就来看看AI到底有哪些酷炫的用例。
田晓旭 · 2017-05-01 09:40 - Caffe2:移动计算的深度学习框架
Caffe2是Facebook新的开源深度学习框架。与之前的PyTorch不同,Caffe2专门用于将深度学习移植到移动应用程序中,这将会让智能手机更“深入”、更智能!
覃里 · 2017-04-27 17:37 - 如何利用数据仓库优化数据分析?
在整个数据分析流程中,数据处理的时间往往要占据70%%以上!这个数字有没有让你震惊呢?为了提高分析效率和质量,借用数据仓库进行数据分析是一个很好的选择,详细的工作方法本文都有所介绍。
覃里 · 2017-04-24 09:03 - Garnter:自建大数据安全分析平台恐失败
就在2017年4月11日,Gartner的著名分析师Anton Chuvakin在其Gartner官方博客上称“企业和组织如果打算自建安全数据湖或者定制自己的大数据安全分工具的话,那么基本上肯定会失败”!
覃里 · 2017-04-19 09:19 - 本来生活范学蠡:对大数据从业者的建议
不知道有多少人和笔者一样,对本来生活网的最初认知是从朋友圈开始的。有那么一段时间,朋友圈里经常看到好友分享的团购信息,诱惑实在太大,我经常也会忍不住参团。本期的采访嘉宾是未来生活网的范学蠡,不过他今天不是和大家分享团购攻略,而是正经聊聊大数据领域的相关技术,他见证了本来生活网的数据仓库从SQL Server到Hadoop生态的演变,他在这方面绝对有话语权。
覃里 · 2017-04-19 09:09 - 一张图帮助你从程序员晋升为数据科学家
前段时间,Opensource.com进行了一项“最好的初学者编程语言投票活动”,我们也对此进行了报道(具体内容请戳:最受初学者青睐的编程语言是Python?),调查结果显示Python是最受初学者欢迎的编程语言,甚至Python已经成为了入门级计算机科学课程的首选语言。
田晓旭 · 2017-04-10 15:20