- 用Python写一个小白也能懂的分布式知乎爬虫
很早就有采集知乎用户数据的想法,要实现这个想法,需要写一个网络爬虫(Web Spider)。因为在学习 python,正好 python 写爬虫也是极好的选择,于是就写了一个基于 python 的网络爬虫。
赵钰莹 · 2018-05-04 11:09 - 抛开Hadoop生死论,我们可以聊聊生态演进!
2017年,Gartner的一份《2017年数据管理技术成熟度曲线》报告极其明显得标识出Hadoop即将进入衰落席。对此,IT168走访了国内一系列大数据厂商,在过去几个月,我们共同探讨了Gartner提出该观点的依据、用户对Hadoop生死存亡言论的看法、Hadoop生态中各大组件的生命力以及其他可能替代品的发展现状,并且调研了Hadoop生态体系在国内数十家一线互联网公司及大数据厂商内部的应用现状。
赵钰莹 · 2018-05-03 10:34 - 现实版"盗梦空间":MIT研究出"梦境控制系统"
盗梦空间中的造梦场景或许不再只是科幻电影的内容了。麻省理工学院硕士生Adam Horowitz领导的一个研究小组刚刚发布了一个“梦境控制系统”。通常,在我们进入深度睡眠的过程中,总有几分钟处在半睡半醒,迷迷糊糊的状态。这种半睡半醒的状态我们称之为临睡幻觉。我们可能会在这个过程中体验到微梦,但这些微梦的内容似乎是随机的,当我们醒来时,我们通常对它们没有任何记忆。
赵钰莹 · 2018-05-03 10:01 - 全方位搜集汪星人数据|华盛顿大学最新研究
波士顿动力的网红机器狗不仅能稳步行走,还能送快递,但是科学家们对狗和AI的畅想远不止于此。华盛顿大学与艾伦人工智能研究所的答案是,记录一只汪星人在各种环境中行走、取物,在狗公园玩耍、吃东西的数据,将狗的动作和到所看到的东西同步,然后形成一个“汪星人”行为数据集,并用它来培训新的AI模拟器。
赵钰莹 · 2018-05-03 09:56 - HBase运维基础——元数据逆向修复原理
鉴于上次一篇文章——“云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据”的读者反馈,对HBase的逆向工程比较感兴趣,并咨询如何使用相应工具进行运维等等。总的来说,就是想更深层理解HBase运维原理,提高运维HBase生产环境的能力,应对各种常见异常现象。不同的读者对hbase的了解程度不同,本文不打算着重编写一个工具怎么使用,而是从HBase的运维基础知识介绍开始讲解。为了能帮助大部分读者提高HBase运维能力。
赵钰莹 · 2018-05-02 16:54 - RNN和LSTM弱爆了!注意力模型才是王道!
循环神经网络(RNN),长短期记忆(LSTM),这些红得发紫的神经网络——是时候抛弃它们了!LSTM和RNN被发明于上世纪80、90年代,于2014年死而复生。接下来的几年里,它们成为了解决序列学习、序列转换(seq2seq)的方式,这也使得语音到文本识别和Siri、Cortana、Google语音助理、Alexa的能力得到惊人的提升。
赵钰莹 · 2018-05-02 16:36 - 程序员遇代码失误:不要急着给失败下定义!
作为专业人士,我们需要做的第一件事就是认清我们做错了什么。在一些特殊情况下,没有人运维系统的某一部分,结果就导致发生重大事件时,我们无法立即解决。解决这类问题理论上很容易,比如及时的信息反馈,尽量不要孤立自己,尝试着与他人沟通,并且始终牢记代码是人与人之间沟通的桥梁。然而实际上却很少有人这样做,这就是为什么试图让专业的人员去做专业的事情。
赵钰莹 · 2018-05-02 16:27 - 微软小冰“有情商”级别语音智能如何评判?
从Siri问世时语音交互产品的可有可无,再到现在语音交互成为某些场景下的刚需,众多大厂的布局都在宣告着iOT时代的到来。我们见识过各种各样的智能语音产品,主要分为三种类型:知识型、任务型和问答型。任务型似乎是目前发展最好的,微软小冰就是一个例子,当然,微软小冰不见得仅局限于任务型。
赵钰莹 · 2018-05-02 09:08 - 走访Hadoop发行商:Gartner看衰论断如何理解
2013年,Gartner研究总监Svetlana Sicular在其博客发表了一篇题为“大数据光环的幻灭”的文章,暗指Hadoop即将过时,大数据泡沫即将随着用户失败案例的增多而破裂。
赵钰莹 · 2018-04-28 15:40 - 走心:1.4亿用户,知乎如何用AI管理庞大平台!
当平台成长到一定程度,内容监管就变得难上加难。电商平台扩大,商品监管成为无法有效解决的难题;内容分享平台扩大,内容质量监管成为难题。2018年以来,我们已经看到多家社交媒体、内容分享平台爆出整顿消息,且出现了永久封站的情况。与动物相比,人类的聪明之处在于会发明并利用工具解决问题,我们知道可以利用AI技术解决这些问题,却不知道应该怎么用。
赵钰莹 · 2018-04-28 12:03 - Hadoop或衰落,但核心组件生命力旺盛!
关于Hadoop生死的讨论已经进入后半场,KPI当前,企业继续专注自己的业务发展,厂商继续包装自己的产品,重心都不再是Hadoop的命运走向。在这之中,我们可能忽略了一些问题,比如Hadoop核心组件与边缘组件的边界正在变得越来越清晰;Spark、Flink正在逐渐成长,生态渐渐庞大;可供选择的组件越来越多,企业对于如何选择毫无头绪。
赵钰莹 · 2018-04-28 10:22 - 观点:Gartner只是否定Hadoop一体化平台模式
国内很多人对Hadoop失宠的言论都不屑一顾,认为无非是常规的厂商运作和技术炒作。开篇,我们有必要了解一下整个事件导火索的这篇Gartner报告——《2017年数据管理技术成熟度曲线》,这篇报告指出Hadoop整个堆栈的复杂性与可用性导致企业重新考虑是否将其纳入基础架构规划中,Hadoop可能在到达“生产成熟期”之前就会过时。到2018年,70%%的Hadoop部署无法实现节约成本和收入增长的目标。
赵钰莹 · 2018-04-23 09:16 - 大数据基础软件厂商请小心“开源”陷阱!
从最初的被禁发酵至如今的生死存亡大讨论,中兴事件值得我们反思和有所行动。这个问题是具备普遍性的,中兴不是第一家,也不会是最后一家,因此需要引起更深层次的思考以及全行业的投入。不仅是硬件问题,此次被禁售的还有部分软件,开源软件同样面临授权问题,无法掌握这些领域的自主知识掌权始终是悬在国产软件厂商头顶的达摩克利斯之剑。
赵钰莹 · 2018-04-23 09:03 - 这些平台可让程序员免费获得语音开发能力!
在互联网公司强势入局语音智能领域之后,面对众多语音智能开放平台,国内的语音识别大厂,比如科大讯飞、思必驰、云知声.....也只好走上开放之路,相比于互联网公司多年的技术积累,这些语音识别技术大厂又有哪些必杀技呢?在免费、开放的条件下,开发者如何选择合适的平台添加语音能力到自己的产品中呢?
赵钰莹 · 2018-04-21 15:59 - 机器学习工程师面试题集锦附指南:互联网篇
机器学习工程师是现在的热门职位,因为其极高的薪资成为很多技术人的晋升目标。本文总结了部分一线互联网公司机器学习工程师的面试题及面试指南,希望对各位技术人员的进阶之路有所帮助。
赵钰莹 · 2018-04-21 15:55 - 2018 企业CIO最关注的九大云数据管理问题
数字经济、数字化转型已经成为席卷全球的新趋势,每个人、每个企业都将裹挟在其中。而数据既是数字经济的核心,也是数字化转型的基石,数字化转型开始之前,都要从数据着手。
覃里 · 2018-04-20 12:12 - 语音智能开放平台大调研:互联网公司篇
人工智能的爆发同样带火了语音智能,作为人工智能的重要入口,语音识别也变得越来越重要。国内有京东与科大讯飞合作的叮咚,国际上有亚马逊主推的明星产品Echo,再到谷歌Master和百度小度的大战,这都在提醒我们越来越多的互联网公司准备开辟这一领域,越来越多的语音技术大厂正在迅速成长。
赵钰莹 · 2018-04-14 15:39 - 大数据工程师面试题集锦:互联网公司篇!
大数据工程师是近几年异常火爆的职位,市场需求旺盛,众多互联网公司都打出了高薪招聘的广告,本文整理了网络上部分技术人员分享的各大互联网公司大数据类(Hadoop、Spark等)面试题以及面试时需要注意的一些问题,希望对各位技术人员有所帮助。
赵钰莹 · 2018-04-14 15:32 - Hadoop将死?Cloudera CEO怒怼Gartner
大数据已经过了炒作阶段,但即使是现在,提到大数据很多人首先会想到hadoop,但最近多份分析报告和趋势预测的文章所传递出的声音,让Hadoop再度成为了争议的焦点。
覃里 · 2018-04-04 12:48 - 传统企业的逆袭,谁是“数据主场”的王者?
在IBM最新发布的《2017全球高管调研报告》显示,在行业中深耕的企业正在苏醒,强势逆袭并捍卫自己的市场地位和价值。IBM全球企业咨询服务部大中华区总经理麦俊彦表示,“新的报告显示,大多数行业高管不再焦虑苹果、谷歌、阿里巴巴、亚马逊等数字化巨头改变他们的主场,反而信心满满的认为自身在驱动本行业的变革。”
陈毅东 · 2018-04-02 13:32