- 案例|金融领域七大数据科学应用实践案例
近年来,数据科学和机器学习应对一系列主要金融任务的能力已成为一个特别重要的问题。 公司希望知道更多技术带来的改进以及他们如何重塑业务战略。为了帮助您回答这些问题,我们准备了一份对金融行业影响最大的数据科学应用清单。 它们涵盖了从数据管理到交易策略的各种业务方面,但它们的共同点是增强金融解决方案的巨大前景。
赵钰莹 · 2018-05-25 11:35 - 从研发到落地,细数微软与ROOBO这场AI合作!
近日,微软在自家人工智能大会上宣布的18项核心技术持续刷屏,不少人可能还没从微软Build 2018开发者大会的余温中缓过来,紧接着又陷入“18项核心技术”的研究。自拥抱开源以来,微软变得越来越开放,无论是对开发者还是合作伙伴。一贯从不预先宣布产品,但峰会的研究演示进行了一上午,期间穿插着多位合作伙伴的落地产品分享,ROOBO就是其中一位。
赵钰莹 · 2018-05-24 16:02 - Accordion:HBase “呼吸式”内存压缩算法
现今,HBase 所支持的现代产品对Hbase读写性能的期望越来越高。理想情况下,HBase 也希望在保证其可靠的持久存储的前提下能同时享有内存数据库的速度。社区的贡献者在HBase 2.0中引入了一种名为Accordion的新算法,这促使Hbase又朝着其理想的目标迈出了重要的一步。
赵钰莹 · 2018-05-24 11:28 - 大数据分析,你不能不懂的6个核心技术!
目前,大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。
赵钰莹 · 2018-05-24 11:22 - 42年数据分析,Teradata这次关键字是"任意"?
如果一家企业经历了信息化时代、互联网时代到数字化时代的变迁,那么这家企业很可能被打上“传统”的标签,如果这家企业几十年一直在做一件事情,那么被贴标签的概率就可能翻倍。越是几十年专注某一领域的大企业,其努力和创新越容易被忽略,就好比当Teradata天睿公司连续16年入选Gartner分析型数据管理解决方案魔力象限领导者象限的消息公布后,不少人的第一反应是“嗯!老样子!”,却没有观察到Teradata早已旧貌换新颜。
赵钰莹 · 2018-05-23 21:39 - 国外电商巨头:亚马逊如何塑造大数据环境
如果有一个电子商务平台一直是大数据的试验场所,那么它就是亚马逊。这是一家众所周知的公司,不仅仅是一个在线商家。还是一家大数据行业巨头和先驱,擅长寻找将客户数据与业务主动性联系起来的方法。
赵钰莹 · 2018-05-23 10:11 - 新手速读:你想知道的大数据知识都在这
毋庸置疑,现如今是属于大数据(Big Data)的,革命性的时代。从社交媒体到企业,每时每刻都在产生大量的数据。无所作为,从而把这样的宝藏白白浪费掉是及其愚蠢的。企业已经学会了收集大数据以获取更高的利润,并提供更好的服务以及更深入地了解其目标客户。
赵钰莹 · 2018-05-23 10:05 - 专访新数科技王伟斌:AI时代,DBA的定位是啥?
对于创业,不少人都有想法,却没几个可以走到最后。有人喜欢在风口创业,有人认为做自己就好,新数科技属于后者,但数据库显然依旧是个热门领域。在第九届中国数据库技术大会的现场,我们可以发现不少云计算厂商和硬件厂商在聊做数据库的新思路,创业公司在谈对数据库的新看法,老牌数据库厂商在讲创新......
赵钰莹 · 2018-05-22 17:28 - 写好一份数据分析报告需要注意的13个要点
先说说写一份好的数据分析报告的重要性,很简单,因为分析报告的输出是是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了。
赵钰莹 · 2018-05-22 15:42 - spark的分布式存储系统BlockManager介绍
BlockManager是spark 中至关重要的一个组件, 在spark的的运行过程中到处都有BlockManager的身影, 只有搞清楚BlockManager的原理和机制,你才能更加深入的理解spark。 今天我们来揭开BlockaManager的底层原理和设计思路。
赵钰莹 · 2018-05-22 15:26 - 基于Hadoop大数据平台实施整体架构设计
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,但是您至少要保持清醒的头脑,认真仔细的慎问一下自己,我们公司真的需要大数据吗?
赵钰莹 · 2018-05-21 17:00 - 如何对抗大数据杀熟?数据分析师教你反套路
“大数据杀熟”成为热点话题已经一段时间了,为大家科普原理和揭秘本质的文章也数不胜数。然而,相比起“大数据杀熟”背后的策略和原理,我想大家可能更关心的是——我该怎么做,才能避免被“大数据杀熟”。
赵钰莹 · 2018-05-20 19:34 - 下一代大数据即时分析架构——IOTA架构
经过这么多年的发展,已经从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。
赵钰莹 · 2018-05-18 11:02 - HIVE和HBASE之间,主要的区别是什么?
Apache Hive是一个构建在hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询–因为它只能够在Haoop上批量的执行Hadoop。
赵钰莹 · 2018-05-18 10:32 - 现代ETL工具与传统解决方案清单附对比
通常,企业在知晓编写代码和构建内部解决方案所需的成本和复杂性之后,首先会意识到对ETL工具的需求。提取,转换和加载(ETL)工具使企业能够在不同的数据系统中访问有意义且可用的数据。企业也可尝试组装开源ETL工具。有时,这种方法更节省成本,同时可自定义需要的功能,提供更多灵活性和支持。但是,如果企业内部不具备相关技术人才,选择商用解决方案可以免去很多麻烦,也可以获得更好的服务。
赵钰莹 · 2018-05-17 17:30 - 清华大学张长水教授:机器学习和图像识别
大家好,我来自清华大学自动化系,主要做机器学习和图像识别的研究。现在人工智能很流行,机器学习也推到风口浪尖上,图像识别已经变成产品,新闻媒体告诉我们AlphaGo、AlphaGo zero已经战胜了人类、皮肤癌的识别超过了大夫、无人车已经上路测试,很快要量产。这些新闻仿佛告诉我们,图像识别的问题已经解决了,然而很多高科技做图像识别公司都还在高薪聘用掌握机器学习的人才。图像识别问题解决了吗?我们看看现在图像识别还有些什
赵钰莹 · 2018-05-16 09:42 - 一文搞定数据科学和机器学习的最常见面试题
过去的几个月中,我参加了一些公司数据科学、机器学习等方向初级岗位的面试。我面试的这些岗位和数据科学、常规机器学习还有专业的自然语言处理、计算机视觉相关。我参加了亚马逊、三星、优步、华为等大公司的面试,除此之外还有一些初创公司的面试。这些初创公司有些处于启动阶段,也有些已经成型并得到投资。
赵钰莹 · 2018-05-15 09:27 - 报告:连续六年调研大企业数据变革,结果如何
大型企业到底如何看待数据及数据驱动?从热潮到落地,大数据的力量有无受到区块链、人工智能等新浪潮的冲击?在清华数据科学研究院联合大数据文摘发布的《顶级数据团队建设报告》中提到,数据化转型更多是一个至上而下的过程,企业高管对待数据的态度,对于一家公司的数据驱动文化建立至关重要。
赵钰莹 · 2018-05-08 08:37 - Hadoop 3.0版本测试,终将计算与存储解耦!
传统的Hadoop架构是建立在相信通过大规模分布式数据处理获得良好性能的唯一途径是将计算带入数据。在本世纪初,这确实是事实。当时,典型的企业数据中心的网络基础架构不能完成在服务器之间移动大量数据的任务,数据必须与计算机共存。
赵钰莹 · 2018-05-07 16:24 - 预警:黑客利用Hadoop Yarn未授权访问漏洞
4月30日,阿里云发现,俄罗斯黑客利用Hadoop Yarn资源管理系统REST API未授权访问漏洞进行攻击。Hadoop是一款由Apache基金会推出的分布式系统框架,它通过著名的 MapReduce 算法进行分布式处理,Yarn是Hadoop集群的资源管理系统。
赵钰莹 · 2018-05-07 08:57