大数据 频道
  • 弄啥嘞?Spark将纳入机器学习与GPU

    现在所有人的注意力都集中在人工智能上,似乎VR的火热带动了人工智能的发展。最近对全球大学人工智能教育的排名中,中国暂无高校上榜。相比于国际上各大高校实验室的火热,国内高校的动作似乎有些偏慢了。就好比加州大学伯克利分校AMP实验室所开源的Hadoop MapReduce通用并行框架Spark,在开源社区的贡献下,势头只增不减。近日,据外媒报道,Spark将纳入机器学习和GPU机制。

    覃里 · 2016-11-01 15:10
  • 姨搜侯松:信贷场景全流程数据风控体系

    初听“姨搜”这个名词,很难将它和技术联系在一起,宜信是P2P金融公司,而姨搜则是为整个宜信公司提供风控数据服务和模型服务的。对于信贷产品的组成,大多数可能都不够了解,上到产品业务本身,下到具体技术实践,核心是预测模型构建。对于大家可能一直不太了解或者忽略了的信贷行业,侯松分享了他对信贷场景数据风控体系的理解。

    覃里 · 2016-10-28 17:45
  • 华为陈亮:大数据即席查询秒级响应实现

    目前已入驻Apache孵化器的Apache CarbonData,是华为开源的数据分析工具。难道没有可供选择的数据存储分析工具吗?华为开发这样一款工具背后有哪些苦衷呢?为什么选择开源呢?这些问题激起了我浓厚的兴趣,华为大数据开源开发部Leader陈亮分享了Apache CarbonData的心路历程。

    覃里 · 2016-10-28 17:45
  • 搜狗杨剑飞:大数据平台的实践及思考

    大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。转型往往是应需求而生,数据平台架构设计又面对着哪些痛点呢?数据孤岛现象严重、数据质量参差不齐、数据分析时效性不强......,痛点多,槽点多的数据平台架构设计实践的探索就显得更有价值。有挑战往往更容易激起兴致,搜狗杨剑飞以挑战开篇,结合搜狗商业平台中大数据系统建设及维护治理方面的应用实践进行了数据平台实践方面的分享。

    覃里 · 2016-10-28 17:44
  • 解救选择困难,Hadoop在线分析处理选型

    数据分析市场从来都很活跃,就好像随时随地都会诞生无数的新工具新技术新框架一样,其实无非就两种,充满了大鱼吃小鱼故事的商业软件市场和开源数据处理软件。在互联网精神和开源情怀的引导下,各种专业领域的开源软件日益壮大。百花齐放的情况下,到底要如何选择呢?

    覃里 · 2016-10-26 18:08
  • MemSQL情绪分析,为总统大选操碎了心

     MemSQL诞生时最大的标签便是其号称是“世界上最快的分布式关系型数据库”。MemSQL也是继SAP、Oracle、IBM、微软之后第5家同时进入Gartner分析型和操作型数据库魔力象限的公司。这在当时引起不小骚动。根据Gartner发布的2016年数据仓库和数据管理解决方案关键能力报告,MemSQL位列操作系统数据仓库用例榜首,这在很大程度上基于其对连续数据加载和操作型BI查询用例的贡献。

    覃里 · 2016-10-25 11:05
  • Spark与Hadoop两大技术趋势解析

    开源数据集如今深受开发者喜爱,比如谷歌的Images dataset数据集,YouTube-8M数据集等。通过对数据集里的数据进行分析,可以发现许多隐藏信息,比如客户喜好、未知相关性,市场趋势以及其他有用的商业信息。大数据分析对企业降低成本,准确掌握市场趋势,更快完成产品迭代十分有用。说到大数据分析,16年基本被Spark与Hadoop霸屏,到底是什么样的魔力让它们足以引起大数据世界的波动,未来又会如何发展呢?

    覃里 · 2016-10-24 14:44
  • 难道人工智能要被它们垄断了吗?

    近期的Gartner报告列出了未来5年拥有显著颠覆潜力的技术,人工智能便位列其中。Gartner Research的副总裁兼资深研究员卡利指出,应用AI和高级机器学习可帮助促使许多设备或服务产生智能,包括物理设备(机器人、自主车辆、消费电子产品)、应用以及服务(虚拟个人助理、智能顾问)。这些技术可促使大批新的智能应用和设备诞生,同时为更广泛的设备、现存软件和服务解决方案提供嵌入式智能支持。

    覃里 · 2016-10-20 15:31
  • 在数据里忘记思考,拿什么度过资本寒冬

    走多远取决于你对市场的破坏力,走多快取决于你的增长策略和创造力,要么像大公司一样任性烧钱,要么就花几分钟读一下这篇文章吧。前段时间在一家创业公司的融资发布会上,有幸听到了被誉为“投资女王”徐新的一段演讲,她提到,这个冬天真的很寒冷,冬天来的时候,活下来就是好样的。

    覃里 · 2016-10-19 16:03
  • 从DB-Engines看传统数据库生存状况

    上下班路上,随手打开各类新闻客户端,就可能在新闻列表中看到推荐广告,打开邮箱阅读电子邮件时,页面上可能就会显示内容相关的广告。近几年,各大网站也热衷于盘点各类数据,从中可以发现不少有趣的现象,比如迅雷的年度下载盘点,可以在一定程度上反映出各地的网速水平。

    覃里 · 2016-10-19 00:00
  • 大显身手or过度神话?八卦黄金周大数据

    面对大数据,我们要保持冷静,不能神话大数据。大数据不是万能的,它只是基于现实数据进行的分析,可以供参考,但参考价值不该被无限放大。总之,大数据应用只是工具,可用不可尽信。

    杨璐 · 2016-10-12 00:00
  • 大数据新应用"靠谱商":破开店选址难题

    北京这么大,如果想在北京开一家咖啡馆,开在哪里好?相信是不少想做生意人的共同烦恼,不同地段、租金、客流、周边人群的消费诉求与消费能力都不尽相同,仅靠碰运气开店显然失败的概率要高于成功的可能。

    覃里 · 2016-09-29 15:05
  • 包勇军:京东广告推荐机器学习系统实践

    大数据背景下的推荐系统以及机器学习是个很有前途很吸引人的技术方向,各种算法研究成果层出不穷,不过亮丽的算法表面之下,在系统实现层面,或许由于太过于个例化,太过于经验主义,很少谈及而经常被人忽视。本演讲,结合京东广告推荐机器学习平台的算法和架构的演化过程,分享下我们踩过的陷阱和我们的最佳实践,以供参考。

    覃里 · 2016-09-13 09:04
  • 孙玄:MongoDB在58同城的应用实践

    2011年,我们开始使用MongoDB,逐步覆盖了58同城、赶集网、58英才等多条业务 线。随着每天数据量和请求并发越来越大,为MongoDB在存储与处理方面带来了诸多的挑战。面对百亿量级的数据,我们该如何存储与处理。本文将详细讲述MongoDB在58同城的应用实践:MongoDB在58同城的使用情况,为什么要使用MongoDB;MongoDB在58同城的架构设计与实践,针对业务场景我们在MongoDB中如何设计库和表。

    覃里 · 2016-09-10 00:00
  • 大数据有“钱途”,2016累计创收460亿

    大数据被唱了这么多年,变现能力到底如何?近日,据外媒报道,2016年大数据通过变现,累计创收460亿美元,尽管460亿是非常可观的数字,但各企业对大数据的接受程度仍处于早期阶段。不过,随着大数据的不断发展,这一现状终会被改变。

    覃里 · 2016-09-08 00:00
  • 慧骋董事总经理王佳:服务用户真正需求

    信息技术发展到今天,其核心就是数据化。现在大数据行业整体火热,数据公司也越来越多。一个“技术担当”团队在去年年初成立了这家公司,短短一年多发展极快,他们的解决方案已经推进到很多个跨国企业当中,在他们各个不同决策中起到了特别的作用。是什么让这个默默无闻的数据公司发展神速?这个团队又有怎样的技术?未来他们会发挥怎样的作用?带着这些问题,笔者采访了这家公司的创始人...

    杨璐 · 2016-09-02 00:00
  • 大数据怎么玩?盘点10大天然大数据公司

    谷歌、亚马逊、BAT,拥有大量的用户注册和运营信息,成为天然的大数据公司。这些天然的大数据公司,通过对用户信息的大数据分析,基本解决自己公司的精准营销和个性化广告推介等问题,基本上做到了数据驱动运营。很多传统企业也是天然的大数据公司,比如沃尔玛、中国移动等,也在追赶大数据前进的步伐,在挖掘数据价值方面,尽力修炼“独门武功”。小编通过网络收集整理了部分天然大数据公司,看他们如何挖掘数据价值。

    杨璐 · 2016-09-01 00:00
  • 流数据平台的5个核心属性

    大数据中蕴含的信息能够帮助企业以更广的视角来洞察数据,提升企业的决策力。数据驱动型的企业也如雨后春笋般冒出,但是数据驱动型企业看似前景光明,其实面临着很多挑战。随着数据类型的多样化,数据驱动型企业必须考虑很多新的数据源,比如移动应用程序、全球网站、物联网的传感器信息等等。这些新的数据源就要求技术人员要熟悉了解流数据平台。

    田晓旭 · 2016-08-31 15:56
  • 京东田琪:分布式KV数据库一致性挑战

    随着互联网业务的蓬勃发展,单机数据库早已无法满足高并发海量数据业务场景的需求,在此背景下诞生了众多分布式NoSQL及分布式数据库中间件等系统,来 满足业务数据拆分,无缝扩容的需求,但是无论是数据库中间件系统还是分布式NoSQL系统均存在很多限制,如何突破这些限制以及在此过程中所面临 的技术挑战都有哪些,为什么spanner等论文已经出现了很多年但是目前业界仍鲜有相关稳定或可靠的开源系统出现。

    覃里 · 2016-08-31 00:00
  • 刘世勇:链家MySQL高可用架构设计

    对常用的MHA+VIP mysql高可用架构进行改造和优化。利用zookeeper提供命名服务(name service),MHA进行主从切换时发布变更消息,应用服务器实时订阅变更消息,更新本地命名映射,实现mysql高可用的目的。适合专场:数据库架构设计、数据库自动运维、我的DBA之路

    覃里 · 2016-08-24 00:00