大数据 频道
  • 从现在式和未来式看百分点这“5亿”融资始末!

    只看当下,一家企业或许很容易找到一条生存之路。如果看未来,一家企业希望3年后、5年后甚至10年后都有生意可做,要怎么选呢?如果既希望有生意可做,又希望做得好并在行业内达到一定高度,又应该将精力投向何处呢?近日,百分点正式宣布完成由中央企业发起设立的市场化基金领投的5亿人民币E轮融资,从现在式和未来式两大视角来看,百分点为什么能拿到这笔钱?又会将这笔钱砸向何处呢?

    赵钰莹 · 2018-12-10 17:43
  • 李亚坤:Hadoop YARN在字节跳动的实践

    字节跳动公司的今日头条、抖音短视频、火山小视频、西瓜视频等一系列产品,在最近几年内数据量一直呈现出爆炸性增长趋势,数据基础架构部门在离线计算、流式计算等多个方向上遭遇到了一系列前所未有的挑战。本次演讲主要介绍从0到4万+计算结点的YARN集群管理,以及在调度优化、流式作业支持等多个方面的经验分享。

    赵钰莹 · 2018-11-26 09:34
  • 程序员必看!2019年需求最高的TOP 10项技能!

    对于希望充分利用数据的企业而言,掌握数据挖掘和处理相关技能的人才需求仍然很高,DevOps工程师、Python程序员、数据工程师和机器学习工程师已经成为企业的核心技术人才。本文,我们列出了IT专业人员在人才竞争中必须具备的十大关键技能,这也是2019年技术人员需要掌握的关键技能。虽然新技术和工具在人工智能和分析领域不断涌现,但开发人员必须对这些工具有广泛的了解。

    赵钰莹 · 2018-11-19 09:12
  • 预测!未来五年,北美将依旧占据大数据领域主导地位!

    提到大数据,我们一定绕不开Hadoop,甚至在某种程度上,Hadoop的部署情况可以代表大数据的部分发展现状。Hadoop是一种基于Java的编程结构,用于在分布式计算环境中处理和存储大型数据集。Hadoop是一种分布式处理技术,可提供强大的数据存储能力,并处理数千TB的数据并在节点之间快速传输。Hadoop广泛用于大数据分析领域,包括科学分析,业务系统开发以及数据处理。

    赵钰莹 · 2018-11-14 08:57
  • 恶意软件日均进攻百万次!三大方法保护Hadoop集群免遭攻击!

    大约在两年前,开源数据库解决方案MongoDB以及Hadoop曾遭受过大量恶意攻击,这些攻击后被统称为“勒索软件”,因为其攻击者会擦除或加密数据,然后向被攻击者索要资金以恢复数据。自今年以来,不少恶意软件开始频繁向Hadoop集群服务器下手,受影响最大的莫过于连接到互联网且没有启用安全防护的Hadoop集群。

    赵钰莹 · 2018-11-12 09:44
  • AI视频,全域智达!InMobi发布视频4.0品牌广告解决方案

    近日,全球性的独立移动广告平台InMobi在北京举行了“AI视频 全域智达“2018品牌新品发布会,推出了以人工智能为基础的重磅产品:InMobi视频4.0品牌广告解决方案,并就移动优先、大数据及人工智能浪潮下视频广告未来如何发展、AI如何改变移动营销以及如何再造媒介营销、人工智能在移动广告领域的技术应用和全球品牌移动营销最新趋势等话题,进行了深入的探讨。

    赵钰莹 · 2018-11-08 09:50
  • 企业大数据平台MapReduce应用之Join实践!

    在《Hadoop从入门到精通》大型专题的上半部分(专题链接见文末),我们讲解了Hadoop基本原理并且知道如何在Hadoop中组织、移动和存储数据。接下来,我们将探讨如何简化企业大数据技术应用。本章主要研究大数据模式,针对优化MapReduce操作技术,例如对大型数据集进行连接和排序,这些技术将让任务运行更快,并允许更有效地使用计算资源。

    赵钰莹 · 2018-11-05 10:12
  • 这是目前为止对机器智能与人类智能最深刻的发问!

    一般而言,我们习惯于表述“人工智能”,并不对其概念进行具体细分。人工智能之所以热度居高不下与大众的较高关注度和媒体炒作分不开,而人们往往只关注其表象而忽略了其本质,将机器智能与人类智能混为一谈。近日,香港科技大学教授,国际人工智能协会(AAAI)首位也是至今为止唯一的华人执委杨强教授在「知乎 2018『互联网洞见者』」上发问“机器的智能和人类的智能有什么重要区别?这些区别对于我们培养后代有什么启示?”

    赵钰莹 · 2018-10-30 12:04
  • 全球调研报告显示:企业数据分析技术投资回报比偏低!

    近日,数据智能技术供应商Teradata天睿公司委托独立科技市场调研公司Vanson Bourne面向全球企业高级管理人员开展调研。结果显示,企业在各部门全面使用智能化技术的进程严重受阻。目前,企业不再局限于部署更多分析技术,而是面向未来,转而积极布局智能化技术,但企业分析技术存在复杂性、技术瓶颈、不确定性等问题,使业务与IT决策者越来越失意。

    赵钰莹 · 2018-10-22 16:39
  • 从诞生到成长!数家名企大数据平台应用演进之路解析!

    十余年来,企业架构经过了数次迭代和变迁,ITPUB是这一切的重要见证者,同样陪伴了无数架构师的成长。10月17日,第十届中国系统架构师大会以“十年架构,成长之路”为主题,云集了国内CTO、研发总监、高级系统架构师、开发工程师和IT经理等技术人群,与会规模超千人。本届大会特设四大主线,其中,主线二为基于大数据平台的应用实践,数位技术专家倾囊相授,SACC十年磨砺,涅槃起航!

    赵钰莹 · 2018-10-22 15:37
  • 十年磨一剑!SACC带你领略企业大数据平台实践优化!

    十余年来,企业架构经过了数次迭代和变迁,ITPUB是这一切的重要见证者,同样陪伴了无数架构师的成长。10月17日,第十届中国系统架构师大会以“十年架构,成长之路”为主题,云集了国内CTO、研发总监、高级系统架构师、开发工程师和IT经理等技术人群,与会规模超千人。本届大会特设四大主线,其中,主线二为基于大数据平台的应用实践,数位技术专家倾囊相授,SACC十年磨砺,涅槃起航!

    赵钰莹 · 2018-10-22 15:24
  • 如何将kafka中的数据快速导入Hadoop?

    Kafka是一个分布式发布—订阅系统,由于其强大的分布式和性能特性,迅速成为数据管道的关键部分。它可完成许多工作,例如消息传递、指标收集、流处理和日志聚合。Kafka的另一个有效用途是将数据导入Hadoop。使用Kafka的关键原因是它将数据生产者和消费者分离,允许拥有多个独立的生产者(可能由不同的开发团队编写)。同样,还有多个独立的消费者(也可能由不同的团队编写)。此外,消费者可以是实时/同步或批量/离线/异步。当对比RabbitMQ等其他pub-sub工具时,后一个属性有很大区别。

    赵钰莹 · 2018-10-22 09:52
  • 如何将传统关系数据库的数据导入Hadoop?

    大多数企业的关键数据存在于OLTP数据库中,存储在这些数据库中的数据包含有关用户,产品和其他有用信息。如果要分析此数据,传统方法是定期将该数据复制到OLAP数据仓库中。Hadoop已经出现在这个领域并扮演了两个角色:数据仓库的替代品;结构化、非结构化数据和数据仓库之间的桥梁。图5.8显示了第一个角色,其中Hadoop在将数据导到OLAP系统(BI应用程序的常用平台)之前用作大规模加入和聚合工具。

    赵钰莹 · 2018-10-15 08:29
  • Cloudera和Hortonworks宣布合并:对Hadoop的一记重创!

    国庆期间,大数据领域的两大巨头公司Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收购Hortonworks,Cloudera股东最终获得合并公司60%%的股份。 这笔交易意味着Hadoop市场再也无法维持两大竞争对手对峙的状态了。

    赵钰莹 · 2018-10-11 09:32
  • 如何将数据移入和移出Hadoop?

    企业在项目中完全使用Hadoop之前,数据移动是必须解决的事情之一。如何将数千台主机日志数据放入Hadoop?从关系型或者No/NewSQL系统以及Hadoop中获取数据的最有效方法是什么?如何将Hadoop中生成的Lucene索引输出到服务器?这些流程如何实现自动化?

    赵钰莹 · 2018-10-09 09:32
  • 如何在Hive中进行数据压缩以实现高效存储?

    在上一节,我们介绍了在Hive中组织数据的规则和方法。本节作为《Hadoop从入门到精通》专题的第四章第二节,将主要介绍如何在Hive中进行数据压缩,有哪些可选的数据压缩方法等内容。数据压缩是一种将数据简化为更紧凑形式的机制,以节省存储空间并提高数据传输效率。

    赵钰莹 · 2018-09-30 14:43
  • 企业使用Hadoop的重大挑战:如何在HDFS中组织和使用数据?

    在上一章,我们研究了如何在MapReduce中使用不同的文件格式,以及哪些格式适合存储数据(往期文章请查看文末链接)。一旦熟练掌握了数据格式的概念和使用法则,就该思考如何在HDFS中组织数据了。在设计Hadoop系统时,企业应该尽早了解如何访问数据,以便优化将支持的重要用例,这一点非常重要。

    赵钰莹 · 2018-09-30 14:37
  • 初探:企业数据湖治理最佳实践!

    数据湖正在成为一种越来越可行的解决方案,用于企业从大数据中提取价值,并代表早期大数据采用者合乎逻辑的下一步。这一概念是2011年提出来的,最初的数据湖是对数据仓库的一个补充,主要是为了解决数据仓库开发周期漫长,开发和维护成本较高,细节数据丢失等问题。数据湖大多相对于传统的基于RDBMS的数据仓库,在隔离的逻辑区域中提供结构化、非结构化和历史数据的灵活性,这已经和安全性一起为企业带来了一系列转型的可能。

    赵钰莹 · 2018-09-30 09:28
  • 大数据、物联网、区块链:融合趋势三重奏的好处

    如今,大数据、物联网、区块链三大巨头板块正在改变着世界。随着全球科技的发展,它们逐渐形成了自己独特的个性趋势,搞技术的人几乎没有不认识它们的。那么大数据、物联网和区块链的结合会带来怎样的技术红利?

    刘美利 · 2018-09-27 17:28
  • “我们没有竞争对手”专访Splunk中国区总经理严立忠

    传统的IT选型,企业通常会找三家左右的供应商进行PK,但对Splunk中国客户而言,却并非如此。

    覃里 · 2018-09-27 11:21