一季度大数据热门工具相关事件整理-大数据频道专区

一季度大数据热门工具相关事件整理

作者：崔月编辑：崔月 2016-04-06 00:00 IT168网站原创

　　【IT168 评论】今年一季度，大数据开源圈内最热闹的一件事大概就是Hadoop迎来了它的十岁生日，收到了来自世界各地的各种祝福。Hadoop正式诞生于2006年1月28日，作为一个开源项目的生态系统，它从根本上改变了企业存储、处理和分析数据的方式：Hadoop可以在相同的数据上同时运行不同类型的分析工作。

　　那一周，有媒体整理了Hadoop这十年来的数据变化：核心Hadoop中目前的代码行数为170万+、自2006年来对Hadoop的提交数量超过12000、自2006年来对核心Hadoop的代码贡献者有800+、Hadoop生态系统中的项目数量从2006年的2个到了25个。

　　一个月后，雅虎在二月底发布了CaffeOnSpark人工智能的源代码，正式开源这一新的人工智能项目。Yahoo在科技方面的实力大概鲜有人知，其实，开源Hadoop就是Yahoo孵化的，Facebook、Twitter 以及其他不少公司都在用这个数据处理平台。

　　CafffeOnSpark的根基是深度学习，之前在基于Hadoop集群的大规模分布式深度学习一文中，雅虎就曾介绍，其集Caffe和Spark之长开发CaffeOnSpark用于大规模分布式深度学习。雅虎认为，深度学习应该与现有的，支持特征工程和传统(非深度)机器学习的数据处理管道在同一个集群中，创建CaffeOnSpark意在使得深度学习训练和测试能被嵌入到Spark应用程序中。

　　说到近期大数据领域的红人就不得不提到Spark，近年人气急剧攀升的Spark在今年更是动作频频，一月初刚刚发布了大版本1.6，三月又爆出2.0版本即将上线。

　　此外，在二月底举行的Spark东部峰会上，硅谷最火的大数据初创公司Databricks也就内存内数据处理工具Spark的未来发展方向做了探讨，以及发布了一系列相关提示。Databricks公司由来自Berkeley和MIT的Spark原班团队创立，作为Spark项目背后的核心商业支持方，它在该项技术成果的演进道路上扮演着重要角色。

　　Databricks公司CTO兼Spark创始人MateiZaharia谈到即将出炉的Spark2.0时提到，该版本将会有三大核心转变：利用Tungsten项目的下一发展阶段解决Java内存处理局限，从而加快Spark运行速度;将Spark改进为一套实时数据流系统;将Spark当前使用的结构化数据API(包括Dataset与DataFrame)统一为单一API。

　　而在演讲中未被提及，但却广受Spark支持者关注的一项细节在于，Spark要如何进一步与ApacheArrow加以结合——这一全新项目旨在为列式数据提供内存内版本，从而实现快速访问成效。

　　三月初，思科宣布计划未来三年在德国投资5亿美元，以及设立1.5亿美元的创新基金来帮助强化旗下的Spark服务，挑战企业通讯服务商Slack Technologies。思科一直在试图使得自有的协作工具Spark胜过广受欢迎的Slack服务。

　　同样在三月初，Hortonworks,Inc.(NASDAQ: HDP)和Hewlett Packard Enterprise(NYSE: HPE)的核心研究组织Hewlett Packard Labs宣布了一项新合作，携手增强最活跃的Apache大数据项目之一的Apache Spark。此次合作将侧重于一个全新类别的分析工作，这种分析工作将受益于大量的共享内存。并且公布了合作的早期成果：更强传送引擎技术，能够更快排序和内存计算;更好的内存使用，能够用更佳性能和使用来实现更广泛的可升级性。

　　另外，Hortonworks和Hewlett Packard Enterprise计划为Apache Spark社区带来新技术。

　　最后还有一些开源信息，Google在去年底开放了深度学习网络TensorFlow的源代码；去年十二月，Facebook分享了人工智能硬件设计；一月，百度开源关键人工智能(AI)软件Warp-CTC，公开了关键代码；同期，Microsoft也开放了类似的网络CNTK，中国搜索引擎巨头百度也公开了深度学习训练软件。

关注我们