弄啥嘞？Spark将纳入机器学习与GPU-大数据频道专区

弄啥嘞？Spark将纳入机器学习与GPU

作者：zyy 编辑：覃里 2016-11-01 15:10 IT168网站原创

　　【IT168 评论】现在所有人的注意力都集中在人工智能上，似乎VR的火热带动了人工智能的发展。最近对全球大学人工智能教育的排名中，中国暂无高校上榜。相比于国际上各大高校实验室的火热，国内高校的动作似乎有些偏慢了。就好比加州大学伯克利分校AMP实验室所开源的Hadoop MapReduce通用并行框架Spark，在开源社区的贡献下，势头只增不减。近日，据外媒报道，Spark将纳入机器学习和GPU机制。

　　机器学习大家都不陌生了，GPU加速其实一直是机器学习的得力辅助，CUDA就是我们众所周知的GPU加速套件。Databricks是一个基于Apache Spark的商业性云服务平台。Spark是一个开源集群计算框架，包括机器学习库、集群管理器、类Jupyter的互动笔记本、仪表板和作业预定。有了Databricks(作服务)后，Spark发展显著加快且Spark集群不断向外扩展。Databricks通过简化对GPU加速型机器学习库的访问支持Spark服务。GPU加速器和多个深度机器学习库集成，理论上可以在本地任何位置实现Apache Spark安装。但Databricks方面表示，为了避免资源争用情况给功能的实际使用带来复杂性影响，其版本目前仍处于调整阶段。

　　Apache Spark不是自动提供并配置GPU加速器的，它是通过建立系统来支持的，早前用户必须自己搭建。为此，Databricks主动承担起这些复杂的前期工作。

　　Databricks方面表示，将通过减少节点之间的资源争用数量，最大化Spark上GPU集群的性能优势。这一策略似乎与麻省理工学院的Milk看起来类似，Milk是通过加速并行处理应用程序，与内存相关的操作一律使用批处理，以保证充分利用系统的缓存资源。同样的，Databricks试图保证GPU的各项操作不会因为彼此的资源争用而中断。另一个比较节省时间的方法是添加直接访问机器学习库，这样就可以把Spark作为数据源。这其中就包括Databrick的TensorFrames，目前Spark已经与TensorFrames打通，同时实现了GPU加速。

　　出于对Spark的考虑，Databricks调整了众多基础设施，创造了一个免费的服务吸引那些仍然持谨慎态度的用户，包括提供成熟产品中的部分功能。InfoWorld的Martin Heller今年早些时候就曾对该服务做出评价，除了免费之外，他认为该服务很容易使用，门槛不高。

　　但该领域的竞争还是十分激烈的，尤其是要面对一些巨头玩家的压力，比如拥有Azure机器学习的微软，IBM以及Amazon。如果比烧钱，比免费，小公司难以与大公司竞争；比技术，小公司也不见得拥有多优秀的技术人才。因此，Databricks必须找到方法去保持和扩大服务受众，专注打磨自己的产品，尤其是要突出产品特色，避免产品同质化。这似乎不仅仅是增加几个机器学习库那么简单了，而是在此基础上确保使用的便利性，而不是增加其使用复杂度。

关注我们