良心推荐！机器学习和深度学习非常好的框架-大数据频道专区

良心推荐！机器学习和深度学习非常好的框架

作者：编译 | zyy 编辑：覃里 2017-02-06 15:08 IT168网站原创

　　【IT168 评论】机器学习框架和深度学习框架之间是有区别的。本质上，机器学习框架涵盖用于分类，回归，聚类，异常检测等各种学习方法，并且其可以不包括神经网络方法。深度学习或深度神经网络(DNN)框架涵盖具有许多隐藏层的神经网络拓扑。层越多，可用于聚类和分类的特征越复杂。

　　Caffe，CNTK，DeepLearning4j，Keras，MXNet和TensorFlow是深度学习框架。Scikit-learning和Spark MLlib是机器学习框架。而Theano跨越了这两个类别。

　　一般来说，简单的机器学习方法不需要GPU加速。虽然你可以在一个或多个CPU上训练DNN，但这种训练往往是缓慢的，需要训练的神经元和层越多，可用于训练的数据越多，需要的时间就越长。

　　Caffe

　　Caffe深度学习项目，最初是一个强大的图像分类框架，目前似乎停滞不前，它已被卡在1.0版RC3一年多了，并且其创始人已离开该项目。但它仍然有良好的卷积网络图像识别和良好的Nvidia CUDA GPU支持。但它的模型通常需要大量的GPU内存(超过1GB)运行。

　　Caffe有命令行，Python和Matlab接口，它依靠ProtoText文件来定义模型和解算器。Caffe在其自己的模型模式中逐层定义网络。当数据和派生数据向前向后遍历网络时，Caffe存储，通信和操作信息为blob(二进制对象)，内部是以C连续方式存储的N维数组。

　　Caffe已经证明其在图像分类中的有效性，但它的鼎盛时期似乎已经过去了。除非现有的Caffe模型符合你的需要，或者可以根据你的目的进行微调，否则，我建议使用TensorFlow，MXNet或CNTK。

　　Microsoft认知工具包

　　Microsoft Cognitive Toolkit是一个快速的易使用的深度学习软件包，但与TensorFlow相比，其范围有限。它有各种各样的模型和算法，极好的支持Python和Jupyter notebook，一个有趣的声明性BrainScript神经网络配置语言，以及在Windows和Ubuntu Linux上可自动部署。

　　在缺点方面，当我审查Beta 1文档时发现还没完全更新到CNTK 2，并且包没有MacOS支持。虽然自Beta 1以来，CNTK 2有许多改进，包括新的内存压缩模式，以减少GPU和新的Nuget安装包的内存使用，但MacOS支持仍然缺失。

　　CNTK 2组件可以处理来自Python，C ++或BrainScript的多维密集或稀疏数据。认知工具包包括各种各样的神经网络类型：FFN(前馈)，CNN(卷积)，RNN / LSTM(递归/长期短期记忆)等。它支持强化学习，生成监督和非监督学习，自动超参数调整，以及从Python添加新的，用户定义的核心组件在GPU上的能力。它能够在多个GPU和机器上做到精确的并行。

　　MXNet

　　MXNet是一个便携式，可扩展的深度学习库，是亚马逊推出的DNN框架选择。MXNet可跨多个主机扩展到多个GPU，线性扩展效率接近85%，具有出色的开发速度，可编程性和可移植性。它不同程度的支持Python，R，Scala，Julia和C ++，它允许混合命令式编程风格。

　　MXNet目前支持在Python，R，Scala，Julia和C ++中构建和训练模型，训练的MXNet模型也可以用于Matlab和JavaScript中的预测。无论选择哪种语言来构建模型，MXNet都会调用优化的C ++后端引擎。

　　Scikit-learn

　　Scikit-learn Python框架有广泛的可靠的机器学习算法，但没有深入学习。如果你是一个Python的粉丝，Scikit-learn可能是你最好的选择。Scikit-learn是一个强大的，成熟的机器学习库与各种各样的成熟算法集成。它相对容易安装，学习和使用，它有很好的例子和教程。

　　另一方面，Scikit-learn不包括深度学习或强化学习，缺少图形模型和序列预测，并且不能真正使用除Python之外的语言。它不支持PyPy，Python即时编译器或GPU。它使用Cython来处理快速函数，例如内循环。

　　Spark MLlib

　　Spark MLlib是Spark的开源机器学习库，提供常见的机器学习算法，如分类，回归，聚类和协同过滤(但不包括DNN)以及特征提取，转换，维数缩减以及构建，评估和调整机器学习管道。Spark MLlib还包括用于保存和加载算法，用于数据处理以及进行线性代数和统计的实用程序。

　　Spark MLlib是在Scala中编写的，并使用线性代数包BreezeBreeze依靠netlib-java来优化数值处理，虽然在开源分布中意味着优化使用CPU。Databricks提供与GPU配合使用的定制Spark集群，这有可能带来一个10倍的速度改进，用于训练具有大数据的复杂机器学习模型。

　　Spark MLlib拥有针对Scala和Java的完整API，主要是针对Python的完整API以及针对R的部分API。可以通过计算示例来获得良好的覆盖率：54个Java和60个Scala机器学习示例，52个Python 机器学习示例，5个R示例。

　　TensorFlow

　　TensorFlow，Google的便携式机器学习和神经网络库，执行和扩展很好，虽然它有点难学。TensorFlow拥有各种各样的模型和算法，并且在具有GPU(用于培训)或Google TPU(用于生产规模预测)的硬件上具有出色的性能。它还具有对Python的良好支持，良好的文档和软件，用于显示和理解描述其计算TensorBoard的数据流图。

　　TensorFlow可以方便地处理各种神经网络，包括目前正在转换图像识别和语言处理领域的深度CNN和LSTM循环模型。调试异步网络求解器非常简单，TensorBoard软件可以帮助可视化图形。

　　从Caffe，Microsoft Cognitive Toolkit，MXNet和TensorFlow的深度学习包中选择一个是很困难的决定。我不建议选择Caffe，因为它的发展停滞不前。然而，选择其他三个中的一个也很棘手。

　　Cognitive Toolkit现在有Python和C ++ API以及网络配置语言BrainScript。如果喜欢使用配置文件，那么Cognitive Toolkit可能是一个不错的选择。但它似乎不像TensorFlow一样成熟，它不能在MacOS上运行。

　　MXNet支持Python，R，Scala，Julia和C ++，但其最支持的API是用于Python的。MXNet在多个主机的多个GPU上展现出良好的扩展性(85%的线性)。

　　TensorFlow可能是三个包中最成熟的，并且它是一个很好的选择，TensorFlow有基本的构建块，但也需要写大量的代码来描述一个神经网络。有三个简化的API与TensorFlow一起来解决这个问题：tf.contrib.learn，TF-Slim和Keras。支持TensorFlow的最终考虑是TensorBoard，这对于可视化和理解数据流图非常有用。

关注我们