Spark2.0：真实力还是纯套路？-大数据频道专区

Spark2.0：真实力还是纯套路？

作者：杨宏玉翻译编辑：胡晴 2016-07-04 09:36 来源：TechTar

　　　　【IT168 技术】在Databricks的Spark峰会上，支持结构化处理和SQL 2003的Spark2.0 呈现在众人面前，此外，R-to-Spark接口也在该峰会上崭露头角。

近日在旧金山举行的Spark峰会上，Spark发起人Databricks 展示了这款通用分析引擎Spark的2.0版本，并介绍了该版本的详细更新细节。包括IBM、Microsoft在内的一众公司都参与到了Spark相关产品的推广大潮中。

Apache Spark 2.0将于在近期发布，多家公司表示，软件可能还不够稳定。但Databricks公司的CTO表示Matei Zaharia认为，Spark 2.0“值得一试”。

Zaharia在加州大学伯克利分校就读研究生期间编写了Spark的核心代码，并为了联合创建Databricks公司，放弃了MIT的工作。他表示，Spark 2.0包含超过2000个补丁，这些补丁来自于280个贡献者。他强调的一些更新包括：为了提升Spark平台开发的效率所做的编码技术改进，对SQL 2003和结构化流的支持等。

Databricks将新版本Spark基础引擎定义为智能Spark编译器——与高级API一起，开放给大型Spark开发组，Zaharia说道。对于陷入困境的IT经理来说，这将非常有价值，因为目前掌握Spark 技术的开发人员薪资普遍过高。

Zaharia引用了Stack Overflow最近的一项调查，该调查包含13540年美国受访者，这些受访者都认为Spark相关开发人员的薪资相对较高。调查显示，Spark技能与Scala语言紧密联系，Spark的相关技术用Scala语言编写，企业平均每年要为每个开发人员花费125000美元。

构建Lambda架构

简化那些繁琐的数据流开发，也是Spark广泛应用的前景之一。

Spark更新后，软件的核心贡献者选择了一种通用流处理方法，至少在一定程度上缓解了程序员对流的不适应。Spark保留了mini-batch流处理方法，这引来了一些倡导其他流处理方法人员的诟病。

流处理经常被认为是Spark的一个亮点，但它面临着来自专门流处理项目的竞争，如Storm,，Flink 和Heron，这些公司一些产品能够提供比Spark更低的性能延迟。

Spark 2.0的结构化流处理提供了一整套API，可以放置在Lambda architecture中(Lambda architecture表示批处理和流处理的结合)。

“Spark支持我们最常见的通用流处理技术，”Zaharia说，“我们所知道的大多数用户集成了不同的处理模式。”新的Spark流处理API与Spark SQL API有着更多的相似之处，这让Spark框架更容易获得开发者社区的支持。

然而Zaharia提醒道，数据流大范围使用的情形还尚未出现。独立分析师和行业观察者Thomas Dinsmore表示，Databricks 转向混合批处理和实时编程模型的举动应该会吸引很多感兴趣的受众。

“Spark结构化流试图将流处理融入到更广泛的环境中。事实上，目前还没有人直接从流中洞察数据，”他说道。

“通常，流数据与历史趋势数据应结合使用，”他说。现实世界的应用情况即是如此，例如信用卡欺诈检测。

Dinsmore 表示，Spark最新版本的更新能够胜任这一任务，即使面对其他同类型产品的竞争也丝毫不落下风。

“Spark并不需要一切都做到最好”，它只需要没有明显短板即可。

Spark的扩散

与此同时。Apache Spark继续作为其他供应商的产品的一部分。这些供应商的范围也很广，既有初创公司也有主流厂商。

在这次峰会上，微软正式在Azure HDInsight平台推出了Spark，它将和Hortonworks一起构建。无论是云端或本地的HDInsigh，都已支持R 服务器。而为了支持R服务器，微软于2015年收购了R语言专业公司Revolution Analytics。

微软的目标之一是通过提升Spark分布式平台对R语言的支持，扩大开发者的范围，另一目标则是提升计算效率。

“通过R与Spark的结合，我们能让数据科学家继续使用他们熟悉的R语言，同时允许他们利用Spark的扩展性来运行代码，”微软高级产品营销经理Oliver Chiu说道。性能与工作负载相关，Spark上的R服务器可以加快机器学习模型的训练速度。

“微软将其R服务器产品和Spark重组是一个很好的举动，”Dinsmore说，“他们已经创建了一个高性能的平台。”

对R的集成也遇到了一定的困难，其应用到Hadoop MapReduce框架中时，性能并不理想，但与Spark的集成有助于解决这一问题，曾担任Revolution Analytics产品管理主管Dinsmore表示。这反映了一个广泛的共识，那就是Spark相对于Hadoop MapReduce框架，性能有了明显的提升。

你精通数据科学么?

IBM近期公布了一套Apache Spark的开发环境。它运行在IBM Bluemix云平台，能够满足精通R编程语言的数据科学家的需要。这项服务将专注于对SparkR，Spark SQL和Spark ML工具集的支持。

R语言的受众需要更多工具，以扩大开发人员的范围，IBM分析部门负责产品开发的副总裁Rod Thomas表示。

Tomas说，“我们想让数据科学家能够更容易地构建R模型，然后在Spark上运行它们”。R在数据科学家社区是一个重要的工具，让Spark与R协同工作是一个挑战。“到目前为止，R在Spark并没有受到足够的重视，”Thomas说道。

Spark峰会上，MapRTechnologies发布了一个Converged Data Platform的新版本，这个版本是专门应用于Spark的。该版本使用YARN，但是并没有采用其他Hadoop生态系统组件。NoSQL软件公司Redis Labs表示，它们已经创建了相应的连接器，该连接器可以将它的Redis Could与Databricks的Spark 服务集成。

TechTarget中国原创内容，原文链接： http://www.searchbi.com.cn/showcontent_93129.htm? TechTarget中国：http://www.techtarget.com.cn

关注我们