为什么Spark是未来的大数据平台

内容

什么是Apache Spark？
为什么Spark在Hadoop上如此重要
什么是Sparks的独特功能？
为什么Spark不能替代Hadoop
公司对Spark和Hadoop的看法
实际实施
结论

资料来源：Snake3d / Dreamstime.com

带走：

Apache Spark是一个开放源代码工具，用于处理在Hadoop上（并以某种方式超越）流行的大数据。

Apache Hadoop长期以来一直是大数据应用程序的基础，并且被认为是所有与大数据相关的产品的基本数据平台。但是，由于更快的性能和更快的结果，内存数据库和计算越来越受欢迎。 Apache Spark是一个新的框架，利用内存功能来提供快速处理（比Hadoop快近100倍）。因此，Spark产品越来越多地用于大数据领域，主要用于更快的处理。

什么是Apache Spark？

Apache Spark是一个开放源代码框架，用于快速，简单地处理大量数据（大数据）。它适用于基于大数据的分析应用程序。 Spark可以与Hadoop环境一起使用，既可以独立使用，也可以在云中使用。它在加利福尼亚大学开发，然后提供给Apache软件基金会。因此，它属于开源社区，并且具有很高的成本效益，从而使业余开发人员可以轻松地工作。（要了解有关Hadoop开源的更多信息，请参阅开源对Apache Hadoop生态系统有何影响？）

Spark的主要目的是为开发人员提供围绕中心数据结构工作的应用程序框架。 Spark也非常强大，并且具有在短时间内快速处理大量数据的天生能力，从而提供了非常好的性能。这使它比最接近的竞争对手Hadoop快得多。

为什么Spark在Hadoop上如此重要

众所周知，Apache Spark在多个功能上胜过Hadoop，这也许可以解释为什么它如此重要。这样做的主要原因之一是要考虑其处理速度。实际上，如上所述，对于相同数量的数据，Spark的处理速度比Hadoop的MapReduce快约100倍。与Hadoop相比，它还使用更少的资源，从而使其具有成本效益。

Spark具有优势的另一个关键方面是与资源管理器的兼容性。就像MapReduce一样，Apache Spark可以与Hadoop一起运行，但是后者目前仅与Hadoop兼容。至于Apache Spark，它可以与其他资源管理器（如YARN或Mesos）一起使用。数据科学家经常将其视为Spark真正超越Hadoop的最大领域之一。

在易用性方面，Spark再次比Hadoop好得多。除了拥有Spark SQL之类的功能外，Spark还具有针对多种语言的API，例如Scala，Java和Python。编写用户定义的函数相对简单。它也恰巧拥有用于运行命令的交互模式。另一方面，Hadoop是用Java编写的，尽管它确实具有辅助该过程的工具，但它已被誉为很难编程。（要了解有关Spark的更多信息，请参阅Apache Spark如何帮助快速应用程序开发。）

什么是Sparks的独特功能？

Apache Spark具有一些独特的功能，真正将其与数据处理业务中的许多竞争对手区分开来。其中一些已在下面简要概述。

当没有人关心软件质量时，您就无法提高编程技能。

Spark还具有与生俱来的能力，可借助其机器学习算法将必要的信息加载到其核心。这样可以使其非常快。

Apache Spark具备处理图形或什至是图形信息的能力，因此可以轻松，高精度地进行分析。

Apache Spark具有MLib，这是用于结构化机器学习的框架。与Hadoop相比，它的实现速度也要快得多。 MLib还能够解决一些问题，例如统计读取，数据采样和前提测试。

为什么Spark不能替代Hadoop

尽管Spark具有多个方面胜过Hadoop的事实，但仍有很多原因导致它不能真正替代Hadoop。

首先，与Spark相比，Hadoop仅提供了更多的工具集。它还具有业界公认的几种实践。不过，Apache Spark在该领域还相对较年轻，需要一些时间才能与Hadoop保持一致。

Hadoop的MapReduce在运行成熟操作方面也设定了某些行业标准。另一方面，人们仍然相信Spark尚未完全准备好以完全的可靠性运行。通常，使用Spark的组织需要对其进行微调，以使其适合其一组要求。

Hadoop的MapReduce比Spark的存在时间更长，因此也更易于配置。不过，对于Spark而言，情况并非如此，考虑到它提供了一个全新的平台，尚未真正测试过粗略的补丁程序。

公司对Spark和Hadoop的看法

许多公司已经开始利用Spark满足其数据处理需求，但故事还不止这些。它肯定具有几个强大的方面，使其成为一个了不起的数据处理平台。但是，它也伴随着很多需要解决的缺陷。

业界普遍认为Apache Spark将会保留，甚至可能是数据处理需求的未来。但是，它仍然需要进行大量的开发工作和抛光，才能真正发挥其潜力。

实际实施

许多适合其数据处理要求的公司都在使用Apache Spark，并且现在仍在使用它们。最成功的实现之一是Shopify进行的，Shopify希望选择符合条件的商店进行业务合作。但是，它的数据仓库在想了解其客户正在销售的产品时一直保持超时。在Spark的帮助下，该公司能够处理数百万条数据记录，然后在几分钟内处理6700万条记录。它还确定了哪些商店符合条件。

通过使用Spark，Pinterest能够识别发展趋势，然后使用它来了解用户的行为。这进一步为Pinterest社区带来了更高的价值。全球最大的旅游信息网站之一TripAdvisor也在使用Spark，以加快向游客的推荐速度。

结论

即使到现在，也不能怀疑Apache Spark的实力以及它带来的独特功能。它的处理能力和速度，以及其兼容性为将来发生的几件事奠定了基调。但是，如果要真正实现其全部潜力，它还需要改进几个方面。尽管Hadoop仍然是目前的主流，但Apache Spark确实有光明的未来，并且被许多人认为是满足数据处理要求的未来平台。