您需要了解和理解的10个最重要的Hadoop术语

作者: Eugene Taylor
创建日期: 10 八月 2021
更新日期: 1 七月 2024
Anonim
AWS re:Invent 2020 - Keynote with Andy Jassy
视频: AWS re:Invent 2020 - Keynote with Andy Jassy

内容



资料来源:Trueffelpix / Dreamstime.com

带走:

为了真正理解大数据,您需要对Hadoop及其周围的语言有所了解。

大数据是大量结构化,非结构化或半结构化数据的流行名称,众所周知,至少使用传统的数据库和软件应用程序很难捕获,存储,管理,共享,分析和可视化大数据。这就是为什么大数据技术具有有效和高效地管理和处理大量数据的潜力。其Apache Hadoop提供了框架和相关技术,可以以分布式方式跨计算机集群处理大型数据集。因此,为了真正理解大数据,您需要了解一些有关Hadoop的知识。在这里,很好地了解您会听到的有关Hadoop的顶级术语-以及它们的含义。

但首先,看看Hadoop的工作原理

在进入Hadoop生态系统之前,您需要清楚地了解两个基本知识。首先是文件在Hadoop中的存储方式。第二个是如何处理存储的数据。所有与Hadoop相关的技术都主要在这两个领域工作,并使其更加用户友好。 (在Hadoop如何帮助解决大数据问题中获取Hadoop工作原理的基础。)

现在,到条款。

Hadoop常见

Hadoop框架具有用于不同功能的不同模块,并且这些模块由于各种原因可以相互交互。 Hadoop Common可以定义为通用实用程序库,以支持Hadoop生态系统中的这些模块。这些实用程序基本上是基于Java的存档(JAR)文件。这些实用程序主要在开发期间供程序员和开发人员使用。

Hadoop分布式文件系统(HDFS)

Hadoop分布式文件系统(HDFS)是Apache软件基金会下Apache Hadoop的子项目。这是Hadoop框架中存储的基础。它是一个分布式,可伸缩且具有容错功能的文件系统,它跨多个被称为Hadoop集群的商品硬件。 HDFS的目标是通过对应用程序数据的高吞吐量访问来可靠地存储大量数据。 HDFS遵循主/从体系结构,其中主节点称为NameNode,从节点称为DataNode。

MapReduce

Hadoop MapReduce还是Apache Software Foundation的子项目。 MapReduce实际上是纯粹用Java编写的软件框架。其主要目的是以完全并行的方式在分布式环境(由商品硬件组成)上处理大型数据集。该框架管理所有活动,例如作业调度,监视,执行和重新执行(如果失败的任务)。


HBase的

Apache HBase被称为Hadoop数据库。它是一个列状,分布式和可伸缩的大数据存储。它也被称为NoSQL数据库的一种,不是关系数据库管理系统。 HBase应用程序也用Java编写,基于Hadoop构建并在HDFS上运行。当您需要实时读/写和随机访问大数据时,可以使用HBase。 HBase是基于Google BigTable概念建模的。

蜂巢

Apache Hive是一个开源数据仓库软件系统。 Hive最初是由Apache基金会之前开发的,后来成为开源软件。它促进了分布式Hadoop兼容存储上大型数据集的管理和查询。 Hive使用称为HiveQL的类似SQL的语言执行其所有活动。 (在Apache Hive和Pig简介中了解更多信息。)

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。

阿帕奇猪

Pig最初是由Yahoo发起的,用于在大量分布式数据上开发和执行MapReduce作业。现在它已成为Apache Software Foundation下的一个开源项目。可以将Apache Pig定义为以有效方式分析非常大的数据集的平台。 Pigs基础结构层生成MapReduce作业序列以进行实际处理。 Pigs语言层称为Pig Latin,它提供类似于SQL的功能以对分布式数据集执行查询。

阿帕奇火花

Spark最初是由UC Berkeley的AMPLab开发的。它在2014年2月成为Apache的顶级项目。ApacheSpark可以定义为开源,通用的集群计算框架,它可以使数据分析更快。它建立在Hadoop分布式文件系统之上,但未与MapReduce框架链接。与MapReduce相比,Sparks性能要快得多。它提供了Scala,Python和Java的高级API。

阿帕奇·卡桑德拉(Apache Cassandra)

Apache Cassandra是另一个开源的NoSQL数据库。 Cassandra被广泛用于管理跨多个数据中心和云存储的大量结构化,半结构化和非结构化数据。 Cassandra是基于“无主控”架构设计的,这意味着它不支持主/从模型。在这种体系结构中,所有节点都是相同的,并且数据在所有节点之间自动平均分配。 Cassandras最重要的功能是连续可用性,线性可伸缩性,内置/可自定义的复制,没有单点故障和操作简单。


另一个资源谈判员(YARN)

另一个资源协商器(YARN)也称为MapReduce 2.0,但实际上属于Hadoop 2.0。 YARN可以定义为作业调度和资源管理框架。 YARN的基本思想是用两个分别负责资源管理和调度/监视的守护程序替换JobTracker的功能。在这个新框架中,将有一个全局ResourceManager(RM)和一个称为ApplicationMaster(AM)的特定于应用程序的主机。全局ResourceManager(RM)和NodeManager(每个节点从站)形成实际的数据计算框架。现有的MapReduce v1应用程序也可以在YARN上运行,但是这些应用程序需要使用Hadoop2.x jar重新编译。

黑斑羚

Impala可以定义为具有大量并行处理(MPP)功能的SQL查询引擎。它在Apache Hadoop框架上本地运行。 Impala被设计为Hadoop生态系统的一部分。它共享与其他Hadoop生态系统组件所使用的相同的灵活文件系统(HDFS),元数据,资源管理和安全框架。最重要的一点是要注意,与Hive相比,Impala在查询处理方面要快得多。但是我们还应该记住,Impala旨在用于对一小部分数据进行查询/分析,并且主要设计为可处理已处理和结构化数据的分析工具。

Hadoop是IT领域的重要话题,但是有些人对此表示怀疑。在什么是Hadoop中了解更多信息。犬儒学说。