Kudu:Hadoop生态系统中的游戏规则改变者?

作者: Roger Morrison
创建日期: 21 九月 2021
更新日期: 1 七月 2024
Anonim
Kudu:Hadoop生态系统中的游戏规则改变者? - 技术
Kudu:Hadoop生态系统中的游戏规则改变者? - 技术

内容


资料来源:Agsandrew / Dreamstime.com

带走:

Kudu是一个开源项目,可以帮助更有效地管理存储。

Kudu是一个新的开源项目,提供可更新的存储。它是对HDFS / HBase的补充,后者提供顺序存储和只读存储。 Kudu更适合于快速数据的快速分析,这是当前业务需求。因此,Kudu不仅是另一个Hadoop生态系统项目,而且具有改变市场的潜力。 (有关Hadoop的更多信息,请参阅您需要了解和理解的十个最重要的Hadoop术语。)

什么是Kudu?

Kudu是一种特殊的存储系统,它以表的形式存储结构化数据。每个表都有预定义的列数。他们每个人都有一个主键,实际上是该表的一个或多个列的组。使用该主键可以添加限制并保护列,还可以用作索引,从而可以轻松进行更新和删除。这些表是称为平板电脑的一系列数据子集。

Kudus当前状态是什么?

Kudu确实非常发达,并且已经具有许多功能。但是,仍然需要进行一些抛光,如果用户提出建议并进行一些更改,可以更轻松地完成抛光。

Kudu是完全开源的,并具有Apache Software License 2.0。还应将其提交给Apache,以便可以将其开发为Apache Incubator项目。这将使它的发展更快甚至更多。一段时间后,Kudu的开发将公开透明地进行。 AtScale,小米,英特尔和Splice Machine等许多公司已经联合起来,为Kudu的发展做出了贡献。 Kudu还有一个庞大的社区,大量的观众已经在其中提供了他们的建议和贡献。因此,正是这些人在推动Kudu的发展。

Kudu如何补充HDFS / HBase?

Kudu并不是HDFS / HBase的替代品。实际上,它旨在支持HBase和HFDS,并与它们并行运行以增强其功能。这是因为HBase和HDFS在某些机器上仍然具有许多功能,使其比Kudu更加强大。总体而言,此类机器将从这些系统中获得更多收益。

Kudu框架的功能

Kudu框架的主要功能如下:


  • 表格列的快速扫描–最好的数据格式(例如Parquet和ORCFile)需要最佳的扫描过程,Kudu可以完美解决。这种格式需要快速扫描,只有在正确编码列数据时才能进行快速扫描。
  • 性能的可靠性– Kudu框架通过弥补Hadoop中存在的许多漏洞和差距来提高Hadoop的整体可靠性。
  • 轻松与Hadoop集成– Kudu可以轻松与Hadoop及其不同组件集成,以提高效率。
  • 完全开源– Kudu是具有Apache 2.0许可证的开源系统。它有一个由来自不同公司和背景的开发人员组成的庞大社区,他们会定期对其进行更新并提供更改建议。

Kudu如何改变Hadoop生态系统?

Kudu旨在适应Hadoop生态系统并增强其功能。它还可以与Hadoop的一些关键组件集成,例如MapReduce,HBase和HDFS。 MapReduce作业可以提供数据,也可以从Kudu表中获取数据。这些功能也可以在Spark中使用。一个特殊的层使Kudu可以访问某些Spark组件,例如Spark SQL和DataFrame。尽管Kudu尚未开发出足以替代这些功能的功能,但据估计,几年后,它将足以进行开发。在此之前,Hadoop和Kudu之间的集成确实非常有用,并且可以填补Hadoop生态系统的主要空白。 (要了解有关Apache Spark的更多信息,请参阅Apache Spark如何帮助快速应用程序开发。)

Kudu可以在许多地方实施。此类场所的一些示例如下:

没有错误,没有压力-在不破坏生活的情况下创建可改变生活的软件的分步指南

当没有人关心软件质量时,您就无法提高编程技能。

  • 近乎实时地传输输入–在需要尽快接收输入的地方,Kudu可以做得很出色。这种情况的一个例子是在企业中,来自不同来源的大量动态数据涌入,因此需要实时快速提供。
  • 具有不同访问模式的时间序列应用程序– Kudu非常适合基于时间序列的应用程序,因为它更易于设置表和使用表进行扫描。这种用法的一个例子是在百货商店中,必须快速找到旧数据并进行处理以预测产品的未来流行度。
  • 旧版系统–许多从各种来源获取数据并将其存储在不同工作站中的公司都会对Kudu感到宾至如归。 Kudu速度极快,可以有效地与Impala集成以在所有计算机上处​​理数据。
  • 预测建模–想要一个好的建模平台的数据科学家可以使用Kudu。 Kudu可以从输入的每组数据中学习。科学家可以反复运行和重新运行模型以查看发生了什么。

结论

尽管Kudu仍处于开发阶段,但它有足够的潜力成为HDFS和HBase等标准Hadoop组件的良好插件。通过填补所有空白并添加更多功能,它具有完全改变Hadoop生态系统的潜力。它也非常快速和强大,可以帮助快速分析和存储大型数据表。但是,仍然需要做一些工作才能更有效地使用它。