下一代数据架构中的可操作Hadoop

作者: Roger Morrison
创建日期: 20 九月 2021
更新日期: 1 七月 2024
Anonim
08 尚硅谷 Hadoop 入门 Hadoop是什么
视频: 08 尚硅谷 Hadoop 入门 Hadoop是什么

内容



资料来源:Romeo1232 / Dreamstime.com

带走:

Hadoop由于能够处理大量数据,因此将成为下一代数据体系结构中的关键角色。

随着行业对Hadoop的需求越来越大,Hadoop的实用程序开始超越大数据处理和分析。 Hadoop稳定地满足了与企业数据架构相关的各种需求,同时保留了其原始优势。 Hadoop可以做什么以及当前正在做什么的清单很长。 Hadoop现在能够处理大量的事务性工作负载,这是传统技术以前期望的任务。展望未来,Hadoop将来有很多可能性。例如,基于SQL的事务处理系统可以利用Hadoop SQL引擎,并且Hadoop也将添加许多RDBMS功能。您可以说Hadoop正在成为数据处理和分析功能与企业体系结构功能的混合体。

什么是下一代数据架构?

简而言之,下一代数据架构是数据架构的一种演进形式。在下一代数据体系结构下,包括数据模型,数据策略,规则和标准在内的一切都在发展,这些数据模型,数据策略,规则和标准控制着如何收集,存储,安排,分析或处理,集成,使用和分发数据。

早期数据架构与下一代数据架构之间的主要区别在于后者具有实时收集,存储和处理大量数据(也称为大数据)的能力。该架构执行所有这些复杂的任务,而不会损害隐私,安全性和数据治理标准。

下一代数据架构面临许多挑战。处理大数据的数量,速度和种类并不容易。此外,还需要优化系统工作负载,提高性能,速度和准确性以及降低成本。不用说,先前的数据体系结构不必管理此类需求。

因此,CIO和信息架构师希望找到一种解决方案,以帮助他们实现目标。可操作的Hadoop在此会议中一直是关注焦点。以下各节将讨论可操作的Hadoop如何解决问题。

Hadoop对下一代架构的期望

公司承受着越来越大的压力以提供更好的结果,其效果正逐渐落到对技术的期望上。因此,不再期望Hadoop仅处理数据。 CIO和CTO希望从Hadoop获得更多。以下是Hadoop的期望清单。实际上,Hadoop已经实现了其中的一些期望。

Hadoop有望与基于SQL并具有创建,读取,更新和删除功能的事务系统一起使用。交易系统将利用SQL引擎。这些系统还将完全符合便携式操作系统接口(POSIX)的要求,并具有处理大量交易的能力。


Hadoop有望支持备份,容错,恢复和灾难恢复等功能。为了使Hadoop演变为具有RDBMS功能的系统,它需要与现有的IT工具兼容。

从某些开发可以明显看出,Hadoop已经在努力实现期望。 Hadoop可以基于YARN提供的资源管理支持提供实时分析和快速响应。 YARN除了是资源管理器之外,还是用于大数据应用程序的大规模分布式操作系统。为了提供各种完整的数据库功能,诸如Apache Storm之类的其他开发,诸如Apache Spark,Apache Hive,Drill和MapR-FS(高性能HDFS替代品)之类的分布式内存体系结构都可以正常工作,例如备份,灾难恢复,容错等。(有关YARN的更多信息,请参阅Hadoop 2.0(YARN)框架的优点是什么?)

Hadoop可以为下一代数据架构带来哪些价值?

Hadoop可以为下一代数据架构增加的价值可以从两个角度来看:一个,它是否满足上述期望,另一个,它是否在做其他事情。下面给出的是可操作Hadoop可以带来的显着价值。

Hadoop现在能够通过HDFS在其平台内提供更多的数据可伸缩性和可管理性。并且数据操作系统已通过Hadoop的YARN应用程序启用。该策略从根本上代表了数据体系结构的转变。现在,Hadoop可以存储各种类型的数据,例如面向事务的数据库,图形数据库和文档数据库,并且可以通过YARN应用程序访问这些数据。无需将数据复制或移动到其他位置。

作为企业数据架构的性能提高

可操作的Hadoop正在成为企业数据架构的核心系统。随着Hadoop越来越多地进入企业数据架构,数据孤岛将被消除,因为它们之间的界限被消除了。几乎所有方面都将得到快速改善。改进将以更有效的文件格式,更好的SQL引擎性能,改进的文件系统和健壮性的形式来满足企业应用程序的需求。

Hadoop与其他技术之间的区别

过去,Hadoop与数据企业技术之间的主要区别是Hadoop的大数据处理,报告和分析功能。现在,随着可操作的Hadoop越来越成为企业数据体系结构的一部分,实体之间的差异变得越来越模糊。因此,可操作的Hadoop逐渐成为现有企业数据架构的替代品。


结论

有了期望和进步,Hadoop将在相当长的一段时间内成为业界关注的焦点。但是有意义的是,不要过多地关注Hadoop而只是忽略其他技术。这是因为其他技术将在相同的参数上取得进步,甚至可能会超过Hadoop。垄断市场永远都不是一件好事。很好的是,除了Hadoop之外,其他技术的制造商也可能会被激励提供更好的产品,甚至插件来帮助Hadoop改善性能。