![What is MapReduce?](https://i.ytimg.com/vi/43fqzaSH0CQ/hqdefault.jpg)
内容
- 定义-MapReduce是什么意思?
- Microsoft Azure和Microsoft Cloud简介在本指南中,您将了解什么是云计算,以及Microsoft Azure如何帮助您从云迁移和运行业务。
- Techopedia解释了MapReduce
定义-MapReduce是什么意思?
MapReduce是Google引入的一种编程模型,用于在计算机集群上处理和生成大型数据集。
Google首先制定了框架,以便为Google的网页索引服务,而新框架取代了以前的索引算法。初学者发现MapReduce框架是有益的,因为可以使用库例程来创建并行程序,而无需担心群集内通信,任务监视或故障处理过程。
MapReduce在大型商用机器群集上运行,并且具有高度可扩展性。它具有由多种编程语言(例如Java,C#和C ++)提供的几种形式的实现。
Microsoft Azure和Microsoft Cloud简介在本指南中,您将了解什么是云计算,以及Microsoft Azure如何帮助您从云迁移和运行业务。
Techopedia解释了MapReduce
MapReduce框架分为两个部分:
- 称为“地图”的功能,该功能允许分布式群集的不同点分发其工作
- 称为“减少”的功能,旨在将集群结果的最终形式简化为一个输出
MapReduce框架的主要优点是其容错能力,当工作完成时,可以预期来自群集中每个节点的定期报告。
任务从一个节点转移到另一个节点。如果主节点注意到某个节点处于静默状态的时间间隔比预期的长,则主节点将执行重新分配过程以冻结/延迟任务。
MapReduce框架的灵感来自于函数编程中使用的“ Map”和“ Reduce”功能。计算处理发生在存储在文件系统或数据库中的数据上,该数据采用一组输入键值并产生一组输出键值。
每天,Google集群上都会执行大量MapReduce程序和MapReduce作业。程序会自动并行化,并在大型商用机器集群上执行。运行时系统负责对输入数据进行分区,安排在一组机器上的程序执行,机器故障处理以及管理所需的机器间通信。没有并行和分布式系统经验的程序员可以轻松使用大型分布式系统的资源。
MapReduce用于分布式grep,分布式排序,Web链接图反转,Web访问日志统计,文档聚类,机器学习和统计机器翻译。