Hadoop的MapReduce的工作机制剖析
安装完hadoop之后我们肯定第一个就要先跑跑Wordcount的实例,这个实例的运行机制就是MapReduce.什么叫MapReduce呢,你可以把他分为Map和Reduce两个过程。
Mapper
nMap-reduce的思想就是“分而治之”
nMapper负责“分”,即把复杂的任务分解为若干个“简单的任务”执行
n“简单的任务”有几个含义:1 数据或计算规模相对于原任务要大大缩小;2 就近计算,即会被分配到存放了所需数据的节点进行计算;3 这些小任务可以并行计算,彼此间几乎没有依赖关系
Reducer
n对map阶段的结果进行汇总
nReducer的数目由mapred-site.xml配置文件里的项目mapred.reduce.tasks决定。缺省值为1,用户可以覆盖之
接下来我们看看MapReduce的运行图
这个图有十个步骤,代表了MapReduce的运行机制:
<!--[if !supportLists]-->1.<!--[endif]-->首先编写好MapReduce Programe作业,也就是JAVA代码,然后由其中任一节点进行提交。
<!--[if !supportLists]-->2.<!--[endif]-->由JobClient向JobTracker来申请一个作业或者说任务ID,用来申请加入任务列表中。
<!--[if !supportLists]-->3.<!--[endif]-->通过HDFS系统,把任务源代码也就是JAVA代码发送到各个节点里面去
<!--[if !supportLists]-->4.<!--[endif]-->提交任务,正式加入到任务列表中来完成
<!--[if !supportLists]-->5.<!--[endif]-->初始化任务,比如建立数据结构,记录Job运行情况等
<!--[if !supportLists]-->6.<!--[endif]-->通过HDFS向Namenode来询问文件分布在哪些节点里面,得到这些索引
<!--[if !supportLists]-->7.<!--[endif]-->通过TaskTracker和JobTracker每分钟一次的心跳联系来获知哪些节点可以运行任务,比如死机或者正忙的节点就不会进行任务
<!--[if !supportLists]-->8.<!--[endif]-->确定好需要执行任务的节点或者说TaskTracker后,会通过HDFS来获取任务的JAVA代码
<!--[if !supportLists]-->9.<!--[endif]-->需要完成任务的节点开始在本地架设虚拟机准备开始执行任务
<!--[if !supportLists]-->10.<!--[endif]-->运行任务
相关推荐
Java操作Hadoop Mapreduce基本实践源码.
基于Hadoop Mapreduce 实现酒店评价文本情感分析(python源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python...
基于Hadoop Mapreduce 实现酒店评价文本情感分析(python开发源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python开发源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析...
基于Hadoop MapReduce的电商网站商品数据分析.rar
用 Hadoop MapReduce 进行大数据分析
基于Hadoop MapReduce的招聘信息数据分析项目代码+数据集.rar
(1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...
使用Hadoop Mapreduce 实现酒店评价文本情感分析 使用的算法为朴素贝叶斯高斯模型 qingganenxi.py文件为预测程序 其它文件为Java程序,用于训练模型
基于Hadoop MapReduce的短视频主播数据分析项目代码+数据集.rar
基于Hadoop MapReduce的电影点评网站数据分析项目代码+数据集.rar
包org.apache.hadoop.mapreduce的Hadoop源代码分析
基于Hadoop MapReduce的高校考研分数线统计分析项目代码+数据集.rar
Hadoop分析气象数据完整版源代码(含Hadoop的MapReduce代码和SSM框架) 《分布式》布置了一道小作业,这是作业的所有代码,里面包含了Hadoop的MapReduce代码、和SSM框架显示数据的代码
包mapreduce.lib.map的Hadoop源代码分析
Hadoop_MapReduce教程,分析hadoop中mapreduce的教程
深入 剖析 了 Hadoop MapReduce 中 各个 组件 的 实现 细节, 包括 RPC 框架、 JobTracker 实现、 TaskTracker 实现、 Task 实现 和 作业 调度 器 实现 等。 书中 不仅 详细 介绍 了 MapReduce 各个 组件 的 内部 ...
2009年7月份写的一篇 Hadoop.MapReduce 介绍
Python_Hadoop_MapReduce_MarketBasketAnalysis 在Python中使用Hadoop MapReduce进行市场分析
AQI空气质量分析 基于MapReduce框架 [TOC] ## 内容 基于 MapReduce 框架,分析各城市的空气质量水平。 实现3个需求: 1. 以 PM25 的空气质量分指数(**IAQI**)为衡量指标,比较 2018 年 8 月至 2019 年 6 月间...
之后对 Hadoop的关键技术 HDFS、MapReduce和Scheduler进行研究分析。在此研究基础之上,本文指出MapReduce应用可在程序、参数和系统三个层面进行优化。程序和参数两个层面实现优化的可选项很多,本文在第三章对此作了...