mapreduce的工作流程

发布网友发布时间：2022-03-23 00:27

共2个回答

懂视网时间：2022-03-23 04:49

mapreduce工作原理为：MapReduce是一种编程模型，用于大规模数据集的并行运算。MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。

　　MapReduce就是”任务的分解与结果的汇总”，它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

热心网友时间：2022-03-23 01:57

　　1.客户端将每个block块切片（逻辑切分），每个切片都对应一个map任务，默认一个block块对应一个切片和一个map任务，split包含的信息：分片的元数据信息，包含起始位置，长度，和所在节点列表等

　　2.map按行读取切片数据，组成键值对，key为当前行在源文件中的字节偏移量，value为读到的字符串

　　3.map函数对键值对进行计算，输出<key,value,partition（分区号）>格式数据，partition指定该键值对由哪个recer进行处理。通过分区器，key的hashcode对recer个数取模。
　　4.map将kvp写入环形缓冲区内，环形缓冲区默认为100MB，阈值为80%，当环形缓冲区达到80%时，就向磁盘溢写小文件，该小文件先按照分区号排序，区号相同的再按照key进行排序，归并排序。溢写的小文件如果达到三个，则进行归并，归并为大文件，大文件也按照分区和key进行排序，目的是降低中间结果数据量（网络传输），提升运行效率
　　5.如果map任务处理完毕，则recer发送http get请求到map主机上下载数据，该过程被称为洗牌shuffle
　　6.可以设置combinclass（需要算法满足结合律），先在map端对数据进行一个压缩，再进行传输，map任务结束，rece任务开始
　　7.rece会对洗牌获取的数据进行归并，如果有时间，会将归并好的数据落入磁盘（其他数据还在洗牌状态）
　　8.每个分区对应一个rece，每个rece按照key进行分组，每个分组调用一次rece方法，该方法迭代计算，将结果写到hdfs输出

声明：本网页内容为用户发布，旨在传播知识，不代表本网认同其观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。
E-MAIL:11247931@qq.com