发布网友 发布时间:2022-04-20 08:05
共3个回答
懂视网 时间:2022-05-06 12:47
【PPT阅读和下载链接】:
微盘下载链接:Hadoop 2.0基本架构和发展趋势
百度网盘下载链接:Hadoop 2.0基本架构和发展趋势
YARN直接衍生于MapReduce但完全不同于MapReduce,MapReduce是一个低效的批处理计算框架,一般用来做一些离线的计算,不适合迭代计算、交互式计算、实时计算等场景,随着这些新的场景的产生和迫切要求,势必出现一个统一的平台管理这些计算框架,这就是YARN,用户可在YARN之上,跑各种计算任务,包括MapReduce计算、迭代计算(比如pagerank和一些数据挖掘算法)、交互式计算(比如SQL查询)、实时计算(比如storm等),这样看来,MapReduce这种批处理框架将越来越少的被使用到,而由其他新型更高效的计算框架取代,前几年之所以一直使用MR,是因为没有更高效成熟的计算框架出现,大家没有别的选择不得不使用它,而YARN的出现打破了这种局面,随着YARN的成熟(目前是alpha版,这个月可能发布beta版,9月份之前可能会发布稳定版),越来越多的公司,为了提高大数据处理效率,将采用新的计算框架,这时候,必须使用YARN,因为很多计算框架只能运行在YARN上,不能单独部署使用。当前比较明智的做法是,好好使用和学习MapReduce(YARN的很多实现源码级重用了MapReduce实现),同时关注YARN的发展动态和实验性使用它。没办法,互联网就是这样,技术更新速度超快,当你还在学习MapReduce的时候,新的计算框架出现了一箩筐,当Hadoop用了8年左右时间推出 1.0 稳定版后,2.0稳定版只用了2年的时间就要发布了。
原创文章,转载请注明: 转载自董的博客
本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-yarn-now-and-future/
作者:Dong,作者介绍:http://dongxicheng.org/about/
本博客的文章集合:http://dongxicheng.org/recommend/
热心网友 时间:2022-05-06 09:55
Hadoop生态系统的终极方向必然是全功能的分布式数据仓库系统(OLAP),SQL式声明语言+用户自定义函数(UDF)解决各种类型应用,包括ETL、日志分析、交互式分析、数据探索甚至复杂的机器学习任务;同时会有更好的数据组织、内存管理、资源调度、索引构建和查询优化,新类型的硬件比如GPU,SSD和支持RDMA的网卡也会被有效利用起来。这方面微软的Drayd+Scope和Google的一些新系统走得更远,开源社区相对要落后一些。热心网友 时间:2022-05-06 11:13
扩展性吧 hadoop2.0版本引入的yarn就是提高hadoop的扩展性 当然还有其他方面的优化