学习一门新知识的时候,首先我们要了解他的全貌,接下来和我一起了解:
一、什么是Hadoop?
为一体的整体解决方案。
Apache Hadoop m.baiap89g.cn是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。
个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。
二、为什么学习Hadoop?
近10年来,大数据技术体系一词一直和m.vihja.cn Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop。
随着近些年的发展,越来越多的新技术框架的出现,给大数据技术体系带来了丰富的生态,但是拥有元老地位的Hadoop依旧非常重要。
为什么学习Hadoop有如下几个至关重要的原因:
所以,学习Hadoop不仅仅因为其适合入门,同时也可以为大数据学习打下良好的基础。
三、Hadoop的功能
通常意义上来说,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
所以,我们会说Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架。
四、Hadoop发展
Hadoop创始人:Doug Cutting
Hadoop起源于Apache Lucene子项目:Nutch
Nutch的设计目标是构建一个大型的全网搜索引擎。
遇到瓶颈:如何解决数十亿网页的存储和索引问题
Google三篇论文
《The Google wWw.zhilianwanju.cn file system》:谷歌分布式文件系统GFS
《MapReduce: Simplified Data Processing on wWw.xzrljd.cn Large Clusters》:谷歌分布式计算框架MapReduce
《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统
其发型版本有两个,一个是开源社区版,一个是商业发行版。
Apache开源社区版本
商业发行版本
CDH( wWw.hxxinwen.cn Cloudera's Distribution, including Apache Hadoop) Cloudera wWw.zufang360.cn公司出品,目前使用最多的商业版
HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收购
星环,国产商业版,星环公司出品,在国内政企使用较多。