← 返回首页
Hadoop基础教程(一)
发表时间:2022-05-29 00:00:12
Hadoop简介

1.什么是Hadoop

2.Hadoop的发展历史

  1. Lucene 框架是 Doug Cutting 开创的开源软件,用 java 书写代码,实现与 Google 类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。
  2. 2001年年底 Lucene 成为 apache 基金会的一个子项目。
  3. 对于海量数据的场景,Lucene 面对与 Google 同样的困难:存储数据困难,检索速度慢。
  4. 学习和模仿 Google 解决这些问题的办法 :微型版 Nutch。
  5. 可以说 Google 是 hadoop 的思想之源(Google 在大数据方面的三篇论文)。 GFS —>HDFS Map-Reduce —>MR BigTable —>Hbase
  6. 2003-2004 年,Google 公开了部分 GFS 和 Mapreduce 思想的细节,以此为基础 Doug Cutting 等人用了 2 年业余时间实现了 DFS 和 Mapreduce机制,使 Nutch 性能飙升 。
  7. 2005 年Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。
  8. 2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
  9. 名字来源于 Doug Cutting 儿子的玩具大象。

目前Hadoop经历了三个大的版本:

3.Hadoop三大发行版本

建议在实际工作中搭建大数据平台时选择 CDH或者HDP,方便运维管理。

4.Hadoop的优势

5.Hadoop的组成

在 Hadoop 1.x 时代,Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源调度,耦合性较大。 在 Hadoop 2.x 时代,增加了 Yarn。Yarn 只负责资源的调度,MapReduce 只负责运算。