一、Hadoop 安装

1.apache 官网下载hadoop tar.gz 上传到linux 服务器;

2.验证Linux 服务器是否有java环境,java -version;是否有JAVA_HOME,echo $JAVA_HOME;

3.配置Hadoop 环境变量,需要配置 hadoop目录下的 bin 和 sbin 目录

注:环境变量可在 ~/.bash_profile(只对当前用户有效 ) 或者 /etc/profile(对所有用户有效) 中配置;

HADOOP_HOME=/home/hadoop/hadoop-3.1.0

export HADOOP_HOME

PATH=

H

A

D

O

O

P

_

H

O

M

E

/

b

i

n

:

HADOOP\_HOME/bin:

HADOOP_HOME/bin:HADOOP_HOME/sbin:$PATH

export PATH

验证:echo $HADOOP_HOME 打印出我们所配的即可;

二、hadoop目录结构

三、hadoop的本地模式:

特点:不具备HDFS,只能测试MapReduce 程序;

安装:只需要修改hadoop/etc/hadoop/hadoop-env.sh 文件,在其中添加上JAVA_HOME即可

vimhadoop/etc/hadoop/hadoop-env.sh 添加如下:

export JAVA_HOME=***

测试:

hadoop jar hadoop-mapreduce-examples-3.1.0.jar wordcount /home/demo/input/demo1/home/demo/output/wc_demo1.txt

看到如下:2018-07-18 23:22:47,379 INFO mapreduce.Job:map 100% reduce 100% 即已经运行完成,可以到/home/demo/output/wc_demo1.txt下查看:ls

cat part-r-0000 即可看到hadoop 的mapreduce 的结果。

hadoop 的mapreduce 结果默认是按照字典顺序排好序的。

四、Hadoop的伪分布式:

特点:具备hadoop所有的功能,在单机模拟hadoop分布式环境。把nameNode,dataNode 安装在同一个节点上,还需要装一个MapReduce的运行环境yarn。需要配置如下内容:

(1)HDFS:主节点:nameNode;数据节点:dataNode;

(2)yarn:是一个容器,用来运行MapReduce程序;类似jsp需要运行在tomcat容器一样。yarn也有两部分:

主节点:ReourceManager

从节点:NodeManager

(HDFS配置)

hdfs-site.xml配置:($HADOOP_HOME/etc/hadoop/hdfs-site.xml 中的confirgation 标签中)

<!--配置HDFS的冗余度,默认是3,这里配成1 -->

<property>

????<name>dfs.replication</name>

????<value>1</value>

</property>

<!--配置是否检查权限 -->

<property>

????<name>dfs.permissions</name>

????<value>false</value>

</property>

core-site.xml配置:($HADOOP_HOME/etc/hadoop/core-site.xml中的confirgation 标签中)

<!--配置HDFS的主节点,nameNode -->

<property>

????<name>fs.defaultFS</name>

????<value>hdfs://10.0.0.180:9000</value>

</property>

<!--配置dataNode保存数据的位置 -->

<property>

????<name>hadoop.tmp.dir</name>

????<value>/hadoop/dataNode_1_dir</value>

</property>

(yarn配置)

mapred-site.xml配置:($HADOOP_HOME/etc/hadoop/mapred-site.xml中的confirgation标签中)

<!--配置MapReduce运行的框架 -->

<property>

????<name>mapreduce.framework.name</name>

????<value>yarn</value>

</property>

yarn-site.xml配置:($HADOOP_HOME/etc/hadoop/yarn-site.xml中的confirgation标签中)

<!--配置ReourceManager的地址-->

<property>

????<name>yarn.resourcemanager.hostname</name>

????<value>10.0.0.180</value>

</property>

<!--配置NodeManager执行任务的方式:shuffle:洗牌 -->

<property>

????<name>yarn.nodemanager.aux-services</name>

????<value>mapreduce_shuffle</value>

</property>

至此,配置完毕,但是还不能启动,要对hdfs先进行格式化。类似以前的软盘,使用前要先格式化;

执行命令:hdfs namenode -format

看到日志信息:即格式化成功。

启动:

start-all.sh 会启动两部分,

1)启动HDFS 存储数据

2)启动yarn 执行计算

启动后,命令行 jps 出现:

说明Hadoop伪分布式已经启动成功了

访问:

1)命令行方式;

2)java api 访问;

3)web 浏览器;

踩坑过程:

1.hadoop 无法启动,报nameNode 没有配置用户名

解决措施:首先将linux服务器设置免密登陆(不懂的可以百度)

生成密钥、复制、修改权限
    $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
    $ chmod 0600 ~/.ssh/authorized_keys
    $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

发现还是不能启动,但是错误不一样了,大概是当前用户名是centos7 而我设置的localhost;

修改hostname:注意hostname有两个位置

# hostnamectl set-hostname host-name 
# hostnamectl --static set-hostname host-name

修改后,终于可以启动了。但是访问50070端口,访问不了。

百度一堆解决这个问题的,什么关闭防火墙啊,验证配置文件啊,都不好用。最后查看了下服务器启动的端口

关闭防火墙一个一个的试吧,最后终于找到了HDFS nameNode 的登陆端口,竟然是9870,吐血。浏览器访问,10.0.0.180:9870 成功!

最后感谢【腾讯视频】赵强老师分享的Hadoop视频,讲的很好,很细致,看了很受教!