• 178-9621-6589
  • NeuSofts@NeuSofts.Com

Hadoop

Hadoop

一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

参考资料:http://baike.baidu.com/view/908354.htm

hadoop集群环境搭建 

1 hadoop集群规划

1.1 共有A、B、C 三台机器;

1.2 A 作为master,B作为slave1,C作为slave2;

1.3 IP  A :192.168.1.103;B:192.168.1.104;C:192.168.1.101;

1.4 OS:centos6.2(64bit)

2 hadoop集群搭建步骤

2.1 创建 hadoop用户,并使该用户拥有root权限(在master机器上进行)

#创建hadoop用户

useradd hadoop

#给用户hadoop添加密码

passwd hadoop

#付给hadoop用户root权限

vi /etc/passwd  将hadoop用户的用户ID 、组ID 都改为0,如hadoop:x:0:0::/home/hadoop:/bin/bash(记得先切换到root用户哦,其他用户估计对该文件没有权限)

2.2 切换到hadoop用户,进入hadoop用户主目录(在master机器上进行)

#切换到hadoop用户

su hadoop

根据提示输入密码(如果从普通用户切换到hadoop,需要密码;如果从root用户切换到hadoop,不许要输入密码,也就没有这一步了)

#进入hadoop的主目录

cd /home/hadoop

2.3  安装JDK环境(hadoop是JAVA编写的一个工具,需要使用JDK)(在master机器上进行)

yum install openjdk*(yum 是centos上的一个安装软件的工具,可以查找软件、删除软件、更新软件等)

2.4 安装openssh(hadoop节点间通信需要使用到它,并且相对ssh而言,这个是免费的)(在master机器上进行)

#安装openssh

yum install openssh*

#生存ssh密钥

ssh-keygen -t rsa -P ”

#进入.ssh文件夹

cd /root/.ssh

#将公钥加到认证的公钥文件中

cat id_rsa.pub>>authorized_keys

2.5 下载hadoop安装包并进行相应的配置(在master机器上进行)

#下载hadoop-1.0.4.tar.gz

#解压hadoop-1.0.4.tar.gz到/home/hadoop

#hadoop-1.0.4文件夹中的conf文件夹中是我们需要配置的文件(详情见地址)

http://download.csdn.net/detail/lovemelovemycode/5634581

2.6 配置hosts和hostname(在master上进行)

#下载这个文件

http://download.csdn.net/detail/lovemelovemycode/5634599

2.7  在slave1和slave2上重复2.1、2.2、2.3的步骤

2.8 将master上相应的文件copy到slave1\slave2上(在master上进行)

scp -r .ssh hadoop@slave1:/root

scp -r .ssh hadoop@slave2:/root

scp -r /home/hadoop/hadoop-1.0.4 hadoop@slave1:/home/hadoop

scp -r /home/hadoop/hadoop-1.0.4 hadoop@slave2:/home/hadoop

scp -r /etc/hosts hadoop@slave1:/etc

scp -r /etc/hostname hadoop@slave2:/etc

2.9 关闭 master、slave1、slave2的防火墙

#暂时关闭防火墙

/etc/init.d/iptables stop

#永久关闭防火墙

chkconfig –level 35 iptables off

2.10  对namenode\datanode进行格式化(在master上进行)

bin/hadoop namenode -format

bin/hadoop datanode -format

2.11 启动hadoop(在master上进行)

# 进入hadoop-1.0.4

bin/start-all.sh

3 hadoop集群搭建成功的验证方法

3.1 通过java 的jps命令验证

http://download.csdn.net/detail/lovemelovemycode/5634649

3.2 通过http://master:50070    和http://master:50030验证

Neusofts