2024年 3月
 123
45678910
11121314151617
18192021222324
25262728293031

近期发布

近期评论

    2024 年 3 月 25 日

    Neusofts

    科技改变生活,创新引领未来

    Hadoop

    一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

    参考资料:http://baike.baidu.com/view/908354.htm

    hadoop集群环境搭建 

    1 hadoop集群规划

    1.1 共有A、B、C 三台机器;

    1.2 A 作为master,B作为slave1,C作为slave2;

    1.3 IP  A :192.168.1.103;B:192.168.1.104;C:192.168.1.101;

    1.4 OS:centos6.2(64bit)

    2 hadoop集群搭建步骤

    2.1 创建 hadoop用户,并使该用户拥有root权限(在master机器上进行)

    #创建hadoop用户

    useradd hadoop

    #给用户hadoop添加密码

    passwd hadoop

    #付给hadoop用户root权限

    vi /etc/passwd  将hadoop用户的用户ID 、组ID 都改为0,如hadoop:x:0:0::/home/hadoop:/bin/bash(记得先切换到root用户哦,其他用户估计对该文件没有权限)

    2.2 切换到hadoop用户,进入hadoop用户主目录(在master机器上进行)

    #切换到hadoop用户

    su hadoop

    根据提示输入密码(如果从普通用户切换到hadoop,需要密码;如果从root用户切换到hadoop,不许要输入密码,也就没有这一步了)

    #进入hadoop的主目录

    cd /home/hadoop

    2.3  安装JDK环境(hadoop是JAVA编写的一个工具,需要使用JDK)(在master机器上进行)

    yum install openjdk*(yum 是centos上的一个安装软件的工具,可以查找软件、删除软件、更新软件等)

    2.4 安装openssh(hadoop节点间通信需要使用到它,并且相对ssh而言,这个是免费的)(在master机器上进行)

    #安装openssh

    yum install openssh*

    #生存ssh密钥

    ssh-keygen -t rsa -P ”

    #进入.ssh文件夹

    cd /root/.ssh

    #将公钥加到认证的公钥文件中

    cat id_rsa.pub>>authorized_keys

    2.5 下载hadoop安装包并进行相应的配置(在master机器上进行)

    #下载hadoop-1.0.4.tar.gz

    #解压hadoop-1.0.4.tar.gz到/home/hadoop

    #hadoop-1.0.4文件夹中的conf文件夹中是我们需要配置的文件(详情见地址)

    http://download.csdn.net/detail/lovemelovemycode/5634581

    2.6 配置hosts和hostname(在master上进行)

    #下载这个文件

    http://download.csdn.net/detail/lovemelovemycode/5634599

    2.7  在slave1和slave2上重复2.1、2.2、2.3的步骤

    2.8 将master上相应的文件copy到slave1\slave2上(在master上进行)

    scp -r .ssh hadoop@slave1:/root

    scp -r .ssh hadoop@slave2:/root

    scp -r /home/hadoop/hadoop-1.0.4 hadoop@slave1:/home/hadoop

    scp -r /home/hadoop/hadoop-1.0.4 hadoop@slave2:/home/hadoop

    scp -r /etc/hosts hadoop@slave1:/etc

    scp -r /etc/hostname hadoop@slave2:/etc

    2.9 关闭 master、slave1、slave2的防火墙

    #暂时关闭防火墙

    /etc/init.d/iptables stop

    #永久关闭防火墙

    chkconfig –level 35 iptables off

    2.10  对namenode\datanode进行格式化(在master上进行)

    bin/hadoop namenode -format

    bin/hadoop datanode -format

    2.11 启动hadoop(在master上进行)

    # 进入hadoop-1.0.4

    bin/start-all.sh

    3 hadoop集群搭建成功的验证方法

    3.1 通过java 的jps命令验证

    http://download.csdn.net/detail/lovemelovemycode/5634649

    3.2 通过http://master:50070    和http://master:50030验证