引言

Hadoop是一个开源的分布式计算框架,用于处理大规模数据集。本文将详细介绍如何在CentOS上安装Hadoop 2.2版本,适合初学者从入门到实践的全过程。

系统要求

在开始安装之前,请确保您的CentOS系统满足以下要求:

  • 操作系统:CentOS 6.5及以上版本
  • CPU:至少1GHz
  • 内存:至少4GB(推荐8GB以上)
  • 硬盘:至少100GB的可用空间
  • 网络:公网访问或可访问公网的代理服务器

安装步骤

1. 准备工作

  1. 更新系统
   sudo yum update -y
  1. 关闭防火墙
   sudo systemctl stop firewalld
   sudo systemctl disable firewalld
  1. 禁用SELinux
   sudo vi /etc/selinux/config

将SELINUX设置为disabled:

   SELINUX=disabled

保存并退出。

  1. 安装Java

Hadoop需要Java环境,这里我们使用OpenJDK。

   sudo yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel

安装完成后,验证Java版本:

   java -version

2. 下载Hadoop 2.2

  1. 访问Hadoop官方下载页面:
  2. 下载Hadoop 2.2.0版本的安装包(hadoop-2.2.0.tar.gz)。
  3. 将下载的安装包上传到CentOS服务器,可以使用SSH工具或者FTP等。

3. 解压Hadoop

  1. 创建Hadoop安装目录:
   sudo mkdir /opt/hadoop
  1. 解压Hadoop安装包:
   sudo tar -zxvf hadoop-2.2.0.tar.gz -C /opt/hadoop
  1. 重命名Hadoop安装目录:
   sudo mv /opt/hadoop/hadoop-2.2.0 /opt/hadoop/hadoop

4. 配置Hadoop

  1. 设置环境变量
   sudo vi /etc/profile

在文件末尾添加以下内容:

   export HADOOP_HOME=/opt/hadoop/hadoop
   export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存并退出。

    配置Hadoop配置文件

    • core-site.xml
     <configuration>
       <property>
         <name>fs.defaultFS</name>
         <value>hdfs://localhost:9000</value>
       </property>
       <property>
         <name>hadoop.tmp.dir</name>
         <value>/opt/hadoop/hadoop/tmp</value>
       </property>
     </configuration>
    
    • hdfs-site.xml
     <configuration>
       <property>
         <name>dfs.replication</name>
         <value>1</value>
       </property>
     </configuration>
    
    • mapred-site.xml
     <configuration>
       <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
       </property>
     </configuration>
    
    • yarn-site.xml
     <configuration>
       <property>
         <name>yarn.resourcemanager.hostname</name>
         <value>localhost</value>
       </property>
     </configuration>
    

    创建Hadoop目录

   sudo -u hdfs hadoop fs -mkdir -p /tmp
   sudo -u hdfs hadoop fs -mkdir -p /user
   sudo -u hdfs hadoop fs -chmod g+w /tmp
   sudo -u hdfs hadoop fs -chmod g+w /user

5. 格式化HDFS

sudo -u hdfs hadoop namenode -format

6. 启动Hadoop

  1. 启动HDFS
   sudo start-dfs.sh
  1. 启动YARN
   sudo start-yarn.sh
  1. 检查Hadoop服务状态
   jps

应该看到以下进程:

   NameNode
   SecondaryNameNode
   ResourceManager
   NodeManager
   DataNode

7. Hadoop基本操作

  1. 查看HDFS目录
   hdfs dfs -ls /
  1. 上传文件到HDFS
   hdfs dfs -put /path/to/local/file /path/to/hdfs/file
  1. 下载文件从HDFS
   hdfs dfs -get /path/to/hdfs/file /path/to/local/file
  1. 运行MapReduce示例程序
   hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output

其中,/input为HDFS中的输入文件路径,/output为输出文件路径。

总结

本文详细介绍了在CentOS上安装Hadoop 2.2版本的全过程,包括准备工作、下载Hadoop、配置Hadoop、格式化HDFS、启动Hadoop服务以及基本操作。希望本文能帮助您快速上手Hadoop,并为进一步学习Hadoop相关技术打下基础。