引言
Hadoop是一个开源的分布式计算框架,用于处理大规模数据集。本文将详细介绍如何在CentOS上安装Hadoop 2.2版本,适合初学者从入门到实践的全过程。
系统要求
在开始安装之前,请确保您的CentOS系统满足以下要求:
- 操作系统:CentOS 6.5及以上版本
- CPU:至少1GHz
- 内存:至少4GB(推荐8GB以上)
- 硬盘:至少100GB的可用空间
- 网络:公网访问或可访问公网的代理服务器
安装步骤
1. 准备工作
- 更新系统:
sudo yum update -y
- 关闭防火墙:
sudo systemctl stop firewalld
sudo systemctl disable firewalld
- 禁用SELinux:
sudo vi /etc/selinux/config
将SELINUX设置为disabled:
SELINUX=disabled
保存并退出。
- 安装Java:
Hadoop需要Java环境,这里我们使用OpenJDK。
sudo yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel
安装完成后,验证Java版本:
java -version
2. 下载Hadoop 2.2
- 访问Hadoop官方下载页面:
- 下载Hadoop 2.2.0版本的安装包(hadoop-2.2.0.tar.gz)。
- 将下载的安装包上传到CentOS服务器,可以使用SSH工具或者FTP等。
3. 解压Hadoop
- 创建Hadoop安装目录:
sudo mkdir /opt/hadoop
- 解压Hadoop安装包:
sudo tar -zxvf hadoop-2.2.0.tar.gz -C /opt/hadoop
- 重命名Hadoop安装目录:
sudo mv /opt/hadoop/hadoop-2.2.0 /opt/hadoop/hadoop
4. 配置Hadoop
- 设置环境变量:
sudo vi /etc/profile
在文件末尾添加以下内容:
export HADOOP_HOME=/opt/hadoop/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存并退出。
- core-site.xml:
- hdfs-site.xml:
- mapred-site.xml:
- yarn-site.xml:
配置Hadoop配置文件:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/hadoop/tmp</value>
</property>
</configuration>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
创建Hadoop目录:
sudo -u hdfs hadoop fs -mkdir -p /tmp
sudo -u hdfs hadoop fs -mkdir -p /user
sudo -u hdfs hadoop fs -chmod g+w /tmp
sudo -u hdfs hadoop fs -chmod g+w /user
5. 格式化HDFS
sudo -u hdfs hadoop namenode -format
6. 启动Hadoop
- 启动HDFS:
sudo start-dfs.sh
- 启动YARN:
sudo start-yarn.sh
- 检查Hadoop服务状态:
jps
应该看到以下进程:
NameNode
SecondaryNameNode
ResourceManager
NodeManager
DataNode
7. Hadoop基本操作
- 查看HDFS目录:
hdfs dfs -ls /
- 上传文件到HDFS:
hdfs dfs -put /path/to/local/file /path/to/hdfs/file
- 下载文件从HDFS:
hdfs dfs -get /path/to/hdfs/file /path/to/local/file
- 运行MapReduce示例程序:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output
其中,/input为HDFS中的输入文件路径,/output为输出文件路径。
总结
本文详细介绍了在CentOS上安装Hadoop 2.2版本的全过程,包括准备工作、下载Hadoop、配置Hadoop、格式化HDFS、启动Hadoop服务以及基本操作。希望本文能帮助您快速上手Hadoop,并为进一步学习Hadoop相关技术打下基础。