在Ubuntu18.0.4下安装Hadoop
安装Hadoop具体操作步骤
在Ubuntu系统上安装Hadoop涉及到几个主要步骤。以下是详细的安装过程:
步骤1,更新系统和安装Java
- Hadoop需要Java运行环境,因此首先需要安装Java。打开终端并运行以下命令来更新系统并安装Java:
sudo apt-get update
sudo apt-get install openjdk-8-jdk
- 安装完成后,检查Java版本以确认安装成功:
java -version
步骤2,创建Hadoop用户,给Hadoop用户赋予一定权限
- 为了安全起见,建议为Hadoop创建一个专用用户。运行以下命令创建一个名为hadoop的用户:
sudo adduser hadoop
- 输入新用户的密码和其他相关信息。
切换到root用户,如果你没有用户,请自行搜索,如何在ubuntu下创建root用户。
su - root
- 现在,将/usr/local/hadoop目录的所有权更改为hadoop用户和hadoop组:
sudo chown -R hadoop:hadoop /usr/local/hadoop
- 更改/usr/local/hadoop目录的权限,以便hadoop用户可以读取、写入和执行文件:
sudo chmod -R 755 /usr/local/hadoop
- 切换回hadoop用户:
sudo su - hadoop
步骤3,下载并解压Hadoop
- 从官方网站下载Hadoop二进制文件。你可以访问以下链接查找适合你的版本:
https://hadoop.apache.org/releases.html
- 假设你已经选择了一个版本,使用wget命令下载它(例如,3.3.1版本):
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
- 下载完成后,解压下载的文件:
tar -xzf hadoop-3.3.1.tar.gz
- 将解压后的文件夹移动到/usr/local/hadoop:
sudo mv hadoop-3.3.1 /usr/local/hadoop
步骤4,配置Hadoop环境,与java环境
- 为了配置Hadoop环境,你需要编辑.bashrc文件。首先切换到hadoop用户:
sudo su - hadoop
- 然后使用文本编辑器打开.bashrc文件,例如使用vim:
vim .bashrc
- 在文件末尾添加以下行:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
- 保存文件并退出。然后运行以下命令使更改生效:
source .bashrc
步骤5,配置java环境
- 首先,找到Java安装的位置。通常,它位于/usr/lib/jvm目录下。在终端中输入以下命令:
ls /usr/lib/jvm
- 你可能会看到类似的输出:
java-1.8.0-openjdk-amd64
-
记下这个路径,因为我们将在下一步中使用它。
-
确保当前用户是hadoop用户,如果不是,请切换到hadoop用户:
sudo su - hadoop
- 使用文本编辑器(如vim)打开hadoop用户的.bashrc文件:
vim .bashrc
- 在文件末尾添加以下行,将YOUR_JAVA_PATH替换为第1步中找到的Java路径:
export JAVA_HOME=/usr/lib/jvm/YOUR_JAVA_PATH
export PATH=$PATH:$JAVA_HOME/bin
- 例如,如果你的Java路径是java-1.8.0-openjdk-amd64,则应添加:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin
-
保存文件并退出编辑器。
-
使更改生效:
source .bashrc
步骤6,配置Hadoop
- 接下来,你需要配置Hadoop的核心组件。在/usr/local/hadoop/etc/hadoop目录下,编辑以下文件:
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
- 使用vim或其他文本编辑器打开这些文件并添加相应的配置。
- 在core-site.xml文件中添加以下内容:
<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
- 在hdfs-site.xml文件中添加以下内容:
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>/usr/local/hadoop/hadoop_data/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>/usr/local/hadoop/hadoop_data/hdfs/datanode</value></property>
</configuration>
- 在
mapred-site.xml
文件中添加以下内容:
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>
- 在yarn-site.xml文件中添加以下内容:
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property>
</configuration>
步骤6,初始化HDFS(Hadoop分布式文件系统)
- 首先,创建名为hadoop_data的目录,该目录将存储namenode和datanode数据:
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/{namenode,datanode}
- 然后,格式化namenode:
/usr/local/hadoop/bin/hdfs namenode -format
- 启动Hadoop集群
启动Hadoop集群,运行以下命令:
/usr/local/hadoop/sbin/start-all.sh
此命令将启动Hadoop的所有守护进程,包括namenode、datanode、resourcemanager和nodemanager。
- 验证Hadoop安装
使用以下命令检查Hadoop是否正常运行:
jps
你应该看到以下进程:
NameNode
DataNode
ResourceManager
NodeManager
SecondaryNameNode
如果没有看到,则让我们尝试逐个启动它们并检查可能出现的问题。
启动NameNode:
/usr/local/hadoop/sbin/hadoop-daemon.sh start namenode
启动DataNode:
/usr/local/hadoop/sbin/hadoop-daemon.sh start datanode
启动ResourceManager:
/usr/local/hadoop/sbin/yarn-daemon.sh start resourcemanager
启动NodeManager:
/usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager
在运行这些命令时,如果遇到错误或问题,请查看/usr/local/hadoop/logs目录下的日志文件,这可能有助于确定问题所在。
另外,确保在运行这些命令之前,已经正确配置了core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml文件,并且已经为hadoop用户设置了JAVA_HOME环境变量。
在启动所有守护进程后,再次运行jps命令。这次应该可以看到以下进程:
NameNode
DataNode
ResourceManager
NodeManager
如果问题仍然存在,请检查日志文件以获取更多详细信息,并确保系统上已正确安装和配置Java和Hadoop。
此外,你还可以访问Hadoop Web界面来查看集群状态:
NameNode: http://localhost:9870/
ResourceManager: http://localhost:8088/
至此,你已成功在Ubuntu系统上安装并配置了Hadoop。接下来,你可以开始使用Hadoop进行大数据处理。
总结
- 在配置那4个文件的时候,注意
<configuration>只能有这么一对这样的括号存在,原配置文件中的这对括号删除掉,把我给的代码直接粘贴就好了。
</configuration>
如果,大家在配置中还出现了哪些问题,请私信我,您的点赞与关注是我继续输出优质内容的无上动力!