> 文章列表 > 在Ubuntu18.0.4下安装Hadoop

在Ubuntu18.0.4下安装Hadoop

在Ubuntu18.0.4下安装Hadoop

安装Hadoop具体操作步骤

在Ubuntu系统上安装Hadoop涉及到几个主要步骤。以下是详细的安装过程:

步骤1,更新系统和安装Java

  1. Hadoop需要Java运行环境,因此首先需要安装Java。打开终端并运行以下命令来更新系统并安装Java:
sudo apt-get update
sudo apt-get install openjdk-8-jdk
  1. 安装完成后,检查Java版本以确认安装成功:
java -version

步骤2,创建Hadoop用户,给Hadoop用户赋予一定权限

  1. 为了安全起见,建议为Hadoop创建一个专用用户。运行以下命令创建一个名为hadoop的用户:
sudo adduser hadoop
  1. 输入新用户的密码和其他相关信息。

切换到root用户,如果你没有用户,请自行搜索,如何在ubuntu下创建root用户。

su - root
  1. 现在,将/usr/local/hadoop目录的所有权更改为hadoop用户和hadoop组:
sudo chown -R hadoop:hadoop /usr/local/hadoop
  1. 更改/usr/local/hadoop目录的权限,以便hadoop用户可以读取、写入和执行文件
sudo chmod -R 755 /usr/local/hadoop
  1. 切换回hadoop用户:
sudo su - hadoop

步骤3,下载并解压Hadoop

  1. 从官方网站下载Hadoop二进制文件。你可以访问以下链接查找适合你的版本:
https://hadoop.apache.org/releases.html
  1. 假设你已经选择了一个版本,使用wget命令下载它(例如,3.3.1版本):
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
  1. 下载完成后,解压下载的文件:
tar -xzf hadoop-3.3.1.tar.gz
  1. 将解压后的文件夹移动到/usr/local/hadoop:
sudo mv hadoop-3.3.1 /usr/local/hadoop

步骤4,配置Hadoop环境,与java环境

  1. 为了配置Hadoop环境,你需要编辑.bashrc文件。首先切换到hadoop用户:
sudo su - hadoop
  1. 然后使用文本编辑器打开.bashrc文件,例如使用vim:
vim .bashrc
  1. 在文件末尾添加以下行:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
  1. 保存文件并退出。然后运行以下命令使更改生效:
source .bashrc

步骤5,配置java环境

  1. 首先,找到Java安装的位置。通常,它位于/usr/lib/jvm目录下。在终端中输入以下命令:
ls /usr/lib/jvm
  1. 你可能会看到类似的输出:
java-1.8.0-openjdk-amd64
  1. 记下这个路径,因为我们将在下一步中使用它。

  2. 确保当前用户是hadoop用户,如果不是,请切换到hadoop用户:

sudo su - hadoop
  1. 使用文本编辑器(如vim)打开hadoop用户的.bashrc文件:
vim .bashrc
  1. 在文件末尾添加以下行,将YOUR_JAVA_PATH替换为第1步中找到的Java路径:
export JAVA_HOME=/usr/lib/jvm/YOUR_JAVA_PATH
export PATH=$PATH:$JAVA_HOME/bin
  1. 例如,如果你的Java路径是java-1.8.0-openjdk-amd64,则应添加:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin
  1. 保存文件并退出编辑器。

  2. 使更改生效:

source .bashrc

步骤6,配置Hadoop

  1. 接下来,你需要配置Hadoop的核心组件。在/usr/local/hadoop/etc/hadoop目录下,编辑以下文件:
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
  • 使用vim或其他文本编辑器打开这些文件并添加相应的配置。
  1. 在core-site.xml文件中添加以下内容:
<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
  1. 在hdfs-site.xml文件中添加以下内容:
<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>/usr/local/hadoop/hadoop_data/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>/usr/local/hadoop/hadoop_data/hdfs/datanode</value></property>
</configuration>
  1. mapred-site.xml文件中添加以下内容:
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
</configuration>
  1. 在yarn-site.xml文件中添加以下内容:
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property>
</configuration>

步骤6,初始化HDFS(Hadoop分布式文件系统)

  1. 首先,创建名为hadoop_data的目录,该目录将存储namenode和datanode数据:
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/{namenode,datanode}
  1. 然后,格式化namenode:
/usr/local/hadoop/bin/hdfs namenode -format
  1. 启动Hadoop集群
    启动Hadoop集群,运行以下命令:
/usr/local/hadoop/sbin/start-all.sh

此命令将启动Hadoop的所有守护进程,包括namenode、datanode、resourcemanager和nodemanager。

  1. 验证Hadoop安装
    使用以下命令检查Hadoop是否正常运行:
jps

你应该看到以下进程:

NameNode
DataNode
ResourceManager
NodeManager
SecondaryNameNode

如果没有看到,则让我们尝试逐个启动它们并检查可能出现的问题。

启动NameNode:

/usr/local/hadoop/sbin/hadoop-daemon.sh start namenode

启动DataNode:

/usr/local/hadoop/sbin/hadoop-daemon.sh start datanode

启动ResourceManager:

/usr/local/hadoop/sbin/yarn-daemon.sh start resourcemanager

启动NodeManager:

/usr/local/hadoop/sbin/yarn-daemon.sh start nodemanager

在运行这些命令时,如果遇到错误或问题,请查看/usr/local/hadoop/logs目录下的日志文件,这可能有助于确定问题所在。

另外,确保在运行这些命令之前,已经正确配置了core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml文件,并且已经为hadoop用户设置了JAVA_HOME环境变量。

在启动所有守护进程后,再次运行jps命令。这次应该可以看到以下进程:

NameNode
DataNode
ResourceManager
NodeManager

如果问题仍然存在,请检查日志文件以获取更多详细信息,并确保系统上已正确安装和配置Java和Hadoop。

此外,你还可以访问Hadoop Web界面来查看集群状态:

NameNode: http://localhost:9870/
ResourceManager: http://localhost:8088/

至此,你已成功在Ubuntu系统上安装并配置了Hadoop。接下来,你可以开始使用Hadoop进行大数据处理。

总结

  • 在配置那4个文件的时候,注意
<configuration>只能有这么一对这样的括号存在,原配置文件中的这对括号删除掉,把我给的代码直接粘贴就好了。
</configuration>
  • 如果,大家在配置中还出现了哪些问题,请私信我,您的点赞与关注是我继续输出优质内容的无上动力!

字体转换器