> 文章列表 > 从零配置双4090显卡pytorch工作站,多用户共享

从零配置双4090显卡pytorch工作站,多用户共享

从零配置双4090显卡pytorch工作站,多用户共享

简介:

实验室新配置服务器,老师让我着手布置,第一次上手,很多地方一直配不好,挣扎一周后,这里做个记录,从零开始重新装配,建议大家先看完整个文章后,再根据自己的现实情况,从头看文章并且根据自己情况做修改。

硬件:

CPU: i9-13900K

主板:ROG MAXIMUS Z790 HERO

电源:长城2000W

显卡:双4090(必恩威)

系统:Ubuntu22.04

记录:

一、安装系统

使用启动盘,安装server版ubuntu22.04。

语言选择英语,键盘布置也选择英语。安装系统之前已经把双显卡都插上了。

安装类型:ubuntu server

额外选项:搜索第三方驱动(Search for thirty-party drivers),大家看情况自己弄,我到最后要自己装驱动的,所以这里我没选

网络设置:由于送了有wifi信号接收器,主板上有wifi,这里直接设置一个网络

等待他获取了ip地址后,继续。

设置Proxy:自己看自己配置,我是没有,所以done,继续

设置源,这个地方要设置一下, 我使用了清华源:

https://mirrors.tuna.tsinghua.edu.cn/ubuntu/

在这里直接填写后面就不需要手动换源了。

然后如果可能的话,这个地方会提示我们是否要更新到一个更新的安装器(installer),这里我选择第二个,continue without updating,就是使用现有的安装器。

然后就是设置硬盘,大家可以根据自己设置,如果不会的话直接使用整块硬盘就好,我们这里使用了两个硬盘,需要自定义设置,这个地方就不展示了,大家根据自己需求来。

然后就是选择用户名和主机名和密码,这里自己填写一下

然后就是选择是否升级到ubuntu Pro,说实话,我不知道这个玩意儿是干啥的,我这里直接Skip for now。

SSH Setup: 这里选择安装install openssh server,到时候可以直接使用自己的xshell连接了。

如果前面选择了搜索第三方驱动,然后这里搜索到了一个第三方的驱动,问是否安装,这里大家自己看,最新的驱动是530了(截止到本文写的时候),是否安装自己看情况吧。

然后就是一大堆可选软件,我一个没选直接继续了。

然后就是等待安装完成(下方提示reboot now),然后选择重启,同时拔掉优盘。

二、配置系统

噩梦的开始!

首先找到服务器的ip地址,我这里直接通过路由器查看的:

 大家可以通过

hostname -I

命令查看ip地址,端口是22,输入用户名和密码连接xshell。

然后运行命令并输入密码切换到root用户,注意,这里的 - 不能少,少了也能进入root用户,但是进入的root和sudo su - 进入的root不一样

sudo su -

1. 安装Nvidia驱动(如果你在安装系统时选择了第三方驱动,这个小节可以跳过)

大家可以去英伟达官方的驱动页面搜索自己的驱动,

 这里使用什么版本的驱动自己选,如果不知道使用哪一个,就使用最新的,

下载方式有两种:

第一种:使用wget下载

点进驱动的下载页面之后,这里有:

可以把链接复制出来,

 我在这里专门建立了一个文件夹:

 然后就使用wget命令

第二种:windows下载好了之后,使用工具(如ftp、lrzsz工具传输到ubuntu中),这种方式我就不赘述了。

然后下载一些必要的内容:

apt-get -y install build-essential g++ make
apt-get install dkms linux-headers-$(uname -r)

禁用nouveau(这个是linux的自带的显卡驱动,可以用来做其他的事情,但是不符合这个工作站的需求,所以禁用)。

vi /etc/modprobe.d/blacklist.conf

 添加进这两句话:

blacklist nouveau
options nouveau modeset=0

如果不会用vim的话,直接使用下面的命令:

echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf
echo 'options nouveau modeset=0' >> /etc/modprobe.d/blacklist.conf

然后执行

update-initramfs -u

然后重启服务器(指4090的服务器)(reboot),重启之后记得切换到root用户。

进入驱动程序保存的文件夹,执行

chmod +x NVIDIA-Linux-x86_64-530.41.03.run

命令赋予这个驱动程序可执行权限:

然后执行:

./NVIDIA-Linux-x86_64-530.41.03.run -no-opengl-files -no-x-check -no-nouveau-check

如果嫌麻烦,后面的三个标志可以不加。

然后我电脑panic了。。。。。。

 先不搞了,先吃饭去。

 

素描画基础网