安装系统

Ubuntu22.04 LTS

设置上海市区

1
timedatectl set-timezone Asia/Shanghai

查看系统版本

1
lsb_release -a

查看python版本

1
python3 --version

设置ip

vi /etc/netplan/01-netcfg.yaml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# This is the network config written by 'subiquity'
network:
ethernets:
ens160:
addresses:
- 192.168.60.86/24
nameservers:
addresses:
- 202.96.128.68
- 8.8.8.8
search:
- ai01
routes:
- to: default
via: 192.168.60.253
version: 2

生效

netplan apply

esxi7

安装系统完成后挂载显卡

esxi7 安装选择直通 重启主机

虚拟机

在虚拟机选项->高级->编辑配置 添加参数

字段
pciPassthru.use64bitMMIO TRUE
pciPassthru.64bitMMIOSizeGB 64
hypervisor.cpuid.v0 FALSE

安装NVIDIA驱动

这里使用 Ubuntu22.04LTSC

NVIDIA 驱动是用于让操作系统和 NVIDIA 显卡硬件进行通信的软件。驱动程序负责管理显卡的基本功能,如显示输出、图形渲染、硬件加速等。安装 NVIDIA 驱动是使用任何 NVIDIA 显卡的前提。

Ubuntu官方文档:

https://ubuntu.com/server/docs/nvidia-drivers-installation

NVIDIA文档:

https://docs.nvidia.com/datacenter/tesla/index.html

nvidia 官方驱动下载:

https://www.nvidia.cn/drivers/lookup/

image-20240723174246992

image-20240723174323269

发现是550.90.07 版本,先看看Ubuntu22.04LTS 本地包有没有,有的话不用下载

1
apt update -y

查找本地是否有最新驱动

1
apt search nvidia-driver-550

如果找到了相应的包,可以使用 apt show 命令查看包的详细信息

1
apt show nvidia-driver-550

发现存在的话直接安装,否则进入官方下载,如上图

如本地库没有

使用 dpkg 命令添加本地仓库

这一步将本地仓库添加到系统中,使得系统可以从这个仓库中找到相应的驱动

1
dpkg -i /path/to/nvidia-driver-local-repo-ubuntu2204-550.90.07_1.0-1_amd64.deb

更新包列表

1
apt update

这样可以确保系统识别新添加的本地仓库中的包

安装驱动

1
sudo apt install nvidia-driver-550

检测是否安装成功

1
nvidia-smi

image-20240723174953788

可以看到CUDA Version:12.4, 如需要安装,去安装12.4 版本即可.

安装NVIDIA CUDA

CUDA(Compute Unified Device Architecture)是由 NVIDIA 开发的一种并行计算平台和编程模型。CUDA 允许开发者利用 NVIDIA GPU 的强大计算能力进行通用计算任务(即 GPGPU,General-Purpose computing on Graphics Processing Units)。CUDA 提供了一套工具、库和 API,使得开发者可以编写程序在 GPU 上执行复杂的计算。

安装

官网下载:https://developer.nvidia.com/cuda-toolkit-archive

1
2
3
4
5
root@ai:~# apt-get -y install cuda-toolkit-12-4
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
E: Unable to locate package cuda-toolkit-12-4

发现没有包:

1
2
3
4
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4

配置环境变量

添加 CUDA 路径到你的环境变量中。在你的 .bashrc 文件中添加以下行:

1
2
export PATH=/usr/local/cuda-<version>/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-<version>/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

这里版本是12.4

1
2
export PATH=/usr/local/cuda-12.4/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

保存并关闭文件,然后运行以下命令使更改生效:

1
source ~/.bashrc

验证 CUDA 安装: 运行以下命令以验证 CUDA 是否安装成功:

1
nvcc -V

你应该看到 CUDA 编译器的版本信息。

安装cuDNN

下载

在NVIDIA官网 cuDNN下载和CUDA版本对应的cuDNN

image-20240724103554211

官方安装指南:https://docs.nvidia.com/deeplearning/cudnn/latest/installation/linux.html

兼容性查询:https://docs.nvidia.com/deeplearning/cudnn/latest/developer/forward-compatibility.html

NVIDIA cuDNN 版本与各种受支持的 NVIDIA CUDA 工具包、CUDA 驱动程序和 NVIDIA 硬件版本的兼容性
https://docs.nvidia.com/deeplearning/cudnn/latest/reference/support-matrix.html
image-20240724103153826

安装

有上面可见,安装的 cuDNN 9.2.1 for CUDA 12.x 支持的 NVIDIA CUDA Toolkit 12.4 和 NVIDIA Driver Version for Linux 550.90.07

安装命令

1
apt-get -y install cudnn-cuda-12

验证 cuDNN 是否已安装并正常运行

1
apt-get -y install libcudnn9-samples
1
2
3
4
5
cp -r /usr/src/cudnn_samples_v9 $HOME
cd $HOME/cudnn_samples_v9/mnistCUDNN
make clean && make
./mnistCUDNN
# 最后会显示 Test passed!

执行make clean && make报错请安装FreeImage

image-20240724110648289

1
2
apt update
apt install libfreeimage-dev

image-20240724105748791

安装英伟达容器安装包(docker)

docker 中使用GPU 请安装

我们以 Ubuntu22.04 为例(其他系统请参考:英伟达官方文档

  • 配置apt源

    1
    2
    3
    4
    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
    && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
  • 更新源

    1
    sudo apt-get update -y
  • 安装工具包

    1
    sudo apt-get install -y nvidia-container-toolkit

ollama

安装: https://ollama.com/

直接安装(推荐)

1
curl -fsSL https://ollama.com/install.sh | sh

docker

1
docker run --gpus all -d -v /opt/ai/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
1
docker exec -it ollama ollama run qwen:7b

查看版本

1
ollama -v