安装系统

Ubuntu22.04 LTS

设置上海市区

1	timedatectl set-timezone Asia/Shanghai

查看系统版本

1	lsb_release -a

查看python版本

1	python3 --version

设置ip

vi /etc/netplan/01-netcfg.yaml

# This is the network config written by 'subiquity'
network:
  ethernets:
    ens160:
      addresses:
      - 192.168.60.86/24
      nameservers:
        addresses:
        - 202.96.128.68
        - 8.8.8.8
        search:
        - ai01
      routes:
      - to: default
        via: 192.168.60.253
  version: 2

生效

netplan apply

esxi7

安装系统完成后挂载显卡

esxi7 安装选择直通重启主机

虚拟机

在虚拟机选项->高级->编辑配置添加参数

字段	值
pciPassthru.use64bitMMIO	TRUE
pciPassthru.64bitMMIOSizeGB	64
hypervisor.cpuid.v0	FALSE

安装NVIDIA驱动

这里使用 Ubuntu22.04LTSC

NVIDIA 驱动是用于让操作系统和 NVIDIA 显卡硬件进行通信的软件。驱动程序负责管理显卡的基本功能，如显示输出、图形渲染、硬件加速等。安装 NVIDIA 驱动是使用任何 NVIDIA 显卡的前提。

Ubuntu官方文档:

https://ubuntu.com/server/docs/nvidia-drivers-installation

NVIDIA文档:

https://docs.nvidia.com/datacenter/tesla/index.html

nvidia 官方驱动下载:

https://www.nvidia.cn/drivers/lookup/

发现是550.90.07 版本,先看看Ubuntu22.04LTS 本地包有没有,有的话不用下载

1	apt update -y

查找本地是否有最新驱动

1	apt search nvidia-driver-550

如果找到了相应的包，可以使用 apt show 命令查看包的详细信息

1	apt show nvidia-driver-550

发现存在的话直接安装,否则进入官方下载,如上图

如本地库没有

使用 dpkg 命令添加本地仓库：

这一步将本地仓库添加到系统中，使得系统可以从这个仓库中找到相应的驱动

1	dpkg -i /path/to/nvidia-driver-local-repo-ubuntu2204-550.90.07_1.0-1_amd64.deb

更新包列表：

1	apt update

这样可以确保系统识别新添加的本地仓库中的包

安装驱动

1	sudo apt install nvidia-driver-550

检测是否安装成功

1	nvidia-smi

可以看到CUDA Version:12.4, 如需要安装,去安装12.4 版本即可.

安装NVIDIA CUDA

CUDA（Compute Unified Device Architecture）是由 NVIDIA 开发的一种并行计算平台和编程模型。CUDA 允许开发者利用 NVIDIA GPU 的强大计算能力进行通用计算任务（即 GPGPU，General-Purpose computing on Graphics Processing Units）。CUDA 提供了一套工具、库和 API，使得开发者可以编写程序在 GPU 上执行复杂的计算。

安装

官网下载:https://developer.nvidia.com/cuda-toolkit-archive

root@ai:~# apt-get -y install cuda-toolkit-12-4
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
E: Unable to locate package cuda-toolkit-12-4

发现没有包:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-4

配置环境变量

添加 CUDA 路径到你的环境变量中。在你的 .bashrc 文件中添加以下行：

1 2	export PATH=/usr/local/cuda-<version>/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-<version>/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

这里版本是12.4

1 2	export PATH=/usr/local/cuda-12.4/bin${PATH:+:${PATH}} export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

保存并关闭文件，然后运行以下命令使更改生效：

1	source ~/.bashrc

验证 CUDA 安装：运行以下命令以验证 CUDA 是否安装成功：

nvcc -V

你应该看到 CUDA 编译器的版本信息。

安装cuDNN

下载

在NVIDIA官网 cuDNN下载和CUDA版本对应的cuDNN

官方安装指南:https://docs.nvidia.com/deeplearning/cudnn/latest/installation/linux.html

兼容性查询:https://docs.nvidia.com/deeplearning/cudnn/latest/developer/forward-compatibility.html

NVIDIA cuDNN 版本与各种受支持的 NVIDIA CUDA 工具包、CUDA 驱动程序和 NVIDIA 硬件版本的兼容性
https://docs.nvidia.com/deeplearning/cudnn/latest/reference/support-matrix.html

安装

有上面可见,安装的 cuDNN 9.2.1 for CUDA 12.x 支持的 NVIDIA CUDA Toolkit 12.4 和 NVIDIA Driver Version for Linux 550.90.07

安装命令

1	apt-get -y install cudnn-cuda-12

验证 cuDNN 是否已安装并正常运行

1	apt-get -y install libcudnn9-samples

cp -r /usr/src/cudnn_samples_v9 $HOME
cd $HOME/cudnn_samples_v9/mnistCUDNN
make clean && make
./mnistCUDNN
# 最后会显示 Test passed!

执行make clean && make报错请安装FreeImage

1 2	apt update apt install libfreeimage-dev

安装英伟达容器安装包(docker)

docker 中使用GPU 请安装

我们以 Ubuntu22.04 为例（其他系统请参考：英伟达官方文档）

配置apt源

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

更新源
1
sudo apt-get update -y

安装工具包

1	sudo apt-get install -y nvidia-container-toolkit

ollama

安装: https://ollama.com/

直接安装(推荐)

1	curl -fsSL https://ollama.com/install.sh \| sh

docker

1	docker run --gpus all -d -v /opt/ai/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

1	docker exec -it ollama ollama run qwen:7b

查看版本

ollama -v