esxi7 tslaP40直通安装指南
安装系统
Ubuntu22.04 LTS
设置上海市区
1 | timedatectl set-timezone Asia/Shanghai |
查看系统版本
1 | lsb_release -a |
查看python版本
1 | python3 --version |
设置ip
vi /etc/netplan/01-netcfg.yaml
1 | # This is the network config written by 'subiquity' |
生效
netplan apply
esxi7
安装系统完成后挂载显卡
esxi7 安装选择直通 重启主机
虚拟机
在虚拟机选项->高级->编辑配置 添加参数
字段 | 值 |
---|---|
pciPassthru.use64bitMMIO | TRUE |
pciPassthru.64bitMMIOSizeGB | 64 |
hypervisor.cpuid.v0 | FALSE |
安装NVIDIA驱动
这里使用 Ubuntu22.04LTSC
NVIDIA 驱动是用于让操作系统和 NVIDIA 显卡硬件进行通信的软件。驱动程序负责管理显卡的基本功能,如显示输出、图形渲染、硬件加速等。安装 NVIDIA 驱动是使用任何 NVIDIA 显卡的前提。
Ubuntu官方文档:
https://ubuntu.com/server/docs/nvidia-drivers-installation
NVIDIA文档:
https://docs.nvidia.com/datacenter/tesla/index.html
nvidia 官方驱动下载:
https://www.nvidia.cn/drivers/lookup/
发现是550.90.07 版本,先看看Ubuntu22.04LTS 本地包有没有,有的话不用下载
1 | apt update -y |
查找本地是否有最新驱动
1 | apt search nvidia-driver-550 |
如果找到了相应的包,可以使用 apt show
命令查看包的详细信息
1 | apt show nvidia-driver-550 |
发现存在的话直接安装,否则进入官方下载,如上图
如本地库没有
使用 dpkg
命令添加本地仓库:
这一步将本地仓库添加到系统中,使得系统可以从这个仓库中找到相应的驱动
1 | dpkg -i /path/to/nvidia-driver-local-repo-ubuntu2204-550.90.07_1.0-1_amd64.deb |
更新包列表:
1 | apt update |
这样可以确保系统识别新添加的本地仓库中的包
安装驱动
1 | sudo apt install nvidia-driver-550 |
检测是否安装成功
1 | nvidia-smi |
可以看到CUDA Version:12.4, 如需要安装,去安装12.4 版本即可.
安装NVIDIA CUDA
CUDA(Compute Unified Device Architecture)是由 NVIDIA 开发的一种并行计算平台和编程模型。CUDA 允许开发者利用 NVIDIA GPU 的强大计算能力进行通用计算任务(即 GPGPU,General-Purpose computing on Graphics Processing Units)。CUDA 提供了一套工具、库和 API,使得开发者可以编写程序在 GPU 上执行复杂的计算。
安装
官网下载:https://developer.nvidia.com/cuda-toolkit-archive
1 | root@ai:~# apt-get -y install cuda-toolkit-12-4 |
发现没有包:
1 | wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb |
配置环境变量
添加 CUDA 路径到你的环境变量中。在你的 .bashrc
文件中添加以下行:
1 | export PATH=/usr/local/cuda-<version>/bin${PATH:+:${PATH}} |
这里版本是12.4
1 | export PATH=/usr/local/cuda-12.4/bin${PATH:+:${PATH}} |
保存并关闭文件,然后运行以下命令使更改生效:
1 | source ~/.bashrc |
验证 CUDA 安装: 运行以下命令以验证 CUDA 是否安装成功:
1 | nvcc -V |
你应该看到 CUDA 编译器的版本信息。
安装cuDNN
下载
在NVIDIA官网 cuDNN下载和CUDA版本对应的cuDNN
官方安装指南:https://docs.nvidia.com/deeplearning/cudnn/latest/installation/linux.html
兼容性查询:https://docs.nvidia.com/deeplearning/cudnn/latest/developer/forward-compatibility.html
NVIDIA cuDNN 版本与各种受支持的 NVIDIA CUDA 工具包、CUDA 驱动程序和 NVIDIA 硬件版本的兼容性
https://docs.nvidia.com/deeplearning/cudnn/latest/reference/support-matrix.html
安装
有上面可见,安装的 cuDNN 9.2.1 for CUDA 12.x 支持的 NVIDIA CUDA Toolkit 12.4 和 NVIDIA Driver Version for Linux 550.90.07
安装命令
1 | apt-get -y install cudnn-cuda-12 |
验证 cuDNN 是否已安装并正常运行
1 | apt-get -y install libcudnn9-samples |
1 | cp -r /usr/src/cudnn_samples_v9 $HOME |
执行make clean && make
报错请安装FreeImage
1 | apt update |
安装英伟达容器安装包(docker)
docker 中使用GPU 请安装
我们以 Ubuntu22.04 为例(其他系统请参考:英伟达官方文档)
配置apt源
1
2
3
4curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list更新源
1
sudo apt-get update -y
安装工具包
1
sudo apt-get install -y nvidia-container-toolkit
ollama
直接安装(推荐)
1 | curl -fsSL https://ollama.com/install.sh | sh |
docker
1 | docker run --gpus all -d -v /opt/ai/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama |
1 | docker exec -it ollama ollama run qwen:7b |
查看版本
1 | ollama -v |