在阿里云服务器上安装 CUDA,需要根据你使用的实例类型(尤其是是否配备了 NVIDIA GPU)、操作系统版本以及具体需求来操作。以下是详细的步骤指南:
✅ 一、前提条件
-
确认实例支持 GPU
- 必须使用阿里云的 GPU 实例,例如:
ecs.gn6i-c4g1.xlarge(配备 T4)ecs.gn6v-c8g1.8xlarge(配备 V100)ecs.gn7i-c16g1.8xlarge(配备 A10/A100 等)
- 必须使用阿里云的 GPU 实例,例如:
-
确认操作系统
- 推荐使用官方支持的操作系统,如:
- Ubuntu 20.04 / 22.04
- CentOS 7 / 8
- Alibaba Cloud Linux 3(推荐用于生产环境)
- 推荐使用官方支持的操作系统,如:
-
确保有 root 或 sudo 权限
✅ 二、安装步骤(以 Ubuntu 20.04 为例)
步骤 1:更新系统并安装基础依赖
sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential dkms
步骤 2:添加 NVIDIA 驱动仓库并安装驱动
⚠️ 注意:CUDA 安装包通常自带驱动,但建议先单独安装合适的驱动。
# 添加 NVIDIA 驱动 PPA
sudo add-apt-repository ppa:graphics-drivers/ppa -y
sudo apt update
查看适合的驱动版本(推荐自动选择):
ubuntu-drivers devices
安装推荐驱动(例如 470/525/535):
sudo apt install -y nvidia-driver-535
可选最新稳定版(请根据你的 CUDA 版本要求选择)
步骤 3:重启系统
sudo reboot
重启后验证驱动是否安装成功:
nvidia-smi
如果显示 GPU 信息,则驱动安装成功 ✅
步骤 4:安装 CUDA Toolkit
前往 NVIDIA CUDA 下载页面 获取对应系统的命令。
以 Ubuntu 20.04 + x86_64 + runfile (local) 为例:
wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.15_linux.run
sudo sh cuda_12.4.0_550.54.15_linux.run
⚠️ 在安装界面中:
- 取消勾选 Driver(因为我们已经安装了驱动)
- 勾选 CUDA Toolkit、CUDA Samples(可选)、CUDA Documentation 等
- 接受协议,开始安装
默认安装路径:/usr/local/cuda-12.4/
步骤 5:配置环境变量
编辑 ~/.bashrc 或 /etc/profile.d/cuda.sh:
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
验证安装:
nvcc --version
输出类似:
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on ...
Cuda compilation tools, release 12.4, V12.4.131
✅ 三、测试 CUDA 是否正常工作
编译并运行一个示例程序(可选):
# 复制 CUDA 示例到用户目录
cp -r /usr/local/cuda/samples ~/cuda-samples
cd ~/cuda-samples
sudo chmod +x ./common/atools/install-for-archive.py
cd 1_Utilities/deviceQuery
make
./deviceQuery
输出中看到 Result = PASS 表示成功 ✅
✅ 四、常见问题与注意事项
| 问题 | 解决方法 |
|---|---|
nvidia-smi 找不到命令 |
检查驱动是否安装成功,或重启 |
nvcc not found |
检查环境变量是否设置正确 |
| 内核升级后驱动失效 | 使用 dkms 安装驱动,或重新安装驱动 |
| 实例无 GPU | 确保购买的是 GPU 实例,并在控制台确认 GPU 已识别 |
✅ 五、使用 Alibaba Cloud Linux 的特别说明
Alibaba Cloud Linux 是优化过的系统,建议使用官方镜像中的 AI 镜像,已预装 CUDA 和驱动:
- 在 ECS 控制台创建实例时,选择:
镜像 > 公共镜像 > Alibaba Cloud Linux > AI 镜像(含 NVIDIA 驱动 + CUDA)
这样可省去手动安装过程。
✅ 六、参考链接
- NVIDIA CUDA 官方安装指南
- 阿里云 GPU 实例文档
- Alibaba Cloud Linux AI 镜像说明
如果你提供具体的:
- 实例规格(如 ecs.gn6i-c4g1.xlarge)
- 操作系统(Ubuntu 20.04?CentOS?)
- 要安装的 CUDA 版本(如 11.8 / 12.4)
我可以为你生成精确的安装命令脚本 🚀
CCLOUD博客