阿里云服务器怎么装cuda?

在阿里云服务器上安装 CUDA,需要根据你使用的实例类型(尤其是是否配备了 NVIDIA GPU)、操作系统版本以及具体需求来操作。以下是详细的步骤指南:


✅ 一、前提条件

  1. 确认实例支持 GPU

    • 必须使用阿里云的 GPU 实例,例如:
      • ecs.gn6i-c4g1.xlarge(配备 T4)
      • ecs.gn6v-c8g1.8xlarge(配备 V100)
      • ecs.gn7i-c16g1.8xlarge(配备 A10/A100 等)
  2. 确认操作系统

    • 推荐使用官方支持的操作系统,如:
      • Ubuntu 20.04 / 22.04
      • CentOS 7 / 8
      • Alibaba Cloud Linux 3(推荐用于生产环境)
  3. 确保有 root 或 sudo 权限


✅ 二、安装步骤(以 Ubuntu 20.04 为例)

步骤 1:更新系统并安装基础依赖

sudo apt update && sudo apt upgrade -y
sudo apt install -y build-essential dkms

步骤 2:添加 NVIDIA 驱动仓库并安装驱动

⚠️ 注意:CUDA 安装包通常自带驱动,但建议先单独安装合适的驱动。

# 添加 NVIDIA 驱动 PPA
sudo add-apt-repository ppa:graphics-drivers/ppa -y
sudo apt update

查看适合的驱动版本(推荐自动选择):

ubuntu-drivers devices

安装推荐驱动(例如 470/525/535):

sudo apt install -y nvidia-driver-535

可选最新稳定版(请根据你的 CUDA 版本要求选择)

步骤 3:重启系统

sudo reboot

重启后验证驱动是否安装成功:

nvidia-smi

如果显示 GPU 信息,则驱动安装成功 ✅


步骤 4:安装 CUDA Toolkit

前往 NVIDIA CUDA 下载页面 获取对应系统的命令。

Ubuntu 20.04 + x86_64 + runfile (local) 为例:

wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda_12.4.0_550.54.15_linux.run
sudo sh cuda_12.4.0_550.54.15_linux.run

⚠️ 在安装界面中:

  • 取消勾选 Driver(因为我们已经安装了驱动)
  • 勾选 CUDA Toolkit、CUDA Samples(可选)、CUDA Documentation 等
  • 接受协议,开始安装

默认安装路径:/usr/local/cuda-12.4/


步骤 5:配置环境变量

编辑 ~/.bashrc/etc/profile.d/cuda.sh

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证安装:

nvcc --version

输出类似:

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on ...
Cuda compilation tools, release 12.4, V12.4.131

✅ 三、测试 CUDA 是否正常工作

编译并运行一个示例程序(可选):

# 复制 CUDA 示例到用户目录
cp -r /usr/local/cuda/samples ~/cuda-samples
cd ~/cuda-samples
sudo chmod +x ./common/atools/install-for-archive.py
cd 1_Utilities/deviceQuery
make
./deviceQuery

输出中看到 Result = PASS 表示成功 ✅


✅ 四、常见问题与注意事项

问题 解决方法
nvidia-smi 找不到命令 检查驱动是否安装成功,或重启
nvcc not found 检查环境变量是否设置正确
内核升级后驱动失效 使用 dkms 安装驱动,或重新安装驱动
实例无 GPU 确保购买的是 GPU 实例,并在控制台确认 GPU 已识别

✅ 五、使用 Alibaba Cloud Linux 的特别说明

Alibaba Cloud Linux 是优化过的系统,建议使用官方镜像中的 AI 镜像,已预装 CUDA 和驱动:

  • 在 ECS 控制台创建实例时,选择:

    镜像 > 公共镜像 > Alibaba Cloud Linux > AI 镜像(含 NVIDIA 驱动 + CUDA)

这样可省去手动安装过程。


✅ 六、参考链接

  • NVIDIA CUDA 官方安装指南
  • 阿里云 GPU 实例文档
  • Alibaba Cloud Linux AI 镜像说明

如果你提供具体的:

  • 实例规格(如 ecs.gn6i-c4g1.xlarge)
  • 操作系统(Ubuntu 20.04?CentOS?)
  • 要安装的 CUDA 版本(如 11.8 / 12.4)

我可以为你生成精确的安装命令脚本 🚀


未经允许不得转载:CCLOUD博客 » 阿里云服务器怎么装cuda?