使用阿里云GPU资源运行深度学习任务是一个高效且灵活的选择,尤其适合需要大量计算资源的训练任务。以下是详细的步骤指南,帮助你快速上手使用阿里云GPU进行深度学习:
一、准备工作
-
注册阿里云账号
- 访问 阿里云官网
- 注册并完成实名认证。
-
开通相关服务
- 云服务器 ECS
- GPU 实例(属于 ECS 的一种)
- 可选:容器服务(如使用 Docker/Kubernetes)、NAS(共享存储)、OSS(对象存储)
二、创建 GPU 实例
-
进入 ECS 控制台
- 登录阿里云控制台 → 选择「云服务器 ECS」
-
创建实例
- 点击「创建实例」
- 选择以下配置:
- 地域:选择离你近的(如华北3-张家口、华东1-杭州)
- 实例规格:选择 GPU 实例
- 常见型号:
ecs.gn6i-c4g1.xlarge(T4,适合推理/中小模型训练)ecs.gn6v-c8g1.8xlarge(V100,适合大模型训练)ecs.gn7i-c16g1.8xlarge(A10,性价比高)
- 镜像:
- 推荐选择「公共镜像」中的 Ubuntu 20.04/22.04 或 CentOS 7/8
- 或使用「AI 镜像」(如 Alibaba Cloud Linux + Deep Learning AMI)
- 存储:系统盘建议 100GB 以上,可挂载数据盘或 NAS
- 网络与安全组:开放 SSH(22端口),如需 Jupyter 可开放 8888 端口
-
设置密钥对或密码
- 建议使用 SSH 密钥登录,更安全。
-
购买并启动实例
三、连接到 GPU 实例
ssh -i your-key.pem root@<公网IP>
四、安装 GPU 驱动与深度学习环境
1. 安装 NVIDIA 驱动(若未预装)
# 更新系统
sudo apt update && sudo apt upgrade -y
# 安装必要工具
sudo apt install -y build-essential dkms
# 添加 NVIDIA 驱动 PPA(Ubuntu)
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
# 查看推荐驱动版本
ubuntu-drivers devices
# 安装驱动(例如 nvidia-driver-535)
sudo apt install -y nvidia-driver-535
# 重启
sudo reboot
验证驱动:
nvidia-smi
2. 安装 CUDA 和 cuDNN(可选,建议使用 Docker)
推荐使用 Docker 镜像,避免环境冲突。
3. 使用 Docker 运行深度学习环境(推荐)
# 安装 Docker
sudo apt install -y docker.io
sudo systemctl enable docker
sudo usermod -aG docker $USER # 添加当前用户到 docker 组
重启后使用:
# 拉取官方 PyTorch 或 TensorFlow 镜像
docker run --gpus all -it --rm -v $(pwd):/workspace pytorch/pytorch:latest
# 或 TensorFlow
docker run --gpus all -it --rm -v $(pwd):/workspace tensorflow/tensorflow:latest-gpu
五、运行深度学习代码
-
上传代码和数据
- 使用
scp或rsync上传本地代码scp -i key.pem -r your_project/ user@<IP>:/home/ubuntu/
- 使用
-
使用 Jupyter Notebook(可选)
pip install jupyter
jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root
然后在浏览器访问:http://<公网IP>:8888(确保安全组开放 8888 端口)
六、优化与建议
-
使用 NAS 或 OSS 存储大数据集
- 避免将大量数据放在系统盘
- 使用阿里云 NAS 挂载共享数据
-
使用弹性伸缩和按量付费
- 训练时开启 GPU 实例,训练完立即释放,节省成本
- 推荐使用「抢占式实例」降低费用(适合容错任务)
-
监控 GPU 使用情况
nvidia-smi -l 1 # 每秒刷新 -
使用阿里云 AI 平台(PAI)
- 更高级的选择:阿里云 PAI
- 提供可视化建模、自动学习、Notebook 服务等
七、常见问题
| 问题 | 解决方案 |
|---|---|
nvidia-smi 找不到 |
检查实例是否为 GPU 型号,确认驱动安装 |
| Docker 无法访问 GPU | 确保安装 nvidia-docker2 并配置正确 |
| Jupyter 无法访问 | 检查安全组是否开放端口,使用 --ip=0.0.0.0 |
总结
使用阿里云 GPU 跑深度学习的核心流程:
注册阿里云 → 创建 GPU 实例 → 安装驱动/环境 → 上传代码 → 使用 Docker 或 Conda 运行 → 训练完成后释放实例
推荐方案:使用 Ubuntu + Docker + 官方 PyTorch/TensorFlow 镜像,快速部署、环境隔离、易于维护。
如果你提供具体的框架(如 PyTorch、TensorFlow)或任务类型(图像分类、NLP),我可以给出更详细的配置脚本。
CCLOUD博客