Ubuntu安装nvidia及cuda及cudnn

一篇安装深度学习环境的安装记录

杨枝甘卢

2278人浏览 · 2023-07-27 15:32:47

杨枝甘卢 · 2023-07-27 15:32:47 发布

这是一篇安装深度学习环境的安装记录。

一、安装Ubuntu提供的nvidia驱动

打开“设置”-“关于”-“软件更新”-“附加驱动”-选择“（专有）”的NVIDIA驱动，我选择了一个最新的525，“应用更改”后等待即可，安装好了重启一下。

重启后进入系统打开终端，输入“nvidia-smi”，显示类似这种就证明驱动安装成功。以下说明最高支持的CUDA版本是12.0。

二、安装CUDA

按照下面链接的四、安装cuda的步骤进行(218条消息) 从零到一保姆级Ubuntu深度学习服务器环境配置教程_ubuntu深度学习环境_daipuweiai的博客-CSDN博客确定Ubuntu20.0.4是否支持CUDA。输入命令如下：

uname -m && cat /etc/*release

下载cmake, vim, pip。

sudo apt update
sudo apt upgrade
sudo apt install cmake
sudo apt install cmake-gui
sudo apt install vim
sudo apt install python3-pip

确保gcc是否安装，我们利用如下命令进行确认：

gcc --version

接下来确定系统是否已经安装了正确的Kernel Headers和开发包。首先查看系统正在运行的kernel版本：

uname -r

如果不是最新版本，先更新对应的kernels header和开发包：

sudo apt-get install linux-headers-$(uname -r)

接下来进入cuda历史官网下载cuda11.3的安装包（官方推荐的cuda版本为10.2和11.3，这两种 cuda 支持大多数的 pytorch 版本）

按照官网给的命令进行下载：

wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run

其实在官网下载得很慢，好几次都到99％了还是下载失败，后来按照这个方法下载，下载成功：

(218条消息) 安装CUDA wget下载速度慢解决办法（天下无敌）_wget速度太慢_维德的视网膜的博客-CSDN博客

sudo apt install -y axel
axel -n 50 https://developer.download.nvidia.cn/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
sudo sh cuda_11.3.0_465.19.01_linux.run

执行上述命令后会出现如下界面，输入accept后点击回车。

接着出现如下界面，Driver选项不选，其他选项全部选中，然后点击Install进行安装，安装过程有点长，请耐心等待。需要注意的是在如下界面中X代表选中，而中括号中什么都没有代表未选中。

接下来配置环境类似于以上章节中区分两种python的环境，这里也要打开.bashrc文件添加路径。

$sudo vim ~/.bashrc \\进入vim界面。输入字母i，进入编辑模式
\\在bashrc文件中输入以下命令，注意修改你的cuda版本
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.3/lib64
export PATH=$PATH:/usr/local/cuda-11.3/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-11.3
\\输入完成后，点击esc键并输入:wq!，再按esc键退出vim。

\\这时候返回终端了
$source ~/.bashrc \\运行.bashrc文件

最后我们利用测试CUDA的samples来测试cuda安装是否成功，代码如下：

cd /usr/local/cuda-11.3/samples/1_Utilities/deviceQuery
sudo make
sudo ./deviceQuery

如果显示如下一些关于GPU的信息为PASS，则说明安装成功。

在这里插入图片描述

安装完成检查，若出现以下的界面，也表示cuda安装完成，撒花！！！

nvcc --version

三、安装cudnn

官网下载cuda对应版本的cudnn：cuDNN Archive | NVIDIA Developer，下载一下三个文件，由于我的是cuda11.3版本，于是选择适合的cudnn版本8.2.0：

sudo dpkg -i libcudnn8_8.2.0.53-1+cuda11.3_amd64.deb
sudo dpkg -i libcudnn8-dev_8.2.0.53-1+cuda11.3_amd64.deb
sudo dpkg -i libcudnn8-samples_8.2.0.53-1+cuda11.3_amd64.deb

查看cudnn版本

dpkg -l | grep cudnn

四、安装Anaconda

参考这条博客(218条消息) Ubuntu20.04下深度学习环境配置（持续维护）_Eavan努力努力再努力的博客-CSDN博客

下载链接： Free Download | Anaconda.
下载完成后的文件为Anaconda3-2020.07-Linux-x86_64.sh，会直接存放在“/home/xxx/下载”中。

这时我们就对下载的文件进行安装了。

$cd /home/xxx/Downloads
$bash Anaconda3-2023.07-2-Linux-x86_64.sh \\执行bash进行安装

然后一直按回车键，直到出现“Do you accept the license terms”, 输入“yes”

出现“Anaconda3 will now be installed into this location: /home/xxx/anaconda3”，直接按回车键，安装在该目录中。

出现“Do you wish the installer to initialize Anaconda3 by running condo init?”, 输入“no”，这时anaconda已经基本安装完成了。

区分Ubuntu自带python和anaconda中的python。Linux中会自带python, Ubuntu20.04中自带python3,已经没有python2了。这时不区分不影响anaconda的正常使用，但pytorch和tensorflow对这Linux中自带的python3和anaconda中的python的使用需求不同，后期需要进行两者的切换。所以最好在这里就对他们进行区分。

$cd ~
$sudo vim .bashrc \\利用vim打开.bashrc文件在最后加入以下几行
alias python3="/usr/bin/python3.8"\\给系统自带的python起一个别名叫python3
export PATH="/home/xxx/anaconda3/bin:$PATH"\\anaconda3中的python
$source .bashrc
//试试刚刚的分区
$python \\本条命令应该启动anaconda3中的python
$exit() \\退出
$python3 \\本条命令应该启动系统的python
$exit() \\退出

进行了这样的区分后，以后可以根据输入的不同对两种python进行任意地切换了。

创建Deeplearning的环境

\\利用系统的python创建了一个虚拟环境
$conda create -n deeplearning python=3.8
\\查看你创建的环境
$conda env list
\\激活创建的环境
$conda activate deeplearning
\\关闭环境
$conda deactivate

有时候conda activate Deeplearning语句会提示错误，将该句换为“source activate deeplearning”即可，之后输入conda的任何命令都可以正常进行了。

五、安装pytorch

放一张版本对应图，我下载的是cuda11.3版本，所以pytorch版本对应最好就是1.8.0或1.9.0或1.10.0。

进入pytorch官网的历史版本列表中Previous PyTorch Versions | PyTorch，下拉到建议版本1.10.0，看到对应的cuda11.3和torchvision0.11.0。

由于直接使用这个命令行下载太慢会导致失败，采用离线方式下载，进入pytorch离线安装包官网download.pytorch.org/whl/torch_stable.html。

其中CPU表示CPU版本的Pytorch，cp表示里的Python版本，linux和window表示你用的系统版本，cu113表示GPU版Pytorch,并且cuda版本为11.3。

我这里cuda版本是11.3，则对应cu113，下拉找到cu113开头的文件，对应torch版本1.10.0，由于前面创建虚拟环境用的python是系统自带的3.8版本，对应cp38，于是下载下面这个文件。

同样的，torchvision选择版本0.11.0，下载下面这个文件。

pip install cu113/torch-1.10.0%2Bcu113-cp38-cp38-linux_x86_64.whl
pip install torchvision-0.11.0+cu113-cp38-cp38-linux_x86_64.whl

验证pytorch是否安装成功：

$source activate Deeplearning \\激活你创建的虚拟环境
$python \\运行python (启动命令与你上文中起的别名有关)
$import torch \\导入torch模块,这里应该没有任何输出
$torch.cuda.is_available() \\输出True则安装成功
$exit() \\退出python
$conda deactivate Deeplearning \\退出虚拟环境

一般是一个框架在一个新的环境中安装,常见是pytorch一个环境，tensorflow一个环境.

conda create -n tensorflow python=3.8

Ubuntu20.04下深度学习环境配置（持续维护）_ubuntu20.04环境配置anaconda+cuda_Eavan努力努力再努力的博客-CSDN博客

如果有卸载的需求，在tf_gpu环境中输入以下代码即可

conda remove -n tensorflow --all

安装tensorflow.

pip install tensorflow
import tensorflow as tf #没有任何提示表明tensorflow-cpu版安装完成
print(tf.test.is_gpu_available()) #最后得到True表示tensorflow-gpu版安装完成

pip install tf-nightly
You can update it using pip install --upgrade tensorflow

import os
import pandas as pd
import numpy as np
import random
import shutil
from shutil import copyfile
from tensorboard.notebook import display
from tensorflow import image
from keras.preprocessing.image import ImageDataGenerator,img_to_array, load_img
from tensorflow.python.keras import Model
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
from matplotlib.offsetbox import (TextArea, DrawingArea, OffsetImage,AnnotationBbox)
import matplotlib.patches as mpatches
from sklearn.utils import shuffle
from tqdm import tqdm