Pytorch入门

阅读数: 次 2022-10-15

本文基于B站up我是土堆所做的视频教程为基础创作的学习笔记，如有侵权请联系作者。

Pytorch入门实战

以下介绍的实际应用在官网的Docs下都有明确的教程文档

DataSet

1	from torch.utils.data import Dataset

Dataset顾名思义是用来自定义数据集的，我们可以理解为Java中的抽象类，需要你自定义一个数据集class来继承他，需要实现他的init()、getitem()、len()三种方法，具体实例如下：

class MyData(Dataset):
    def __init__(self,root_path,label_path):
        self.root_path = root_path
        self.label_path = label_path
        self.path = os.path.join(self.root_path,self.label_path)
        self.img_list = os.listdir(self.path)


    def __getitem__(self, idx):
        img_path = os.path.join(self.root_path,self.label_path,self.img_list[idx])
        image = Image.open(img_path)
        label = self.label_path
        return image,label

    def __len__(self):
        return len(self.img_list)

接下来我们只需要将我们的数据集复制到对应目录就可以使用了

root_path = "data/hymenoptera_data/train"
ants_dataset = MyData(root_path,"ants")
image,label = ants_dataset[0]
image.show()
print(label)

Tensorboard

Tensorboard可以对Pytorch训练过程进行可视化展示、主要用到SummaryWriter类

writter = SummaryWriter("logs")

image_path = "data/hymenoptera_data/train/ants/5650366_e22b7e1065.jpg"

#add_scalar:参数1：name	参数2：y轴	参数3：x轴
for i in range(100):
    writter.add_scalar("y=2x",2*i,i)


image_PIL = Image.open(image_path)
image_array = np.array(image_PIL)

#参数1：name	参数2：image(需要numpy类型或者tensor类型)	参数3：step
writter.add_image("test",image_array,1,dataformats='HWC')


writter.close()

运行完代码后，在控制台输入tensorboard —logdir=logs 启动可视化服务器（默认6006端口）

SummaryWriter除了能可视化线型图和图片外，还能将模型结构通过图化展示

class Tudui(nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()
        self.model = Sequential(
            Conv2d(3, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 64, 5, padding=2),
            MaxPool2d(2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )


    def forward(self,x):
        x = self.model(x)
        return x

tudui = Tudui()
input = torch.ones(64,3,32,32)
output = tudui(input)
print(output.shape)

writer = SummaryWriter("logs")
writer.add_graph(tudui,input)
writer.close()

Transforms

Transforms是Pytorch常用的图像预处理方法，一般用于转化图片类型、大小、正则化、裁剪图像等等，具体应用如下：

img_path = "images/001.png"

image = Image.open(img_path)

# ToTensor
tensor_totensor = transforms.ToTensor()
img_tensor = tensor_totensor(image)

writer = SummaryWriter("logs")
writer.add_image("tf_test",img_tensor,1)


# Normalize——归一化
tensor_norm = transforms.Normalize([0.5,0.5,0.5],[0.5,0.5,0.5])
img_norm = tensor_norm(img_tensor)
writer.add_image("tf_test",img_norm,2)


# Resize
tensor_resize = transforms.Resize(512)
img_resize = tensor_resize(image)    #默认参数PIL图片格式，输出也是PIL格式
# print(type(img_resize))
img_resize = tensor_totensor(img_resize)
writer.add_image("Resize",img_resize,0)

# Compose——将多个处理方法连结在一起
tensor_compose = transforms.Compose([tensor_resize,tensor_totensor])
img_resize2 = tensor_compose(image)
writer.add_image("Resize",img_resize,1)

# RandomCrop——随机裁剪
tensor_random = transforms.RandomCrop(500)
tensor_compose2 = transforms.Compose([tensor_random,tensor_totensor])
for i in range(10):
    img_random = tensor_compose2(image)
    writer.add_image("Random",img_random,i)


writer.close()

我们一般用Transforms来实现图像由PIL类型转化为Tensor数据类型，因为在Pytorch中Tensor往往是后续很多方法参数所需要的类型

DataLoader

介绍DataLoader之前我们简单介绍一下如何使用官方给的数据集（torchvision.datasets)

Torchvision 在模块中提供了许多内置数据集torchvision.datasets ，以及用于构建您自己的数据集的实用程序类。

这些内置数据集都继承了上述的Dataset类，不需要我们手动去为它们实现方法

dataset_transform = torchvision.transforms.Compose([torchvision.transforms.ToTensor()])

train_set = torchvision.datasets.CIFAR10(root="./data",train=True,transform=dataset_transform,download=True)
test_set = torchvision.datasets.CIFAR10(root="./data",train=False,transform=dataset_transform,download=True)

print(train_set.classes)

writer = SummaryWriter("logs")
for i in range(10):
    image,target = train_set[i]
    writer.add_image("dataset",image,i)

writer.close()

而DataLoader其实就是一个迭代器，方便我们从数据集从一次读取多个数据

test_dataset = torchvision.datasets.CIFAR10(root="./data",train=False,transform=torchvision.transforms.ToTensor())

#参数解读：batch_size——一次加载多少个数据	shuffle——下次迭代是否打乱顺序	drop_last——表示是否删除非完整页的结尾数据
test_loader = DataLoader(dataset=test_dataset,batch_size=64,shuffle=True,drop_last=True)

writer = SummaryWriter("logs")

for each in range(2):
    step = 0
    for data in test_loader:
        imgs,targets = data
        writer.add_images("dataloader_{}".format(each),imgs,step)
        step+=1

writer.close()

nn.Module

nn.Module是Pytorch中神经网络的基本骨架，如果我们想自定义一个神经网路模型类，我们必须要继承nn.Module这个类，并在这个类的init方法引用父类的init方法，重写forward()方法（就是input进去经过怎样的转换输出成output），其形参就是模型（块）的输入。

class Demo(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self,input):
        output = input+1
        return output


demo = Demo()
x = torch.tensor(1)
y = demo(x)
print(y)

function的卷积操作

卷积操作主要就是用卷积核(kernel)对原始数据进行矩阵计算，得到一个新的输出，具体过程可以参照我《机器学习——Convolution》这篇博客

参数解读：input是输入的数据，kernel表示卷积核，stride表示步长，padding表示周围填充几层

import torch.nn.functional as F


input = torch.tensor([[1,2,0,3,1],
                      [0,1,2,3,1],
                      [1,2,1,0,0],
                      [5,2,3,1,1],
                      [2,1,0,1,1]])


kernel = torch.tensor([[1,2,1],
                       [0,1,0],
                       [2,1,0]])

#F要求input的shape：batch_size,channel,H,W
input = torch.reshape(input,(1,1,5,5))
kernel = torch.reshape(kernel,(1,1,3,3))


output1 = F.conv2d(input,kernel,stride=1)
print(output1)

output2 = F.conv2d(input,kernel,stride=1,padding=1)
print(output2)

卷积层

其实就是对nn.function的进一步封装，如nn.Conv2(),最常用的是这五个参数：in_channels、 out_channels、kernel_size、stride、 padding

以下示例就是把CIFAR10数据集中的图片经过一层卷积后的结果

dataset = torchvision.datasets.CIFAR10("./data",train=True,transform=torchvision.transforms.ToTensor(),download=True)

dataloader = DataLoader(dataset,64,drop_last=True)

writer = SummaryWriter("logs")

class Tudui(torch.nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()
        self.conv1 = Conv2d(in_channels=3,out_channels=6,kernel_size=3,stride=1,padding=0)

    def forward(self,x):
        x = self.conv1(x)
        return x

step = 0
tudui = Tudui()

for data in dataloader:
    imgs,labels = data
    writer.add_images("input",imgs,step)
    output = tudui(imgs)
    output = torch.reshape(output,(-1,3,30,30))
    writer.add_images("output",output,step)
    step+=1

writer.close()

最大池化

Maxpooling作用（maxpool2d举例）：

一是对卷积层所提取的信息做更一步降维，减少计算量
二是加强图像特征的不变性，使之增加图像的偏移、旋转等方面的鲁棒性
类似于观看视频时不同的清晰度，实际效果就像给图片打马赛克

示例：和上面代码差距不大，只是在模型中修改一下

class Jy(nn.Module):
    def __init__(self):
        super(Jy, self).__init__()
        self.maxpool = MaxPool2d(kernel_size=3,ceil_mode=False)

    def forward(self,x):
        x = self.maxpool(x)
        return x

非线性激活

非线性变换的主要目的就是给网中加入一些非线性特征，非线性越多才能训练出符合各种特征的模型。常见的非线性激活：Sigmod、ReLu

class Tudui(nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()
        self.activation = Sigmoid()

    def forward(self,input):
        output = self.activation(input)
        return output

线性层

线性层其实就是全连接层，也就是CNN过程中的最后一步

线性函数为：torch.nn.Linear(in_features, out_features, bias=True, device=None, dtype=None)，其中重要的3个参数in_features、out_features、bias说明如下：

in_features：每个输入（x）样本的特征的大小
out_features：每个输出（y）样本的特征的大小
bias：如果设置为False，则图层不会学习附加偏差。默认值是True，表示增加学习偏置。

进线性层之前我们需要把数据Flatten铺平，变成一维数据，而Linear作用就是缩小一维的数据长度

dataset = torchvision.datasets.CIFAR10("./data",False,transform=torchvision.transforms.ToTensor())

dataloader = DataLoader(dataset,64)


class Tudui(nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()
        self.liner = Linear(196608,10)

    def forward(self,input):
        output = self.liner(input)
        return output

tudui = Tudui()

for data in dataloader:
    imgs,targets = data
    print(imgs.shape)
    output = torch.flatten(imgs)
    print(output.shape)
    output = tudui(output)
    print(output.shape)

Sequential的使用

在我们定义模型时，往往需要经过一个复杂的神经网络结构才能得到最终的输出，在引入Sequential之前，我们来看看CIFAR10模型应该如何定义

这里我们需要自己计算一下padding值是多少，我们根据官方文档给出的公式进行计算得到padding = 2

class Tudui(nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()
        self.conv1 = Conv2d(3,32,5,padding=2)
        self.maxpool1 = MaxPool2d(2)
        self.conv2 = Conv2d(32,32,5,padding=2)
        self.maxpool2 = MaxPool2d(2)
        self.conv3 = Conv2d(32,64,5,padding=2)
        self.maxpool3 = MaxPool2d(2)
        self.flatten = Flatten()
        self.linear1 = Linear(1024,64)
        self.linear2 = Linear(64,10)
        


    def forward(self,x):
        x = self.conv1(x)
        x = self.maxpool1(x)
        x = self.conv2(x)
        x = self.maxpool2(x)
        x = self.conv3(x)
        x = self.maxpool3(x)
        x = self.flatten(x)
        x = self.linear1(x)
        x = self.linear2(x)
        return x

而引入Sequential后我们可以大大简化代码的书写：

class Tudui(nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()
        self.model = Sequential(
            Conv2d(3, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 32, 5, padding=2),
            MaxPool2d(2),
            Conv2d(32, 64, 5, padding=2),
            MaxPool2d(2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )


    def forward(self,x):
        x = self.model(x)
        return x

损失函数与优化器

损失函数（Loss）：有多种计算方式

计算实际输出和目标之间的差距
为我们更新输出提供一定的依据

更新输出：
- 反向传播（backward）–>
- 计算出梯度（grade）–>
- 根据梯度和学习率来更新参数–>
- 减小loss

而更新参数需要我们的优化器来做，在优化器中我们需要定义一个学习率Learning_rate，以下为一个简单优化实例：

tudui = Tudui()

loss = nn.CrossEntropyLoss()

optim = torch.optim.SGD(tudui.parameters(),lr=0.01)

for epch in range(10):
    sum_loss = 0
    for data in dataloader:
        imgs,targets = data
        output = tudui(imgs)
        result_loss = loss(output,targets)
        optim.zero_grad()	#梯度置0
        result_loss.backward()	#计算梯度
        optim.step()	#根据梯度更新参数
        sum_loss += result_loss
    print(sum_loss)

现有的网络模型

我们可以直接加载torchvision给我们的模型，其中pretrained参数Flase表示使用默认神经网络参数，True表示使用ImageNet数据集更新好的参数

import torchvision
from torch import nn

vgg16_false = torchvision.models.vgg16(pretrained=False)
vgg16_true = torchvision.models.vgg16(pretrained=True)

print(vgg16_true)

#在原有的模型上新增一个线性层
vgg16_true.classifier.add_module("add_linear",nn.Linear(1000,10))

print(vgg16_true)

完整过程实例

训练实例：

import torch
import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

from model import *

#定义数据集
train_dataset = torchvision.datasets.CIFAR10("../data",train=True,transform=torchvision.transforms.ToTensor(),download=True)
test_dataset = torchvision.datasets.CIFAR10("../data",train=False,transform=torchvision.transforms.ToTensor(),download=True)

#数据集长度
train_dataset_len = len(train_dataset)
test_dataset_len = len(test_dataset)
print("测试集长度：{}".format(train_dataset_len))
print("训练集长度：{}".format(test_dataset_len))

#定义dataloader
train_dataloader = DataLoader(train_dataset,64)
test_dataloader = DataLoader(test_dataset,64)

#中间结果绘图
writer = SummaryWriter("practice_log")

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

#定义神经网络
tudui = Tudui()
tudui = tudui.to(device)

#定义训练/测试步数
train_step = 0
test_step = 0

#定义loss function
loss_fn = nn.CrossEntropyLoss()
loss_fn = loss_fn.to(device)

#定义优化器
learning_rate = 1e-2
optimizer = torch.optim.SGD(tudui.parameters(),lr=learning_rate)

#定义训练次数
train_number = 10

for i in range(train_number):
    print("第{}轮训练开始".format(i+1))


    #训练步骤
    tudui.train() #模型进入训练模式
    for data in train_dataloader:
        imgs,targets = data
        imgs = imgs.to(device)
        targets = targets.to(device)
        outputs = tudui(imgs)
        train_loss = loss_fn(outputs,targets)
        #优化模型
        optimizer.zero_grad()
        train_loss.backward()
        optimizer.step()

        train_step += 1
        if(train_step % 100 == 0):
            print("训练次数:{}  Loss:{}".format(train_step,train_loss))
            writer.add_scalar("train_loss",train_loss.item(),train_step)

    #测试步骤
    tudui.eval()    #模型进入验证模式
    test_sum_loss = 0
    test_accuray = 0
    with torch.no_grad():
        for data in test_dataloader:
            imgs,targets = data
            imgs = imgs.to(device)
            targets = targets.to(device)
            outputs = tudui(imgs)
            test_loss = loss_fn(outputs,targets)
            test_sum_loss += test_loss
            #argmax()函数：标记出行或者列上最大的值    参数：1——行 0——列
            accuray = (outputs.argmax(1) == targets).sum()
            test_accuray += accuray

        print("整体测试机上的Loss:{}".format(test_sum_loss))
        print("整体测试机上的正确率:{}".format(test_accuray/test_dataset_len))
        writer.add_scalar("test_loss",test_sum_loss,test_step)
        writer.add_scalar("test_accuray",test_accuray/test_dataset_len,test_step)

        test_step+=1


    torch.save(tudui,"tudui_{}.pth".format(i))
    print("模型已保存")

writer.close()

验证实例：

import torch
import torchvision
from PIL import Image
from torch import nn

img_path = "./frog_1.png"
image = Image.open(img_path)

transform = torchvision.transforms.Compose([torchvision.transforms.Resize((32,32)),
                                            torchvision.transforms.ToTensor()])

image = transform(image)

class Tudui(nn.Module):
    def __init__(self):
        super(Tudui, self).__init__()
        self.model = nn.Sequential(
            nn.Conv2d(3,32,5,padding=2),
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Conv2d(32,32,5,padding=2),
            nn.MaxPool2d(2),
            nn.Conv2d(32,64,5,padding=2),
            nn.MaxPool2d(2),
            nn.Flatten(),
            nn.Linear(64*4*4,64),
            nn.Linear(64,10)
        )

    def forward(self,x):
        x = self.model(x)
        return x


model = torch.load("tudui_29.pth",map_location=torch.device('cpu'))

image = torch.reshape(image,(1,3,32,32))

model.eval()

with torch.no_grad():
    output = model(image)

print(output.argmax(1).item())