deep_learning_1.线性回归的从零实现

线性回归

回归（regression）是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域，回归经常用来表示输入和输出之间的关系。

在机器学习领域中的大多数任务通常都与预测（prediction）有关。当我们想预测一个数值时，就会涉及到回归问题。常见的例子包括：预测价格（房屋、股票等）、预测住院时间（针对住院病人等）、预测需求（零售销量等）。但不是所有的预测都是回归问题。

线性回归（linear regression）可以追溯到19世纪初，它在回归的各种标准工具中最简单而且最流行。线性回归基于几个简单的假设：首先，假设自变量x和因变量y之间的关系是线性的，即y可以表示为x中元素的加权和，这里通常允许包含观测值的一些噪声；其次，我们假设任何噪声都比较正常，如噪声遵循正态分布。

为了解释线性回归，我们举一个实际的例子：我们希望根据房屋的面积（平方英尺）和房龄（年）来估算房屋价格（美元）。为了开发一个能预测房价的模型，我们需要收集一个真实的数据集。

这个数据集包括了房屋的销售价格、面积和房龄。在机器学习的术语中，该数据集称为训练数据集（training data set）或训练集（training set）。每行数据（比如一次房屋交易相对应的数据）称为样本（sample），也可以称为数据点（data point）或数据样本（data instance）。我们把试图预测的目标（比如预测房屋价格）称为标签（label）或目标（target）。预测所依据的自变量（面积和房龄）称为特征（feature）或协变量（covariate）。

线性回归的从零开始实现

以下是pytorch版本实现

导入包

%matplotlib inline
import random
import torch
from d2l import torch as d2l

生成数据集

def synthetic_data(w, b, num_examples):  #@save
    """生成y=Xw+b+噪声"""
    # torch.normal(mean,std,out) 输出均值为0，标准差为1，大小为[1000,2]的数组
    X = torch.normal(0, 1, (num_examples, len(w))) 
    # matmul:如果一个二维矩阵和一个一维向量input的乘积运算，则先将input的一维向量扩充到二维，然后进行矩阵乘积，得到结果后再将此维度去掉，得到的与input的维度相同。
    y = torch.matmul(X, w) + b
    y += torch.normal(0, 0.01, y.shape) # 这里是加入一些噪声
    return X, y.reshape((-1, 1))

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)

注意，features中的每一行都包含一个二维数据样本， labels中的每一行都包含一维标签值（一个标量）。

1	`print('features:', features[0],'\nlabel:', labels[0])`

1 2	`d2l.set_figsize() d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1);`

读取数据集

def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    # 这些样本是随机读取的，没有特定的顺序
    random.shuffle(indices)
    for i in range(0, num_examples, batch_size):
        batch_indices = torch.tensor(
            indices[i: min(i + batch_size, num_examples)])
        yield features[batch_indices], labels[batch_indices]

batch_size = 10

for X, y in data_iter(batch_size, features, labels):
    print(X, '\n', y)
    break

当我们运行迭代时，我们会连续地获得不同的小批量，直至遍历完整个数据集。上面实现的迭代对于教学来说很好，但它的执行效率很低，可能会在实际问题上陷入麻烦。例如，它要求我们将所有数据加载到内存中，并执行大量的随机内存访问。在深度学习框架中实现的内置迭代器效率要高得多，它可以处理存储在文件中的数据和数据流提供的数据。

初始化模型参数

1 2	`w = torch.normal(0, 0.01, size=(2,1), requires_grad=True) b = torch.zeros(1, requires_grad=True)`

定义数据模型

1
2
3

def linreg(X, w, b):  #@save
    """线性回归模型"""
    return torch.matmul(X, w) + b # [1000,2] * [2,1]  = [1000,1] + b (随意变换)

定义损失函数

def squared_loss(y_hat, y):  #@save
    """均方损失"""
    return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2
  '''正常应该是同样的shape，但以防一个是行向量、一个是列向量。
现在reshape，可以确保shape一样'''

定义优化算法

def sgd(params, lr, batch_size):  #@save
    """小批量随机梯度下降"""
    # torch.no_grad()包含的代码不算梯度
    with torch.no_grad():
        for param in params:
          # x-=k 与x= x-k 不同，前者会更新变量的值，而后者不会 此时的param为None.
            param -= lr * param.grad / batch_size
            # torch的梯度值每次会累加，所以要清0
            # torch的梯度保存在.grad里面
            param.grad.zero_()

训练

lr = 0.03
num_epochs = 3
net = linreg
loss = squared_loss

for epoch in range(num_epochs):
    for X, y in data_iter(batch_size, features, labels):
        l = loss(net(X, w, b), y)  # X和y的小批量损失
        # 因为l形状是(batch_size,1)，而不是一个标量。l中的所有元素被加到一起，
        # 并以此计算关于[w,b]的梯度
        l.sum().backward()
        sgd([w, b], lr, batch_size)  # 使用参数的梯度更新参数
    with torch.no_grad():
        train_l = loss(net(features, w, b), labels)
        print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

epoch 1, loss 0.037357

epoch 2, loss 0.000146

epoch 3, loss 0.000049

1 2	`print(f'w的估计误差: {true_w - w.reshape(true_w.shape)}') print(f'b的估计误差: {true_b - b}')`

w的估计误差: tensor([ 4.0927, -2.6497], grad_fn=)

b的估计误差: tensor([67.1991], grad_fn=)

线性回归的简洁实现

生成数据集

import numpy as np
import torch
from torch.utils import data
from d2l import torch as d2l

true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = d2l.synthetic_data(true_w, true_b, 1000)

读取数据集

我们可以调用框架中现有的API来读取数据。我们将features和labels作为API的参数传递，并通过数据迭代器指定batch_size。此外，布尔值is_train表示是否希望数据迭代器对象在每个迭代周期内打乱数据。

def load_array(data_arrays, batch_size, is_train=True):  #@save
    """构造一个PyTorch数据迭代器"""
    dataset = data.TensorDataset(*data_arrays)
    return data.DataLoader(dataset, batch_size, shuffle=is_train)

batch_size = 10
data_iter = load_array((features, labels), batch_size)

1	`next(iter(data_iter)`

[tensor([[ 0.4162, -1.5868],
         [-0.4829,  0.1374],
         [-0.5748, -0.6860],
         [-0.6347,  0.1200],
         [-0.9963,  2.0180],
         [ 1.5813, -1.2615],
         [-0.4949,  2.0363],
         [ 0.3605,  0.5714],
         [ 0.4059, -1.2410],
         [ 0.1744,  1.4118]]),
 tensor([[10.4306],
         [ 2.7637],
         [ 5.3611],
         [ 2.5469],
         [-4.6475],
         [11.6465],
         [-3.7162],
         [ 2.9882],
         [ 9.2429],
         [-0.2496]])]

定义模型

当我们在前面从0实现线性回归时，我们明确定义了模型参数变量，并编写了计算的代码，这样通过基本的线性代数运算得到输出。但是，如果模型变得更加复杂，且当你几乎每天都需要实现模型时，你会想简化这个过程。这种情况类似于为自己的博客从零开始编写网页。做一两次是有益的，但如果每个新博客你就花一个月的时间重新开始编写网页，那并不高效。

对于标准深度学习模型，我们可以使用框架的预定义好的层。这使我们只需关注使用哪些层来构造模型，而不必关注层的实现细节。我们首先定义一个模型变量net，它是一个Sequential类的实例。 Sequential类将多个层串联在一起。当给定输入数据时，Sequential实例将数据传入到第一层，然后将第一层的输出作为第二层的输入，以此类推。在下面的例子中，我们的模型只包含一个层，因此实际上不需要Sequential。但是由于以后几乎所有的模型都是多层的，在这里使用Sequential会让你熟悉“标准的流水线”。

回顾上面的线性回归模型中的单层网络架构，这一单层被称为全连接层（fully-connected layer），因为它的每一个输入都通过矩阵-向量乘法得到它的每个输出

在PyTorch中，全连接层在Linear类中定义。值得注意的是，我们将两个参数传递到nn.Linear中。第一个指定输入特征形状，即2，第二个指定输出特征形状，输出特征形状为单个标量，因此为1。

# nn是神经网络的缩写
from torch import nn

net = nn.Sequential(nn.Linear(2, 1))

初始化模型参数

在使用net之前，我们需要初始化模型参数。如在线性回归模型中的权重和偏置。深度学习框架通常有预定义的方法来初始化参数。在这里，我们指定每个权重参数应该从均值为0、标准差为0.01的正态分布中随机采样，偏置参数将初始化为零。

正如我们在构造nn.Linear时指定输入和输出尺寸一样，现在我们能直接访问参数以设定它们的初始值。我们通过net[0]选择网络中的第一个图层，然后使用weight.data和bias.data方法访问参数。我们还可以使用替换方法normal_和fill_来重写参数值。

1 2	`net[0].weight.data.normal_(0, 0.01) net[0].bias.data.fill_(0)`

定义损失函数

计算均方误差使用的是MSELoss类，也称为平方L2范数。默认情况下，它返回所有样本损失的平均

1	`loss = nn.MSELoss()`

定义优化算法

小批量随机梯度下降算法是一种优化神经网络的标准工具， PyTorch在optim模块中实现了该算法的许多变种。当我们实例化一个SGD实例时，我们要指定优化的参数（可通过net.parameters()从我们的模型中获得）以及优化算法所需的超参数字典。小批量随机梯度下降只需要设置lr值，这里设置为0.03。

1	`trainer = torch.optim.SGD(net.parameters(), lr=0.03)`

训练

通过深度学习框架的高级API来实现我们的模型只需要相对较少的代码。我们不必单独分配参数、不必定义我们的损失函数，也不必手动实现小批量随机梯度下降。当我们需要更复杂的模型时，高级API的优势将大大增加。当我们有了所有的基本组件，训练过程代码与我们从零开始实现时所做的非常相似。

回顾一下：在每个迭代周期里，我们将完整遍历一次数据集（train_data），不停地从中获取一个小批量的输入和相应的标签。对于每一个小批量，我们会进行以下步骤:

通过调用net(X)生成预测并计算损失l（前向传播）。
通过进行反向传播来计算梯度。
通过调用优化器来更新模型参数。

为了更好的衡量训练效果，我们计算每个迭代周期后的损失，并打印它来监控训练过程。

num_epochs = 3
for epoch in range(num_epochs):
    for X, y in data_iter:
        l = loss(net(X) ,y)
        trainer.zero_grad()
        l.backward()
        trainer.step()
    l = loss(net(features), labels)
    print(f'epoch {epoch + 1}, loss {l:f}')

1
2
3

epoch 1, loss 0.000392
epoch 2, loss 0.000104
epoch 3, loss 0.000104

下面我们比较生成数据集的真实参数和通过有限数据训练获得的模型参数。要访问参数，我们首先从net访问所需的层，然后读取该层的权重和偏置。正如在从零开始实现中一样，我们估计得到的参数与生成数据的真实参数非常接近。

w = net[0].weight.data
print('w的估计误差：', true_w - w.reshape(true_w.shape))
b = net[0].bias.data
print('b的估计误差：', true_b - b)

1 2	`w的估计误差： tensor([ 0.0002, -0.0002]) b的估计误差： tensor([-9.1553e-05])`

Q&A

问题1: 为啥使用平方损失函数而不是绝对差值呢？

绝对差值函数在0点处不可导，会导致在0点出现跳跃梯度的情况，其实的话问题也不大

问题2: 线性回归损失函数是不是通常都是MSE？

是的

问题3: 损失为什么要求平均？

求不求平均其实问题不大，有点像标准化归一化处理，不求平均的话你就是在某个scale内，求了平均这个scale范围等于是等比例缩小了

问题4: 怎么找到合适的学习率？

第一，你可以找一个对学习率不那么敏感的算法，比较smooth的算法，

第二，可以通过合理的参数初始化，然后学习率取0.1或者0.01就差不多了

第三，有找学习率的方法，比如网格搜索等

问题5: batchsize是否会影响模型结果？

batchsize越小实际上是效果越好的，batchsize越小，模型每次处理的数据就越多，如果一次喂的数据少的话，带来的噪音会越多，但是一定的噪音会对模型的范化性更好

问题6: 学习率和批次会影响模型收敛吗？

一般来说只要是你的学习率不要给到太大，学习率和批次是不会影响到收敛的，只是时间问题，模型最终都会收敛的

问题7: 随机梯度下降的随机指的是什么？

指的是每次随机采样批量大小的样本

问题8: 为什么机器学习优化算法都采用随机梯度下降（一阶导算法）,而不是采用牛顿（二阶导算法），收敛速度更快？

我们其实不太关心收敛的快不快，我们关心的是它收敛到哪里，牛顿法快可能不是最优解，不一定比随机梯度下降训练出来的模型范化性好。不要步子迈太快😄

问题9: 本质上我们为什么要用SGD，是因为大部分的实际loss太复杂，推导不出导数为0的解么？只能逐个batch去逼近？

是的，机器学习深度学习存在的意义就是无法直接求出具体的最优解，只能通过参数的训练达到无限逼近最优解

问题10: 定义网络层后一定要手动设置参数初始值吗？

不一定，给默认的初始值也挺好的

问题11: 每个batch计算的时候，为什么要把梯度清零啊？
因为pytorch你不清0的话，它会一直在上面的梯度上做累加

问题12: 矩阵怎么求导数？

标量的导数：就是数学里面学习的导数

将导数拓展到向量，进而到矩阵：

	标量x(1,)	向量x(s,1)	矩阵(s,k)
标量y(1,)	标量(1,)	向量(1,s)	矩阵(k,s)
向量y(m,1)	向量(m,1)	矩阵(m,s)	矩阵(m,k,s)
矩阵Y(m,n)	矩阵(m,n)	矩阵(m,n,s)	矩阵(m,n,k,s)

问题13: 如果将小批量的总损失替换为小批量损失的平均值，你需要如何更改学习率？

若不将损失函数采用均值将会使得参数的梯度过大，梯度经过放大后，原有的学习率显得过大使得其出现了振荡即步长过长导致，在最优解的附近震荡而无法高效逼近最优点，mean意味着所有样本损失的平均值，即loss会除以样本数，sum没有除这个样本数，所以会放大1000倍（这里样本数为1000），默认情况下以mean作为损失的计算结果更好，

loss function reduction= ‘mean’ , lr=0.03:
epoch 1, loss 0.000361
epoch 2, loss 0.000095
epoch 3, loss 0.000095
w的估计误差： tensor([-0.0002, -0.0002])
b的估计误差： tensor([8.6784e-05])

loss function reduction = ‘sum’, lr =0.03/batch_size=0.003
epoch 1, loss 0.176310
epoch 2, loss 0.091707
epoch 3, loss 0.092358
w的估计误差： tensor([0.0007, 0.0012])
b的估计误差： tensor([0.0005])

参考：https://zh-v2.d2l.ai

觉得不错的话，支持一根棒棒糖吧 ୧(๑•̀⌄•́๑)૭