200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > PyTorch实现L1 L2正则化以及Dropout

PyTorch实现L1 L2正则化以及Dropout

时间:2022-10-29 07:15:44

相关推荐

PyTorch实现L1 L2正则化以及Dropout

PyTorch实现L1,L2正则化以及Dropout

模型训练中经常出现的两类典型问题:

一类是模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting);另一类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。

在实践中,我们要尽可能同时应对欠拟合和过拟合。

过拟合现象,即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合,但是获取额外的训练数据往往代价高昂。

为此我们可以使用两种方法权重衰减(weight decay)、丢弃法(dropout)。

权重衰减(weight decay)

可以使用L1,L2正则化

正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。

L1L_1L1​范数惩罚项指的是模型权重参数每个元素的绝对值和与一个正的常数的乘积

L2L_2L2​范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。

举线性回归损失函数

ℓ(w1,w2,b)=1n∑i=1n12(x1(i)w1+x2(i)w2+b−y(i))2\ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2 ℓ(w1​,w2​,b)=n1​i=1∑n​21​(x1(i)​w1​+x2(i)​w2​+b−y(i))2

为例,其中w1,w2w_1, w_2w1​,w2​是权重参数,bbb是偏差参数,样本iii的输入为x1(i),x2(i)x_1^{(i)}, x_2^{(i)}x1(i)​,x2(i)​,标签为y(i)y^{(i)}y(i),样本数为nnn。将权重参数用向量w=[w1,w2]\boldsymbol{w} = [w_1, w_2]w=[w1​,w2​]表示,

带有L1L_1L1​范数惩罚项的新损失函数为

ℓ(w1,w2,b)+λn∣w∣,\ell(w_1, w_2, b) + \frac{\lambda}{n} |\boldsymbol{w}|,ℓ(w1​,w2​,b)+nλ​∣w∣,

带有L2L_2L2​范数惩罚项的新损失函数为

ℓ(w1,w2,b)+λ2n∥w∥2,\ell(w_1, w_2, b) + \frac{\lambda}{2n} \|\boldsymbol{w}\|^2,ℓ(w1​,w2​,b)+2nλ​∥w∥2,

其中超参数λ>0\lambda > 0λ>0。当权重参数均为0时,惩罚项最小。当λ\lambdaλ较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0。当λ\lambdaλ设为0时,惩罚项完全不起作用。

初始化模型参数

首先,定义随机初始化模型参数的函数。该函数为每个参数都附上梯度。

def init_params():w = torch.randn((num_inputs, 1), requires_grad=True)b = torch.zeros(1, requires_grad=True)return [w, b]

定义L1L_1L1​范数惩罚项

下面定义L1L_1L1​范数惩罚项。这里只惩罚模型的权重参数。

def l1_penalty(w):return (torch.abs(w)).sum()

定义L2L_2L2​范数惩罚项

def l2_penalty(w):return (w**2).sum() / 2

定义训练和测试

下面定义如何在训练数据集和测试数据集上分别训练和测试模型。这里在计算最终的损失函数时添加了L2L_2L2​范数惩罚项。

batch_size, num_epochs, lr = 1, 100, 0.003net, loss = d2l.linreg, d2l.squared_lossdataset = torch.utils.data.TensorDataset(train_features, train_labels)train_iter = torch.utils.data.DataLoader(dataset, batch_size, shuffle=True)def fit_and_plot(lambd):w, b = init_params()train_ls, test_ls = [], []for _ in range(num_epochs):for X, y in train_iter:# # 添加了L1范数惩罚项# l = loss(net(X, w, b), y) + lambd * l1_penalty(w)# 添加了L2范数惩罚项l = loss(net(X, w, b), y) + lambd * l2_penalty(w)l = l.sum()if w.grad is not None:w.grad.data.zero_()b.grad.data.zero_()l.backward()d2l.sgd([w, b], lr, batch_size)train_ls.append(loss(net(train_features, w, b), train_labels).mean().item())test_ls.append(loss(net(test_features, w, b), test_labels).mean().item())d2l.semilogy(range(1, num_epochs + 1), train_ls, 'epochs', 'loss',range(1, num_epochs + 1), test_ls, ['train', 'test'])print('L2 norm of w:', w.norm().item())# 观察过拟合fit_and_plot(lambd=0)# 使用权重衰减fit_and_plot(lambd=3)

权重衰减可以通过优化器中的weight_decay超参数来指定。

丢弃法 (Dropout)

丢弃法简单理解为以一定概率丢弃一些神经元。

设随机变量ξi\xi_iξi​为0和1的概率分别为ppp和1−p1-p1−p。使用丢弃法时我们计算新的隐藏单元hi′h_i'hi′​

hi′=ξi1−phih_i' = \frac{\xi_i}{1-p} h_i hi′​=1−pξi​​hi​

由于E(ξi)=1−pE(\xi_i) = 1-pE(ξi​)=1−p,因此

E(hi′)=E(ξi)1−phi=hiE(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i E(hi′​)=1−pE(ξi​)​hi​=hi​

由此可得丢弃法不改变其输入的期望值。下面的dropout函数将以drop_prob的概率丢弃X中的元素。

%matplotlib inlineimport torchimport torch.nn as nnimport numpy as npdef dropout(X, drop_prob):X = X.float()keep_prob = 1 - drop_prob# 这种情况下把全部元素都丢弃if keep_prob == 0:return torch.zeros_like(X)mask = (torch.randn(X.shape) < keep_prob).float()return mask * X / keep_prob

我们运行几个例子来测试一下dropout函数。其中丢弃概率分别为0、0.5和1。

X = torch.arange(16).view(2, 8)dropout(X, 0)

dropout(X, 0.5)

dropout(X, 1.0)

简洁实现

在PyTorch中,我们只需要在全连接层后添加Dropout层并指定丢弃概率。在训练模型时,Dropout层将以指定的丢弃概率随机丢弃上一层的输出元素;在测试模型时(即model.eval()后),Dropout层并不发挥作用。

net = nn.Sequential(d2l.FlattenLayer(),nn.Linear(num_inputs, num_hiddens1),nn.ReLU(),nn.Dropout(drop_prob1),nn.Linear(num_hiddens1, num_hiddens2), nn.ReLU(),nn.Dropout(drop_prob2),nn.Linear(num_hiddens2, 10))for param in net.parameters():nn.init.normal_(param, mean=0, std=0.01)

下面训练并测试模型。

optimizer = torch.optim.SGD(net.parameters(), lr=0.5)d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。