神经网络基本组成 - 激活函数层 12

神经网络如果仅仅是由线性的卷积运算堆叠组成，则其无法形成复杂的表达空间，也就很难提取出高语义的信息，因此还需要加入非线性的映射，又称为激活函数，可以逼近任意的非线性函数，以提升整个神经网络的表达能力。在物体检测任务中，常用的激活函数有Sigmoid、ReLU及Softmax函数。

1． Sigmoid函数

Sigmoid型函数又称为Logistic函数，模拟了生物的神经元特性，即当神经元获得的输入信号累计超过一定的阈值后，神经元被激活而处于兴奋状态，否则处于抑制状态。其函数表达如式（3-1）所示。

Sigmoid函数曲线与梯度曲线如图3.4所示。可以看到， Sigmoid函数将特征压缩到了(0,1)区间， 0端对应抑制状态，而1对应激活状态，中间部分梯度较大。

PyTorch实现Sigmoid函数很简单，示例如下：

 1 import torch
 2 from torch import nn
 3 
 4 input = torch.ones(1, 1, 2, 2)
 5 print(input)
 6 
 7 sigmoid = nn.Sigmoid()
 8 out = sigmoid(input)
 9 
10 print(out)

Sigmoid函数可以用来做二分类，但其计算量较大，并且容易出现梯度消失现象。从曲线图（图3.4）中可以看出，在Sigmoid函数两侧的特征导数接近于0，这将导致在梯度反传时损失的误差难以传递到前面的网络层（因为根据链式求导，梯度接近于0）。

2. ReLU函数

为了缓解梯度消失现象，修正线性单元（Rectified Linear Unit，ReLU）被引入到神经网络中。由于其优越的性能与简单优雅的实现， ReLU已经成为目前卷积神经网络中最为常用的激活函数之一。 ReLU函
数的表达式如式（3-2）所示。

ReLU函数及其梯度曲线如图3.5所示。可以看出，在小于0的部分，值与梯度皆为0，而在大于0的部分中导数保持为1，避免了Sigmoid函数中梯度接近于0导致的梯度消失问题。

下面是PyTorch实现ReLU激活函数示例。

 1 from torch import nn
 2 
 3 input = torch.ones(1, 1, 2, 2)
 4 print(input)
 5 >> tensor([[[[1., 1.],
 6           [1., 1.]]]])
 7 
 8 # nn.ReLU()可以实现inplace操作， 即可以直接将运算结果覆盖到输入中， 以节省内存
 9 relu = nn.ReLU(inplace=True)
10 print(relu(input))
11 # # 可以看出大于0的值保持不变， 小于0的值被置为0
12 >> tensor([[[[1., 1.],
13           [1., 1.]]]])

ReLU函数计算简单，收敛快，并在众多卷积网络中验证了其有效性。

3. Leaky ReLU函数

ReLU激活函数虽然高效，但是其将负区间所有的输入都强行置为0， Leaky ReLU函数优化了这一点，在负区间内避免了直接置0，而是赋予很小的权重，其函数表达式如式（3-3）所示。

以上公式中的ai代表权重，即小于0的值被缩小的比例。 Leaky ReLU的函数曲线如图3.6所示。

下面使用PyTorch来实现简单的Leaky ReLU激活函数过程。

 1 import torch
 2 from torch import nn
 3 
 4 input = torch.randn(1, 1, 2, 2)
 5 print(input)
 6 >>  tensor([[[[-0.7955,  0.3595],
 7           [ 0.1483,  0.2836]]]])
 8 
 9 # 利用nn.LeakyReLU()构建激活函数， 并且其为0.04， 即ai为25， True代表in-place操作
10 leakrelu = nn.LeakyReLU(0.04, True)
11 # 从结果看大于0的值保持不变， 小于0的值被以0.04的比例缩小
12 print(leakrelu(input))
13 >> tensor([[[[-0.0318,  0.3595],
14           [ 0.1483,  0.2836]]]])

虽然从理论上讲， Leaky ReLU函数的使用效果应该要比ReLU函数好，但是从大量实验结果来看并没有看出其效比ReLU好。此外，对于ReLU函数的变种，除了Leaky ReLU函数之外，还有PReLU和RReLU 函数等，这里不做详细介绍。

4. Softmax函数

在物体检测中，通常需要面对多物体分类问题，虽然可以使用Sigmoid函数来构造多个二分类器，但比较麻烦，多物体类别较为常用
的分类器是Softmax函数。

在具体的分类任务中， Softmax函数的输入往往是多个类别的得分，输出则是每一个类别对应的概率，所有类别的概率取值都在0~1之间，且和为1。 Softmax函数的表达如式（3-4）所示，其中， Vi表示第i个类别的得分， C代表分类的类别总数，输出Si为第i个类别的概率。

在PyTorch中， Softmax函数在torch.nn.functional库中，使用方法如
下

在PyTorch中， Softmax函数在torch.nn.functional库中，使用方法如下：

 1 import torch
 2 
 3 import torch.nn.functional as F
 4 score = torch.randn(1, 4)
 5 print(score)
 6 >> tensor([[ 0.4768,  0.8797,  0.9180, -0.3224]])
 7 
 8 # 利用torch.nn.functional.softmax()函数， 第二个参数表示按照第几个维度进行
 9 # Softmax计算
10 out = F.softmax(score, 1)
11 print(out)
12 >> tensor([[0.2222, 0.3324, 0.3454, 0.0999]])

pytorch基础

神经网络基本组成 - 激活函数层 12

相关

Colab下pytorch基础练习

PyTorch基础内容

标签