网站首页 > 文章精选 正文
论文题目:Very Deep Convolutional Networks for Large-Scale Image Recognition
论文地址:
https://arxiv.xilesou.top/pdf/1409.1556.pdf
摘要
“在这项工作中,我们研究了卷积网络深度在大规模的图像识别环境下对准确性的影响。我们的主要贡献是使用非常小的(3×3)卷积滤波器架构对网络深度的增加进行了全面评估,这表明通过将深度推到16-19加权层可以实现对现有技术配置的显著改进。这些发现是我们的ImageNet Challenge 2014提交论文的基础,我们的团队在定位和分类过程中分别获得了第一名和第二名。我们还表明,我们的表示对于其他数据集泛化的很好,在其它数据集上取得了最好的结果。我们使我们的两个性能最好的ConvNet模型可公开获得,以便进一步研究计算机视觉中深度视觉表示的使用”。
解读
vgg(金字塔结构)网络非常适用于中小型网络(网络深度在几十层),分类性能非常好,即使是在当下同样也很受欢迎,使用它作为基础网络(backbone)。
创新点
使用小卷积3*3代替7*7卷积,降低计算量。
卷积层与层之间使用relu激活函数,max-pool无激活。
预处理:每个像素减去训练RGB均值。
网络架构
图为vgg16
这里以vgg16来讲解。白色是卷积层+激活,红色是池化,蓝色是全连接层+池化,棕色框是预测层(softmax),16层对应的是卷积层与全连接层数量和。
图像以固定尺寸(224×224×3)输入网络,网络的第一、二层为224×224图像尺寸,64是通道数也是卷积核数量,大小3×3,步长为1,填充p为0。每次卷积紧接一次relu。两层卷积后最大池化(池化的本质是降维,减少信息冗余,有最大池化和平均池化两种),使用128个核大小2×2,步长为2,填充p为0,使图像缩小为112*112。之后在进行卷积操作,方法类似,只是把通道数成倍增加。
最后接全连接层,也正因为是全连接层导致图像的输入是固定尺寸(现在用1*1卷积代替全连接层,目的降低参数量),全连接层的最后一层1000表示分类种类为1000种(有多少种类就是多少)。
网络结构图