Papper-Very deep convolutional networks for large-scale image rrcognition

Absract

  • 工作:调查cnn深度对大规模图像识别精度的影响。
  • 内容:增加深度到16-19层、3*3滤波器,将这种网络进行评估。
  • 评价:深度加到16-19对结果有很大改进,适用性好。

Introduction

  • 现有工作:
    • Krizhevsky et al., 2012;
    • Zeiler & Fergus, 2013:减少步幅、较小窗口尺寸。
    • Sermanet et al., 2014;
    • Howard, 2014
    • Simonyan & Zisserman, 2014
    • Perronnin et al., 2010
    • Ciresan et al. (2011);

卷积配置

架构

  • 卷积层配置同Ciresan et al. (2011)、Krizhevsky et al. (2012)
  • 预处理:从每个像素中减去均值
  • 初始输入尺寸:224 * 224 *3,若图像不是这个尺寸,则缩放后裁剪(每个sgd裁剪不同)
  • 3 * 3卷积核、1 * 1卷积核(可以看作线性变换),步长为1。
  • 卷积层输入的空间填充要满足卷积之后保留空间分辨率 ,即3×3卷积层的padding填充为1个像素。
  • 空间池化由五个最大池化层进行,这些层在一些卷积层之后。 在2 * 2像素窗口上进行最大池化,步长为2。
  • 之后是三个全连接(FC)层:前两个每个都有4096个通道,第三个执行1000维ILSVRC分类。
  • 最后一层是soft-max层。所有网络中全连接层的配置是相同的。
  • 所有隐藏层都配备了修正(ReLU(Krizhevsky等,2012))非线性。
  • 除了一个,其他层都没有局部响应规范化LRN(这种规范化并不能提高在ILSVRC数据集上的性能,但增加了内存消耗和计算时间)。
  • 通道由64到512

配置

  • 格式:conv<卷积核大小>-<通道数>
  • 没有画relu
  • 参数量:113、113、134、138、144百万

讨论

  • 两个3×3卷积层堆叠(没有空间池化)有5×5的有效感受野 ;三个3×3卷积层堆叠(没有空间池化)有7×7的有效感受野,但是可以减少参数。
    • 首先,我们结合了三个非线性修正层,而不是单一的,这使得决策函数更具判别性。
    • 其次,我们减少参数的数量
      • 假设三层3×3卷积堆叠的输入和输出有C个通道,堆叠卷积层的参数为3(3^2C^2)=27C^2个权重;同时,单个7×7卷积层将需要7^2C^2=49C^2个参数,即参数多81%。这可以看作是对7×7卷积滤波器进行正则化,迫使它们通过3×3滤波器(在它们之间注入非线性)进行分解。
  • 结合1×1卷积层(配置C,表1):增加决策函数非线性而不影响卷积层感受野。

3.分类框架

3.1训练

  • 训练方法参照Krizhevsky et al. (2012),除了从多尺度训练图像中对输入裁剪图像进行采样外
    • 通过使用小批量梯度下降(LeCun et al., 1989),利用动量来优化多项式逻辑回归目标来进行的。
    • batchsize:256,动量:0.9
    • 训练通过权重衰减(L2惩罚乘子设定为5⋅10−45·10−4)进行正则化,前两个全连接层执行Dropout正则化(丢弃率设定为0.5)。
    • 学习率初始设定为10^−2,然后当验证集准确率停止改善时,减少10倍。学习率总共降低3次,学习在37万次迭代后停止(74个epochs)。
    • 尽管与(Krizhevsky等,2012)相比我们的网络参数更多,网络的深度更大,但网络需要更小的epoch就可以收敛,这是由于:
      • 由更大的深度和更小的卷积滤波器尺寸引起的隐式正则化
      • 某些层的预初始化。
  • 网络权重的初始化很重要,因为由于深度网络中的梯度不稳定,初始化不好可能会导致学习停滞。
    • 为了避免这个问题,我们从训练配置A开始,这个配置足够浅,可以随机初始化进行训练,从具有零均值和10-2方差的正态分布中采样。
    • 然后,当训练更深的体系结构时,我们初始化了前四个卷积层和最后三个完全连接的层,中间层随机初始化。
    • 我们没有降低预初始化层的学习速率,允许它们在学习期间改变。
    • bias初始化为0
  • 采用2种设置训练图像大小方法:
    • 固定训练集图片大小,如256 * 256和384 * 384;比这个大就剪裁
    • 多尺度训练,让训练集的大小在一个范围内随机变化,如S∈[Smin,Smax]=[256,512],随机采样S来单独调整每个训练图像。
      • 由于图像中的物体可能具有不同的大小,因此在训练时考虑到这一点是有益的。
      • 可以看作是通过缩放抖动来增强训练集,单个模型被训练以识别范围广泛的物体。

3.2测试

  • 对测试集做数据增强,采用水平翻转,最终取原始图像和翻转图像 的soft-max分类概率的平均值作为最终得分。
  • 首先,图像的最小边被各向同性的缩放到预定尺寸Q (Q不一定等于S)
  • 然后将原先的全连接层改换成卷积层,在未裁剪的全图像上运用卷积网络, 输出是一个与输入图像尺寸相关的分类得分图,输出通道数与类别数相同
    • 由于测试阶段采用全卷积网络,无需对输入图像进行裁剪,相对于多重裁剪效率会更高。但多重裁剪评估和运用全卷积的密集评估是互补的,有助于性能提升。
  • 对分类得分图进行空间平均化,得到固定尺寸的分类得分向量

3.3实现细节

4.实验