CV 经典论文汇总。

ILSVRC

ILSVRC是图像识别领域的知名比赛,可以参考这篇论文。从2010年开始 ILSVRC 每年举办一届,一直到2017年最后一届,目前已经交给Kaggle

2012. AlexNet

问题

  • AlexNet 的任务?

    任务是做图像分类。具体地说,是将 ImageNet 的一个子集,共包含约120万张训练集图片,5万张验证集图片和15万张测试集图片,共有1000类。AlexNet 的输入是图片,输出是图片类别,属于经典的 Classification 问题。

  • AlexNet 的网络结构?

    AlexNet 包含5个卷积层,3个池化层,2个标准化层和3个全连接层,共13层,其中权重层(卷积层和全连接层)共8层。具体结构可以参考 Stanford CS231n 的 slide

  • AlexNet 共有多少参数?

    总共约有6000万个参数。具体计算可以参考Stackoverflow 的问题。特别需要注意卷积层参数的计算方法。最终全连接层约有5700万参数,卷积层约有300万参数。

  • AlexNet 的激活函数是什么?为什么不选择传统的 Sigmoid?

    ReLU(Rectified Linear Unit)。ReLU 与 Sigmoid 相比有如下优势1

    • 不容易饱和(反向传播计算梯度时)。
    • 计算效率高。
    • 训练时收敛速度快。
  • AlexNet 如何防止过拟合?

    主要用了两种方法:(1)Data Augmentation.(2)Dropout2.

  • AlexNet 的优化求解算法是什么?与传统 SGD 相比有何优势?

    算法是带有 weight decay 的 SGD + Momentum。与传统 SGD 相比有如下优势:

    • 传统 SGD 优化时会沿梯度较陡方向振荡,梯度较缓方向优化较慢。
    • 传统 SGD 无法摆脱局部最优及鞍点。
    • 传统 SGD 由于随机样本带来的噪声,易出现振荡。

2014. GoogLeNet

留言