立足点:Network 的架构设计的思想

常用场景:Image Classification

基本步骤:

  1. 把所有图片都先 Rescale 成大小一样
  2. 把每一个类别,表示成一个 One-Hot 的 Vector(Dimension 的长度就决定了模型可以辨识出多少不同种类的东西,)
  3. 将图像【输入】到模型中

如何将图片输入到模型中?⇒一般思路:展平→参数量过大

Untitled

如果输入的向量长度是 100 × 100×3,有 1000 个 Neuron,那我们现在第一层的 Weight,就有 1000×100 × 100×3,也就是 3×10 的 7 次方,是一个非常巨大的数目。

虽然随著参数的增加,我们可以增加模型的弹性,我们可以增加它的能力,但是我们也增加了 Overfitting 的风险。

**思考:**考虑到影像辨识这个问题本身的特性,其实我们并不一定需要 Fully Connected,不需要每一个 Neuron跟 Input的每一个 Dimension 都有一个 Weight

神经元角度:

观察(1):模型通过识别一些“特定模式”来识别物体,而非“整张图”

Untitled

Neuron 也许根本就不需要,把整张图片当作输入,它们只需要把图片的一小部分当作输入,就足以让它们侦测某些特别关键的 Pattern有没有出现了

简化(1):设定“感受野”(Receptive Field)

每个神经元只需要考察特定范围内的图像信息,将图像内容展平后输入到神经元中即可。

Untitled

Untitled