Chapter 10 Convolutional networks

2-9章介绍了监督学习的pipline。然而，这些章节只考虑了全连接网络（fully connected networks），全连接网络从输入到输出只会有单一的路径（不会出现像残差网络那样的并行路径），10-13章介绍了更加“专业”的网络组件（“专业”是指用于特殊问题），这些组件连接更稀疏，权重之间相互共享，会有一些并行的处理路径（parallel processing paths）。这章介绍卷积层（convolutional layers），主要用于处理图像数据。

图像具有三种性质，这些性质使其需要专有的模型架构来处理。首先，图像的维度很高（high-dimensional）。一个典型的分类任务图像的RGB值为224×224（即 150，528个维度）。全连接网络的隐藏层往往比输入的尺寸更大，所以即使对于一个浅层网络，权重的数量也会超过$150,528^2$，或者说220亿。这不现实，因为需要大量的训练数据、显存与计算。

第二，相邻的图像像素在统计意义上是相关的。然而，全连接网络没有相邻的概念，他会平等地对待每一个输入。除非训练和测试数据的像素值以同样的方式排列，全连接网络才不会有误差（意思是说训练和测试数据十分相似，树都长得差不多）。

第三，即使经过几何变换，图像的含义是不变的。一张树的图片如果我们把它向左移动几个像素它依旧是树的图片。然而，这种变换改变了网络的每个输入。因此，一个全连接网络必须在每一个位置分别学习表示树的像素模式，这显然是低效的。（换句话说，如果训练集中的树都在左半边，全连接网络会认为只有在左半边的树才是树，右半边不会有树）。

卷积层使用整个图像中共享的参数独立处理每个局部图像区域。它们使用的参数比全连接层少，利用附近像素之间的空间关系，并且不必重新学习每个位置的像素解释。主要由卷积层组成的网络被称为卷积神经网络或CNN。