2-9章介绍了监督学习的pipline。然而,这些章节只考虑了全连接网络(fully connected networks),全连接网络从输入到输出只会有单一的路径(不会出现像残差网络那样的并行路径),10-13章介绍了更加“专业”的网络组件(“专业”是指用于特殊问题),这些组件连接更稀疏,权重之间相互共享,会有一些并行的处理路径(parallel processing paths)。这章介绍卷积层(convolutional layers),主要用于处理图像数据。
图像具有三种性质,这些性质使其需要专有的模型架构来处理。首先,图像的维度很高(high-dimensional)。一个典型的分类任务图像的RGB值为224×224(即 150,528个维度)。全连接网络的隐藏层往往比输入的尺寸更大,所以即使对于一个浅层网络,权重的数量也会超过$150,528^2$,或者说220亿。这不现实,因为需要大量的训练数据、显存与计算。
第二,相邻的图像像素在统计意义上是相关的。然而,全连接网络没有相邻的概念,他会平等地对待每一个输入。除非训练和测试数据的像素值以同样的方式排列,全连接网络才不会有误差(意思是说训练和测试数据十分相似,树都长得差不多)。
第三,即使经过几何变换,图像的含义是不变的。一张树的图片如果我们把它向左移动几个像素它依旧是树的图片。然而,这种变换改变了网络的每个输入。因此,一个全连接网络必须在每一个位置分别学习表示树的像素模式,这显然是低效的。(换句话说,如果训练集中的树都在左半边,全连接网络会认为只有在左半边的树才是树,右半边不会有树)。
卷积层使用整个图像中共享的参数独立处理每个局部图像区域。它们使用的参数比全连接层少,利用附近像素之间的空间关系,并且不必重新学习每个位置的像素解释。主要由卷积层组成的网络被称为卷积神经网络或CNN。