LeNet-5

该网络的作用可用于手写数字识别。

共计约6万个参数，使用sigmoid作为激活函数。

AlexNet

共计约6000万个参数，使用ReLU作为激活函数，

共计约1.38亿参数，每一组卷积层后，图像缩小一倍，通道数量翻倍。

ResNet网络是由残差块构成的。

这样$a^{[l+2]}=g(z^{[l+2]}+a^{[l]})$

对于没有残差连接的普通神经网络而言，网络越深，优化算法越难训练，并且随着网络深度的加深，训练错误会越来越多。

如果有了ResNet，即使网络深度很深，错误率也不会上升。

如果在很深的网络处，有某层网络出现了梯度消失的问题，即W=0。

根据$a^{[l+2]}=g(z^{[l+1]}+a^{[l]})=g(w^{[l+2]}a^{[l+1]}+b^{[l+2]}+a^{[l]})$

由于梯度消失，$w^{[l+2]}=0$，此时若$b^{[l+2]}=0$，则$a^{[l+2]}=g(0+0+a^{[l]})=g(a^{[l]})$，因为激活函数是ReLU函数，$a^{[l]}$已经激活过，因此$a^{[l+2]}=g(a^{[l]})=a^{[l]}$。

这样就相当于跳过了梯度消失的部分。

上图为Inception模块，原理就是将不同卷积核卷积出的结果，按通道叠加连接成一个具有所有卷积特征的大方块。

由于提供了各种不同的卷积核，因此网络训练时可以自动选择效果最好的一种或几种卷积核组合，避免了使用单一类型的卷积核的限制。

这是Inception网络的结构，其就是将传统的卷积层替换为了Inception模块。