通俗理解CNN

2019-12-26 sandag

卷积神经网络各个层级结构，如下图：

上图中CNN要做的事情是：给定一张图片，是车是马还是飞机未知，现在需要模型判断这张图片里具体是一个什么东西

最左边是

数据输入层，对数据做一些处理，比如去均值（把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果）、归一化（把所有的数据都归一到同样的范围）、PCA/白化等等。CNN只对训练集做“去均值”这一步

中间是

CONV：卷积层(Convolutional Layer)，线性乘积求和
RELU：激励层，ReLU是激活函数的一种
POOL：池化层(Pooling Layer)，简言之，即取区域平均值或最大（最小）值

最右边是

FC：全连接层(Fully-Connected Layer)

卷积计算过程

对图像（不同的数据窗口数据）和滤波矩阵（一组固定的权重：因为每个神经元的多个权重固定，所以又可以看做一个恒定的滤波器filter）做内积（ 逐个元素相乘再求和 ）的操作就是所谓的 ‘卷积’ 操作，也是卷积神经网络的名字来源

举个具体的例子。比如下图中，图中左边部分是原始输入数据，图中中间部分是滤波器filter，图中右边是输出的新的二维数据，右上角是具体的计算过程

在下图对应的计算过程中，左边是图像输入，中间部分就是滤波器filter（带着一组固定权重的神经元），不同的滤波器filter会得到不同的输出数据，比如颜色深浅、轮廓等。如果想提取图像的不同特征，则可以用不同的滤波器

在CNN中，滤波器filter（带着一组固定权重的神经元）对局部输入数据进行卷积计算。每计算完一个数据窗口内的局部数据后，数据窗口不断平移滑动，直到计算完所有数据。这个过程中，有这么几个参数：

深度depth：即神经元个数，决定输出的depth厚度。同时代表滤波器个数
步长stride：决定滑动多少步可以到边缘
填充值zero-padding：在外围边缘补充若干圈0，方便从初始位置以步长为单位可以刚好滑倒末尾位置，通俗地讲就是为了总长能被步长整除

CS231n课程中有一张卷积动图

从图中可以看到：

有两个神经元，即两个滤波器，depth=2
数据窗口每次移动2个步长，取3*3的局部数据，即stride=2
zero-padding=1

然后分别以两个滤波器filter为轴滑动数组进行卷积计算，得到两组不同的结果

左边是输入（7*7*3中，7*7代表图像的长宽，3代表RGB三个颜色通道）
中间部分是两个不同的滤波器Filter w0、Filter w1
最右边则是两个不同的输出

随着左边数据窗口的平移滑动，滤波器Filter w0 / Filter w1对不同的局部数据进行卷积计算

值得一提的是：左边数据在变化，每次滤波器都是针对某一局部的数据窗口进行卷积，这就是所谓的CNN中的 局部感知 机制。打个比方，滤波器就像一双眼睛，人类视角有限，一眼望去，只能看到这世界的局部。如果一眼就看到全世界，你会累死，而且一下子接受全世界所有信息，你大脑接收不过来

与此同时，数据窗口滑动，导致输入在变化，但中间滤波器Filter w0的权重（即每个神经元连接数据窗口的权重）是固定不变的，这个权重不变即所谓的CNN中的 参数（权重）共享 机制

最后提一点，从图上我们可以看到，每个filter下面都有一个bias，因此要在原来的内积计算结束后，再加上这个bias，得到最终的对应位置值

通俗理解CNN

卷积计算过程

数据采集技术简介

YARN的介绍和一些实践探索

Data Vault 简介

Node.js架构剖析

带你看懂 HMR 热更新原理

限定性数据结构-栈

手写一个简单的HashMap

一文弄懂String的所有小秘密

详解JS闭包概念

国密算法在数据存储中的安全应用

Raft 算法摘要

为什么Java的泛型要用"擦除"实现

Remax 原理浅析

详解国密 SM2 的数字签名

Python实现RabbitMQ中6种消息模型

静态脱敏与动态脱敏的区别

Golang 中生成唯一的字符串（UUID，GUID）

.NET Core + Kubernetes：Pod

Redis zset内部实现

哈希表和高效数组链表的实现

.Net 微服务架构技术栈的那些事

Event Loop到底是什么？

一文读懂密码学中的证书

【目标检测从放弃到入门】一篇文章带你入门前端视觉编译技术