犀牛甲AI科研实验室 发表于 2018-2-22 10:50:39

BN“批规范化”深度学习5层网络源码,如何1行提高训练速率准确率

卷首语:

首先,笔者在这里祝大家新年快乐!!!今天我们来探究的问题是BN层在TensorFlow中的实现,以实践为主,理论方面会跳过一些不易被理解的部门,让大家可以快速搭建并投入利用。
在文章的末了我也会给出相应的效果对比,夷由要不要学习的读者可以先看看末了在做决定~
在训练模子时,我们常常会在一些需要调整的参数上浪费时间:学习率,学习衰减率,正则……
况且即便我们调整了很多次参数,也未必见得可以提高模子的训练效果,乃至还有可能产生梯度消失等等一系列令人头疼的问题。
但是,这种现象在Inception-v2中就已经发生了改变。在Inception模子升级时引入了一种新的网络层“Batch Normalization”
https://p1.pstatp.com/large/66a600050df6ebaa5966
比较官方的公式,不懂的读者可以直接忽略
为了降低学习难度,笔者在这里给出一个精简的公式:
https://p1.pstatp.com/large/66aa000183685aba0b3a
BN公式
下面,让我们对公式逐一地进行分解(注:有微积分基础的读者想必就不用我多说了,可以跳过理论这段)
均值与方差
均值(mean):
首先,让我们假设一数组:X =
mean = 数组和/数量
mean = (1+2+3+4+5)/5
mean = 3
方差(variance):
让我们继承利用上一数组X
variance = (X12+ X22+…+ Xn2)/ n
variance = (12+ 22 + 32 + 42 + 52)/ 5
variance = (1 + 4 + 9 + 1 6 + 2 5 )/ 5
variance = 45 / 5
variance = 9
在TensorFlow中,该公式内的“均值”与“方差”可通过tf.nn.moments()函数来盘算
内部参数
x:输入进行盘算的张量
axes:需要盘算的维度
name:命名
keep_dims:是否保持维度
https://p9.pstatp.com/large/66a600050df80c544276
TensorFlow实现
缩放与偏移
在公式中,我们可以将“缩放”与“偏移”理解为两组可被训练的Weights
缩放(scale):
在定义scale时一般初始化为0,维度必须和mean的一致
https://p3.pstatp.com/large/66ac00006b8da92c057d
TensorFlow实现
偏移(offset):
定义offset的情况和scale基本一致,但要注意的是offset一般情况下初始化为1
https://p1.pstatp.com/large/66a90001b044fae3947e
TensorFlow实现
按照上面所讲的,公式中的内容我们已经解析完全,接下来我们只需要套用一个现成的函数:
https://p1.pstatp.com/large/66ab00011eb862dbcf94
TensorFlow实现
神来一笔:Variance_epsilon
在上面的函数中,我们将“输入”“均值”“方差”“偏移”“缩放”都添加了进去,末了还有个参数:variance_epsilon = 0.001
这个参数的作用在官方表明为:A small float number to avoid dividing by 0.
大概的意思就是需设定一个浮点数用来避免除以0产生的梯度爆炸
虽然在方差被除等于零是几率很小的事,可在几十层乃至几百层的神经网络里,盘算量也要大的惊人,根据墨菲定律:会出错的事总会出错
滑动平均与滑动方差
注:BN层在训练与测试时所用的滑动平均和滑动方差差别
申请滑动平均与滑动方差(这里就应该不用我多叙述了,纯基础范围,不太理解的可以去找一下关于滑动平均的博文):
https://p3.pstatp.com/large/66ab00011ebaa36da0b4
TensorFlow实现
盘算滑动平均与滑动方差:
https://p1.pstatp.com/large/66aa0001836ad32d4653
TensorFlow实现
存储优化参数:
https://p1.pstatp.com/large/66a90001b045540486eb
TensorFlow实现
https://p1.pstatp.com/large/66ac00006b9065be08bd
TensorFlow实现
云云一来,在进行网络训练时,将is_training设为True;测试网络时设为False即可。
精简代码
在前文中我们写了很多行代码才实现了BN层的基本功能。
但是,我们完全可以用一行代码进行!
下面三种函数都可以实现BN层,因为都是封装好的函数,有兴趣的读者完全可以自行测试。
https://p1.pstatp.com/large/66aa0001836bcb0296e2
TensorFlow实现
末了,让我们对比一下有无BN层的效果:

笔者为了让效果看起来更明显,基础学习率设定成了0.99,在现实的训练过程中请根据情况适当修改。
关于BN算法,笔者直接采用Slim封装好的Batch_norm()函数。
对比模子是一个五层的卷积网络,在MNIST数据集上进行迭代1000次训练。
https://p1.pstatp.com/large/66ac00006b92ca0502c2
损失函数,优化函数以及训练过程
https://p3.pstatp.com/large/66aa0001836eeaaefeab
全毗连层
https://p1.pstatp.com/large/66a700050215d00f24d4
参加了BN算法的五层CNN模子,我在这里利用的是Slim工具包封装好的Batch_norm函数
https://p1.pstatp.com/large/66a600050dfb0c9b289a
参加了BN算法的训练效果
接下来,我们将全部的slim.batch_norm进行删除,训练效果如下
https://p3.pstatp.com/large/66aa0001836d50771ad1
不添加BN算法的训练效果
可以看出添加了BN算法的模子不论是学习速率照旧稳固性都要高于不添加BN算法的模子。
但要明白,现在只采用MNIST数据集,有兴趣的读者大可在自己的模子中添加BN层,在Cifar-10等数据集上的效果会更佳明显一些。
卷尾语:我爱学习学习爱我...笔者这个新年过的...啧...一言难尽,肯定要注意食量啊注意食量!!!
末了,假如需要代码大概想跟小编接洽,一起讨论学习。欢迎大家在下方批评进行留言,喜欢记得添加关注哦!!!、
https://p1.pstatp.com/large/434e000122f613962eff
页: [1]
查看完整版本: BN“批规范化”深度学习5层网络源码,如何1行提高训练速率准确率