国产在线拍91揄自揄视精品91,日韩av线观看,人妻少妇精品久久2345

主頁 > 知識(shí)庫 > 解決BN和Dropout共同使用時(shí)會(huì)出現(xiàn)的問題

解決BN和Dropout共同使用時(shí)會(huì)出現(xiàn)的問題

BN與Dropout共同使用出現(xiàn)的問題

BN和Dropout單獨(dú)使用都能減少過擬合并加速訓(xùn)練速度，但如果一起使用的話并不會(huì)產(chǎn)生1+1>2的效果，相反可能會(huì)得到比單獨(dú)使用更差的效果。

相關(guān)的研究參考論文：Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift

本論文作者發(fā)現(xiàn)理解 Dropout 與 BN 之間沖突的關(guān)鍵是網(wǎng)絡(luò)狀態(tài)切換過程中存在神經(jīng)方差的（neural variance）不一致行為。

試想若有圖一中的神經(jīng)響應(yīng) X，當(dāng)網(wǎng)絡(luò)從訓(xùn)練轉(zhuǎn)為測(cè)試時(shí)，Dropout 可以通過其隨機(jī)失活保留率（即 p）來縮放響應(yīng)，并在學(xué)習(xí)中改變神經(jīng)元的方差，而 BN 仍然維持 X 的統(tǒng)計(jì)滑動(dòng)方差。

這種方差不匹配可能導(dǎo)致數(shù)值不穩(wěn)定（見下圖中的紅色曲線）。

而隨著網(wǎng)絡(luò)越來越深，最終預(yù)測(cè)的數(shù)值偏差可能會(huì)累計(jì)，從而降低系統(tǒng)的性能。

簡(jiǎn)單起見，作者們將這一現(xiàn)象命名為「方差偏移」。

事實(shí)上，如果沒有 Dropout，那么實(shí)際前饋中的神經(jīng)元方差將與 BN 所累計(jì)的滑動(dòng)方差非常接近（見下圖中的藍(lán)色曲線），這也保證了其較高的測(cè)試準(zhǔn)確率。

作者采用了兩種策略來探索如何打破這種局限。

一個(gè)是在所有 BN 層后使用 Dropout，另一個(gè)就是修改 Dropout 的公式讓它對(duì)方差并不那么敏感，就是高斯Dropout。

第一個(gè)方案比較簡(jiǎn)單

把Dropout放在所有BN層的后面就可以了，這樣就不會(huì)產(chǎn)生方差偏移的問題，但實(shí)則有逃避問題的感覺。

第二個(gè)方案

來自Dropout原文里提到的一種高斯Dropout，是對(duì)Dropout形式的一種拓展。作者進(jìn)一步拓展了高斯Dropout，提出了一個(gè)均勻分布Dropout，這樣做帶來了一個(gè)好處就是這個(gè)形式的Dropout（又稱為“Uout”）對(duì)方差的偏移的敏感度降低了，總得來說就是整體方差偏地沒有那么厲害了。

BN、dropout的幾個(gè)問題和思考

1、BN的scale初始化

scale一般初始化為1.0。

聯(lián)想到權(quán)重初始化時(shí)，使用relu激活函數(shù)時(shí)若采用隨機(jī)正太分布初始化權(quán)重的公式是sqrt(2.0/Nin)，其中Nin是輸入節(jié)點(diǎn)數(shù)。即比一般的方法大了2的平方根（原因是relu之后一半的數(shù)據(jù)變成了0，所以應(yīng)乘以根號(hào)2）。

那么relu前的BN，是否將scale初始化為根號(hào)2也會(huì)加速訓(xùn)練？

這里主要有個(gè)疑點(diǎn)：BN的其中一個(gè)目的是統(tǒng)一各層的方差，以適用一個(gè)統(tǒng)一的學(xué)習(xí)率。那么若同時(shí)存在sigmoid、relu等多種網(wǎng)絡(luò)，以上方法會(huì)不會(huì)使得統(tǒng)一方差以適應(yīng)不同學(xué)習(xí)率的效果打了折扣？

沒來得及試驗(yàn)效果，如果有試過的朋友請(qǐng)告知下效果。

2、dropout后的標(biāo)準(zhǔn)差改變問題

實(shí)踐發(fā)現(xiàn)droput之后改變了數(shù)據(jù)的標(biāo)準(zhǔn)差（令標(biāo)準(zhǔn)差變大，若數(shù)據(jù)均值非0時(shí)，甚至均值也會(huì)產(chǎn)生改變）。

如果同時(shí)又使用了BN歸一化，由于BN在訓(xùn)練時(shí)保存了訓(xùn)練集的均值與標(biāo)準(zhǔn)差。dropout影響了所保存的均值與標(biāo)準(zhǔn)差的準(zhǔn)確性（不能適應(yīng)未來預(yù)測(cè)數(shù)據(jù)的需要），那么將影響網(wǎng)絡(luò)的準(zhǔn)確性。

若輸入數(shù)據(jù)為正太分布，只需要在dropout后乘以sqrt(0.5)即可恢復(fù)原來的標(biāo)準(zhǔn)差。但是對(duì)于非0的均值改變、以及非正太分布的數(shù)據(jù)數(shù)據(jù)，又有什么好的辦法解決呢？

3、稀疏自編碼的稀疏系數(shù)

稀疏自編碼使用一個(gè)接近0的額外懲罰因子來使得隱層大部分節(jié)點(diǎn)大多數(shù)時(shí)候是抑制的，本質(zhì)上使隱層輸出均值為負(fù)數(shù)（激活前），例如懲罰因子為0.05，對(duì)應(yīng)sigmoid的輸入為-3.5，即要求隱層激活前的輸出中間值為-3.5，那么，是不是可以在激活前加一層BN，beta設(shè)為-3.5，這樣學(xué)起來比較快？

經(jīng)過測(cè)試，的確將BN的beta設(shè)為負(fù)數(shù)可加快訓(xùn)練速度。因?yàn)榫W(wǎng)絡(luò)初始化時(shí)就是稀疏的。

但是是不是有什么副作用，沒有理論上的研究。

4、max pooling是非線性的，avg pooling是線性的

總結(jié)

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

解決Pytorch中的神坑:關(guān)于model.eval的問題
聊聊pytorch測(cè)試的時(shí)候?yàn)楹我由蟤odel.eval()
pytorch:model.train和model.eval用法及區(qū)別詳解

標(biāo)簽：商丘云南龍巖江蘇金融催收定西寧夏酒泉

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《解決BN和Dropout共同使用時(shí)會(huì)出現(xiàn)的問題》，本文關(guān)鍵詞解決,和,Dropout,共同,使用,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。