用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法、訓(xùn)練系統(tǒng)、這樣訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的應(yīng)用、計算機程序和機器可讀存儲介質(zhì)。
背景技術(shù)
[0002] 從“Improving?neural?networks?by?preventing?co?adaptation?of?feature?detectors”,?arXiv?preprint?arXiv:1207.0580v1,?Geoffrey?E.?Hinton,?Nitish?Srivastava,?Alex?Krizhevsky,?llya?Sutskever,?Ruslan?R.?Salakhutdinov?(2012),公知一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法,其中在訓(xùn)練期間隨機忽略特征檢測器。該方法也以名稱“Dropout(丟棄)”公知。
[0003] 從“Batch?Normalization:?Accelerating?Deep?Network?Training?by?
Reducing?Internal?Covariate?Shift”,?arXiv?preprint?arXiv:1502.03167v3,?Sergey?loffe,?Christian?Szegedy?(2015)公知一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法,其中將輸入?yún)⒘繗w一化到小批量(英文:“mini?batch”)的訓(xùn)練示例的層中。
發(fā)明內(nèi)容
[0004] 本發(fā)明的優(yōu)點
[0005] 與此相對地,具有獨立權(quán)利要求1的特征的方法具有如下優(yōu)點:可以特別好地防止神經(jīng)網(wǎng)絡(luò)的參數(shù)的過擬合。
[0006] 有利的擴展方案是從屬權(quán)利要求的主題。
[0007] 本發(fā)明的公開
[0008] 在有足夠多的訓(xùn)練數(shù)據(jù)的情況下,可以使用所謂的“Deep?Learning(深度學(xué)習(xí))”方法、即(深度)人工神經(jīng)網(wǎng)絡(luò),以便高效地確定輸入空間V0與輸出空間Vk之間的映射。這例如可以是對傳感器數(shù)據(jù)、尤其是圖像數(shù)據(jù)的分類,即從傳感器數(shù)據(jù)或圖像數(shù)據(jù)到類別的映射。以規(guī)定k?1個隱藏空間 的方案為基礎(chǔ)。還規(guī)定了在這些空間之間的k個映射
。這些映射 中的每個映射通常都被稱作層(英文:“l(fā)ayer”)。通
常,這種層 通過在適當(dāng)?shù)剡x擇的空間 的情況下的權(quán)重 來被參數(shù)化。k個層
的權(quán)重 也被統(tǒng)稱為權(quán)重 ,而且從輸入空間V0到輸出空間
Vk的映射為 ,該映射根據(jù)各個映射 (在有明確表示為下標(biāo)的權(quán)重 )的情況
下為 。
[0009] 在被定義到 的給定的概率分布D的情況下,訓(xùn)練神經(jīng)網(wǎng)絡(luò)的任務(wù)在于:將權(quán)重 確定為使得成本函數(shù)L的期望值Φ
[0010] (1)
[0011] 被最小化。在這種情況下,成本函數(shù)L表示對在借助于函數(shù) 所確定的輸入?yún)⒘縳D到在輸出空間Vk中的參量 的映射與在輸出空間Vk中的實際輸出參量yD之間的距離的量度。
[0012] “深度神經(jīng)網(wǎng)絡(luò)”可以被理解成具有至少兩個隱藏層(英文:“hidden?layer”)的神經(jīng)網(wǎng)絡(luò)。
[0013] 為了將該期望值Φ最小化,可以使用基于梯度的方法,這些基于梯度的方法確定關(guān)于權(quán)重w方面的梯度 。該梯度 通常借助于訓(xùn)練數(shù)據(jù) 來被近似,即通過
來被近似,其中從所謂的時期(Epoche)中選擇索引j。在這種情況下,時期
是可用訓(xùn)練數(shù)據(jù)點的標(biāo)簽{1,?...,?N}的排列。
[0014] 為了擴展訓(xùn)練數(shù)據(jù)集,可以使用所謂的數(shù)據(jù)增強(也稱作增強)。在這種情況下,可以針對該時期中的每個索引j在對 的位置選擇增強對 ,其中這里輸入信號xj
被增強輸入值 替代。在這種情況下, 可以是輸入信號xj的典型變化的集合
(包括輸入信號xj本身在內(nèi)),這些變化使輸入信號xj的分類、即神經(jīng)網(wǎng)絡(luò)的輸出信號不變。
[0015] 不過,這種基于時期的采樣與根據(jù)等式(1)的定義并不完全一致,因為每個數(shù)據(jù)點在該時期的過程中正好被選擇一次。而根據(jù)等式(1)的定義以獨立抽取的數(shù)據(jù)點為基礎(chǔ)。也就是說,等式(1)的前提是“在有放回的情況下”對數(shù)據(jù)點的抽取,而基于時期的采樣實行“在沒有放回的情況下”對數(shù)據(jù)點的抽取。這可能導(dǎo)致:數(shù)學(xué)收斂證明的前提不存在(因為如果從N個數(shù)據(jù)點的集合中抽取N個示例,則對這些數(shù)據(jù)點中的每個數(shù)據(jù)點都正好抽取一次的概率小于 (對于N?>?2來說)),而該概率在基于時期的采樣的情況下始終等于1。
[0016] 如果使用數(shù)據(jù)增強,則還可以加強該統(tǒng)計效果,因為在每個時期都都存在集合的元素,而且視增強函數(shù) 而定,并不能排除: ,其中 。在這種情況
下難以借助于集合 對這些增強進行統(tǒng)計上正確的映射,因為對于每個輸入數(shù)據(jù)xj來說效果不必同樣顯著。這樣,例如旋轉(zhuǎn)可能對圓形對象沒有影響,但是可能非常強烈地影響一般對象。因而,集合 的大小可取決于輸入數(shù)據(jù)xj,這對于逆向訓(xùn)練方法而言可能有問題。