[0130] 然后(1165),針對批量B的所有對 ,共同確定完整的成本函數(shù) ,并
且針對所要忽略的參數(shù)θ中的每個參數(shù),例如借助于反向傳播(英文;“backpropagation”)來確定梯度g的相對應(yīng)的分量。針對所要忽略的參數(shù)θ中的每個參數(shù),將該梯度g的相對應(yīng)的分量設(shè)置到零。
[0131] 現(xiàn)在,檢查(1170)在步驟1000中進(jìn)行檢查時是否查明了批量大小bs大于在第二集合N中存在的對 的數(shù)目。
[0132] 如果查明了批量大小bs不大于在第二集合N中存在的對 的數(shù)目,則(1180)將批量B的所有對 添加給第一集合G并且從第二集合N中除去?,F(xiàn)在檢查(1185)第二集合N是否為空。如果第二集合N為空,則新的時期開始(1186)。為此,第一集合G再次被初始化成空集合,而且第二集合N重新被初始化,其方式是給該第二集合再次分派訓(xùn)練數(shù)據(jù)集X的所有對 ,而且分岔到步驟(1200)。如果第二集合N不為空,則直接分岔到步驟(1200)。
[0133] 如果查明了批量大小bs大于在第二集合N中存在的對 的數(shù)目,則第一集合G重新被初始化(1190),其方式是給該第一集合分派批量B的所有對 ,第二集合N重新被初始化,其方式是給該第二集合再次分派訓(xùn)練數(shù)據(jù)集X的所有對 并且緊接著將也存在于批量B中的對 除去。緊接著,新的時期開始并且分岔到步驟(1200)。借此,該方法的該部分結(jié)束。
[0134] 圖13以流程圖圖解說明了用于在步驟1100中確定梯度g的另一示例性方法。首先,對該方法的參數(shù)進(jìn)行初始化(1111)。在下文,用W來表示參數(shù)θ的數(shù)學(xué)空間。即如果參數(shù)θ包括np個單獨的參數(shù),則空間W是np維空間,例如 。迭代計數(shù)器n被初始化到值n?=?0,然后第一參量m1被設(shè)置成 (即被設(shè)置成np維向量),第二參量被設(shè)置成
(即被設(shè)置成 維矩陣)。
[0135] 然后(1121),從訓(xùn)練數(shù)據(jù)集X中隨機選擇并且必要時增強對 。這例如可以實現(xiàn)為使得針對訓(xùn)練數(shù)據(jù)集X的對 的每個輸入信號xi確定可能的增強 的數(shù)目
,而且給每個對 分配位置參量
[0136] 。??????(2)
[0137] 如果然后均勻分布地抽取隨機數(shù) ,則可以選擇滿足不等式鏈
[0138] (3)
[0139] 的那個位置參量 。然后,所屬的索引i表示所選擇的對 ,輸入?yún)⒘縳i的增強可以從可能的增強 的集合中被隨機抽取并且被應(yīng)用于輸入?yún)⒘縳i,也就是說所選擇的對 被 替代。
[0140] 輸入信號xi被輸送給神經(jīng)網(wǎng)絡(luò)60。根據(jù)相對應(yīng)的輸出信號 和對 的輸出
信號yi作為所希望的輸出信號yT,確定相對應(yīng)的成本函數(shù) 。針對參數(shù)θ,例如借助于反向傳播來確定與此相關(guān)的梯度d,即 。
[0141] 然后(1131),按如下地更新迭代計數(shù)器n、第一參量m1和第二參量m2:
[0142]
[0143] 然后(1141),協(xié)方差矩陣C的分量 被提供為
[0144] 。?(7)
[0145] 據(jù)此,利用(向量值的)第一參量m1來求標(biāo)量積S,即
[0146] 。???(8)替代。
[0147] 易于理解的是:為了利用等式(8)足夠精確地確定標(biāo)量積S,不是協(xié)方差矩陣C或逆?1
矩陣C 的所有條目都必須同時存在。存儲更高效的是:在分析等式(8)期間確定協(xié)方差矩陣C的然后需要的條目 。
[0148] 然后檢查(1151)該標(biāo)量積S是否滿足如下不等式:
[0149] ,?(9)
[0150] 其中λ是可預(yù)先給定的閾值,該閾值對應(yīng)于置信水平。
[0151] 如果滿足該不等式,則采用第一參量m1的當(dāng)前值作為所估計的梯度g并且分岔回到步驟(1200)。
[0152] 如果不滿足該不等式,則可以分岔回到步驟(1121)。替選地,也可以檢查(1171)迭代計數(shù)器n是否已經(jīng)達(dá)到了可預(yù)先給定的最大迭代值nmax。如果情況不是如此,則分岔回到步驟(1121),否則采用(1181)零向量 作為所估計的梯度g,并且分岔回到步驟(1200)。借此,該方法的該部分結(jié)束。
[0153] 通過該方法實現(xiàn)了:m1對應(yīng)于關(guān)于所抽取的對 所確定的梯度d的算術(shù)平均值,而且m2對應(yīng)于關(guān)于所抽取的對 所確定的梯度d的矩陣乘積 的算術(shù)平均值。
[0154] 圖14示出了用于在步驟(1200)中對梯度g進(jìn)行縮放的方法的實施方式。在下文,用對 來表示梯度g的每個分量,其中 表示相對應(yīng)的參數(shù)θ的層,而且
表示相對應(yīng)的參數(shù)θ在第 個層之內(nèi)的編號。如果神經(jīng)網(wǎng)絡(luò)如圖10所圖解
說明的那樣構(gòu)造用于處理具有在第 個層中的相對應(yīng)的特征圖 的多維輸入數(shù)據(jù)x,則編號有利地通過在該特征圖 中的相對應(yīng)的參數(shù)θ與其相關(guān)聯(lián)的那個特征的位置來給出。