一種OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置。
背景技術(shù)
[0002] 對(duì)抗樣本是對(duì)輸入樣本故意添加一些人無法察覺的細(xì)微的干擾,導(dǎo)致模型以高置信度給出一個(gè)錯(cuò)誤的輸出。舉例如下:可以針對(duì)一張已經(jīng)有正確分類的圖像,對(duì)其進(jìn)行細(xì)微的像素修改,于是該圖像在深度神經(jīng)網(wǎng)絡(luò)(DNN)下被錯(cuò)分為其他標(biāo)簽。對(duì)抗樣本可以用來制造用于騙過光學(xué)字符識(shí)別(OCR)模型的樣本,某個(gè)字符經(jīng)過對(duì)抗樣本改造后,可以被識(shí)別成另一個(gè)字符。
[0003] 例如圖1中,最左邊的圖是一個(gè)正常字符“7”的圖像,沒有經(jīng)過處理,經(jīng)過OCR識(shí)別,識(shí)別為7的概率為1.0;中間經(jīng)過某種對(duì)抗樣本改造后,被識(shí)別為字符“3”的概率為0.865,最右邊字符經(jīng)過另一種對(duì)抗樣本改造后,被識(shí)別為字符“3”的概率為0.976。
[0004] 對(duì)抗樣本攻擊就是利用對(duì)抗樣本愚弄圖像識(shí)別模型的方法,進(jìn)而達(dá)到某些特定目的的攻擊模式。比如,對(duì)于網(wǎng)絡(luò)圖像鑒黃來說,現(xiàn)在許多網(wǎng)站都有自己的自動(dòng)圖像鑒黃模型,但是通過對(duì)黃色圖像進(jìn)行對(duì)抗樣本處理,可以成功了的讓某些鑒黃模型將黃色圖像識(shí)別成非黃色圖像,這樣就能成功繞過審核機(jī)制,達(dá)到網(wǎng)上發(fā)布某些不合法圖像的目的。
[0005] 對(duì)銀行業(yè)務(wù)的對(duì)抗樣本攻擊,在對(duì)銀行卡(信用卡)進(jìn)行OCR識(shí)別時(shí),故意改造某些圖像,使得這些圖像故意被識(shí)別錯(cuò)誤?;蛘吒脑斐蓭в袗阂獾淖址?,對(duì)系統(tǒng)進(jìn)行攻擊(比如SQL注入等)。
發(fā)明內(nèi)容
[0006] 有鑒于此,本發(fā)明實(shí)施例提供一種OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置,能夠通過字符樣本、免疫對(duì)抗樣本訓(xùn)練相結(jié)合,增強(qiáng)OCR識(shí)別模型,從而達(dá)到免疫對(duì)抗樣本攻擊的目的。經(jīng)此方法訓(xùn)練的OCR識(shí)別模型,能明顯提升對(duì)于對(duì)抗樣本攻擊的免疫性,防止其惡意攻擊。
[0007] 為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種OCR識(shí)別對(duì)抗樣本攻擊的方法。
[0008] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法,包括:
[0009] 對(duì)真實(shí)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù);
[0010] 使用所生成的標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對(duì)抗模型;
[0011] 經(jīng)由所述免疫對(duì)抗模型生成免疫對(duì)抗樣本;
[0012] 使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型;
[0013] 使用所述經(jīng)強(qiáng)化的OCR模型識(shí)別對(duì)抗樣本攻擊。
[0014] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法,其中,所述對(duì)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)包括:
[0015] 對(duì)所述真實(shí)圖像進(jìn)行切片;
[0016] 使用圖像處理技術(shù),生成與所述真實(shí)圖像中的字符相對(duì)應(yīng)的生成圖像;
[0017] 將所述真實(shí)圖像與所述生成圖像組合,生成標(biāo)準(zhǔn)字符樣本。
[0018] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法,其中,所述真實(shí)圖像是銀行卡卡號(hào)圖像。
[0019] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法,其中,將所述真實(shí)圖像與所述生成圖像組合,生成標(biāo)準(zhǔn)字符樣本包括:
[0020] 保持所述真實(shí)圖像和所述生成圖像中的字符一致。
[0021] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法,其中,所述訓(xùn)練免疫對(duì)抗模型使用GAN模型進(jìn)行訓(xùn)練。
[0022] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法,其中,所述使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型包括:
[0023] 將所述免疫對(duì)抗樣本數(shù)據(jù)與真實(shí)數(shù)據(jù)混淆,用所述經(jīng)混淆的訓(xùn)練數(shù)據(jù)來訓(xùn)練OCR模型。
[0024] 為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種OCR識(shí)別對(duì)抗樣本攻擊的裝置。
[0025] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的裝置,包括:
[0026] 圖像預(yù)處理模塊,用于對(duì)真實(shí)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù);
[0027] 免疫對(duì)抗樣本模塊,用于:
[0028] 使用所生成的標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對(duì)抗模型;以及
[0029] 經(jīng)由所述免疫對(duì)抗模型生成免疫對(duì)抗樣本;
[0030] OCR模塊,用于:
[0031] 使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型;
[0032] 使用所述經(jīng)強(qiáng)化的OCR模型識(shí)別對(duì)抗樣本攻擊。
[0033] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的裝置,其中,所述圖像預(yù)處理模塊還用于:
[0034] 對(duì)所述真實(shí)圖像進(jìn)行切片;
[0035] 使用圖像處理技術(shù),生成與所述真實(shí)圖像中的字符相對(duì)應(yīng)的生成圖像;
[0036] 將所述真實(shí)圖像與所述生成圖像組合,生成標(biāo)準(zhǔn)字符樣本。
[0037] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的裝置,其中,所述真實(shí)圖像是銀行卡卡號(hào)圖像。