白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種OCR識別對抗樣本攻擊的方法和裝置

專利號
CN112598029B
公開日期
2025-04-29
申請人
中國建設(shè)銀行股份有限公司(北京市西城區(qū)金融大街25號)
發(fā)明人
李靖; 鄭邦東
IPC分類
G06V30/19; G06V30/14; G06V10/82
技術(shù)領(lǐng)域
對抗,ocr,樣本,圖像,攻擊,字符,訓(xùn)練,免疫,模型,識別
地域: 北京市 北京市西城區(qū)

摘要

本發(fā)明公開了OCR識別對抗樣本攻擊的方法和裝置,涉及計算機技術(shù)領(lǐng)域。該方法的具體實施方式包括:對真實圖像預(yù)處理以生成標準字符訓(xùn)練數(shù)據(jù);使用所生成的標準字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對抗模型;經(jīng)由所述免疫對抗模型生成免疫對抗樣本;使用所述免疫對抗樣本訓(xùn)練OCR模型以強化所述OCR模型;使用所述經(jīng)強化的OCR模型識別對抗樣本攻擊。該實施方式因為采用標準字符樣本訓(xùn)練、免疫對抗樣本訓(xùn)練相結(jié)合的技術(shù)手段,所以克服了OCR識別模型錯誤識別對抗樣本的技術(shù)問題,進而達到明顯提升對于對抗樣本攻擊的免疫性,防止其惡意攻擊技術(shù)效果。

說明書

1 2 3 4 5
一種OCR識別對抗樣本攻擊的方法和裝置 技術(shù)領(lǐng)域 [0001] 本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種OCR識別對抗樣本攻擊的方法和裝置。 背景技術(shù) [0002] 對抗樣本是對輸入樣本故意添加一些人無法察覺的細微的干擾,導(dǎo)致模型以高置信度給出一個錯誤的輸出。舉例如下:可以針對一張已經(jīng)有正確分類的圖像,對其進行細微的像素修改,于是該圖像在深度神經(jīng)網(wǎng)絡(luò)(DNN)下被錯分為其他標簽。對抗樣本可以用來制造用于騙過光學(xué)字符識別(OCR)模型的樣本,某個字符經(jīng)過對抗樣本改造后,可以被識別成另一個字符。 [0003] 例如圖1中,最左邊的圖是一個正常字符“7”的圖像,沒有經(jīng)過處理,經(jīng)過OCR識別,識別為7的概率為1.0;中間經(jīng)過某種對抗樣本改造后,被識別為字符“3”的概率為0.865,最右邊字符經(jīng)過另一種對抗樣本改造后,被識別為字符“3”的概率為0.976。 [0004] 對抗樣本攻擊就是利用對抗樣本愚弄圖像識別模型的方法,進而達到某些特定目的的攻擊模式。比如,對于網(wǎng)絡(luò)圖像鑒黃來說,現(xiàn)在許多網(wǎng)站都有自己的自動圖像鑒黃模型,但是通過對黃色圖像進行對抗樣本處理,可以成功了的讓某些鑒黃模型將黃色圖像識別成非黃色圖像,這樣就能成功繞過審核機制,達到網(wǎng)上發(fā)布某些不合法圖像的目的。 [0005] 對銀行業(yè)務(wù)的對抗樣本攻擊,在對銀行卡(信用卡)進行OCR識別時,故意改造某些圖像,使得這些圖像故意被識別錯誤?;蛘吒脑斐蓭в袗阂獾淖址瑢ο到y(tǒng)進行攻擊(比如SQL注入等)。 發(fā)明內(nèi)容 [0006] 有鑒于此,本發(fā)明實施例提供一種OCR識別對抗樣本攻擊的方法和裝置,能夠通過字符樣本、免疫對抗樣本訓(xùn)練相結(jié)合,增強OCR識別模型,從而達到免疫對抗樣本攻擊的目的。經(jīng)此方法訓(xùn)練的OCR識別模型,能明顯提升對于對抗樣本攻擊的免疫性,防止其惡意攻擊。 [0007] 為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種OCR識別對抗樣本攻擊的方法。 [0008] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的方法,包括: [0009] 對真實圖像預(yù)處理以生成標準字符訓(xùn)練數(shù)據(jù); [0010] 使用所生成的標準字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對抗模型; [0011] 經(jīng)由所述免疫對抗模型生成免疫對抗樣本; [0012] 使用所述免疫對抗樣本訓(xùn)練OCR模型以強化所述OCR模型; [0013] 使用所述經(jīng)強化的OCR模型識別對抗樣本攻擊。 [0014] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的方法,其中,所述對圖像預(yù)處理以生成標準字符訓(xùn)練數(shù)據(jù)包括: [0015] 對所述真實圖像進行切片; [0016] 使用圖像處理技術(shù),生成與所述真實圖像中的字符相對應(yīng)的生成圖像; [0017] 將所述真實圖像與所述生成圖像組合,生成標準字符樣本。 [0018] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的方法,其中,所述真實圖像是銀行卡卡號圖像。 [0019] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的方法,其中,將所述真實圖像與所述生成圖像組合,生成標準字符樣本包括: [0020] 保持所述真實圖像和所述生成圖像中的字符一致。 [0021] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的方法,其中,所述訓(xùn)練免疫對抗模型使用GAN模型進行訓(xùn)練。 [0022] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的方法,其中,所述使用所述免疫對抗樣本訓(xùn)練OCR模型以強化所述OCR模型包括: [0023] 將所述免疫對抗樣本數(shù)據(jù)與真實數(shù)據(jù)混淆,用所述經(jīng)混淆的訓(xùn)練數(shù)據(jù)來訓(xùn)練OCR模型。 [0024] 為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種OCR識別對抗樣本攻擊的裝置。 [0025] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的裝置,包括: [0026] 圖像預(yù)處理模塊,用于對真實圖像預(yù)處理以生成標準字符訓(xùn)練數(shù)據(jù); [0027] 免疫對抗樣本模塊,用于: [0028] 使用所生成的標準字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對抗模型;以及 [0029] 經(jīng)由所述免疫對抗模型生成免疫對抗樣本; [0030] OCR模塊,用于: [0031] 使用所述免疫對抗樣本訓(xùn)練OCR模型以強化所述OCR模型; [0032] 使用所述經(jīng)強化的OCR模型識別對抗樣本攻擊。 [0033] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的裝置,其中,所述圖像預(yù)處理模塊還用于: [0034] 對所述真實圖像進行切片; [0035] 使用圖像處理技術(shù),生成與所述真實圖像中的字符相對應(yīng)的生成圖像; [0036] 將所述真實圖像與所述生成圖像組合,生成標準字符樣本。 [0037] 根據(jù)本發(fā)明實施例的一個方面的OCR識別對抗樣本攻擊的裝置,其中,所述真實圖像是銀行卡卡號圖像。

權(quán)利要求

1 2
1.一種OCR識別對抗樣本攻擊的方法,其特征在于,包括: 對真實圖像預(yù)處理以生成標準字符訓(xùn)練數(shù)據(jù);針對所述真實圖像是銀行卡卡號圖像的情況,將所述銀行卡卡號圖像中的字符信息進行切片形成一定尺寸的圖像,對應(yīng)所述真實圖像中的數(shù)字,使用圖像處理技術(shù)生成和所述一定尺寸的圖像一樣大小的生成圖像作為標準字符;組合生成圖像和切割出來的真實圖像作為所述標準字符訓(xùn)練數(shù)據(jù); 使用所生成的標準字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對抗模型;其中,所述免疫對抗模型為訓(xùn)練好的GAN模型;所述GAN模型采用pixel2pixel方法; 經(jīng)由所述免疫對抗模型生成免疫對抗樣本; 使用所述免疫對抗樣本訓(xùn)練OCR模型以強化所述OCR模型; 使用所述經(jīng)強化的OCR模型識別對抗樣本攻擊。 2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對真實圖像預(yù)處理以生成標準字符訓(xùn)練數(shù)據(jù)包括: 對所述真實圖像進行切片; 使用圖像處理技術(shù),生成與所述真實圖像中的字符相對應(yīng)的生成圖像; 將所述真實圖像與所述生成圖像組合,生成標準字符樣本。 3.根據(jù)權(quán)利要求2所述的方法,其特征在于,將所述真實圖像與所述生成圖像組合,生成標準字符樣本包括: 保持所述真實圖像和所述生成圖像中的字符一致。 4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練免疫對抗模型使用GAN模型進行訓(xùn)練。 5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述使用所述免疫對抗樣本訓(xùn)練OCR模型以強化所述OCR模型包括: 將所述免疫對抗樣本數(shù)據(jù)與真實數(shù)據(jù)混淆,用所述經(jīng)混淆的訓(xùn)練數(shù)據(jù)來訓(xùn)練OCR模型。 6.一種OCR識別對抗樣本攻擊的裝置,其特征在于,包括: 圖像預(yù)處理模塊,用于對真實圖像預(yù)處理以生成標準字符訓(xùn)練數(shù)據(jù);針對所述真實圖像是銀行卡卡號圖像的情況,將所述銀行卡卡號圖像中的字符信息進行切片形成一定尺寸的圖像,對應(yīng)所述真實圖像中的數(shù)字,使用圖像處理技術(shù)生成和所述一定尺寸的圖像一樣大小的生成圖像作為標準字符;組合生成圖像和切割出來的真實圖像作為所述標準字符訓(xùn)練數(shù)據(jù); 免疫對抗樣本模塊,用于: 使用所生成的標準字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對抗模型;以及 經(jīng)由所述免疫對抗模型生成免疫對抗樣本;其中,所述免疫對抗模型為訓(xùn)練好的GAN模型;所述GAN模型采用pixel2pixel方法; OCR模塊,用于: 使用所述免疫對抗樣本訓(xùn)練OCR模型以強化所述OCR模型; 使用所述經(jīng)強化的OCR模型識別對抗樣本攻擊。
微信群二維碼
意見反饋