一種OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置

專利號(hào)

CN112598029B

公開日期

2025-04-29

申請(qǐng)人

中國建設(shè)銀行股份有限公司（北京市西城區(qū)金融大街25號(hào)）

發(fā)明人

李靖; 鄭邦東

IPC分類

G06V30/19; G06V30/14; G06V10/82

技術(shù)領(lǐng)域

對(duì)抗,ocr,樣本,圖像,攻擊,字符,訓(xùn)練,免疫,模型,識(shí)別

地域： 北京市北京市西城區(qū)

摘要

本發(fā)明公開了OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置，涉及計(jì)算機(jī)技術(shù)領(lǐng)域。該方法的具體實(shí)施方式包括：對(duì)真實(shí)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)；使用所生成的標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對(duì)抗模型；經(jīng)由所述免疫對(duì)抗模型生成免疫對(duì)抗樣本；使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型；使用所述經(jīng)強(qiáng)化的OCR模型識(shí)別對(duì)抗樣本攻擊。該實(shí)施方式因?yàn)椴捎脴?biāo)準(zhǔn)字符樣本訓(xùn)練、免疫對(duì)抗樣本訓(xùn)練相結(jié)合的技術(shù)手段，所以克服了OCR識(shí)別模型錯(cuò)誤識(shí)別對(duì)抗樣本的技術(shù)問題，進(jìn)而達(dá)到明顯提升對(duì)于對(duì)抗樣本攻擊的免疫性，防止其惡意攻擊技術(shù)效果。

說明書

1 2 3 4 5

一種OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置技術(shù)領(lǐng)域 [0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域，尤其涉及一種OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置。背景技術(shù) [0002] 對(duì)抗樣本是對(duì)輸入樣本故意添加一些人無法察覺的細(xì)微的干擾，導(dǎo)致模型以高置信度給出一個(gè)錯(cuò)誤的輸出。舉例如下：可以針對(duì)一張已經(jīng)有正確分類的圖像，對(duì)其進(jìn)行細(xì)微的像素修改，于是該圖像在深度神經(jīng)網(wǎng)絡(luò)(DNN)下被錯(cuò)分為其他標(biāo)簽。對(duì)抗樣本可以用來制造用于騙過光學(xué)字符識(shí)別(OCR)模型的樣本，某個(gè)字符經(jīng)過對(duì)抗樣本改造后，可以被識(shí)別成另一個(gè)字符。 [0003] 例如圖1中，最左邊的圖是一個(gè)正常字符“7”的圖像，沒有經(jīng)過處理，經(jīng)過OCR識(shí)別，識(shí)別為7的概率為1.0；中間經(jīng)過某種對(duì)抗樣本改造后，被識(shí)別為字符“3”的概率為0.865，最右邊字符經(jīng)過另一種對(duì)抗樣本改造后，被識(shí)別為字符“3”的概率為0.976。 [0004] 對(duì)抗樣本攻擊就是利用對(duì)抗樣本愚弄圖像識(shí)別模型的方法，進(jìn)而達(dá)到某些特定目的的攻擊模式。比如，對(duì)于網(wǎng)絡(luò)圖像鑒黃來說，現(xiàn)在許多網(wǎng)站都有自己的自動(dòng)圖像鑒黃模型，但是通過對(duì)黃色圖像進(jìn)行對(duì)抗樣本處理，可以成功了的讓某些鑒黃模型將黃色圖像識(shí)別成非黃色圖像，這樣就能成功繞過審核機(jī)制，達(dá)到網(wǎng)上發(fā)布某些不合法圖像的目的。 [0005] 對(duì)銀行業(yè)務(wù)的對(duì)抗樣本攻擊，在對(duì)銀行卡(信用卡)進(jìn)行OCR識(shí)別時(shí)，故意改造某些圖像，使得這些圖像故意被識(shí)別錯(cuò)誤?；蛘吒脑斐蓭в袗阂獾淖址?，對(duì)系統(tǒng)進(jìn)行攻擊(比如SQL注入等)。發(fā)明內(nèi)容 [0006] 有鑒于此，本發(fā)明實(shí)施例提供一種OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置，能夠通過字符樣本、免疫對(duì)抗樣本訓(xùn)練相結(jié)合，增強(qiáng)OCR識(shí)別模型，從而達(dá)到免疫對(duì)抗樣本攻擊的目的。經(jīng)此方法訓(xùn)練的OCR識(shí)別模型，能明顯提升對(duì)于對(duì)抗樣本攻擊的免疫性，防止其惡意攻擊。 [0007] 為實(shí)現(xiàn)上述目的，根據(jù)本發(fā)明實(shí)施例的一個(gè)方面，提供了一種OCR識(shí)別對(duì)抗樣本攻擊的方法。 [0008] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法，包括： [0009] 對(duì)真實(shí)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)； [0010] 使用所生成的標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對(duì)抗模型； [0011] 經(jīng)由所述免疫對(duì)抗模型生成免疫對(duì)抗樣本； [0012] 使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型； [0013] 使用所述經(jīng)強(qiáng)化的OCR模型識(shí)別對(duì)抗樣本攻擊。 [0014] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法，其中，所述對(duì)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)包括： [0015] 對(duì)所述真實(shí)圖像進(jìn)行切片； [0016] 使用圖像處理技術(shù)，生成與所述真實(shí)圖像中的字符相對(duì)應(yīng)的生成圖像； [0017] 將所述真實(shí)圖像與所述生成圖像組合，生成標(biāo)準(zhǔn)字符樣本。 [0018] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法，其中，所述真實(shí)圖像是銀行卡卡號(hào)圖像。 [0019] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法，其中，將所述真實(shí)圖像與所述生成圖像組合，生成標(biāo)準(zhǔn)字符樣本包括： [0020] 保持所述真實(shí)圖像和所述生成圖像中的字符一致。 [0021] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法，其中，所述訓(xùn)練免疫對(duì)抗模型使用GAN模型進(jìn)行訓(xùn)練。 [0022] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的方法，其中，所述使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型包括： [0023] 將所述免疫對(duì)抗樣本數(shù)據(jù)與真實(shí)數(shù)據(jù)混淆，用所述經(jīng)混淆的訓(xùn)練數(shù)據(jù)來訓(xùn)練OCR模型。 [0024] 為實(shí)現(xiàn)上述目的，根據(jù)本發(fā)明實(shí)施例的一個(gè)方面，提供了一種OCR識(shí)別對(duì)抗樣本攻擊的裝置。 [0025] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的裝置，包括： [0026] 圖像預(yù)處理模塊，用于對(duì)真實(shí)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)； [0027] 免疫對(duì)抗樣本模塊，用于： [0028] 使用所生成的標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對(duì)抗模型；以及 [0029] 經(jīng)由所述免疫對(duì)抗模型生成免疫對(duì)抗樣本； [0030] OCR模塊，用于： [0031] 使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型； [0032] 使用所述經(jīng)強(qiáng)化的OCR模型識(shí)別對(duì)抗樣本攻擊。 [0033] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的裝置，其中，所述圖像預(yù)處理模塊還用于： [0034] 對(duì)所述真實(shí)圖像進(jìn)行切片； [0035] 使用圖像處理技術(shù)，生成與所述真實(shí)圖像中的字符相對(duì)應(yīng)的生成圖像； [0036] 將所述真實(shí)圖像與所述生成圖像組合，生成標(biāo)準(zhǔn)字符樣本。 [0037] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面的OCR識(shí)別對(duì)抗樣本攻擊的裝置，其中，所述真實(shí)圖像是銀行卡卡號(hào)圖像。

權(quán)利要求

1 2

1.一種OCR識(shí)別對(duì)抗樣本攻擊的方法，其特征在于，包括：對(duì)真實(shí)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)；針對(duì)所述真實(shí)圖像是銀行卡卡號(hào)圖像的情況，將所述銀行卡卡號(hào)圖像中的字符信息進(jìn)行切片形成一定尺寸的圖像，對(duì)應(yīng)所述真實(shí)圖像中的數(shù)字，使用圖像處理技術(shù)生成和所述一定尺寸的圖像一樣大小的生成圖像作為標(biāo)準(zhǔn)字符；組合生成圖像和切割出來的真實(shí)圖像作為所述標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)；使用所生成的標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對(duì)抗模型；其中，所述免疫對(duì)抗模型為訓(xùn)練好的GAN模型；所述GAN模型采用pixel2pixel方法；經(jīng)由所述免疫對(duì)抗模型生成免疫對(duì)抗樣本；使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型；使用所述經(jīng)強(qiáng)化的OCR模型識(shí)別對(duì)抗樣本攻擊。 2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對(duì)真實(shí)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)包括：對(duì)所述真實(shí)圖像進(jìn)行切片；使用圖像處理技術(shù)，生成與所述真實(shí)圖像中的字符相對(duì)應(yīng)的生成圖像；將所述真實(shí)圖像與所述生成圖像組合，生成標(biāo)準(zhǔn)字符樣本。 3.根據(jù)權(quán)利要求2所述的方法，其特征在于，將所述真實(shí)圖像與所述生成圖像組合，生成標(biāo)準(zhǔn)字符樣本包括：保持所述真實(shí)圖像和所述生成圖像中的字符一致。 4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述訓(xùn)練免疫對(duì)抗模型使用GAN模型進(jìn)行訓(xùn)練。 5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型包括：將所述免疫對(duì)抗樣本數(shù)據(jù)與真實(shí)數(shù)據(jù)混淆，用所述經(jīng)混淆的訓(xùn)練數(shù)據(jù)來訓(xùn)練OCR模型。 6.一種OCR識(shí)別對(duì)抗樣本攻擊的裝置，其特征在于，包括：圖像預(yù)處理模塊，用于對(duì)真實(shí)圖像預(yù)處理以生成標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)；針對(duì)所述真實(shí)圖像是銀行卡卡號(hào)圖像的情況，將所述銀行卡卡號(hào)圖像中的字符信息進(jìn)行切片形成一定尺寸的圖像，對(duì)應(yīng)所述真實(shí)圖像中的數(shù)字，使用圖像處理技術(shù)生成和所述一定尺寸的圖像一樣大小的生成圖像作為標(biāo)準(zhǔn)字符；組合生成圖像和切割出來的真實(shí)圖像作為所述標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)；免疫對(duì)抗樣本模塊，用于：使用所生成的標(biāo)準(zhǔn)字符訓(xùn)練數(shù)據(jù)訓(xùn)練免疫對(duì)抗模型；以及經(jīng)由所述免疫對(duì)抗模型生成免疫對(duì)抗樣本；其中，所述免疫對(duì)抗模型為訓(xùn)練好的GAN模型；所述GAN模型采用pixel2pixel方法； OCR模塊，用于：使用所述免疫對(duì)抗樣本訓(xùn)練OCR模型以強(qiáng)化所述OCR模型；使用所述經(jīng)強(qiáng)化的OCR模型識(shí)別對(duì)抗樣本攻擊。

微信群二維碼

意見反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種OCR識(shí)別對(duì)抗樣本攻擊的方法和裝置

摘要

說明書

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：