白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種基于Transformer的細(xì)粒度圖像分類方法及系統(tǒng)

專利號(hào)
CN119152300B
公開日期
2025-01-28
申請(qǐng)人
中南大學(xué)(湖南省長沙市岳麓區(qū)麓山南路932號(hào))
發(fā)明人
曾鋒; 嚴(yán)昌燊; 張肖垚; 謝小衛(wèi)
IPC分類
G06V10/764; G06V10/82; G06V10/80; G06V10/25; G06N3/0455; G06N3/0464; G06N3/088; G06N3/0895; G06N3/09
技術(shù)領(lǐng)域
細(xì)粒,注意力,圖像,域特征,尺度,模型,分類,融合,注意,機(jī)制
地域: 湖南省 湖南省長沙市

摘要

本發(fā)明公開了一種基于Transformer的細(xì)粒度圖像分類方法及系統(tǒng)。其中,系統(tǒng)包括能夠增強(qiáng)模型對(duì)關(guān)鍵細(xì)節(jié)的捕捉能力的細(xì)節(jié)增強(qiáng)子模塊、通過設(shè)計(jì)通道注意力機(jī)制和空間注意力機(jī)制,能夠重點(diǎn)關(guān)注輸入圖像的關(guān)鍵區(qū)域的局部特征細(xì)化子模塊;融合了多尺度特征,處理高度相似的圖像時(shí)更具辨別力的自適應(yīng)特征融合模塊,使得發(fā)明提供的方案實(shí)現(xiàn)了特征信息的優(yōu)化整合,提高了特征的表達(dá)能力,增強(qiáng)了模型對(duì)復(fù)雜圖像的泛化能力,能有效提高細(xì)粒度圖像分類的準(zhǔn)確性和魯棒性。

說明書

1 2 3 4 5 6 7 8 9
利用所述特征金字塔網(wǎng)絡(luò)通過構(gòu)建特征金字塔對(duì)所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖進(jìn)行多尺度的特征提取和融合,輸出空間域特征圖;通過所述細(xì)節(jié)增強(qiáng)子模塊利用離散余弦變換將所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖轉(zhuǎn)換至頻域,獲得頻域特征圖;通過自適應(yīng)閾值從所述頻域特征圖中篩選出用于判別所述輸入圖像細(xì)粒度特征的高頻域特征;利用離散余弦變換將所述高頻域特征轉(zhuǎn)換回空間域,并將轉(zhuǎn)換后的空間域特征與所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖進(jìn)行疊加,輸出細(xì)節(jié)增強(qiáng)后的特征圖;利用所述局部特征細(xì)化子模塊構(gòu)建通道注意力機(jī)制和空間注意力機(jī)制,利用所述通道注意力機(jī)制為每個(gè)通道分配不同的權(quán)重,利用所述空間注意力機(jī)制為每個(gè)空間位置分配不同的權(quán)重,基于所述通道注意力機(jī)制計(jì)算獲得的通道級(jí)別注意力圖、所述空間注意力機(jī)制計(jì)算獲得的空間級(jí)別注意力圖和所述細(xì)節(jié)增強(qiáng)子模塊輸出的細(xì)節(jié)增強(qiáng)后的特征圖,輸出局部特征細(xì)化后的特征圖;利用所述自適應(yīng)特征融合模塊從所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖、所述細(xì)節(jié)增強(qiáng)子模塊輸出的細(xì)節(jié)增強(qiáng)后的特征圖和所述局部特征細(xì)化子模塊輸出的局部特征細(xì)化后的特征圖中獲取信息,通過自適應(yīng)權(quán)重學(xué)習(xí)機(jī)制,動(dòng)態(tài)調(diào)整每個(gè)特征圖的融合權(quán)重,輸出融合特征;利用所述全連接層根據(jù)所述自適應(yīng)特征融合模塊輸出的融合特征輸出預(yù)測(cè)結(jié)果。 [0008] 本發(fā)明實(shí)施例還提供了一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述所述方法的步驟。 [0009] 本實(shí)施例方案具有如下有益效果: [0010] 本實(shí)施例提出的細(xì)粒度特征提取模塊通過結(jié)合頻率域分析和多尺度卷積網(wǎng)絡(luò),增強(qiáng)了模型對(duì)圖像中關(guān)鍵細(xì)節(jié)特征的捕捉能力;自適應(yīng)特征融合模塊通過動(dòng)態(tài)調(diào)整不同尺度特征圖的融合權(quán)重,實(shí)現(xiàn)了特征信息的優(yōu)化整合,提高了特征的表達(dá)能力,增強(qiáng)了模型對(duì)復(fù)雜圖像的泛化能力。 附圖說明 [0011] 圖1為本發(fā)明實(shí)施例麻雀的細(xì)粒度類別圖像示例示意圖; [0012] 圖2為本發(fā)明實(shí)施例基于Transformer的細(xì)粒度圖像分類系統(tǒng)的結(jié)構(gòu)示意圖; [0013] 圖3為本發(fā)明實(shí)施例?FIC?Transformer模型結(jié)構(gòu)及流程示意圖; [0014] 圖4為本發(fā)明實(shí)施例DESM模塊示意圖; [0015] 圖5為本發(fā)明實(shí)施例基于Transformer的細(xì)粒度圖像分類方法的流程示意圖; [0016] 圖6為本發(fā)明實(shí)施例計(jì)算機(jī)設(shè)備的內(nèi)部結(jié)構(gòu)圖。 具體實(shí)施方式 [0017] 在介紹本實(shí)施例方案之前,先介紹如下內(nèi)容: [0018] 針對(duì)細(xì)粒度圖像分類的研究主要有兩種思路,即特征提取和目標(biāo)檢測(cè)方法。 [0019] 一、特征提取方法 [0020] 在細(xì)粒度圖像分類領(lǐng)域,有兩種方法可以從細(xì)微區(qū)域提取判別特征,大致分為基于部分對(duì)象的方法和基于注意力的方法。 [0021] 基于部分對(duì)象的方法是利用模型生成候選區(qū)域,找到待識(shí)別的對(duì)象的局部區(qū)域,然后從中提取判別特征。MACNN通過將特征映射聚類成目標(biāo)部分,同時(shí)訓(xùn)練定位和分類精度。這種無監(jiān)督分類通過將模式劃分為對(duì)象部分來增強(qiáng)特征學(xué)習(xí)。S3N在特征映射上尋找每個(gè)類別響應(yīng)的局部極值來增強(qiáng)特征。此外,WS?DAN通過去除局部極值來增強(qiáng)數(shù)據(jù)以發(fā)現(xiàn)其他判別特征。這些方法的定位模塊往往需要大量的參數(shù)才能獲得精確的局部定位結(jié)果,訓(xùn)練的復(fù)雜性高。 [0022] 基于注意力的方法則是利用注意機(jī)制來增強(qiáng)特征學(xué)習(xí)和定位對(duì)象細(xì)節(jié)。MAMC生成多組通過注意機(jī)制增強(qiáng)的特征,Cross?X使用來自多激勵(lì)模型的注意圖來學(xué)習(xí)來自不同類別的特征。API?Net和PCA?Net使用兩幅圖像作為輸入,計(jì)算特征映射之間的注意力,以增強(qiáng)判別表示。CAP計(jì)算輸出特征的自注意圖來表示特征像素之間的關(guān)系,SR?GNN使用圖卷積神經(jīng)網(wǎng)絡(luò)來描述部件之間的關(guān)系。CAL在注意圖中加入了反事實(shí)干預(yù)來預(yù)測(cè)類別。

權(quán)利要求

1 2 3
為通過通道注意力機(jī)制計(jì)算出的一個(gè)通道級(jí)別注意力圖, 為通過空間 注意力機(jī)制計(jì)算出的空間級(jí)別注意力圖, 表示點(diǎn)積操作, 表示元素級(jí)乘法。 4.根據(jù)權(quán)利要求1所述的基于Transformer的細(xì)粒度圖像分類系統(tǒng),其特征在于,所述自適應(yīng)特征融合模塊具體利用如下計(jì)算式輸出融合特征: 其中, 為融合特征,代表激活函數(shù),具體為ReLU函數(shù), 表示連接操作,為自適應(yīng)學(xué)習(xí)得到的權(quán)重, 為骨干網(wǎng)絡(luò)輸出的多尺度特征圖, 為細(xì)節(jié)增強(qiáng)后的特征圖, 為局部特征細(xì)化后的特征圖。 5.根據(jù)權(quán)利要求1所述的基于Transformer的細(xì)粒度圖像分類系統(tǒng),其特征在于,所述系統(tǒng)的損失函數(shù)為將加權(quán)交叉熵?fù)p失和區(qū)域敏感損失結(jié)合所形成的混合損失函數(shù);所述加權(quán)交叉熵?fù)p失用于為假樣本類別分配高權(quán)重,為真樣本類別分頻低權(quán)重;所述區(qū)域敏感損失用于為關(guān)鍵區(qū)域分配高權(quán)重,為非關(guān)鍵區(qū)域分配低權(quán)重。 6.根據(jù)權(quán)利要求5所述的基于Transformer的細(xì)粒度圖像分類系統(tǒng),其特征在于,所述混合損失函數(shù)的計(jì)算表達(dá)式為: 其中, 為混合損失函數(shù),和 為權(quán)重系數(shù), 為加權(quán)交叉熵?fù)p失, 為區(qū)域敏感損失。 7.根據(jù)權(quán)利要求6所述的基于Transformer的細(xì)粒度圖像分類系統(tǒng),其特征在于,所述加權(quán)交叉熵?fù)p失的計(jì)算表達(dá)式為: 其中, 為加權(quán)交叉熵?fù)p失, 是為類別? ?的權(quán)重,為樣本數(shù), 為樣本? ?屬于類別? ?的真實(shí)標(biāo)簽, 為模型對(duì)類別? ?的預(yù)測(cè)概率。 8.根據(jù)權(quán)利要求6所述的基于Transformer的細(xì)粒度圖像分類系統(tǒng),其特征在于,所述區(qū)域敏感損失的計(jì)算表達(dá)式為: 其中, 為區(qū)域敏感損失, 是關(guān)鍵區(qū)域 的權(quán)重, 是指數(shù)函數(shù),表示樣本 是否屬于區(qū)域 ,為樣本數(shù),是基本損失函數(shù),是關(guān)鍵區(qū)域的數(shù)量, 為模型對(duì)樣本的預(yù)測(cè)標(biāo)簽, 為樣本的真實(shí)標(biāo)簽。 9.一種基于Transformer的細(xì)粒度圖像分類方法,其特征在于,應(yīng)用于如權(quán)利要求1至8任一項(xiàng)所述的基于Transformer的細(xì)粒度圖像分類系統(tǒng),所述方法包括: 利用所述骨干網(wǎng)絡(luò)通過內(nèi)置的移動(dòng)窗口機(jī)制,處理輸入圖像中的多尺度信息,輸出所述輸入圖像的多尺度特征圖; 利用所述特征金字塔網(wǎng)絡(luò)通過構(gòu)建特征金字塔對(duì)所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖進(jìn)行多尺度的特征提取和融合,輸出空間域特征圖;
微信群二維碼
意見反饋