[0023] 隨著Transformer在計算機視覺領(lǐng)域的發(fā)展,人們提出了許多改進的Vision?Transformer架構(gòu),如FFVT、SIM?Trans、TransFG和AFTrans,這些方法利用Transformer層中的自注意力圖來增強特征學習和定位物體細節(jié)。Transformer最初是由Vaswani等人在自然語言處理領(lǐng)域提出的,其核心思想是通過自注意力機制來建模序列數(shù)據(jù)中的長距離依賴關(guān)系。隨后,Transformer被成功地應(yīng)用于計算機視覺領(lǐng)域,誕生了一系列基于Transformer的視覺模型,如Vision?Transformer? (ViT)和?Swin?Transformer。?ViT?是一種基于Transformer的圖像分類模型,它將輸入圖像分割成固定大小的patch,并將這些patch嵌入到序列中,以便通過標準Transformer編碼器進行處理。Swin?Transformer?提出了窗口化自注意力機制,能夠在保持計算效率的同時捕獲局部和全局上下文信息。Swin?Transformer通過層級結(jié)構(gòu)逐步擴大感受野,使其在多種視覺任務(wù)中均取得了優(yōu)異的成績。
[0024] 盡管Transformer在圖像識別領(lǐng)域取得了巨大的成功,但仍存在一些挑戰(zhàn)需要解決。例如,ViT在訓練過程中需要大量的數(shù)據(jù)才能收斂,并且在小規(guī)模數(shù)據(jù)集上容易過擬合。
此外,Swin?Transformer雖然通過窗口化機制解決了計算效率問題,但在處理圖像中細粒度特征時仍存在局限性。例如,在細粒度圖像分類任務(wù)中,細微的文字、圖案差異往往決定了細粒度特征的判斷,而這些特征的捕捉對于現(xiàn)有的Transformer架構(gòu)來說仍是一大挑戰(zhàn)。
[0025] 二、目標檢測方法
[0026] 目標檢測方法旨在于找到目標的位置和分類,整體架構(gòu)和思想類似于細粒度的視覺分類任務(wù)。不同的是,細粒度視覺分類的目的不在于是否找到對象的區(qū)域,而是是否找到具有可區(qū)分特征的區(qū)域,以及這些特征是否可以更有效地用于識別。
[0027] 有監(jiān)督的目標檢測方法往往具有較好的效果。Faster?RCNN通過區(qū)域建議網(wǎng)絡(luò)(Region?Proposal?Network,?RPN)預測特征圖上的每個像素位置是否為目標,然后預測目標區(qū)域的類別。YOLO和RetinaNet通過整個網(wǎng)絡(luò)完成位置和類別的預測。以上方法都是從手工標注中學習到對象的區(qū)域,完成對對象區(qū)域的識別。弱監(jiān)督目標檢測(Weakly?supervised?object?detection,?WSOD)方法則被用作克服這些限制的一種替代方法。B.?Zhou等人觀察到,通過學習對象類標簽,可以學習對象在空間中的表示,即通過特征圖上的信息對對象位置進行虛擬標注。例如,WCCN首先通過類激活圖(Class?Activation?Map,?CAM)完成候選區(qū)域的劃分,CAM的原理是在之前的特征圖上進行圖預測得分生成類特定的熱圖,然后使用第二階段模型篩選更好的候選區(qū)域。ACoL、SPG等方法也是基于CAM來完成定位的。WSOD2通過自上而下和自下而上的方法對虛擬候選框進行評分,得分最高的作為下一層的目標輸出。MIST通過自我訓練來細化感興趣區(qū)域,而WSCL通過數(shù)據(jù)增強和對比學習來改進感興趣區(qū)域的特征。這些方法利用前一階段的輸出作為目標,通過細化過程逐漸發(fā)現(xiàn)整個目標對象。
[0028] 以上方法表明,類別標簽可以提供豐富的目標定位特征,定位出更多的類別分類區(qū)域。然而,細粒度圖像分類任務(wù)的目標不再是檢測完整的物體,而是找到最關(guān)鍵的區(qū)域,并利用這些區(qū)域進行更好的判別。
[0029] 基于此,本實施例提出了一種基于Transformer架構(gòu)的深度學習模型。該模型通過細粒度特征提取和自適應(yīng)特征融合策略,可顯著提高鑒別的準確性和魯棒性。細粒度特征提取模塊能夠增強模型對關(guān)鍵細節(jié)的捕捉能力,而自適應(yīng)特征融合模塊則優(yōu)化了多尺度特征的整合。此外,本實施例針對細粒度分類任務(wù),改進了損失函數(shù),進一步提升了模型對困難樣本和關(guān)鍵區(qū)域特征的學習效果。
[0030] 下面將結(jié)合附圖及實施例對本發(fā)明作進一步詳細的描述。
[0031] 本發(fā)明實施例提供了一種基于Transformer的細粒度圖像分類系統(tǒng),如圖2所示,所述系統(tǒng)包括細粒度圖像分類模型101和全連接層102,所述細粒度圖像分類模型101包括骨干網(wǎng)絡(luò)201、特征金字塔網(wǎng)絡(luò)202和細粒度特征提取模塊203;所述細粒度特征提取模塊
203包括細節(jié)增強子模塊301、局部特征細化子模塊302和自適應(yīng)特征融合模塊303;
[0032] 所述骨干網(wǎng)絡(luò)201,用于通過內(nèi)置的移動窗口機制,處理輸入圖像中的多尺度信息,輸出所述輸入圖像的多尺度特征圖;