一種基于Transformer的細粒度圖像分類方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及圖像識別技術(shù)領(lǐng)域,尤其涉及一種基于Transformer的細粒度圖像分類方法及系統(tǒng)。
背景技術(shù)
[0002] 細粒度視覺分類(Fine?Grained?Visual?Classification,F(xiàn)GVC)是計算機視覺中的一項具有挑戰(zhàn)性的任務(wù),它涉及將圖像分類為非常具體和詳細的類別,例如不同種類的鳥類、狗、車輛模型和醫(yī)學(xué)圖像。如圖1所示,這四種麻雀的外觀幾乎相同,但從不同的角度看,同一種麻雀的外觀也有很大的不同。細粒度圖像分類在現(xiàn)實生活中具有廣泛的應(yīng)用前景。例如,在安全監(jiān)控領(lǐng)域中,細粒度圖像分類可以用于人臉識別、行為分析等任務(wù);在智能交通領(lǐng)域中,細粒度圖像分類可以用于車輛品牌和型號的識別等任務(wù)。因此,開展細粒度圖像分類的研究具有重要的理論和實踐意義。
[0003] FGVC在計算機視覺中的目標是檢索和識別屬于超類別(又名元類別或基本類別)的多個下屬類別的圖像,例如,不同物種的動物/植物,不同型號的汽車,不同種類的零售產(chǎn)品等。因此,關(guān)鍵的挑戰(zhàn)在于理解細粒度的視覺差異,以充分區(qū)分在整體外觀上高度相似但在細粒度特征上不同的對象。自近20年前開始以來,已經(jīng)取得了巨大的進步。鑒于卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識別方面的有效性,已有的圖像分類方法普遍基于卷積神經(jīng)網(wǎng)絡(luò)模型,在圖像采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)集構(gòu)建等方面進行優(yōu)化處理,以提高圖像分類的準確性。然而,傳統(tǒng)的CNN架構(gòu)在處理大規(guī)模圖像數(shù)據(jù)集時存在局限性,在捕獲長距離依賴關(guān)系方面存在不足,并且在進行不斷的卷積和池化過程中,會丟失很多空間表征,從而無法獲得強判別性的特征。
發(fā)明內(nèi)容
[0004] 為解決現(xiàn)有方法對圖像極細小特征的識別存在識別準確率低、效率低的技術(shù)問題,本發(fā)明實施例提供一種基于Transformer的細粒度圖像分類方法及系統(tǒng)。
[0005] 本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的:
[0006] 本發(fā)明實施例提供了一種基于Transformer的細粒度圖像分類系統(tǒng),所述系統(tǒng)包括細粒度圖像分類模型和全連接層,所述細粒度圖像分類模型包括骨干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)和細粒度特征提取模塊;所述細粒度特征提取模塊包括細節(jié)增強子模塊、局部特征細化子模塊和自適應(yīng)特征融合模塊;所述骨干網(wǎng)絡(luò),用于通過內(nèi)置的移動窗口機制,處理輸入圖像中的多尺度信息,輸出所述輸入圖像的多尺度特征圖;所述特征金字塔網(wǎng)絡(luò),為深度學(xué)習模型,用于通過構(gòu)建特征金字塔對所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖進行多尺度的特征提取和融合,輸出空間域特征圖;所述細節(jié)增強子模塊,用于利用離散余弦變換將所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖轉(zhuǎn)換至頻域,獲得頻域特征圖;通過自適應(yīng)閾值從所述頻域特征圖中篩選出用于判別所述輸入圖像細粒度特征的高頻域特征;利用離散余弦變換將所述高頻域特征轉(zhuǎn)換回空間域,并將轉(zhuǎn)換后的空間域特征與所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖進行疊加,輸出細節(jié)增強后的特征圖;所述局部特征細化子模塊,用于構(gòu)建通道注意力機制和空間注意力機制,利用所述通道注意力機制為每個通道分配不同的權(quán)重,利用所述空間注意力機制為每個空間位置分配不同的權(quán)重,基于所述通道注意力機制計算獲得的通道級別注意力圖、所述空間注意力機制計算獲得的空間級別注意力圖和所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖,輸出局部特征細化后的特征圖;所述自適應(yīng)特征融合模塊,用于從所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖、所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖和所述局部特征細化子模塊輸出的局部特征細化后的特征圖中獲取信息,通過自適應(yīng)權(quán)重學(xué)習機制,動態(tài)調(diào)整每個特征圖的融合權(quán)重,輸出融合特征;所述全連接層,用于根據(jù)所述自適應(yīng)特征融合模塊輸出的融合特征輸出預(yù)測結(jié)果。
[0007] 本發(fā)明實施例還提供了一種基于Transformer的細粒度圖像分類方法,應(yīng)用于上述所述的基于Transformer的細粒度圖像分類系統(tǒng),所述方法包括:利用所述骨干網(wǎng)絡(luò)通過內(nèi)置的移動窗口機制,處理輸入圖像中的多尺度信息,輸出所述輸入圖像的多尺度特征圖;