一種基于Transformer的細粒度圖像分類方法及系統(tǒng)

專利號

CN119152300B

公開日期

2025-01-28

申請人

中南大學(xué)（湖南省長沙市岳麓區(qū)麓山南路932號）

發(fā)明人

曾鋒; 嚴昌燊; 張肖垚; 謝小衛(wèi)

IPC分類

G06V10/764; G06V10/82; G06V10/80; G06V10/25; G06N3/0455; G06N3/0464; G06N3/088; G06N3/0895; G06N3/09

技術(shù)領(lǐng)域

細粒,注意力,圖像,域特征,尺度,模型,分類,融合,注意,機制

地域： 湖南省湖南省長沙市

摘要

本發(fā)明公開了一種基于Transformer的細粒度圖像分類方法及系統(tǒng)。其中，系統(tǒng)包括能夠增強模型對關(guān)鍵細節(jié)的捕捉能力的細節(jié)增強子模塊、通過設(shè)計通道注意力機制和空間注意力機制，能夠重點關(guān)注輸入圖像的關(guān)鍵區(qū)域的局部特征細化子模塊；融合了多尺度特征，處理高度相似的圖像時更具辨別力的自適應(yīng)特征融合模塊，使得發(fā)明提供的方案實現(xiàn)了特征信息的優(yōu)化整合，提高了特征的表達能力，增強了模型對復(fù)雜圖像的泛化能力，能有效提高細粒度圖像分類的準確性和魯棒性。

說明書

1 2 3 4 5 6 7 8 9

一種基于Transformer的細粒度圖像分類方法及系統(tǒng) 技術(shù)領(lǐng)域 [0001] 本發(fā)明涉及圖像識別技術(shù)領(lǐng)域，尤其涉及一種基于Transformer的細粒度圖像分類方法及系統(tǒng)。背景技術(shù) [0002] 細粒度視覺分類（Fine?Grained?Visual?Classification，F(xiàn)GVC）是計算機視覺中的一項具有挑戰(zhàn)性的任務(wù)，它涉及將圖像分類為非常具體和詳細的類別，例如不同種類的鳥類、狗、車輛模型和醫(yī)學(xué)圖像。如圖1所示，這四種麻雀的外觀幾乎相同，但從不同的角度看，同一種麻雀的外觀也有很大的不同。細粒度圖像分類在現(xiàn)實生活中具有廣泛的應(yīng)用前景。例如，在安全監(jiān)控領(lǐng)域中，細粒度圖像分類可以用于人臉識別、行為分析等任務(wù)；在智能交通領(lǐng)域中，細粒度圖像分類可以用于車輛品牌和型號的識別等任務(wù)。因此，開展細粒度圖像分類的研究具有重要的理論和實踐意義。 [0003] FGVC在計算機視覺中的目標是檢索和識別屬于超類別（又名元類別或基本類別）的多個下屬類別的圖像，例如，不同物種的動物/植物，不同型號的汽車，不同種類的零售產(chǎn)品等。因此，關(guān)鍵的挑戰(zhàn)在于理解細粒度的視覺差異，以充分區(qū)分在整體外觀上高度相似但在細粒度特征上不同的對象。自近20年前開始以來，已經(jīng)取得了巨大的進步。鑒于卷積神經(jīng)網(wǎng)絡(luò)（CNN）在圖像識別方面的有效性，已有的圖像分類方法普遍基于卷積神經(jīng)網(wǎng)絡(luò)模型，在圖像采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)集構(gòu)建等方面進行優(yōu)化處理，以提高圖像分類的準確性。然而，傳統(tǒng)的CNN架構(gòu)在處理大規(guī)模圖像數(shù)據(jù)集時存在局限性，在捕獲長距離依賴關(guān)系方面存在不足，并且在進行不斷的卷積和池化過程中，會丟失很多空間表征，從而無法獲得強判別性的特征。發(fā)明內(nèi)容 [0004] 為解決現(xiàn)有方法對圖像極細小特征的識別存在識別準確率低、效率低的技術(shù)問題，本發(fā)明實施例提供一種基于Transformer的細粒度圖像分類方法及系統(tǒng)。 [0005] 本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的： [0006] 本發(fā)明實施例提供了一種基于Transformer的細粒度圖像分類系統(tǒng)，所述系統(tǒng)包括細粒度圖像分類模型和全連接層，所述細粒度圖像分類模型包括骨干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)和細粒度特征提取模塊；所述細粒度特征提取模塊包括細節(jié)增強子模塊、局部特征細化子模塊和自適應(yīng)特征融合模塊；所述骨干網(wǎng)絡(luò)，用于通過內(nèi)置的移動窗口機制，處理輸入圖像中的多尺度信息，輸出所述輸入圖像的多尺度特征圖；所述特征金字塔網(wǎng)絡(luò)，為深度學(xué)習模型，用于通過構(gòu)建特征金字塔對所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖進行多尺度的特征提取和融合，輸出空間域特征圖；所述細節(jié)增強子模塊，用于利用離散余弦變換將所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖轉(zhuǎn)換至頻域，獲得頻域特征圖；通過自適應(yīng)閾值從所述頻域特征圖中篩選出用于判別所述輸入圖像細粒度特征的高頻域特征；利用離散余弦變換將所述高頻域特征轉(zhuǎn)換回空間域，并將轉(zhuǎn)換后的空間域特征與所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖進行疊加，輸出細節(jié)增強后的特征圖；所述局部特征細化子模塊，用于構(gòu)建通道注意力機制和空間注意力機制，利用所述通道注意力機制為每個通道分配不同的權(quán)重，利用所述空間注意力機制為每個空間位置分配不同的權(quán)重，基于所述通道注意力機制計算獲得的通道級別注意力圖、所述空間注意力機制計算獲得的空間級別注意力圖和所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖，輸出局部特征細化后的特征圖；所述自適應(yīng)特征融合模塊，用于從所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖、所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖和所述局部特征細化子模塊輸出的局部特征細化后的特征圖中獲取信息，通過自適應(yīng)權(quán)重學(xué)習機制，動態(tài)調(diào)整每個特征圖的融合權(quán)重，輸出融合特征；所述全連接層，用于根據(jù)所述自適應(yīng)特征融合模塊輸出的融合特征輸出預(yù)測結(jié)果。 [0007] 本發(fā)明實施例還提供了一種基于Transformer的細粒度圖像分類方法，應(yīng)用于上述所述的基于Transformer的細粒度圖像分類系統(tǒng)，所述方法包括：利用所述骨干網(wǎng)絡(luò)通過內(nèi)置的移動窗口機制，處理輸入圖像中的多尺度信息，輸出所述輸入圖像的多尺度特征圖；

權(quán)利要求

1 2 3

1.一種基于Transformer的細粒度圖像分類系統(tǒng)，其特征在于，所述系統(tǒng)包括細粒度圖像分類模型和全連接層，所述細粒度圖像分類模型包括骨干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)和細粒度特征提取模塊；所述細粒度特征提取模塊包括細節(jié)增強子模塊、局部特征細化子模塊和自適應(yīng)特征融合模塊；所述骨干網(wǎng)絡(luò)，用于通過內(nèi)置的移動窗口機制，處理輸入圖像中的多尺度信息，輸出所述輸入圖像的多尺度特征圖；所述特征金字塔網(wǎng)絡(luò)，為深度學(xué)習模型，用于通過構(gòu)建特征金字塔對所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖進行多尺度的特征提取和融合，輸出空間域特征圖；所述細節(jié)增強子模塊，用于利用離散余弦變換將所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖轉(zhuǎn)換至頻域，獲得頻域特征圖；通過自適應(yīng)閾值從所述頻域特征圖中篩選出用于判別所述輸入圖像細粒度特征的高頻域特征；利用離散余弦變換將所述高頻域特征轉(zhuǎn)換回空間域，并將轉(zhuǎn)換后的空間域特征與所述特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖進行疊加，輸出細節(jié)增強后的特征圖；所述局部特征細化子模塊，用于構(gòu)建通道注意力機制和空間注意力機制，利用所述通道注意力機制為每個通道分配不同的權(quán)重，利用所述空間注意力機制為每個空間位置分配不同的權(quán)重，基于所述通道注意力機制計算獲得的通道級別注意力圖、所述空間注意力機制計算獲得的空間級別注意力圖和所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖，輸出局部特征細化后的特征圖；所述自適應(yīng)特征融合模塊，用于從所述骨干網(wǎng)絡(luò)輸出的多尺度特征圖、所述細節(jié)增強子模塊輸出的細節(jié)增強后的特征圖和所述局部特征細化子模塊輸出的局部特征細化后的特征圖中獲取信息，通過自適應(yīng)權(quán)重學(xué)習機制，動態(tài)調(diào)整每個特征圖的融合權(quán)重，輸出融合特征；所述全連接層，用于根據(jù)所述自適應(yīng)特征融合模塊輸出的融合特征輸出預(yù)測結(jié)果。 2.根據(jù)權(quán)利要求1所述的基于Transformer的細粒度圖像分類系統(tǒng)，其特征在于，所述細節(jié)增強子模塊具體利用如下計算式輸出細節(jié)增強后的特征圖：其中，為細節(jié)增強后的特征圖，為特征金字塔網(wǎng)絡(luò)輸出的空間域特征圖，為自適應(yīng)閾值函數(shù)，是調(diào)整增強幅度的參數(shù)，為利用離散余弦變換得到的頻域特征圖，為逆離散余弦變換操作。 3.根據(jù)權(quán)利要求1所述的基于Transformer的細粒度圖像分類系統(tǒng)，其特征在于，所述局部特征細化子模塊具體利用如下計算式輸出局部特征細化后的特征圖：其中，為局部特征細化后的特征圖，為細節(jié)增強后的特征圖，

微信群二維碼

意見反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種基于Transformer的細粒度圖像分類方法及系統(tǒng)

摘要

說明書

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：