一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計(jì)算機(jī)視覺和模式識別技術(shù)領(lǐng)域,涉及一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法。
背景技術(shù)
[0002] 行人重識別(Person?Re?identification,?Re?ID)是指通過特定行人圖像,在不同時(shí)間和地點(diǎn)的監(jiān)控視頻中識別同一身份的行人,這一過程面臨視角差異、光照變化和遮擋等挑戰(zhàn),使其成為計(jì)算機(jī)視覺領(lǐng)域的重要課題,近年來,隨著監(jiān)控視頻的普及,行人重識別技術(shù)在安防、人機(jī)交互和智能交通等領(lǐng)域的需求日益增加,顯著提升了生活質(zhì)量。
[0003] 換衣行人重識別則是在傳統(tǒng)行人重識別基礎(chǔ)上,考慮了行人服裝變化的因素,由于人們在現(xiàn)實(shí)中的外觀會因天氣、場合等變化,服裝也會隨之改變,這在社會治安方面尤為重要,特別是在犯罪場景中,嫌疑人可能通過更換服裝和遮擋信息來逃避監(jiān)控,增加了抓捕難度,盡管近年來行人重識別技術(shù)有所進(jìn)步,但在應(yīng)對服裝變化時(shí)效果不佳,這一問題引起了研究者的關(guān)注,推動(dòng)了換衣行人重識別的研究,以提高其應(yīng)用價(jià)值。
[0004] 目前,已有方法多集中在增加服裝多樣性,將身份特征與衣物特征解耦,或是提取人體穩(wěn)定的生物特征(如頭部、身體輪廓和步態(tài)等),然而,這些方法仍易受服裝變化影響,且生物特征提取較為單一,為了解決上述問題,本發(fā)明提出了一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法,旨在提高服裝變化情況下的識別性能。
發(fā)明內(nèi)容
[0005] 本發(fā)明提出了一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法,目的是解決換衣情況下的行人重識別問題,通過深化視覺信息的理解和優(yōu)化提取策略,本方法可以在復(fù)雜實(shí)際場景中實(shí)現(xiàn)更加可靠的行人重識別。
[0006] 一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法,具體如下:
[0007] S1、采集圖像數(shù)據(jù)構(gòu)建數(shù)據(jù)集,并對采集的圖像進(jìn)行文本描述,然后對數(shù)據(jù)集中圖像數(shù)據(jù)進(jìn)行預(yù)處理,最后將數(shù)據(jù)集劃分為訓(xùn)練集和測試集;
[0008] S2、構(gòu)建換衣行人重識別模型,該模型包括文本特征提取單元、圖像特征提取單元和特征融合單元,將訓(xùn)練集中的行人圖像輸入至換衣行人重識別模型中進(jìn)行訓(xùn)練,得到各單元的損失函數(shù);
[0009] 文本特征提取單元:引入特定ID的可學(xué)習(xí)文本標(biāo)記來學(xué)習(xí)不明確的文本描述,文本提取單元包括圖像編碼器和文本編碼器;
[0010] 圖像特征提取單元:包括定位上衣中心區(qū)域擴(kuò)展衣服布料內(nèi)容、隨機(jī)抽樣衣服對行人上衣部分進(jìn)行填充、骨干網(wǎng)絡(luò)Vision?Transformer特征提取,定位上衣中心區(qū)域擴(kuò)展衣服布料內(nèi)容具體從輸入的訓(xùn)練集中的圖像中獲取衣服樣式的信息,通過輔助工具HRNet人體姿態(tài)估計(jì)網(wǎng)絡(luò)提取人體中多個(gè)關(guān)鍵點(diǎn),隨機(jī)抽樣衣服對行人上衣部分進(jìn)行填充具體使用SCHP人體解析網(wǎng)絡(luò)對輸入的數(shù)據(jù)集中的圖像進(jìn)行分解,生成屬于不同屬性的偽標(biāo)簽,骨干網(wǎng)絡(luò)Vision?Transformer提取特征后,根據(jù)提取的特征計(jì)算文本和圖像間的交叉熵?fù)p失;
[0011] 特征融合單元:特征融合單元通過ResNet網(wǎng)絡(luò)與骨干網(wǎng)絡(luò)交融提取前景特征;
[0012] S3、匯總損失得到總損失,通過總損失對換衣行人重識別模型進(jìn)行訓(xùn)練和優(yōu)化;
[0013] S4、將測試集中數(shù)據(jù)輸入至優(yōu)化和訓(xùn)練后的換衣行人重識別模型中,通過優(yōu)化后的換衣行人重識別模型提取輸入的行人圖像的特征,將提取的特征與云端數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行檢索比對,相似度最高的圖像即為最終檢索結(jié)果。
[0014] S1具體如下:
[0015] 通過攝像頭捕捉不同場景和不同視角下的行人圖像,并為收集的圖像進(jìn)行文本描述;
[0016] 對數(shù)據(jù)集中圖像數(shù)據(jù)進(jìn)行預(yù)處理,對采集的圖像進(jìn)行剪裁、縮放和歸一化操作,使數(shù)據(jù)集中圖像具有統(tǒng)一的尺寸和格式;
[0017] 最后按比例將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。
[0018] S2具體如下:
[0019] 將訓(xùn)練集中的數(shù)據(jù)輸入至換衣行人重識別模型,將圖像的文本描述輸入至文本特征提取單元得到文本特征,將圖像輸入至圖像特征提取單元得到圖像特征,然后將文本特征和圖像特征輸入至特征融合單元,得到強(qiáng)化后的圖像特征,具體過程如下:
[0020] S2.1、文本特征提取單元:
[0021] 引入特定ID的可學(xué)習(xí)文本標(biāo)記來學(xué)習(xí)不明確的文本描述,每個(gè)ID都是獨(dú)立的,文本提取單元包括圖像編碼器和文本編碼器,將圖像的文本表述輸入至文本編輯器,得到如下表述“一張 人的照片”,其中, 表示第 個(gè)可學(xué)習(xí)文本標(biāo)記,
表示可學(xué)習(xí)文本標(biāo)記的個(gè)數(shù), ;
[0022] 凍結(jié)圖像編碼器和文本編碼器的參數(shù),通過圖像到文本和文本到圖像的對比損失對可學(xué)習(xí)文本標(biāo)記 進(jìn)行優(yōu)化,計(jì)算公式如下:
[0023] ,
[0024] ,
[0025] ,
[0026] ,