一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法

專利號

CN119541002B

公開日期

2025-04-25

申請人

天津理工大學(xué); 山東省人工智能研究院（天津市西青區(qū)賓水西道391號）

發(fā)明人

高贊; 王然; 徐海霞; 趙一博; 馬春杰; 袁立明; 溫顯斌

IPC分類

G06V40/10; G06V20/52; G06V10/80; G06V10/82; G06V10/74; G06V10/44; G06V20/62; G06N3/0464; G06N3/0455

技術(shù)領(lǐng)域

文本,圖像,行人,衣服,提取,識別,上衣,vision,損失,訓(xùn)練

地域： 天津市天津市西青區(qū)

摘要

本發(fā)明屬于計(jì)算機(jī)視覺和模式識別技術(shù)領(lǐng)域，尤其涉及一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法。步驟如下：采集圖像數(shù)據(jù)構(gòu)建數(shù)據(jù)集，并對采集的圖像進(jìn)行文本描述，對數(shù)據(jù)集中圖像數(shù)據(jù)進(jìn)行預(yù)處理后劃分為訓(xùn)練集和測試集；構(gòu)建換衣行人重識別模型，該模型包括文本特征提取單元、圖像特征提取單元和特征融合單元，將訓(xùn)練集中的行人圖像輸入至換衣行人重識別模型中進(jìn)行訓(xùn)練，得到各單元的損失函數(shù)；匯總損失得到總損失，通過總損失對換衣行人重識別模型進(jìn)行訓(xùn)練和優(yōu)化；將測試集中數(shù)據(jù)輸入至優(yōu)化和訓(xùn)練后的換衣行人重識別模型中進(jìn)行相似度比對，選擇相似度最高的圖像作為最終檢索結(jié)果；本發(fā)明可以提高換衣行人重識別的準(zhǔn)確性。

說明書

1 2 3 4 5 6

[0027] 其中，表示輸入的訓(xùn)練集中任意一張圖像，表示輸入的訓(xùn)練集中任意一張圖像對應(yīng)的文本表述，表示將圖像線性投影嵌入到跨模態(tài)嵌入空間的操作，表示操作后得到的圖像特征，表示將文本表述線性投影嵌入到跨模態(tài)嵌入空間，表示操作后得到的文本特征，表示圖像和文本特征在特征空間中的相似度；表示身份標(biāo)簽為的圖像特征，表示身份標(biāo)簽為的文本特征，表示身份標(biāo)簽為的圖像特征和文本特征在特征空間中的相似度，表示批量大小，表示批量索引，表示身份標(biāo)簽為的圖像到文本的對比損失，表示個(gè)批量中第個(gè)圖像特征，表示個(gè)批量中第個(gè)文本特征，，，表示個(gè)批量中第個(gè)圖像特征和文本特征在特征空間中的相似度；表示身份標(biāo)簽為的文本到圖像的對比損失，表示在個(gè)批量中與目標(biāo)文本特征匹配的所有正樣本集合，表示集合中的元素，表示匹配的元素的圖像特征，表示和在特征空間中的相似度，表示和在特征空間中的相似度；表示文本特征損失函數(shù)。 [0028] S2.2、圖像特征提取單元： [0029] S2.2.1、定位上衣中心區(qū)域擴(kuò)展衣服布料內(nèi)容： [0030] 從輸入的訓(xùn)練集中的圖像中獲取衣服樣式的信息，通過輔助工具HRNet人體姿態(tài)估計(jì)網(wǎng)絡(luò)提取人體中多個(gè)關(guān)鍵點(diǎn)，從提取的關(guān)鍵點(diǎn)中選擇左肩和右跨處兩個(gè)關(guān)鍵點(diǎn)，將兩個(gè)關(guān)鍵點(diǎn)連線的中點(diǎn)作為衣服的中心點(diǎn)以同等尺寸進(jìn)行布料截取，尺寸大小設(shè)置為寬為32像素，高為64像素，然后對截取后的布料圖像進(jìn)行像素復(fù)制擴(kuò)展，進(jìn)而保留衣服原有紋理信息，得到純衣服布料的圖像集； [0031] S2.2.2、隨機(jī)抽樣衣服對行人上衣部分進(jìn)行填充： [0032] 使用SCHP人體解析網(wǎng)絡(luò)對輸入的數(shù)據(jù)集中的圖像進(jìn)行分解，生成屬于不同屬性的偽標(biāo)簽，設(shè)置上衣標(biāo)簽，并將純衣服布料的圖像集中布料內(nèi)容隨機(jī)采樣填充到上衣標(biāo)簽區(qū)域，進(jìn)而實(shí)現(xiàn)輸入圖像中行人間衣服的交換，得到換衣處理后的圖像； [0033] S2.2.3、骨干網(wǎng)絡(luò)Vision?Transformer特征提?。? [0034] 對輸入的數(shù)據(jù)集中的圖像和經(jīng)過換衣處理后的圖像使用預(yù)訓(xùn)練的Vision?Transformer視覺轉(zhuǎn)化器進(jìn)行特征提取，分別提取到的原始特征和換衣特征，將提取到的兩特征分別與文本特征提取單元提取到的文本特征進(jìn)行圖像到文本的交叉熵?fù)p失函數(shù)計(jì)算來約束原始特征和換衣特征接近相應(yīng)的文本特征，計(jì)算公式如下： [0035] ， [0036] ， [0037] ， [0038] 其中，表示身份類別數(shù)，表示身份類別數(shù)的第一層索引，表示身份類別數(shù)的第二層索引，表示第個(gè)身份類別的目標(biāo)分布值，表示第個(gè)身份類別的文本特征，表示第個(gè)身份類別的文本特征，表示和在特征空間中的相似度，表示和在特征空間中的相似度，表示原始特征圖像的到文本的交叉熵?fù)p 失，表示換衣特征圖像的到文本的交叉熵?fù)p失，表示和在特征空間中的相似度，表示和在特征空間中的相似度，表示批量大小，表示批量索引，表示一致性損失，表示第個(gè)批次原始特征，表示第個(gè)批次的換衣特征。 [0039] S2.3、特征融合單元： [0040] 引入在?ImageNet?網(wǎng)絡(luò)上進(jìn)行過預(yù)訓(xùn)練的?ResNet50?殘差網(wǎng)絡(luò)，補(bǔ)充Vision?Transformer視覺轉(zhuǎn)化器在特征提取過程中忽略的細(xì)節(jié)，首先對輸入的訓(xùn)練集中的圖像進(jìn)行預(yù)處理，屏蔽圖像中衣服和背景中的干擾因素，具體將SCHP的人體解析結(jié)果中屬于背景標(biāo)簽的像素設(shè)置為255，將上衣標(biāo)簽的像素設(shè)置為0；然后在ResNet50?殘差網(wǎng)絡(luò)和Vision?Transformer視覺轉(zhuǎn)化器之間進(jìn)行特征信息交流，選擇Vision?Transformer視覺轉(zhuǎn)化器中的輸出分別傳輸?shù)絉esNet網(wǎng)絡(luò)中，具體先將Vision?Transformer視覺轉(zhuǎn)化器的輸出進(jìn)行形變，然后通過卷積、批量歸一化、relu激活以及線性插值的方式調(diào)整成與ResNet網(wǎng)絡(luò)的輸出格式相同的4D形狀，同時(shí)，在ResNet網(wǎng)絡(luò)各層中引入通道注意力和空間注意力來聚焦于關(guān)鍵信息區(qū)域，然后將形變后的Vision?Transformer視覺轉(zhuǎn)化器的輸出與ResNet提取的特征在通道上進(jìn)行拼接處理，最后再通過卷積、批量歸一化和relu激活得到最終的前景特征，計(jì)算過程如下： [0041] ， [0042] ， [0043] ， [0044] ， [0045] ， [0046] ，

權(quán)利要求

1 2 3 4

S2.1、文本特征提取單元：引入特定ID的可學(xué)習(xí)文本標(biāo)記來學(xué)習(xí)不明確的文本描述，每個(gè)ID都是獨(dú)立的，文本提取單元包括圖像編碼器和文本編碼器，將圖像的文本表述輸入至文本編輯器，得到如下表述“一張人的照片”，其中，表示第個(gè)可學(xué)習(xí)文本標(biāo)記，表示可學(xué)習(xí)文本標(biāo)記的個(gè)數(shù)，；凍結(jié)圖像編碼器和文本編碼器的參數(shù)，通過圖像到文本和文本到圖像的對比損失對可學(xué)習(xí)文本標(biāo)記進(jìn)行優(yōu)化，計(jì)算公式如下：，，，，其中，表示輸入的訓(xùn)練集中任意一張圖像，表示輸入的訓(xùn)練集中任意一張圖像對應(yīng)的文本表述，表示將圖像線性投影嵌入到跨模態(tài)嵌入空間的操作，表示操作后得到的圖像特征，表示將文本表述線性投影嵌入到跨模態(tài)嵌入空間，表示操作后得到的文本特征，表示圖像和文本特征在特征空間中的相似度；表示身份標(biāo)簽為的圖像特征，表示身份標(biāo)簽為的文本特征，表示身份標(biāo)簽為的圖像特征和文本特征在特征空間中的相似度，表示批量大小，表示批量索引，表示身份標(biāo)簽為的圖像到文本的對比損失，表示個(gè)批量中第個(gè)圖像特征，表示個(gè)批量中第個(gè)文本特征，，，表示個(gè)批量中第個(gè)圖像特征和文本特征在特征空間中的相似度；表示身份標(biāo)簽為的文本到圖像的對比損失，表示在個(gè)批量中與目標(biāo)文本特征匹配的所有正樣本集合，表示集合中的元素，表示匹配的元素的圖像特征，表示和在特征空間中的相似度，表示和在特征空間中的相似度；表示文本特征損失函數(shù)。 4.根據(jù)權(quán)利要求3所述的一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法，其特征在于： S2.2、圖像特征提取單元： S2.2.1、定位上衣中心區(qū)域擴(kuò)展衣服布料內(nèi)容：從輸入的訓(xùn)練集中的圖像中獲取衣服樣式的信息，通過輔助工具HRNet人體姿態(tài)估計(jì)網(wǎng)絡(luò)提取人體中多個(gè)關(guān)鍵點(diǎn)，從提取的關(guān)鍵點(diǎn)中選擇左肩和右胯處兩個(gè)關(guān)鍵點(diǎn)，將兩個(gè)關(guān)鍵點(diǎn)連線的中點(diǎn)作為衣服的中心點(diǎn)以同等尺寸進(jìn)行布料截取，尺寸大小設(shè)置為寬為32像素，高為64像素，然后對截取后的布料圖像進(jìn)行像素復(fù)制擴(kuò)展，進(jìn)而保留衣服原有紋理信息，得到純衣服布料的圖像集； S2.2.2、隨機(jī)抽樣衣服對行人上衣部分進(jìn)行填充：使用SCHP人體解析網(wǎng)絡(luò)對輸入的數(shù)據(jù)集中的圖像進(jìn)行分解，生成屬于不同屬性的偽標(biāo)簽，設(shè)置上衣標(biāo)簽，并將純衣服布料的圖像集中布料內(nèi)容隨機(jī)采樣填充到上衣標(biāo)簽區(qū)域，進(jìn)而實(shí)現(xiàn)輸入圖像中行人間衣服的交換，得到換衣處理后的圖像；

微信群二維碼

意見反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識別方法

摘要

說明書

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：