白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種基于衣服感知混合和前景增強的換衣行人重識別方法

專利號
CN119541002B
公開日期
2025-04-25
申請人
天津理工大學; 山東省人工智能研究院(天津市西青區(qū)賓水西道391號)
發(fā)明人
高贊; 王然; 徐海霞; 趙一博; 馬春杰; 袁立明; 溫顯斌
IPC分類
G06V40/10; G06V20/52; G06V10/80; G06V10/82; G06V10/74; G06V10/44; G06V20/62; G06N3/0464; G06N3/0455
技術領域
文本,圖像,行人,衣服,提取,識別,上衣,vision,損失,訓練
地域: 天津市 天津市西青區(qū)

摘要

本發(fā)明屬于計算機視覺和模式識別技術領域,尤其涉及一種基于衣服感知混合和前景增強的換衣行人重識別方法。步驟如下:采集圖像數(shù)據(jù)構建數(shù)據(jù)集,并對采集的圖像進行文本描述,對數(shù)據(jù)集中圖像數(shù)據(jù)進行預處理后劃分為訓練集和測試集;構建換衣行人重識別模型,該模型包括文本特征提取單元、圖像特征提取單元和特征融合單元,將訓練集中的行人圖像輸入至換衣行人重識別模型中進行訓練,得到各單元的損失函數(shù);匯總損失得到總損失,通過總損失對換衣行人重識別模型進行訓練和優(yōu)化;將測試集中數(shù)據(jù)輸入至優(yōu)化和訓練后的換衣行人重識別模型中進行相似度比對,選擇相似度最高的圖像作為最終檢索結果;本發(fā)明可以提高換衣行人重識別的準確性。

說明書

1 2 3 4 5 6
[0076] 對數(shù)據(jù)集中圖像數(shù)據(jù)進行預處理,對采集的圖像進行剪裁、縮放和歸一化操作,使數(shù)據(jù)集中圖像具有統(tǒng)一的尺寸和格式; [0077] 最后按比例將數(shù)據(jù)集劃分為訓練集和測試集。 [0078] S2具體如下: [0079] 將訓練集中的數(shù)據(jù)輸入至換衣行人重識別模型,將圖像的文本描述輸入至文本特征提取單元得到文本特征,將圖像輸入至圖像特征提取單元得到圖像特征,然后將文本特征和圖像特征輸入至特征融合單元,得到強化后的圖像特征,具體過程如下: [0080] S2.1、文本特征提取單元: [0081] 引入特定ID的可學習文本標記來學習不明確的文本描述,每個ID都是獨立的,文本提取單元包括圖像編碼器和文本編碼器,將圖像的文本表述輸入至文本編輯器,得到如下表述“一張 人的照片”,其中, 表示第 個可學習文本標記, 表示可學習文本標記的個數(shù), ; [0082] 凍結圖像編碼器和文本編碼器的參數(shù),通過圖像到文本和文本到圖像的對比損失對可學習文本標記 進行優(yōu)化,計算公式如下: [0083] , [0084] , [0085] , [0086] , [0087] 其中, 表示輸入的訓練集中任意一張圖像, 表示輸入的訓練集中任意一張圖像對應的文本表述, 表示將圖像線性投影嵌入到跨模態(tài)嵌入空間的操作,表示 操作后得到的圖像特征, 表示將文本表述線性投影嵌入到跨模態(tài)嵌入空間,表示 操作后得到的文本特征, 表示圖像和文本特征在特征空間中的相似度; 表示身份標簽為 的圖像特征, 表示身份標簽為 的文本特征, 表示身份標簽為的圖像特征和文本特征在特征空間中的相似度,表示批量大小,表示批量索引,表示身份標簽為 的圖像到文本的對比損失, 表示 個批量中第 個圖像特征, 表示個批量中第 個文本特征, , , 表示 個批量中第 個圖像特征和文 本特征在特征空間中的相似度; 表示身份標簽為 的文本到圖像的對比損失,表示在 個批量中與目標文本特征 匹配的所有正樣本集合,表示集合 中的元素,表示匹配的元素的圖像特征, 表示 和 在特征空間中的相似度, 表示 和 在特征空間中的相似度; 表示文本特征損失函數(shù)。 [0088] S2.2、圖像特征提取單元: [0089] S2.2.1、定位上衣中心區(qū)域擴展衣服布料內(nèi)容: [0090] 從輸入的訓練集中的圖像中獲取衣服樣式的信息,通過輔助工具HRNet人體姿態(tài)估計網(wǎng)絡提取人體中多個關鍵點,從提取的關鍵點中選擇左肩和右跨處兩個關鍵點,將兩個關鍵點連線的中點作為衣服的中心點以同等尺寸進行布料截取,尺寸大小設置為寬為32像素,高為64像素,然后對截取后的布料圖像進行像素復制擴展,進而保留衣服原有紋理信息,得到純衣服布料的圖像集; [0091] S2.2.2、隨機抽樣衣服對行人上衣部分進行填充: [0092] 使用SCHP人體解析網(wǎng)絡對輸入的數(shù)據(jù)集中的圖像進行分解,生成屬于不同屬性的偽標簽,設置上衣標簽,并將純衣服布料的圖像集中布料內(nèi)容隨機采樣填充到上衣標簽區(qū)域,進而實現(xiàn)輸入圖像中行人間衣服的交換,得到換衣處理后的圖像; [0093] S2.2.3、骨干網(wǎng)絡Vision?Transformer特征提?。? [0094] 對輸入的數(shù)據(jù)集中的圖像和經(jīng)過換衣處理后的圖像使用預訓練的Vision?Transformer視覺轉(zhuǎn)化器進行特征提取,分別提取到的原始特征 和換衣特征 ,將提取到的兩特征分別與文本特征提取單元提取到的文本特征 進行圖像到文本的交叉熵損失函數(shù)計算來約束原始特征和換衣特征接近相應的文本特征,計算公式如下: [0095] , [0096] , [0097] , [0098] 其中,表示身份類別數(shù),表示身份類別數(shù)的第一層索引,表示身份類別數(shù)的第二層索引, 表示第 個身份類別的目標分布值, 表示第 個身份類別的文本特征, 表示第 個身份類別的文本特征, 表示 和 在特征空間中的相似度, 表 示 和 在特征空間中的相似度, 表示原始特征 圖像的到文本的交叉熵損 失, 表示換衣特征 圖像的到文本的交叉熵損失, 表示 和 在特征 空間中的相似度, 表示 和 在特征空間中的相似度,表示批量大小,表示批量索引, 表示一致性損失, 表示第 個批次原始特征, 表示第 個批次的換衣特征。 [0099] S2.3、特征融合單元:

權利要求

1 2 3 4
其中, 表示ResNet網(wǎng)絡輸出的特征,表示特征圖的高度, 表示特征圖的寬度,表示高度的索引, 表示寬度的索引, 表示全連接層的操作,表示特征圖的通道數(shù),表示通道的索引, 表示卷積操作,表示relu激活函數(shù)的操作,表示通道注意力權重,表示空間注意力權重, 表示相乘, 表示ResNet網(wǎng)絡通過注意力機制的輸出,表示線性插值操作, 表示批量歸一化操作, 表示拼接操作, 表示拼接后的特征, 表示前景特征, 表示融合特征損失, 表示第 個批次的前景特征,表示第 個批次的原始特征。 6.根據(jù)權利要求5所述的一種基于衣服感知混合和前景增強的換衣行人重識別方法,其特征在于,S3具體如下: 計算總損失 ,根據(jù)總損失對換衣行人重識別模型進行訓練和優(yōu)化,計算過程如下: , 其中 表示交叉熵損失, 表示三元組損失; 損失函數(shù)具體如下: , 其中, 表示第 個批次的原始特征, 表示第 個批次的換衣特征, 表示第個批次的前景特征, 表示第 個批次的身份標簽; 損失函數(shù)具體如下: , 其中,B是訓練批次的大小, 表示三元組損失的邊界參數(shù), 和 表示第 個批次原始特征的正樣本特征和負樣本特征, 和 表示第 個批次換衣特征的正樣本特征和負樣本特征, 和 表示第 個批次前景特征的正樣本特征和負樣本特征, 表示取最大值, 表示歐幾里得距離的計算。 7.根據(jù)權利要求6所述的一種基于衣服感知混合和前景增強的換衣行人重識別方法,其特征在于,步驟S4具體如下: 將測試集中數(shù)據(jù)輸入至訓練和優(yōu)化后的換衣行人重識別模型中,通過優(yōu)化后的換衣行人重識別模型提取輸入的行人圖像的特征,將提取的特征與云端數(shù)據(jù)庫中的特征逐一進行相似度計算,根據(jù)相似度分數(shù)進行得分,選擇相似度得分最高的圖像最為最終檢索結果。
微信群二維碼
意見反饋