白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識(shí)別方法

專利號(hào)
CN119541002B
公開(kāi)日期
2025-04-25
申請(qǐng)人
天津理工大學(xué); 山東省人工智能研究院(天津市西青區(qū)賓水西道391號(hào))
發(fā)明人
高贊; 王然; 徐海霞; 趙一博; 馬春杰; 袁立明; 溫顯斌
IPC分類
G06V40/10; G06V20/52; G06V10/80; G06V10/82; G06V10/74; G06V10/44; G06V20/62; G06N3/0464; G06N3/0455
技術(shù)領(lǐng)域
文本,圖像,行人,衣服,提取,識(shí)別,上衣,vision,損失,訓(xùn)練
地域: 天津市 天津市西青區(qū)

摘要

本發(fā)明屬于計(jì)算機(jī)視覺(jué)和模式識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識(shí)別方法。步驟如下:采集圖像數(shù)據(jù)構(gòu)建數(shù)據(jù)集,并對(duì)采集的圖像進(jìn)行文本描述,對(duì)數(shù)據(jù)集中圖像數(shù)據(jù)進(jìn)行預(yù)處理后劃分為訓(xùn)練集和測(cè)試集;構(gòu)建換衣行人重識(shí)別模型,該模型包括文本特征提取單元、圖像特征提取單元和特征融合單元,將訓(xùn)練集中的行人圖像輸入至換衣行人重識(shí)別模型中進(jìn)行訓(xùn)練,得到各單元的損失函數(shù);匯總損失得到總損失,通過(guò)總損失對(duì)換衣行人重識(shí)別模型進(jìn)行訓(xùn)練和優(yōu)化;將測(cè)試集中數(shù)據(jù)輸入至優(yōu)化和訓(xùn)練后的換衣行人重識(shí)別模型中進(jìn)行相似度比對(duì),選擇相似度最高的圖像作為最終檢索結(jié)果;本發(fā)明可以提高換衣行人重識(shí)別的準(zhǔn)確性。

說(shuō)明書(shū)

1 2 3 4 5 6
[0047] 其中, 表示ResNet網(wǎng)絡(luò)輸出的特征,表示特征圖的高度,表示特征圖的寬度,表示高度的索引,表示寬度的索引, 表示全連接層的操作,表示特征圖的通道數(shù),表示通道的索引, 表示卷積操作,表示relu激活函數(shù)的操作,表示通道注意力權(quán)重,表示空間注意力權(quán)重, 表示相乘, 表示ResNet網(wǎng)絡(luò)通過(guò)注意力機(jī)制的輸出,表示線性插值操作, 表示批量歸一化操作, 表示拼接操作, 表示拼接后的特征, 表示前景特征, 表示融合特征損失, 表示第 個(gè)批次的前景特征,表示第 個(gè)批次的原始特征。 [0048] S3具體如下: [0049] 計(jì)算總損失 ,根據(jù)總損失對(duì)換衣行人重識(shí)別模型進(jìn)行訓(xùn)練和優(yōu)化,計(jì)算過(guò)程如下: [0050] , [0051] 其中 表示交叉熵?fù)p失, 表示三元組損失; [0052] 損失函數(shù)具體如下: [0053] , [0054] 其中, 表示第 個(gè)批次的原始特征, 表示第 個(gè)批次的換衣特征, 表示第 個(gè)批次的前景特征, 表示第 個(gè)批次的身份標(biāo)簽; [0055] 損失函數(shù)具體如下: [0056] , [0057] 其中,B是訓(xùn)練批次的大小, 表示三元組損失的邊界參數(shù), 和 表示第個(gè)批次原始特征的正樣本特征和負(fù)樣本特征, 和 表示第 個(gè)批次換衣特征的正樣本特征和負(fù)樣本特征, 和 表示第 個(gè)批次千金特征的正樣本特征和負(fù) 樣本特征, 表示取最大值, 表示歐幾里得距離的計(jì)算。 [0058] 步驟S4具體如下: [0059] 將測(cè)試集中數(shù)據(jù)輸入至訓(xùn)練和優(yōu)化后的換衣行人重識(shí)別模型中,通過(guò)優(yōu)化后的換衣行人重識(shí)別模型提取輸入的行人圖像的特征,將提取的特征與云端數(shù)據(jù)庫(kù)中的特征逐一進(jìn)行相似度計(jì)算,根據(jù)相似度分?jǐn)?shù)進(jìn)行得分,選擇相似度得分最高的圖像最為最終檢索結(jié)果。 [0060] 發(fā)明內(nèi)容中提供的效果僅僅是實(shí)施例的效果,而不是發(fā)明所有的全部效果,上述技術(shù)方案具有如下優(yōu)點(diǎn)或有益效果: [0061] 本發(fā)明提出了一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識(shí)別方法,本發(fā)明在保留衣服樣式紋理的基礎(chǔ)上模擬行人換衣行為以混淆模型對(duì)衣服的學(xué)習(xí),擺脫了傳統(tǒng)對(duì)衣服像素進(jìn)行擦除或隨機(jī)采樣的方法;單一的網(wǎng)絡(luò)處理難以達(dá)到特征精細(xì)化提取的目標(biāo),本發(fā)明中通過(guò)Vision?Transformer視覺(jué)轉(zhuǎn)化器和ResNet網(wǎng)絡(luò)融合提取衣服擦除圖像的前景特征,可以互補(bǔ)網(wǎng)絡(luò)間的缺陷,豐富了特征的語(yǔ)義表達(dá);本發(fā)明通過(guò)提取純衣服布料進(jìn)行交換以模擬換衣行為,并使用多網(wǎng)絡(luò)融合的方式對(duì)前景特征做增強(qiáng),豐富了特征的語(yǔ)義表達(dá)和提高了特征對(duì)行人身份識(shí)別的辨識(shí)性。 附圖說(shuō)明 [0062] 附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說(shuō)明書(shū)的一部分,與本發(fā)明的實(shí)施例一起用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。 [0063] 圖1為本發(fā)明的方法流程圖。 具體實(shí)施方式 [0064] 為了能清楚說(shuō)明本方案的技術(shù)特點(diǎn),下面通過(guò)具體實(shí)施方式,并結(jié)合其附圖,對(duì)本發(fā)明進(jìn)行詳細(xì)闡述。 [0065] 實(shí)施例1 [0066] 如圖1所示,一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識(shí)別方法,具體如下: [0067] S1、采集圖像數(shù)據(jù)構(gòu)建數(shù)據(jù)集,并對(duì)采集的圖像進(jìn)行文本描述,然后對(duì)數(shù)據(jù)集中圖像數(shù)據(jù)進(jìn)行預(yù)處理,最后將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集; [0068] S2、構(gòu)建換衣行人重識(shí)別模型,該模型包括文本特征提取單元、圖像特征提取單元和特征融合單元,將訓(xùn)練集中的行人圖像輸入至換衣行人重識(shí)別模型中進(jìn)行訓(xùn)練,得到各單元的損失函數(shù); [0069] 文本特征提取單元:引入特定ID的可學(xué)習(xí)文本標(biāo)記來(lái)學(xué)習(xí)不明確的文本描述,文本提取單元包括圖像編碼器和文本編碼器; [0070] 圖像特征提取單元:包括定位上衣中心區(qū)域擴(kuò)展衣服布料內(nèi)容、隨機(jī)抽樣衣服對(duì)行人上衣部分進(jìn)行填充、骨干網(wǎng)絡(luò)Vision?Transformer特征提取,定位上衣中心區(qū)域擴(kuò)展衣服布料內(nèi)容具體從輸入的訓(xùn)練集中的圖像中獲取衣服樣式的信息,通過(guò)輔助工具HRNet人體姿態(tài)估計(jì)網(wǎng)絡(luò)提取人體中多個(gè)關(guān)鍵點(diǎn),隨機(jī)抽樣衣服對(duì)行人上衣部分進(jìn)行填充具體使用SCHP人體解析網(wǎng)絡(luò)對(duì)輸入的數(shù)據(jù)集中的圖像進(jìn)行分解,生成屬于不同屬性的偽標(biāo)簽,骨干網(wǎng)絡(luò)Vision?Transformer提取特征后,根據(jù)提取的特征計(jì)算文本和圖像間的交叉熵?fù)p失; [0071] 特征融合單元:特征融合單元通過(guò)ResNet網(wǎng)絡(luò)與骨干網(wǎng)絡(luò)交融提取前景特征; [0072] S3、匯總損失得到總損失,通過(guò)總損失對(duì)換衣行人重識(shí)別模型進(jìn)行訓(xùn)練和優(yōu)化; [0073] S4、將測(cè)試集中數(shù)據(jù)輸入至優(yōu)化和訓(xùn)練后的換衣行人重識(shí)別模型中,通過(guò)優(yōu)化后的換衣行人重識(shí)別模型提取輸入的行人圖像的特征,將提取的特征與云端數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行檢索比對(duì),相似度最高的圖像即為最終檢索結(jié)果。 [0074] S1具體如下: [0075] 通過(guò)攝像頭捕捉不同場(chǎng)景和不同視角下的行人圖像,并為收集的圖像進(jìn)行文本描述;

權(quán)利要求

1 2 3 4
S2.2.3、骨干網(wǎng)絡(luò)Vision?Transformer特征提取: 對(duì)輸入的數(shù)據(jù)集中的圖像和經(jīng)過(guò)換衣處理后的圖像使用預(yù)訓(xùn)練的Vision?Transformer視覺(jué)轉(zhuǎn)化器進(jìn)行特征提取,分別提取到的原始特征 和換衣特征 ,將提取到的兩特征分別與文本特征提取單元提取到的文本特征 進(jìn)行圖像到文本的交叉熵?fù)p失函數(shù)計(jì)算來(lái)約束原始特征和換衣特征接近相應(yīng)的文本特征,計(jì)算公式如下: , , , 其中,表示身份類別數(shù),表示身份類別數(shù)的第一層索引,表示身份類別數(shù)的第二層索引, 表示第 個(gè)身份類別的目標(biāo)分布值, 表示第 個(gè)身份類別的文本特征, 表示第個(gè)身份類別的文本特征, 表示 和 在特征空間中的相似度, 表示 和 在特征空間中的相似度, 表示原始特征 圖像的到文本的交叉熵?fù)p失,表示換衣特征 圖像的到文本的交叉熵?fù)p失, 表示 和 在特征空 間中的相似度, 表示 和 在特征空間中的相似度,表示批量大小,表示批量索引, 表示一致性損失, 表示第 個(gè)批次原始特征, 表示第 個(gè)批次的換衣特征。 5.根據(jù)權(quán)利要求4所述的一種基于衣服感知混合和前景增強(qiáng)的換衣行人重識(shí)別方法,其特征在于: S2.3、特征融合單元: 引入在?ImageNet?網(wǎng)絡(luò)上進(jìn)行過(guò)預(yù)訓(xùn)練的?ResNet50?殘差網(wǎng)絡(luò),補(bǔ)充Vision?Transformer視覺(jué)轉(zhuǎn)化器在特征提取過(guò)程中忽略的細(xì)節(jié),首先對(duì)輸入的訓(xùn)練集中的圖像進(jìn)行預(yù)處理,屏蔽圖像中衣服和背景中的干擾因素,具體將SCHP的人體解析結(jié)果中屬于背景標(biāo)簽的像素設(shè)置為255,將上衣標(biāo)簽的像素設(shè)置為0;然后在ResNet50?殘差網(wǎng)絡(luò)和Vision?Transformer視覺(jué)轉(zhuǎn)化器之間進(jìn)行特征信息交流,選擇Vision?Transformer視覺(jué)轉(zhuǎn)化器中的輸出分別傳輸?shù)絉esNet網(wǎng)絡(luò)中,具體先將Vision?Transformer視覺(jué)轉(zhuǎn)化器的輸出進(jìn)行形變,然后通過(guò)卷積、批量歸一化、relu激活以及線性插值的方式調(diào)整成與ResNet網(wǎng)絡(luò)的輸出格式相同的4D形狀,同時(shí),在ResNet網(wǎng)絡(luò)各層中引入通道注意力和空間注意力來(lái)聚焦于關(guān)鍵信息區(qū)域,然后將形變后的Vision?Transformer視覺(jué)轉(zhuǎn)化器的輸出與ResNet提取的特征在通道上進(jìn)行拼接處理,最后再通過(guò)卷積、批量歸一化和relu激活得到最終的前景特征,計(jì)算過(guò)程如下: , , , , ?, ,
微信群二維碼
意見(jiàn)反饋