[0027] 其中, 表示輸入的訓(xùn)練集中任意一張圖像, 表示輸入的訓(xùn)練集中任意一張圖像對應(yīng)的文本表述, 表示將圖像線性投影嵌入到跨模態(tài)嵌入空間的操作,表示 操作后得到的圖像特征, 表示將文本表述線性投影嵌入到跨模態(tài)嵌入空間,表示 操作后得到的文本特征, 表示圖像和文本特征在特征空間中的相似度; 表示身份標(biāo)簽為 的圖像特征, 表示身份標(biāo)簽為 的文本特征, 表示身份標(biāo)簽為的圖像特征和文本特征在特征空間中的相似度,表示批量大小,表示批量索引,表示身份標(biāo)簽為 的圖像到文本的對比損失, 表示 個(gè)批量中第 個(gè)圖像特征, 表示個(gè)批量中第 個(gè)文本特征, , , 表示 個(gè)批量中第 個(gè)圖像特征和文
本特征在特征空間中的相似度; 表示身份標(biāo)簽為 的文本到圖像的對比損失,表示在 個(gè)批量中與目標(biāo)文本特征 匹配的所有正樣本集合,表示集合 中的元素,表示匹配的元素的圖像特征, 表示 和 在特征空間中的相似度,
表示 和 在特征空間中的相似度; 表示文本特征損失函數(shù)。
[0028] S2.2、圖像特征提取單元:
[0029] S2.2.1、定位上衣中心區(qū)域擴(kuò)展衣服布料內(nèi)容:
[0030] 從輸入的訓(xùn)練集中的圖像中獲取衣服樣式的信息,通過輔助工具HRNet人體姿態(tài)估計(jì)網(wǎng)絡(luò)提取人體中多個(gè)關(guān)鍵點(diǎn),從提取的關(guān)鍵點(diǎn)中選擇左肩和右跨處兩個(gè)關(guān)鍵點(diǎn),將兩個(gè)關(guān)鍵點(diǎn)連線的中點(diǎn)作為衣服的中心點(diǎn)以同等尺寸進(jìn)行布料截取,尺寸大小設(shè)置為寬為32像素,高為64像素,然后對截取后的布料圖像進(jìn)行像素復(fù)制擴(kuò)展,進(jìn)而保留衣服原有紋理信息,得到純衣服布料的圖像集;
[0031] S2.2.2、隨機(jī)抽樣衣服對行人上衣部分進(jìn)行填充:
[0032] 使用SCHP人體解析網(wǎng)絡(luò)對輸入的數(shù)據(jù)集中的圖像進(jìn)行分解,生成屬于不同屬性的偽標(biāo)簽,設(shè)置上衣標(biāo)簽,并將純衣服布料的圖像集中布料內(nèi)容隨機(jī)采樣填充到上衣標(biāo)簽區(qū)域,進(jìn)而實(shí)現(xiàn)輸入圖像中行人間衣服的交換,得到換衣處理后的圖像;
[0033] S2.2.3、骨干網(wǎng)絡(luò)Vision?Transformer特征提?。?
[0034] 對輸入的數(shù)據(jù)集中的圖像和經(jīng)過換衣處理后的圖像使用預(yù)訓(xùn)練的Vision?Transformer視覺轉(zhuǎn)化器進(jìn)行特征提取,分別提取到的原始特征 和換衣特征 ,將提取到的兩特征分別與文本特征提取單元提取到的文本特征 進(jìn)行圖像到文本的交叉熵?fù)p失函數(shù)計(jì)算來約束原始特征和換衣特征接近相應(yīng)的文本特征,計(jì)算公式如下:
[0035] ,
[0036] ,
[0037] ,
[0038] 其中,表示身份類別數(shù),表示身份類別數(shù)的第一層索引,表示身份類別數(shù)的第二層索引, 表示第 個(gè)身份類別的目標(biāo)分布值, 表示第 個(gè)身份類別的文本特征, 表示第 個(gè)身份類別的文本特征, 表示 和 在特征空間中的相似度, 表
示 和 在特征空間中的相似度, 表示原始特征 圖像的到文本的交叉熵?fù)p
失, 表示換衣特征 圖像的到文本的交叉熵?fù)p失, 表示 和 在特征
空間中的相似度, 表示 和 在特征空間中的相似度,表示批量大小,表示批量索引, 表示一致性損失, 表示第 個(gè)批次原始特征, 表示第 個(gè)批次的換衣特征。
[0039] S2.3、特征融合單元:
[0040] 引入在?ImageNet?網(wǎng)絡(luò)上進(jìn)行過預(yù)訓(xùn)練的?ResNet50?殘差網(wǎng)絡(luò),補(bǔ)充Vision?Transformer視覺轉(zhuǎn)化器在特征提取過程中忽略的細(xì)節(jié),首先對輸入的訓(xùn)練集中的圖像進(jìn)行預(yù)處理,屏蔽圖像中衣服和背景中的干擾因素,具體將SCHP的人體解析結(jié)果中屬于背景標(biāo)簽的像素設(shè)置為255,將上衣標(biāo)簽的像素設(shè)置為0;然后在ResNet50?殘差網(wǎng)絡(luò)和Vision?Transformer視覺轉(zhuǎn)化器之間進(jìn)行特征信息交流,選擇Vision?Transformer視覺轉(zhuǎn)化器中的輸出分別傳輸?shù)絉esNet網(wǎng)絡(luò)中,具體先將Vision?Transformer視覺轉(zhuǎn)化器的輸出進(jìn)行形變,然后通過卷積、批量歸一化、relu激活以及線性插值的方式調(diào)整成與ResNet網(wǎng)絡(luò)的輸出格式相同的4D形狀,同時(shí),在ResNet網(wǎng)絡(luò)各層中引入通道注意力和空間注意力來聚焦于關(guān)鍵信息區(qū)域,然后將形變后的Vision?Transformer視覺轉(zhuǎn)化器的輸出與ResNet提取的特征在通道上進(jìn)行拼接處理,最后再通過卷積、批量歸一化和relu激活得到最終的前景特征,計(jì)算過程如下:
[0041] ,
[0042] ,
[0043] ,
[0044] ,
[0045] ,
[0046] ,