[0148] 然后將第一跨注意力特征和第二跨注意力特征進行拼接合并,得到一個綜合特征(即上述的目標拼接特征),并與答案空間特征 進行跨注意力計算??梢缘幌抻趯⒕C合特征 和答案空間特征 輸入第三跨注意力編碼模塊中的跨注意力單元(即上述的第三跨注意力單元)、隨機擦除單元(即上述的第三隨機擦除單元)、歸一化單元(即上述的第三歸一化單元)中,并將歸一化單元輸出的結果(即上述的第三歸一化特征)疊加綜合特征 ,得到第三跨注意力特征。
[0149] 然后可以但不限于將第三跨注意力特征拆分為第i層抗噪注意力模塊的圖像注意力特征和文本修復向量(即上述的文本修復特征),然后結合詞頻約束矩陣和輸入答案空間特征,確定文本修復篩選向量(即上述的文本修復篩選特征)。并將輸入答案空間特征作為第i層抗噪注意力模塊輸出的答案空間特征(即上述的答案文本空間特征)。
[0150] 然后,對于文本修復向量進行篩選操作,圖17是根據本申請實施例的一種詞頻約束的示意圖,如圖17所示,首先計算文本修復向量和答案空間特征的余弦相似度,然后求其在答案空間維度的最大值,得到文本余弦相似度,該向量表示每個問句文本特征與答案空間的最大相似度。然后將該相似度加載到文本修復向量中??梢缘幌抻趯⑾嗨贫雀哂陂撝担瓷鲜龅念A設閾值)的擦除為0向量,得到文本修復特征對應的權重值,或者將文本修復向量與1與計算出來的相似度的差值相乘。可以獲得文本修復篩選向量(即上述的文本修復篩選特征),得到文本修復特征對應的權重值。
[0151] 通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到根據上述實施例的方法可借助軟件加必需的通用硬件平臺的方式來實現,當然也可以通過硬件,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質(如ROM/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設備(可以是手機,計算機,服務器,或者網絡設備等)執(zhí)行本申請各個實施例所述的方法。
[0152] 在本實施例中還提供了一種視覺常識推理裝置,該裝置用于實現上述實施例及優(yōu)選實施方式,已經進行過說明的不再贅述。如以下所使用的,術語“模塊”可以實現預定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較佳地以軟件來實現,但是硬件,或者軟件和硬件的組合的實現也是可能并被構想的。
[0153] 圖18是根據本申請實施例的視覺常識推理裝置的結構框圖,如圖18所示,該視覺常識推理裝置包括:
[0154] 第一獲取模塊1802,用于獲取目標圖像的圖像檢測特征、目標問句的問句文本特征、第一候選答案的第一答案文本特征;
[0155] N層抗噪注意力模塊1804,用于根據所述圖像檢測特征、所述問句文本特征和所述第一答案文本特征,確定所述目標圖像的圖像注意力特征、所述目標問句的文本修復篩選特征、所述第一候選答案的答案文本空間特征,其中,N等于1或N為大于或等于2的正整數,所述文本修復篩選特征用于表征所述目標問句中與所述第一候選答案不相關的噪聲詞語;
[0156] 疊加模塊1806,用于將所述問句文本特征和所述文本修復篩選特征進行疊加,得到所述目標問句的文本降噪特征;
[0157] 推理模塊1808,用于根據所述圖像注意力特征、所述文本降噪特征以及答案文本空間特征,確定目標推理結果,其中,所述目標推理結果用于表示所述第一候選答案是否是所述目標問句的答案。
[0158] 通過上述裝置,由于通過多層抗噪注意力模塊對輸入的問句文本中與答案文本不相關的噪聲詞語進行了篩選,并根據篩選后的噪聲詞語對上述問句文本進行了降噪,提升了問句文本和答案文本之間的相關性。因此,可以解決在輸入的問句文本存在噪聲詞語的情況下,推理結果的準確性較低的問題,達到在輸入的問句文本存在噪聲詞語的情況下,提升推理結果的準確性的效果。
[0159] 在一個示范性實施例中,所述N層抗噪注意力模塊中的第i層抗噪注意力模塊,包括:
[0160] 第i層的第一自注意力編碼模塊,用于根據輸入所述第i層抗噪注意力模塊的圖像注意力特征,確定第i層的圖像編碼特征;
[0161] 第i層的第二自注意力編碼模塊,用于根據輸入所述第i層抗噪注意力模塊的文本修復篩選特征輸入到,得到第i層的問句編碼特征;將輸入所述第i層抗噪注意力模塊的答案文本空間特征輸入到第i層的第三自注意力編碼模塊,得到第i層的答案編碼特征;
[0162] 第i層的抗噪注意力模塊,用于根據所述第i層的圖像編碼特征、所述第i層的問句編碼特征、所述第i層的答案編碼特征,確定所述第i層抗噪注意力模塊輸出的圖像注意力特征、文本修復篩選特征和答案文本空間特征;