視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
技術(shù)領(lǐng)域
[0001] 本申請(qǐng)實(shí)施例涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。
背景技術(shù)
[0002] 視覺(jué)常識(shí)推理(Visual?Commonsense?Reasoning,VCR)是根據(jù)指定輸入圖像,在4個(gè)備選項(xiàng)中選擇最可能成為輸入問(wèn)句答案的選項(xiàng);并在額外4個(gè)選項(xiàng)中選擇支撐正確答案的證據(jù)。作為一項(xiàng)結(jié)合了視覺(jué)和文本的多模態(tài)任務(wù),VCR的推理屬性符合多模態(tài)人工智能領(lǐng)域的發(fā)展趨勢(shì),VCR通過(guò)綜合考慮圖像和文本中的要素,分析圖像中人類的情緒或行為意圖,對(duì)促進(jìn)人工智能人機(jī)交互、機(jī)器人等領(lǐng)域的發(fā)展具有積極意義。
[0003] 現(xiàn)有技術(shù)中,在視覺(jué)常識(shí)推理中,往往要求輸入的問(wèn)句文本中出現(xiàn)的信息與圖像內(nèi)容匹配,由于用戶在輸入問(wèn)句的時(shí)候不可避免地會(huì)出現(xiàn)口誤、比喻、或者主觀性詞語(yǔ)等等與客觀性偏差的情況,這些現(xiàn)象會(huì)導(dǎo)致文本中存在噪聲詞語(yǔ),在這樣的情況下,可能會(huì)導(dǎo)致問(wèn)句文本與圖像無(wú)法嚴(yán)格匹配,進(jìn)而導(dǎo)致VCR模型的性能大幅度減少,導(dǎo)致VCR的推理結(jié)果的準(zhǔn)確率較低。
[0004] 針對(duì)相關(guān)技術(shù)中,在輸入的問(wèn)句文本存在噪聲詞語(yǔ)的情況下,推理結(jié)果的準(zhǔn)確性較低的技術(shù)問(wèn)題,尚未提出有效的解決方案。
發(fā)明內(nèi)容
[0005] 本申請(qǐng)實(shí)施例提供了一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,以至少解決相關(guān)技術(shù)中在輸入的問(wèn)句文本存在噪聲詞語(yǔ)的情況下,推理結(jié)果的準(zhǔn)確性較低的問(wèn)題。
[0006] 根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,提供了一種視覺(jué)常識(shí)推理方法,包括:獲取目標(biāo)圖像的圖像檢測(cè)特征、目標(biāo)問(wèn)句的問(wèn)句文本特征、第一候選答案的第一答案文本特征;將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊,得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征,其中,N等于1或N為大于或等于2的正整數(shù),所述文本修復(fù)篩選特征用于表征所述目標(biāo)問(wèn)句中與所述第一候選答案不相關(guān)的噪聲詞語(yǔ);將所述問(wèn)句文本特征和所述文本修復(fù)篩選特征進(jìn)行疊加,得到所述目標(biāo)問(wèn)句的文本降噪特征;根據(jù)所述圖像注意力特征、所述文本降噪特征以及答案文本空間特征,確定目標(biāo)推理結(jié)果,其中,所述目標(biāo)推理結(jié)果用于表示所述第一候選答案是否是所述目標(biāo)問(wèn)句的答案。
[0007] 在一個(gè)示范性實(shí)施例中,所述將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊,得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征,包括:通過(guò)所述N層抗噪注意力模塊中的第i層抗噪注意力模塊執(zhí)行以下步驟,其中,i為大于或等于1、且小于或等于N的正整數(shù),當(dāng)i等于1時(shí),輸入所述第i層抗噪注意力模塊的圖像注意力特征為所述圖像檢測(cè)特征,輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征為所述問(wèn)句文本特征,輸入所述第i層抗噪注意力模塊的答案文本空間特征為所述第一答案文本特征,當(dāng)i大于1、且小于或等于N時(shí),輸入所述第i層抗噪注意力模塊的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征分別為第i?1層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征;將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到第i層的第一自注意力編碼模塊,得到第i層的圖像編碼特征;將輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征輸入到第i層的第二自注意力編碼模塊,得到第i層的問(wèn)句編碼特征;將輸入所述第i層抗噪注意力模塊的答案文本空間特征輸入到第i層的第三自注意力編碼模塊,得到第i層的答案編碼特征;根據(jù)所述第i層的圖像編碼特征、所述第i層的問(wèn)句編碼特征、所述第i層的答案編碼特征,確定所述第i層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征;其中,當(dāng)i等于N時(shí),所述目標(biāo)圖像的圖像注意力特征是所述第i層抗噪注意力模塊輸出的圖像注意力特征,所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征是所述第i層抗噪注意力模塊輸出的文本修復(fù)篩選特征,所述第一候選答案的答案文本空間特征是所述第i層抗噪注意力模塊輸出的答案文本空間特征。