白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

專利號(hào)
CN115761273B
公開(kāi)日期
2023-04-25
申請(qǐng)人
蘇州浪潮智能科技有限公司(江蘇省蘇州市吳中經(jīng)濟(jì)開(kāi)發(fā)區(qū)郭巷街道官浦路1號(hào)9幢)
發(fā)明人
李曉川; 李仁剛; 郭振華; 趙雅倩; 范寶余
IPC分類
G06V10/70; G06V10/82; G06V10/80; G06N5/04; G06N3/0464
技術(shù)領(lǐng)域
注意力,答案,注意,問(wèn)句,文本,編碼,候選,圖像,修復(fù),權(quán)重值
地域: 江蘇省 江蘇省蘇州市

摘要

本申請(qǐng)實(shí)施例提供了一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,涉及計(jì)算機(jī)領(lǐng)域,其中,該方法包括:獲取目標(biāo)圖像的圖像檢測(cè)特征、目標(biāo)問(wèn)句的問(wèn)句文本特征、第一候選答案的第一答案文本特征;將圖像檢測(cè)特征、問(wèn)句文本特征和第一答案文本特征輸入到N層抗噪注意力模塊,得到目標(biāo)圖像的圖像注意力特征、目標(biāo)問(wèn)句的文本修復(fù)篩選特征、第一候選答案的答案文本空間特征;將問(wèn)句文本特征和文本修復(fù)篩選特征進(jìn)行疊加,得到目標(biāo)問(wèn)句的文本降噪特征;根據(jù)圖像注意力特征、文本降噪特征以及答案文本空間特征,確定目標(biāo)推理結(jié)果。

說(shuō)明書

視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備 技術(shù)領(lǐng)域 [0001] 本申請(qǐng)實(shí)施例涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。 背景技術(shù) [0002] 視覺(jué)常識(shí)推理(Visual?Commonsense?Reasoning,VCR)是根據(jù)指定輸入圖像,在4個(gè)備選項(xiàng)中選擇最可能成為輸入問(wèn)句答案的選項(xiàng);并在額外4個(gè)選項(xiàng)中選擇支撐正確答案的證據(jù)。作為一項(xiàng)結(jié)合了視覺(jué)和文本的多模態(tài)任務(wù),VCR的推理屬性符合多模態(tài)人工智能領(lǐng)域的發(fā)展趨勢(shì),VCR通過(guò)綜合考慮圖像和文本中的要素,分析圖像中人類的情緒或行為意圖,對(duì)促進(jìn)人工智能人機(jī)交互、機(jī)器人等領(lǐng)域的發(fā)展具有積極意義。 [0003] 現(xiàn)有技術(shù)中,在視覺(jué)常識(shí)推理中,往往要求輸入的問(wèn)句文本中出現(xiàn)的信息與圖像內(nèi)容匹配,由于用戶在輸入問(wèn)句的時(shí)候不可避免地會(huì)出現(xiàn)口誤、比喻、或者主觀性詞語(yǔ)等等與客觀性偏差的情況,這些現(xiàn)象會(huì)導(dǎo)致文本中存在噪聲詞語(yǔ),在這樣的情況下,可能會(huì)導(dǎo)致問(wèn)句文本與圖像無(wú)法嚴(yán)格匹配,進(jìn)而導(dǎo)致VCR模型的性能大幅度減少,導(dǎo)致VCR的推理結(jié)果的準(zhǔn)確率較低。 [0004] 針對(duì)相關(guān)技術(shù)中,在輸入的問(wèn)句文本存在噪聲詞語(yǔ)的情況下,推理結(jié)果的準(zhǔn)確性較低的技術(shù)問(wèn)題,尚未提出有效的解決方案。 發(fā)明內(nèi)容 [0005] 本申請(qǐng)實(shí)施例提供了一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,以至少解決相關(guān)技術(shù)中在輸入的問(wèn)句文本存在噪聲詞語(yǔ)的情況下,推理結(jié)果的準(zhǔn)確性較低的問(wèn)題。 [0006] 根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,提供了一種視覺(jué)常識(shí)推理方法,包括:獲取目標(biāo)圖像的圖像檢測(cè)特征、目標(biāo)問(wèn)句的問(wèn)句文本特征、第一候選答案的第一答案文本特征;將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊,得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征,其中,N等于1或N為大于或等于2的正整數(shù),所述文本修復(fù)篩選特征用于表征所述目標(biāo)問(wèn)句中與所述第一候選答案不相關(guān)的噪聲詞語(yǔ);將所述問(wèn)句文本特征和所述文本修復(fù)篩選特征進(jìn)行疊加,得到所述目標(biāo)問(wèn)句的文本降噪特征;根據(jù)所述圖像注意力特征、所述文本降噪特征以及答案文本空間特征,確定目標(biāo)推理結(jié)果,其中,所述目標(biāo)推理結(jié)果用于表示所述第一候選答案是否是所述目標(biāo)問(wèn)句的答案。 [0007] 在一個(gè)示范性實(shí)施例中,所述將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊,得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征,包括:通過(guò)所述N層抗噪注意力模塊中的第i層抗噪注意力模塊執(zhí)行以下步驟,其中,i為大于或等于1、且小于或等于N的正整數(shù),當(dāng)i等于1時(shí),輸入所述第i層抗噪注意力模塊的圖像注意力特征為所述圖像檢測(cè)特征,輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征為所述問(wèn)句文本特征,輸入所述第i層抗噪注意力模塊的答案文本空間特征為所述第一答案文本特征,當(dāng)i大于1、且小于或等于N時(shí),輸入所述第i層抗噪注意力模塊的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征分別為第i?1層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征;將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到第i層的第一自注意力編碼模塊,得到第i層的圖像編碼特征;將輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征輸入到第i層的第二自注意力編碼模塊,得到第i層的問(wèn)句編碼特征;將輸入所述第i層抗噪注意力模塊的答案文本空間特征輸入到第i層的第三自注意力編碼模塊,得到第i層的答案編碼特征;根據(jù)所述第i層的圖像編碼特征、所述第i層的問(wèn)句編碼特征、所述第i層的答案編碼特征,確定所述第i層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征;其中,當(dāng)i等于N時(shí),所述目標(biāo)圖像的圖像注意力特征是所述第i層抗噪注意力模塊輸出的圖像注意力特征,所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征是所述第i層抗噪注意力模塊輸出的文本修復(fù)篩選特征,所述第一候選答案的答案文本空間特征是所述第i層抗噪注意力模塊輸出的答案文本空間特征。

權(quán)利要求

1 2 3 4 5 6 7 8 9 10
1.一種視覺(jué)常識(shí)推理方法,其特征在于,包括: 獲取目標(biāo)圖像的圖像檢測(cè)特征、目標(biāo)問(wèn)句的問(wèn)句文本特征、第一候選答案的第一答案文本特征; 將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊,得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征,其中,N等于1或N為大于或等于2的正整數(shù),所述文本修復(fù)篩選特征用于表征所述目標(biāo)問(wèn)句中與所述第一候選答案不相關(guān)的噪聲詞語(yǔ); 將所述問(wèn)句文本特征和所述文本修復(fù)篩選特征進(jìn)行疊加,得到所述目標(biāo)問(wèn)句的文本降噪特征; 根據(jù)所述圖像注意力特征、所述文本降噪特征以及答案文本空間特征,確定目標(biāo)推理結(jié)果,其中,所述目標(biāo)推理結(jié)果用于表示所述第一候選答案是否是所述目標(biāo)問(wèn)句的答案; 其中,所述將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊,得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征,包括: 通過(guò)所述N層抗噪注意力模塊中的第i層抗噪注意力模塊執(zhí)行以下步驟,其中,i為大于或等于1、且小于或等于N的正整數(shù),當(dāng)i等于1時(shí),輸入所述第i層抗噪注意力模塊的圖像注意力特征為所述圖像檢測(cè)特征,輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征為所述問(wèn)句文本特征,輸入所述第i層抗噪注意力模塊的答案文本空間特征為所述第一答案文本特征,當(dāng)i大于1、且小于或等于N時(shí),輸入所述第i層抗噪注意力模塊的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征分別為第i?1層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征: 將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到第i層的第一自注意力編碼模塊,得到第i層的圖像編碼特征;將輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征輸入到第i層的第二自注意力編碼模塊,得到第i層的問(wèn)句編碼特征;將輸入所述第i層抗噪注意力模塊的答案文本空間特征輸入到第i層的第三自注意力編碼模塊,得到第i層的答案編碼特征; 根據(jù)所述第i層的圖像編碼特征、所述第i層的問(wèn)句編碼特征、所述第i層的答案編碼特征,確定所述第i層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征;
微信群二維碼
意見(jiàn)反饋