視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

專利號(hào)

CN115761273B

公開(kāi)日期

2023-04-25

申請(qǐng)人

蘇州浪潮智能科技有限公司（江蘇省蘇州市吳中經(jīng)濟(jì)開(kāi)發(fā)區(qū)郭巷街道官浦路1號(hào)9幢）

發(fā)明人

李曉川; 李仁剛; 郭振華; 趙雅倩; 范寶余

IPC分類

G06V10/70; G06V10/82; G06V10/80; G06N5/04; G06N3/0464

技術(shù)領(lǐng)域

注意力,答案,注意,問(wèn)句,文本,編碼,候選,圖像,修復(fù),權(quán)重值

地域： 江蘇省江蘇省蘇州市

摘要

本申請(qǐng)實(shí)施例提供了一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備，涉及計(jì)算機(jī)領(lǐng)域，其中，該方法包括：獲取目標(biāo)圖像的圖像檢測(cè)特征、目標(biāo)問(wèn)句的問(wèn)句文本特征、第一候選答案的第一答案文本特征；將圖像檢測(cè)特征、問(wèn)句文本特征和第一答案文本特征輸入到N層抗噪注意力模塊，得到目標(biāo)圖像的圖像注意力特征、目標(biāo)問(wèn)句的文本修復(fù)篩選特征、第一候選答案的答案文本空間特征；將問(wèn)句文本特征和文本修復(fù)篩選特征進(jìn)行疊加，得到目標(biāo)問(wèn)句的文本降噪特征；根據(jù)圖像注意力特征、文本降噪特征以及答案文本空間特征，確定目標(biāo)推理結(jié)果。

說(shuō)明書

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備技術(shù)領(lǐng)域 [0001] 本申請(qǐng)實(shí)施例涉及計(jì)算機(jī)領(lǐng)域，具體而言，涉及一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。背景技術(shù) [0002] 視覺(jué)常識(shí)推理（Visual?Commonsense?Reasoning，VCR）是根據(jù)指定輸入圖像，在4個(gè)備選項(xiàng)中選擇最可能成為輸入問(wèn)句答案的選項(xiàng)；并在額外4個(gè)選項(xiàng)中選擇支撐正確答案的證據(jù)。作為一項(xiàng)結(jié)合了視覺(jué)和文本的多模態(tài)任務(wù)，VCR的推理屬性符合多模態(tài)人工智能領(lǐng)域的發(fā)展趨勢(shì)，VCR通過(guò)綜合考慮圖像和文本中的要素，分析圖像中人類的情緒或行為意圖，對(duì)促進(jìn)人工智能人機(jī)交互、機(jī)器人等領(lǐng)域的發(fā)展具有積極意義。 [0003] 現(xiàn)有技術(shù)中，在視覺(jué)常識(shí)推理中，往往要求輸入的問(wèn)句文本中出現(xiàn)的信息與圖像內(nèi)容匹配，由于用戶在輸入問(wèn)句的時(shí)候不可避免地會(huì)出現(xiàn)口誤、比喻、或者主觀性詞語(yǔ)等等與客觀性偏差的情況，這些現(xiàn)象會(huì)導(dǎo)致文本中存在噪聲詞語(yǔ)，在這樣的情況下，可能會(huì)導(dǎo)致問(wèn)句文本與圖像無(wú)法嚴(yán)格匹配，進(jìn)而導(dǎo)致VCR模型的性能大幅度減少，導(dǎo)致VCR的推理結(jié)果的準(zhǔn)確率較低。 [0004] 針對(duì)相關(guān)技術(shù)中，在輸入的問(wèn)句文本存在噪聲詞語(yǔ)的情況下，推理結(jié)果的準(zhǔn)確性較低的技術(shù)問(wèn)題，尚未提出有效的解決方案。發(fā)明內(nèi)容 [0005] 本申請(qǐng)實(shí)施例提供了一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備，以至少解決相關(guān)技術(shù)中在輸入的問(wèn)句文本存在噪聲詞語(yǔ)的情況下，推理結(jié)果的準(zhǔn)確性較低的問(wèn)題。 [0006] 根據(jù)本申請(qǐng)的一個(gè)實(shí)施例，提供了一種視覺(jué)常識(shí)推理方法，包括：獲取目標(biāo)圖像的圖像檢測(cè)特征、目標(biāo)問(wèn)句的問(wèn)句文本特征、第一候選答案的第一答案文本特征；將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊，得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征，其中，N等于1或N為大于或等于2的正整數(shù)，所述文本修復(fù)篩選特征用于表征所述目標(biāo)問(wèn)句中與所述第一候選答案不相關(guān)的噪聲詞語(yǔ)；將所述問(wèn)句文本特征和所述文本修復(fù)篩選特征進(jìn)行疊加，得到所述目標(biāo)問(wèn)句的文本降噪特征；根據(jù)所述圖像注意力特征、所述文本降噪特征以及答案文本空間特征，確定目標(biāo)推理結(jié)果，其中，所述目標(biāo)推理結(jié)果用于表示所述第一候選答案是否是所述目標(biāo)問(wèn)句的答案。 [0007] 在一個(gè)示范性實(shí)施例中，所述將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊，得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征，包括：通過(guò)所述N層抗噪注意力模塊中的第i層抗噪注意力模塊執(zhí)行以下步驟，其中，i為大于或等于1、且小于或等于N的正整數(shù)，當(dāng)i等于1時(shí)，輸入所述第i層抗噪注意力模塊的圖像注意力特征為所述圖像檢測(cè)特征，輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征為所述問(wèn)句文本特征，輸入所述第i層抗噪注意力模塊的答案文本空間特征為所述第一答案文本特征，當(dāng)i大于1、且小于或等于N時(shí)，輸入所述第i層抗噪注意力模塊的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征分別為第i?1層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征；將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到第i層的第一自注意力編碼模塊，得到第i層的圖像編碼特征；將輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征輸入到第i層的第二自注意力編碼模塊，得到第i層的問(wèn)句編碼特征；將輸入所述第i層抗噪注意力模塊的答案文本空間特征輸入到第i層的第三自注意力編碼模塊，得到第i層的答案編碼特征；根據(jù)所述第i層的圖像編碼特征、所述第i層的問(wèn)句編碼特征、所述第i層的答案編碼特征，確定所述第i層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征；其中，當(dāng)i等于N時(shí)，所述目標(biāo)圖像的圖像注意力特征是所述第i層抗噪注意力模塊輸出的圖像注意力特征，所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征是所述第i層抗噪注意力模塊輸出的文本修復(fù)篩選特征，所述第一候選答案的答案文本空間特征是所述第i層抗噪注意力模塊輸出的答案文本空間特征。

權(quán)利要求

1 2 3 4 5 6 7 8 9 10

1.一種視覺(jué)常識(shí)推理方法，其特征在于，包括：獲取目標(biāo)圖像的圖像檢測(cè)特征、目標(biāo)問(wèn)句的問(wèn)句文本特征、第一候選答案的第一答案文本特征；將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊，得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征，其中，N等于1或N為大于或等于2的正整數(shù)，所述文本修復(fù)篩選特征用于表征所述目標(biāo)問(wèn)句中與所述第一候選答案不相關(guān)的噪聲詞語(yǔ)；將所述問(wèn)句文本特征和所述文本修復(fù)篩選特征進(jìn)行疊加，得到所述目標(biāo)問(wèn)句的文本降噪特征；根據(jù)所述圖像注意力特征、所述文本降噪特征以及答案文本空間特征，確定目標(biāo)推理結(jié)果，其中，所述目標(biāo)推理結(jié)果用于表示所述第一候選答案是否是所述目標(biāo)問(wèn)句的答案；其中，所述將所述圖像檢測(cè)特征、所述問(wèn)句文本特征和所述第一答案文本特征輸入到N層抗噪注意力模塊，得到所述目標(biāo)圖像的圖像注意力特征、所述目標(biāo)問(wèn)句的文本修復(fù)篩選特征、所述第一候選答案的答案文本空間特征，包括：通過(guò)所述N層抗噪注意力模塊中的第i層抗噪注意力模塊執(zhí)行以下步驟，其中，i為大于或等于1、且小于或等于N的正整數(shù)，當(dāng)i等于1時(shí)，輸入所述第i層抗噪注意力模塊的圖像注意力特征為所述圖像檢測(cè)特征，輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征為所述問(wèn)句文本特征，輸入所述第i層抗噪注意力模塊的答案文本空間特征為所述第一答案文本特征，當(dāng)i大于1、且小于或等于N時(shí)，輸入所述第i層抗噪注意力模塊的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征分別為第i?1層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征：將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到第i層的第一自注意力編碼模塊，得到第i層的圖像編碼特征；將輸入所述第i層抗噪注意力模塊的文本修復(fù)篩選特征輸入到第i層的第二自注意力編碼模塊，得到第i層的問(wèn)句編碼特征；將輸入所述第i層抗噪注意力模塊的答案文本空間特征輸入到第i層的第三自注意力編碼模塊，得到第i層的答案編碼特征；根據(jù)所述第i層的圖像編碼特征、所述第i層的問(wèn)句編碼特征、所述第i層的答案編碼特征，確定所述第i層抗噪注意力模塊輸出的圖像注意力特征、文本修復(fù)篩選特征和答案文本空間特征；

微信群二維碼

意見(jiàn)反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

摘要

說(shuō)明書

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：

視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：