白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

視覺常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

專利號(hào)
CN115761273B
公開日期
2023-04-25
申請(qǐng)人
蘇州浪潮智能科技有限公司(江蘇省蘇州市吳中經(jīng)濟(jì)開發(fā)區(qū)郭巷街道官浦路1號(hào)9幢)
發(fā)明人
李曉川; 李仁剛; 郭振華; 趙雅倩; 范寶余
IPC分類
G06V10/70; G06V10/82; G06V10/80; G06N5/04; G06N3/0464
技術(shù)領(lǐng)域
注意力,答案,注意,問句,文本,編碼,候選,圖像,修復(fù),權(quán)重值
地域: 江蘇省 江蘇省蘇州市

摘要

本申請(qǐng)實(shí)施例提供了一種視覺常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,涉及計(jì)算機(jī)領(lǐng)域,其中,該方法包括:獲取目標(biāo)圖像的圖像檢測特征、目標(biāo)問句的問句文本特征、第一候選答案的第一答案文本特征;將圖像檢測特征、問句文本特征和第一答案文本特征輸入到N層抗噪注意力模塊,得到目標(biāo)圖像的圖像注意力特征、目標(biāo)問句的文本修復(fù)篩選特征、第一候選答案的答案文本空間特征;將問句文本特征和文本修復(fù)篩選特征進(jìn)行疊加,得到目標(biāo)問句的文本降噪特征;根據(jù)圖像注意力特征、文本降噪特征以及答案文本空間特征,確定目標(biāo)推理結(jié)果。

說明書

[0022] 在一個(gè)示范性實(shí)施例中,所述將所述第i層的第三跨注意力特征拆分成所述第i層抗噪注意力模塊輸出的圖像注意力特征和第i層的文本修復(fù)特征,包括:按照所述第i層的第一跨注意力特征和所述第i層的第二跨注意力特征之間的特征數(shù)量的第一比值,將所述第三跨注意力特征拆分成所述第i層抗噪注意力模塊輸出的圖像注意力特征和第i層的文本修復(fù)特征,其中,所述第i層抗噪注意力模塊輸出的圖像注意力特征和第i層的文本修復(fù)特征之間的特征數(shù)量的第二比值等于所述第一比值。 [0023] 在一個(gè)示范性實(shí)施例中,所述根據(jù)所述第i層的文本修復(fù)特征和所述第i層的答案編碼特征,確定所述第i層的文本修復(fù)特征對(duì)應(yīng)的權(quán)重值,包括:在所述第i層的文本修復(fù)特征包括維度為M×K的特征、所述第i層的答案編碼特征包括維度為H×K的特征的情況下,分別確定所述維度為M×K的特征中的各個(gè)維度為1×K的特征與所述維度為H×K的特征中的各個(gè)維度為1×K的特征之間的相似度,得到維度為M×H的相似度,其中,M、H、K均為大于或等于2的正整數(shù);根據(jù)維度為M×H的相似度,確定與維度為M×K的特征對(duì)應(yīng)的維度為M×1的權(quán)重值,其中,所述第i層的文本修復(fù)特征對(duì)應(yīng)的權(quán)重值包括所述維度為M×1的權(quán)重值。 [0024] 在一個(gè)示范性實(shí)施例中,所述根據(jù)維度為M×H的相似度,確定與維度為M×K的特征對(duì)應(yīng)的維度為M×1的權(quán)重值,包括:在維度為M×H的相似度中的各個(gè)維度為1×H的相似度中選擇取值最大的相似度,得到維度為M×1的相似度;在所述M×1的相似度中查找取值大于或等于預(yù)設(shè)閾值的相似度;在所述M×1的相似度中查找到取值大于或等于預(yù)設(shè)閾值的相似度的情況下,將查找到的取值大于或等于所述預(yù)設(shè)閾值的相似度設(shè)置為0,得到所述維度為M×1的權(quán)重值,或,將查找到的取值大于或等于預(yù)設(shè)閾值的相似度中的各個(gè)相似度的取值設(shè)置為所述各個(gè)相似度的取值與1之間的差值,得到所述維度為M×1的權(quán)重值。 [0025] 在一個(gè)示范性實(shí)施例中,所述根據(jù)所述第i層的文本修復(fù)特征對(duì)應(yīng)的權(quán)重值與所述第i層的文本修復(fù)特征,確定所述第i層抗噪注意力模塊輸出的文本修復(fù)篩選特征,包括: 在所述第i層的文本修復(fù)特征包括維度為M×K的特征、所述第i層的文本修復(fù)特征對(duì)應(yīng)的權(quán)重值包括維度為M×1的權(quán)重值的情況下,將所述維度為M×1的權(quán)重值與所述維度為M×K的特征對(duì)應(yīng)相乘,得到維度為M×K的加權(quán)特征,其中,所述第i層抗噪注意力模塊輸出的文本修復(fù)篩選特征包括所述維度為M×K的加權(quán)特征。 [0026] 在一個(gè)示范性實(shí)施例中,所述將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到第i層的第一自注意力編碼模塊,得到第i層的圖像編碼特征,包括:將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到所述第i層的第一自注意力編碼模塊中的第一自注意力單元,得到第i層的第一候選自注意力特征,其中,所述第一自注意力單元用于根據(jù)輸入所述第i層抗噪注意力模塊的圖像注意力特征,確定輸入所述第i層抗噪注意力模塊的圖像注意力特征對(duì)應(yīng)的權(quán)重值,并根據(jù)所述輸入所述第i層抗噪注意力模塊的圖像注意力特征對(duì)應(yīng)的權(quán)重值以及輸入所述第i層抗噪注意力模塊的圖像注意力特征,確定所述第i層的第一候選自注意力特征;將所述第i層的第一候選自注意力特征輸入所述第i層的第一自注意力編碼模塊中的第四隨機(jī)擦除單元,得到第i層的第四擦除注意力特征,其中,所述第四隨機(jī)擦除單元用于對(duì)所述第i層的第一候選自注意力特征中的部分特征值進(jìn)行置 0,得到所述第i層的第四擦除注意力特征;將所述第i層的第四擦除注意力特征輸入所述第i層的第一自注意力編碼模塊中的第四歸一化單元,得到所述第i層的第四歸一化特征,其中,所述第四歸一化單元用于對(duì)所述第i層的第四擦除注意力特征中的特征值進(jìn)行歸一化處理,得到所述第i層的第四歸一化特征;將所述輸入所述第i層抗噪注意力模塊的圖像注意力特征和所述第i層的第四歸一化特征進(jìn)行疊加,得到第i層的圖像編碼特征。 [0027] 在一個(gè)示范性實(shí)施例中,所述將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到所述第i層的第一自注意力編碼模塊中的第一自注意力單元,得到第i層的第一候選自注意力特征,包括:通過以下公式確定所述第i層的第一候選自注意力特征: [0028] [0029] 其中, 表示所述第i層的第一候選自注意力特征,表示所述輸入所述第i層抗噪注意力模塊的圖像注意力特征, 、 、 表示預(yù)先確定的轉(zhuǎn)移矩陣, [0030] 表示所述輸入所述第i層抗噪注意力模塊的圖像注意 力特征對(duì)應(yīng)的權(quán)重值。

權(quán)利要求

1 2 3 4 5 6 7 8 9 10
將所述第i層的問句編碼特征和所述第i層的圖像編碼特征輸入到所述第i層的第二跨注意力編碼模塊中的第二跨注意力單元,得到第i層的第二候選跨注意力特征,其中,所述第二跨注意力單元用于根據(jù)所述第i層的問句編碼特征和所述第i層的圖像編碼特征,確定所述第i層的圖像編碼特征對(duì)應(yīng)的權(quán)重值,并根據(jù)所述第i層的圖像編碼特征對(duì)應(yīng)的權(quán)重值以及所述第i層的圖像編碼特征,確定所述第i層的第二候選跨注意力特征; 將所述第i層的第二候選跨注意力特征輸入所述第i層的第二跨注意力編碼模塊中的第二隨機(jī)擦除單元,得到第i層的第二擦除注意力特征,其中,所述第二隨機(jī)擦除單元用于對(duì)所述第i層的第二候選跨注意力特征中的部分特征值進(jìn)行置0,得到所述第i層的第二擦除注意力特征; 將所述第i層的第二擦除注意力特征輸入所述第i層的第二跨注意力編碼模塊中的第二歸一化單元,得到所述第i層的第二歸一化特征,其中,所述第二歸一化單元用于對(duì)所述第i層的第二擦除注意力特征中的特征值進(jìn)行歸一化處理,得到所述第i層的第二歸一化特征; 將所述第i層的問句編碼特征和所述第i層的第二歸一化特征進(jìn)行疊加,得到所述第i層的第二跨注意力特征。 6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將所述第i層的問句編碼特征和所述第i層的圖像編碼特征輸入到所述第i層的第二跨注意力編碼模塊中的第二跨注意力單元,得到第i層的第二候選跨注意力特征,包括: 通過以下公式確定所述第i層的第二候選跨注意力特征: , 其中, 表示所述第i層的第二候選跨注意力特征, 表示所述第i層 的圖像編碼特征, 表示所述第i層的問句編碼特征, 表示預(yù)先確定的 轉(zhuǎn)移矩陣, 表示所述第i層的圖像編碼特征對(duì)應(yīng)的權(quán)重值。 7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述第i層的目標(biāo)拼接特征和所述第i層的答案編碼特征輸入第i層的第三跨注意力編碼模塊,得到第i層的第三跨注意力特征,包括: 將所述第i層的目標(biāo)拼接特征和所述第i層的答案編碼特征輸入到所述第i層的第三跨注意力編碼模塊中的第三跨注意力單元,得到第i層的第三候選跨注意力特征,其中,所述第三跨注意力單元用于根據(jù)所述第i層的目標(biāo)拼接特征和所述第i層的答案編碼特征,確定所述第i層的目標(biāo)拼接特征對(duì)應(yīng)的權(quán)重值,并根據(jù)所述第i層的目標(biāo)拼接特征對(duì)應(yīng)的權(quán)重值以及所述第i層的目標(biāo)拼接特征,確定所述第i層的第三候選跨注意力特征;
微信群二維碼
意見反饋