白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

視覺常識推理方法和裝置、存儲介質(zhì)及電子設(shè)備

專利號
CN115761273B
公開日期
2023-04-25
申請人
蘇州浪潮智能科技有限公司(江蘇省蘇州市吳中經(jīng)濟(jì)開發(fā)區(qū)郭巷街道官浦路1號9幢)
發(fā)明人
李曉川; 李仁剛; 郭振華; 趙雅倩; 范寶余
IPC分類
G06V10/70; G06V10/82; G06V10/80; G06N5/04; G06N3/0464
技術(shù)領(lǐng)域
注意力,答案,注意,問句,文本,編碼,候選,圖像,修復(fù),權(quán)重值
地域: 江蘇省 江蘇省蘇州市

摘要

本申請實施例提供了一種視覺常識推理方法和裝置、存儲介質(zhì)及電子設(shè)備,涉及計算機(jī)領(lǐng)域,其中,該方法包括:獲取目標(biāo)圖像的圖像檢測特征、目標(biāo)問句的問句文本特征、第一候選答案的第一答案文本特征;將圖像檢測特征、問句文本特征和第一答案文本特征輸入到N層抗噪注意力模塊,得到目標(biāo)圖像的圖像注意力特征、目標(biāo)問句的文本修復(fù)篩選特征、第一候選答案的答案文本空間特征;將問句文本特征和文本修復(fù)篩選特征進(jìn)行疊加,得到目標(biāo)問句的文本降噪特征;根據(jù)圖像注意力特征、文本降噪特征以及答案文本空間特征,確定目標(biāo)推理結(jié)果。

說明書

[0101] 將第1層的問句編碼特征和第1層的圖像編碼特征輸入到第1層的第二跨注意力編碼模塊204?5中的第二跨注意力單元204?5?1,得到第1層的第二候選跨注意力特征。將第1層的第二候選跨注意力特征輸入第1層的第二跨注意力編碼模塊204?5中的第二隨機(jī)擦除單元204?5?2,得到第1層的第二擦除注意力特征。將第1層的第二擦除注意力特征輸入第1層的第二跨注意力編碼模塊204?5中的第二歸一化單元204?5?3,得到第1層的第二歸一化特征。將第1層的問句編碼特征和第1層的第二歸一化特征進(jìn)行疊加,得到第1層的第二跨注意力特征。 [0102] 在一個示范性實施例中,可以但不限于通過以下公式確定所述第i層的第二候選跨注意力特征: [0103] [0104] 其中, 表示所述第i層的第二候選跨注意力特征, 表示所述第i 層的圖像編碼特征, 表示所述第i層的問句編碼特征, 表示預(yù)先確 定的轉(zhuǎn)移矩陣, 表示所述第i層的圖像編碼特征對應(yīng)的權(quán)重值。 [0105] 在一個示范性實施例中,可以但不限于通過以下方式得到第i層的第三跨注意力特征:將所述第i層的目標(biāo)拼接特征和所述第i層的答案編碼特征輸入到所述第i層的第三跨注意力編碼模塊中的第三跨注意力單元,得到第i層的第三候選跨注意力特征,其中,所述第三跨注意力單元用于根據(jù)所述第i層的目標(biāo)拼接特征和所述第i層的答案編碼特征,確定所述第i層的目標(biāo)拼接特征對應(yīng)的權(quán)重值,并根據(jù)所述第i層的目標(biāo)拼接特征對應(yīng)的權(quán)重值以及所述第i層的目標(biāo)拼接特征,確定所述第i層的第三候選跨注意力特征;將所述第i層的第三候選跨注意力特征輸入所述第i層的第三跨注意力編碼模塊中的第三隨機(jī)擦除單元,得到第i層的第三擦除注意力特征,其中,所述第三隨機(jī)擦除單元用于對所述第i層的第三候選跨注意力特征中的部分特征值進(jìn)行置0,得到所述第i層的第三擦除注意力特征;將所述第i層的第三擦除注意力特征輸入所述第i層的第三跨注意力編碼模塊中的第三歸一化單元,得到所述第i層的第三歸一化特征,其中,所述第三歸一化單元用于對所述第i層的第三擦除注意力特征中的特征值進(jìn)行歸一化處理,得到所述第i層的第三歸一化特征;將所述第i層的目標(biāo)拼接特征和所述第i層的第三歸一化特征進(jìn)行疊加,得到所述第i層的第三跨注意力特征。 [0106] 可選的,在本實施例中,可以但不限于以第1層抗噪注意力模塊204中的第三跨注意力編碼模塊204?6為例,對本申請實施例中的得到第i層的第三跨注意力特征的過程進(jìn)行解釋說明,可以但不限于適用于本申請實施例。圖12是根據(jù)本申請實施例的一種確定第三跨注意力特征的示意圖,如圖12所示,第1層抗噪注意力模塊204中的第三跨注意力編碼模塊204?6包括第三跨注意力單元204?6?1、第三隨機(jī)擦除單元204?6?2和第三歸一化單元 204?6?3。 [0107] 將第1層的目標(biāo)拼接特征和第1層的答案編碼特征輸入到第1層的第三跨注意力編碼模塊204?6中的第三跨注意力單元204?6?1,得到第1層的第三候選跨注意力特征。將第1層的第三候選跨注意力特征輸入第1層的第三跨注意力編碼模塊204?6中的第三隨機(jī)擦除單元204?6?2,得到第1層的第三擦除注意力特征。將第1層的第三擦除注意力特征輸入第1層的第三跨注意力編碼模塊中的第三歸一化單元204?6?3,得到第1層的第三歸一化特征。 將第1層的目標(biāo)拼接特征和第1層的第三歸一化特征進(jìn)行疊加,得到第1層的第三跨注意力特征。 [0108] 在一個示范性實施例中,可以但不限于通過以下公式確定所述第i層的第三候選跨注意力特征: [0109] [0110] 其中, 表示所述第i層的第三候選跨注意力特征, 表示所述 第i層的目標(biāo)拼接特征, 表示所述第i層的答案編碼特征, 表示預(yù)先確定 的轉(zhuǎn)移矩陣, 表示所述第i層的目標(biāo)拼接特征對應(yīng)的權(quán)重值。 [0111] 在一個示范性實施例中,可以但不限于通過以下方式確定第i層抗噪注意力模塊輸出的圖像注意力特征和文本修復(fù)篩選特征:將所述第i層的第三跨注意力特征拆分成所述第i層抗噪注意力模塊輸出的圖像注意力特征和第i層的文本修復(fù)特征;根據(jù)所述第i層的文本修復(fù)特征和所述第i層的答案編碼特征,確定所述第i層的文本修復(fù)特征對應(yīng)的權(quán)重值;根據(jù)所述第i層的文本修復(fù)特征對應(yīng)的權(quán)重值與所述第i層的文本修復(fù)特征,確定所述第i層抗噪注意力模塊輸出的文本修復(fù)篩選特征。

權(quán)利要求

1 2 3 4 5 6 7 8 9 10
微信群二維碼
意見反饋