白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

視覺常識推理方法和裝置、存儲介質及電子設備

專利號
CN115761273B
公開日期
2023-04-25
申請人
蘇州浪潮智能科技有限公司(江蘇省蘇州市吳中經濟開發(fā)區(qū)郭巷街道官浦路1號9幢)
發(fā)明人
李曉川; 李仁剛; 郭振華; 趙雅倩; 范寶余
IPC分類
G06V10/70; G06V10/82; G06V10/80; G06N5/04; G06N3/0464
技術領域
注意力,答案,注意,問句,文本,編碼,候選,圖像,修復,權重值
地域: 江蘇省 江蘇省蘇州市

摘要

本申請實施例提供了一種視覺常識推理方法和裝置、存儲介質及電子設備,涉及計算機領域,其中,該方法包括:獲取目標圖像的圖像檢測特征、目標問句的問句文本特征、第一候選答案的第一答案文本特征;將圖像檢測特征、問句文本特征和第一答案文本特征輸入到N層抗噪注意力模塊,得到目標圖像的圖像注意力特征、目標問句的文本修復篩選特征、第一候選答案的答案文本空間特征;將問句文本特征和文本修復篩選特征進行疊加,得到目標問句的文本降噪特征;根據圖像注意力特征、文本降噪特征以及答案文本空間特征,確定目標推理結果。

說明書

[0013] 在一個示范性實施例中,所述將所述第i層的問句編碼特征和所述第i層的圖像編碼特征輸入第i層的第二跨注意力編碼模塊,得到第i層的第二跨注意力特征,包括:將所述第i層的問句編碼特征和所述第i層的圖像編碼特征輸入到所述第i層的第二跨注意力編碼模塊中的第二跨注意力單元,得到第i層的第二候選跨注意力特征,其中,所述第二跨注意力單元用于根據所述第i層的問句編碼特征和所述第i層的圖像編碼特征,確定所述第i層的圖像編碼特征對應的權重值,并根據所述第i層的圖像編碼特征對應的權重值以及所述第i層的圖像編碼特征,確定所述第i層的第二候選跨注意力特征;將所述第i層的第二候選跨注意力特征輸入所述第i層的第二跨注意力編碼模塊中的第二隨機擦除單元,得到第i層的第二擦除注意力特征,其中,所述第二隨機擦除單元用于對所述第i層的第二候選跨注意力特征中的部分特征值進行置0,得到所述第i層的第二擦除注意力特征;將所述第i層的第二擦除注意力特征輸入所述第i層的第二跨注意力編碼模塊中的第二歸一化單元,得到所述第i層的第二歸一化特征,其中,所述第二歸一化單元用于對所述第i層的第二擦除注意力特征中的特征值進行歸一化處理,得到所述第i層的第二歸一化特征;將所述第i層的問句編碼特征和所述第i層的第二歸一化特征進行疊加,得到所述第i層的第二跨注意力特征。 [0014] 在一個示范性實施例中,所述將所述第i層的問句編碼特征和所述第i層的圖像編碼特征輸入到所述第i層的第二跨注意力編碼模塊中的第二跨注意力單元,得到第i層的第二候選跨注意力特征,包括:通過以下公式確定所述第i層的第二候選跨注意力特征: [0015] [0016] 其中, 表示所述第i層的第二候選跨注意力特征, 表示所述第i 層的圖像編碼特征, 表示所述第i層的問句編碼特征, 表示預先確 定的轉移矩陣, 表示所述第i層的圖像編碼特征對應的權重值。 [0017] 在一個示范性實施例中,所述將所述第i層的目標拼接特征和所述第i層的答案編碼特征輸入第i層的第三跨注意力編碼模塊,得到第i層的第三跨注意力特征,包括:將所述第i層的目標拼接特征和所述第i層的答案編碼特征輸入到所述第i層的第三跨注意力編碼模塊中的第三跨注意力單元,得到第i層的第三候選跨注意力特征,其中,所述第三跨注意力單元用于根據所述第i層的目標拼接特征和所述第i層的答案編碼特征,確定所述第i層的目標拼接特征對應的權重值,并根據所述第i層的目標拼接特征對應的權重值以及所述第i層的目標拼接特征,確定所述第i層的第三候選跨注意力特征;將所述第i層的第三候選跨注意力特征輸入所述第i層的第三跨注意力編碼模塊中的第三隨機擦除單元,得到第i層的第三擦除注意力特征,其中,所述第三隨機擦除單元用于對所述第i層的第三候選跨注意力特征中的部分特征值進行置0,得到所述第i層的第三擦除注意力特征;將所述第i層的第三擦除注意力特征輸入所述第i層的第三跨注意力編碼模塊中的第三歸一化單元,得到所述第i層的第三歸一化特征,其中,所述第三歸一化單元用于對所述第i層的第三擦除注意力特征中的特征值進行歸一化處理,得到所述第i層的第三歸一化特征;將所述第i層的目標拼接特征和所述第i層的第三歸一化特征進行疊加,得到所述第i層的第三跨注意力特征。 [0018] 在一個示范性實施例中,所述將所述第i層的目標拼接特征和所述第i層的答案編碼特征輸入到所述第i層的第三跨注意力編碼模塊中的第三跨注意力單元,得到第i層的第三候選跨注意力特征,包括:通過以下公式確定所述第i層的第三候選跨注意力特征: [0019] [0020] 其中, 表示所述第i層的第三候選跨注意力特征, 表示所述 第i層的目標拼接特征, 表示所述第i層的答案編碼特征, 表示預先確定 的轉移矩陣, 表示所述第i層的目標拼接特征對應的權重值。 [0021] 在一個示范性實施例中,所述根據所述第i層的第三跨注意力特征和所述第i層的答案編碼特征,確定所述第i層抗噪注意力模塊輸出的圖像注意力特征和文本修復篩選特征,包括:將所述第i層的第三跨注意力特征拆分成所述第i層抗噪注意力模塊輸出的圖像注意力特征和第i層的文本修復特征;根據所述第i層的文本修復特征和所述第i層的答案編碼特征,確定所述第i層的文本修復特征對應的權重值;根據所述第i層的文本修復特征對應的權重值與所述第i層的文本修復特征,確定所述第i層抗噪注意力模塊輸出的文本修復篩選特征。

權利要求

1 2 3 4 5 6 7 8 9 10
3.根據權利要求2所述的方法,其特征在于,所述將所述第i層的圖像編碼特征和所述第i層的問句編碼特征輸入第i層的第一跨注意力編碼模塊,得到第i層的第一跨注意力特征,包括: 將所述第i層的圖像編碼特征和所述第i層的問句編碼特征輸入到所述第i層的第一跨注意力編碼模塊中的第一跨注意力單元,得到第i層的第一候選跨注意力特征,其中,所述第一跨注意力單元用于根據所述第i層的圖像編碼特征和所述第i層的問句編碼特征,確定所述第i層的問句編碼特征對應的權重值,并根據所述第i層的問句編碼特征對應的權重值以及所述第i層的問句編碼特征,確定所述第i層的第一候選跨注意力特征; 將所述第i層的第一候選跨注意力特征輸入所述第i層的第一跨注意力編碼模塊中的第一隨機擦除單元,得到第i層的第一擦除注意力特征,其中,所述第一隨機擦除單元用于對所述第i層的第一候選跨注意力特征中的部分特征值進行置0,得到所述第i層的第一擦除注意力特征; 將所述第i層的第一擦除注意力特征輸入所述第i層的第一跨注意力編碼模塊中的第一歸一化單元,得到所述第i層的第一歸一化特征,其中,所述第一歸一化單元用于對所述第i層的第一擦除注意力特征中的特征值進行歸一化處理,得到所述第i層的第一歸一化特征; 將所述第i層的圖像編碼特征和所述第i層的第一歸一化特征進行疊加,得到所述第i層的第一跨注意力特征。 4.根據權利要求3所述的方法,其特征在于,所述將所述第i層的圖像編碼特征和所述第i層的問句編碼特征輸入到所述第i層的第一跨注意力編碼模塊中的第一跨注意力單元,得到第i層的第一候選跨注意力特征,包括: 通過以下公式確定所述第i層的第一候選跨注意力特征: 其中, 表示所述 第i層的第一候選跨注意力特征,表示所述第i層的圖像編碼特征, 表示所述第i層的問句編碼特征, 表示預先確定的轉移矩陣, 表示所述第i層的問句編碼特征對應的權重值。 5.根據權利要求2所述的方法,其特征在于,所述將所述第i層的問句編碼特征和所述第i層的圖像編碼特征輸入第i層的第二跨注意力編碼模塊,得到第i層的第二跨注意力特征,包括:
微信群二維碼
意見反饋