白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

視覺常識推理方法和裝置、存儲介質及電子設備

專利號
CN115761273B
公開日期
2023-04-25
申請人
蘇州浪潮智能科技有限公司(江蘇省蘇州市吳中經(jīng)濟開發(fā)區(qū)郭巷街道官浦路1號9幢)
發(fā)明人
李曉川; 李仁剛; 郭振華; 趙雅倩; 范寶余
IPC分類
G06V10/70; G06V10/82; G06V10/80; G06N5/04; G06N3/0464
技術領域
注意力,答案,注意,問句,文本,編碼,候選,圖像,修復,權重值
地域: 江蘇省 江蘇省蘇州市

摘要

本申請實施例提供了一種視覺常識推理方法和裝置、存儲介質及電子設備,涉及計算機領域,其中,該方法包括:獲取目標圖像的圖像檢測特征、目標問句的問句文本特征、第一候選答案的第一答案文本特征;將圖像檢測特征、問句文本特征和第一答案文本特征輸入到N層抗噪注意力模塊,得到目標圖像的圖像注意力特征、目標問句的文本修復篩選特征、第一候選答案的答案文本空間特征;將問句文本特征和文本修復篩選特征進行疊加,得到目標問句的文本降噪特征;根據(jù)圖像注意力特征、文本降噪特征以及答案文本空間特征,確定目標推理結果。

說明書

1]);d1)He?is?giving?[person1]?directions(他正在給[人物1]指方向)中選擇一個(可以但不限于選擇a1))作為上述問句的答案,并從a2)?[person1]?has?the?pancakes?in?front?of?him([人物1]面前有煎餅);?b2)?[person4]is?taking?everyone's?order?and?asked?for?clarification([person4]正在確認每個人的點單);?c2)[person3]?is?looking?at?the?pancakes?both?she?and?[person2]?are?smiling?slightly([person3]正在看著煎餅,她和[person2]都微微一笑);d2)?[person3]?is?delivering?food?to?the?table,?and?she?might?not?know?whose?order?is?whose([person3]正在把食物送到餐桌上,她可能不知道誰的訂單是誰的訂單)中選擇一個作為選擇該答案的證據(jù)(可以但不限于選擇a2)。 [0064] 可以但不限于以基于transformer結構的VCR任務為例,對本申請實施例中的視覺常識推理方法的應用場景進行解釋說明。圖3(a)是根據(jù)本申請實施例的一種視覺常識推理方法的答案預測示意圖一,如圖3(a)所示,VCR任務包含兩個子任務:一階段的答案預測和二階段的解釋預測。一階段的答案預測,如圖3(a)所示,首先,對輸入的圖像和若干條文本(包括問句文本和候選答案文本)進行編碼:可以但不限于將圖像輸入卷積神經(jīng)網(wǎng)絡進行編碼,得到圖像檢測特征;可以但不限于將輸入問句、候選答案語句以及候選解釋語句輸入文本編碼器,結合詞頻詞典,進行文本特征提取,分別得到問句文本特征和答案文本特征(即上述的第一答案文本特征)。然后通過第一推理模塊對圖像檢測特征、問句文本特征和答案文本特征進行融合,得到綜合特征1,再將綜合特征1輸入特征編碼,得到編碼特征1,再通過打分器對答案正確的概率進行打分,最后輸出在一階段選擇的答案是正確答案的概率(即上述的第一推理概率)。 [0065] 二階段的解釋預測,圖3(b)是根據(jù)本申請實施例的一種視覺常識推理方法的解釋預測示意圖一,如圖3(b)所示,首先,對輸入的圖像和若干條文本(包括問句文本和在一階段選擇的答案文本以及候選解釋文本)進行編碼:可以但不限于將圖像輸入卷積神經(jīng)網(wǎng)絡進行編碼,得到圖像檢測特征;可以但不限于將問句文本和在一階段選擇的答案文本以及候選解釋文本輸入文本編碼器,結合詞頻詞典,進行文本特征提取,分別得到問答文本特征和解釋文本特征(即上述的第一解釋文本特征)。再將在二階段的圖像檢測特征和問答文本特征以及解釋文本特征輸入第二推理模塊,推理模塊對圖像檢測特征、問句文本特征和答案文本特征進行融合,得到綜合特征2,再將綜合特征2輸入特征編碼,得到編碼特征2,再通過打分器對證據(jù)正確的概率進行打分,最后輸出在二階段選擇的證據(jù)是在一階段選擇的答案的正確解釋的概率(即上述的第一證據(jù)概率)。

權利要求

1 2 3 4 5 6 7 8 9 10
將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到所述第i層的第一自注意力編碼模塊中的第一自注意力單元,得到第i層的第一候選自注意力特征,其中,所述第一自注意力單元用于根據(jù)輸入所述第i層抗噪注意力模塊的圖像注意力特征,確定輸入所述第i層抗噪注意力模塊的圖像注意力特征對應的權重值,并根據(jù)所述輸入所述第i層抗噪注意力模塊的圖像注意力特征對應的權重值以及輸入所述第i層抗噪注意力模塊的圖像注意力特征,確定所述第i層的第一候選自注意力特征; 將所述第i層的第一候選自注意力特征輸入所述第i層的第一自注意力編碼模塊中的第四隨機擦除單元,得到第i層的第四擦除注意力特征,其中,所述第四隨機擦除單元用于對所述第i層的第一候選自注意力特征中的部分特征值進行置0,得到所述第i層的第四擦除注意力特征; 將所述第i層的第四擦除注意力特征輸入所述第i層的第一自注意力編碼模塊中的第四歸一化單元,得到所述第i層的第四歸一化特征,其中,所述第四歸一化單元用于對所述第i層的第四擦除注意力特征中的特征值進行歸一化處理,得到所述第i層的第四歸一化特征; 將所述輸入所述第i層抗噪注意力模塊的圖像注意力特征和所述第i層的第四歸一化特征進行疊加,得到第i層的圖像編碼特征。 15.根據(jù)權利要求14所述的方法,其特征在于,所述將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到所述第i層的第一自注意力編碼模塊中的第一自注意力單元,得到第i層的第一候選自注意力特征,包括: 通過以下公式確定所述第i層的第一候選自注意力特征: , 其中, 表示所述第i層的第一候選自注意力特征, 表示所述輸入所述第i層抗噪注意力模塊的圖像注意力特征, 、 、 表示預先確定的轉移矩陣, 表示所述輸入所述第i層抗噪注意力模塊的圖像注意力特征 對應的權重值。 16.根據(jù)權利要求1至15中任一項所述的方法,其特征在于,所述根據(jù)所述圖像注意力特征、所述文本降噪特征以及答案文本空間特征,確定目標推理結果,包括: 根據(jù)所述圖像注意力特征、所述文本降噪特征以及答案文本空間特征,確定第一推理概率,其中,所述第一推理概率用于表示所述第一候選答案是所述目標問句的答案的概率;
微信群二維碼
意見反饋