1]);d1)He?is?giving?[person1]?directions(他正在給[人物1]指方向)中選擇一個(可以但不限于選擇a1))作為上述問句的答案,并從a2)?[person1]?has?the?pancakes?in?front?of?him([人物1]面前有煎餅);?b2)?[person4]is?taking?everyone's?order?and?asked?for?clarification([person4]正在確認每個人的點單);?c2)[person3]?is?looking?at?the?pancakes?both?she?and?[person2]?are?smiling?slightly([person3]正在看著煎餅,她和[person2]都微微一笑);d2)?[person3]?is?delivering?food?to?the?table,?and?she?might?not?know?whose?order?is?whose([person3]正在把食物送到餐桌上,她可能不知道誰的訂單是誰的訂單)中選擇一個作為選擇該答案的證據(jù)(可以但不限于選擇a2)。
[0064] 可以但不限于以基于transformer結構的VCR任務為例,對本申請實施例中的視覺常識推理方法的應用場景進行解釋說明。圖3(a)是根據(jù)本申請實施例的一種視覺常識推理方法的答案預測示意圖一,如圖3(a)所示,VCR任務包含兩個子任務:一階段的答案預測和二階段的解釋預測。一階段的答案預測,如圖3(a)所示,首先,對輸入的圖像和若干條文本(包括問句文本和候選答案文本)進行編碼:可以但不限于將圖像輸入卷積神經(jīng)網(wǎng)絡進行編碼,得到圖像檢測特征;可以但不限于將輸入問句、候選答案語句以及候選解釋語句輸入文本編碼器,結合詞頻詞典,進行文本特征提取,分別得到問句文本特征和答案文本特征(即上述的第一答案文本特征)。然后通過第一推理模塊對圖像檢測特征、問句文本特征和答案文本特征進行融合,得到綜合特征1,再將綜合特征1輸入特征編碼,得到編碼特征1,再通過打分器對答案正確的概率進行打分,最后輸出在一階段選擇的答案是正確答案的概率(即上述的第一推理概率)。
[0065] 二階段的解釋預測,圖3(b)是根據(jù)本申請實施例的一種視覺常識推理方法的解釋預測示意圖一,如圖3(b)所示,首先,對輸入的圖像和若干條文本(包括問句文本和在一階段選擇的答案文本以及候選解釋文本)進行編碼:可以但不限于將圖像輸入卷積神經(jīng)網(wǎng)絡進行編碼,得到圖像檢測特征;可以但不限于將問句文本和在一階段選擇的答案文本以及候選解釋文本輸入文本編碼器,結合詞頻詞典,進行文本特征提取,分別得到問答文本特征和解釋文本特征(即上述的第一解釋文本特征)。再將在二階段的圖像檢測特征和問答文本特征以及解釋文本特征輸入第二推理模塊,推理模塊對圖像檢測特征、問句文本特征和答案文本特征進行融合,得到綜合特征2,再將綜合特征2輸入特征編碼,得到編碼特征2,再通過打分器對證據(jù)正確的概率進行打分,最后輸出在二階段選擇的證據(jù)是在一階段選擇的答案的正確解釋的概率(即上述的第一證據(jù)概率)。