[0138] 在一個示范性實施例中,可以但不限于通過以下方式確定目標證據(jù)結(jié)果:在所述目標推理結(jié)果表示所述第一候選答案是所述目標問句的答案的情況下,獲取第一候選解釋文本的第一解釋文本特征;根據(jù)所述圖像檢測特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解釋文本特征,確定目標證據(jù)結(jié)果,其中,所述目標證據(jù)結(jié)果用于表示所述第一候選解釋文本是否為所述第一候選答案是所述目標問句的答案的解釋文本。
[0139] 可選的,在本實施例中,第一候選解釋文本可能是第一候選答案是目標問句的答案的解釋文本,也可能不是第一候選答案是目標問句的答案的解釋文本。通過在可以但不限于在第一候選答案是目標問句的答案的情況下,確定第一候選解釋文本是否為第一候選答案是目標問句的答案的解釋文本的方式,提升了推理結(jié)果的可解釋性和可理解性。
[0140] 在一個示范性實施例中,可以但不限于通過以下方式確定目標證據(jù)結(jié)果:根據(jù)所述圖像檢測特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解釋文本特征,確定第一證據(jù)概率,其中,所述第一證據(jù)概率用于表示所述第一候選解釋文本為所述第一候選答案是所述目標問句的答案的解釋文本的概率;根據(jù)所述第一證據(jù)概率,在候選解釋文本集合中確定所述第一候選解釋文本是否是滿足第二預設條件的候選解釋文本,其中,所述第二預設條件是指所述第一證據(jù)概率是所述候選解釋文本集合中的各個候選解釋文本對應的證據(jù)概率中最大的概率,所述各個候選解釋文本對應的證據(jù)概率用于表示所述各個候選解釋文本為所述第一候選答案是所述目標問句的答案的解釋文本的概率;在所述第一候選解釋文本是滿足所述第二預設條件的候選解釋文本的情況下,將所述目標證據(jù)結(jié)果確定為用于表示所述第一候選解釋文本為所述第一候選答案是所述目標問句的答案的解釋文本。
[0141] 可選的,在本實施例中,在第一候選解釋文本不是滿足第二預設條件的候選解釋文本的情況下,將目標證據(jù)結(jié)果確定為用于表示第一候選解釋文本不是第一候選答案是目標問句的答案的解釋文本。
[0142] 為了更好的理解上述視覺常識推理方法的流程,下面再結(jié)合可選的實施例對本申請實施例中的視覺常識推理方法的過程進行解釋說明,可以但不限于適用于本申請實施例。
[0143] 圖16是根據(jù)本申請實施例的一種視覺常識推理方法的示意圖三,如圖16所示,對于第i層抗噪注意力模塊,首先對圖像特征(即上述的圖像注意力特征)、問句編碼特征(即上述的文本修復篩選特征)和答案文本空間特征進行自注意力編碼??梢缘幌抻谕ㄟ^第i層抗噪注意力模塊中的自注意力編碼模塊中包括的自注意力單元、隨機擦除單元、歸一化單元和特征相加單元實現(xiàn)上述特征的自注意力編碼的過程。
[0144] 詳細來說,可以但不限于將圖像特征、問句編碼特征和答案文本空間特征輸入對應的自注意力編碼模塊(即分別為上述的第一自注意力編碼模塊、第二自注意力編碼模塊和第三自注意力編碼模塊)中的自注意力單元(即分別為上述的第一自注意力單元、第二自注意力單元和第三自注意力單元)、隨機擦除單元(即分別為上述的第四隨機擦除單元、第五隨機擦除單元和第六隨機擦除單元)、歸一化單元(即分別為上述的第四歸一化單元、第五歸一化單元和第六歸一化單元)和特征相加單元,分別得到圖像編碼帶匹配特征(即上述的圖像編碼特征) 、帶噪問句編碼特征(即上述的問句編碼特征) 以及答案空間特征(即上述的答案編碼特征 )。
[0145] 然后分別對圖像編碼帶匹配特征(即上述的圖像編碼特征) 、帶噪問句編碼特征(即上述的問句編碼特征) 進行跨注意力編碼,圖像編碼帶匹配特征 和帶噪問句編碼特征 所對應的跨注意力編碼模塊中均包括一個跨注意力單元、一個隨機擦除單元、一個歸一化單元、一個特征相加單元。
[0146] 可以但不限于將圖像編碼帶匹配特征 和帶噪問句編碼特征 輸入圖像編碼帶匹配特征 所對應的跨注意力編碼模塊(即上述的第一跨注意力編碼模塊)中的跨注意力單元(即上述的第一跨注意力單元)、隨機擦除單元(即上述的第一隨機擦除單元)、歸一化單元(即上述的第一歸一化單元)中,并將歸一化單元的輸出結(jié)果(即上述的第一歸一化特征)疊加圖像編碼帶匹配特征 ,得到第一跨注意力特征。
[0147] 可以但不限于將圖像編碼帶匹配特征 和帶噪問句編碼特征 輸入圖像編碼帶匹配特征 所對應的跨注意力編碼模塊(即上述的第二跨注意力編碼模塊)中的跨注意力單元(即上述的第二跨注意力單元)、隨機擦除單元(即上述的第二隨機擦除單元)、歸一化單元(即上述的第二歸一化單元)中,并將歸一化單元輸出的結(jié)果(即上述的第二歸一化特征)疊加圖像編碼帶匹配特征 ,得到第二跨注意力特征。輸出的兩個向量(即上述的第一跨注意力特征和第二跨注意力特征)分別代表圖像熱向量和問句熱向量,分別表示特征中所有內(nèi)容與另一個模態(tài)信息的匹配程度。