白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

視覺常識推理方法和裝置、存儲介質(zhì)及電子設(shè)備

專利號
CN115761273B
公開日期
2023-04-25
申請人
蘇州浪潮智能科技有限公司(江蘇省蘇州市吳中經(jīng)濟開發(fā)區(qū)郭巷街道官浦路1號9幢)
發(fā)明人
李曉川; 李仁剛; 郭振華; 趙雅倩; 范寶余
IPC分類
G06V10/70; G06V10/82; G06V10/80; G06N5/04; G06N3/0464
技術(shù)領(lǐng)域
注意力,答案,注意,問句,文本,編碼,候選,圖像,修復(fù),權(quán)重值
地域: 江蘇省 江蘇省蘇州市

摘要

本申請實施例提供了一種視覺常識推理方法和裝置、存儲介質(zhì)及電子設(shè)備,涉及計算機領(lǐng)域,其中,該方法包括:獲取目標(biāo)圖像的圖像檢測特征、目標(biāo)問句的問句文本特征、第一候選答案的第一答案文本特征;將圖像檢測特征、問句文本特征和第一答案文本特征輸入到N層抗噪注意力模塊,得到目標(biāo)圖像的圖像注意力特征、目標(biāo)問句的文本修復(fù)篩選特征、第一候選答案的答案文本空間特征;將問句文本特征和文本修復(fù)篩選特征進行疊加,得到目標(biāo)問句的文本降噪特征;根據(jù)圖像注意力特征、文本降噪特征以及答案文本空間特征,確定目標(biāo)推理結(jié)果。

說明書

[0066] 但是,這類模型所能解決的VCR任務(wù)存在一個假定前提:文本中出現(xiàn)的信息需與圖像內(nèi)容匹配,比如:圖2中的問句中的“pointing”是一定出現(xiàn)在圖像A的內(nèi)容中的。但在真實的場景下,用戶在輸入問句的時候不可避免的會出現(xiàn)口誤、比喻、或主觀性等等現(xiàn)象,這些現(xiàn)象會導(dǎo)致文本中帶有噪聲詞語,進而導(dǎo)致問句文本無法與圖匹配。圖4是根據(jù)本申請實施例的一種的圖像和問句不匹配的示意圖,如圖4所示,輸入為圖像B、問句文本(“Why?the?laughing?person?who?is?standing?up?holding?a?controller(為什么站著笑的人拿著控制器)?!保?、答案文本([a1]He?is?playing?a?video?game(他在玩電子游戲);[b1]He?is?using?it?to?hit?a?machine(他正在用它來撞擊機器);[c1]?The?man?is?happy(因為他很開心);[d1]?The?man?is?teaching?math?to?the?others(這個人正在教別人數(shù)學(xué)));以及解釋文本([a]?He?is?having?fun?now(他現(xiàn)在玩得很開心);[b]?The?others?are?looking?straightly?front(其他人直視前方);[c]?It?is?a?heavy?machine?controller(它是一個重型機器控制器);[d]?It?looks?like?a?game?controller(它看起來像一個游戲控制器))。但用戶輸入的問句文本包含主觀性錯誤,用戶默認(rèn)在玩游戲的人會高興,因此加入了“l(fā)aughing”(即噪聲詞語),導(dǎo)致了問句文本和圖像的失配。雖然這種帶有“噪聲”的樣本更能描述真實世界中可能會發(fā)生的場景,但AI模型在計算圖文信息和不同選項卡之間的耦合關(guān)系的時候,推理出的結(jié)果會受到這些噪聲詞語的影響,進而降低所選擇答案和解釋的準(zhǔn)確性。 [0067] 而通過本申請實施例中的視覺常識推理方法,可以對輸入的存在的噪聲詞語的問句文本進行降噪處理。圖5(a)是根據(jù)本申請實施例的一種視覺常識推理方法的答案預(yù)測示意圖二,如圖5(a)所示,增加了N層圖文依賴的抗噪注意力模塊(即上述的N層抗噪注意力模塊),對輸入的問句文本中存在的噪聲詞語進行修復(fù)。 [0068] 在一階段的答案預(yù)測的過程中,結(jié)合圖4、圖5(a)所示,對輸入的圖像B和若干條文本(包括問句文本(“Why?the?laughing?person?who?is?standing?up?holding?a?controller(為什么站著笑的人拿著控制器)?!保┖秃蜻x答案文本(He?is?playing?a?video?game(他在玩電子游戲)進行編碼:可以但不限于將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)進行編碼,得到圖像檢測特征;可以但不限于將輸入問句、候選答案語句以及候選解釋語句輸入文本編碼器,結(jié)合詞頻詞典,進行文本特征提取,分別得到問句文本特征和答案文本特征(即上述的第一答案文本特征)。然后將問句文本特征輸入N層圖文依賴的抗噪注意力模塊,得到N層圖文依賴的抗噪注意力模塊輸出的文本修復(fù)向量(即上述的文本修復(fù)篩選特征)和圖像注意力特征,將問句文本特征和文本修復(fù)向量相加,得到文本降噪特征。然后通過第一推理模塊對圖像注意力特征、文本降噪特征和答案文本特征進行融合,得到綜合特征1,再將綜合特征1輸入特征編碼,得到編碼特征1,再通過打分器對答案正確的概率進行打分,最后輸出在一階段選擇的答案是正確答案的概率(即上述的第一推理概率)。 [0069] 圖5(b)是根據(jù)本申請實施例的一種視覺常識推理方法的解釋預(yù)測示意圖二;如圖 5(b)所示,二階段的解釋預(yù)測可以但不限于將圖像輸入卷積神經(jīng)網(wǎng)絡(luò)進行編碼,得到圖像檢測特征;可以但不限于將答案語句以及候選解釋語句輸入文本編碼器,結(jié)合詞頻詞典,進行文本特征提取,分別得到答案文本特征以及解釋文本特征。將圖像檢測特征、文本降噪特征、答案文本特征以及解釋文本特征輸入第二推理模塊,推理模塊對圖像檢測特征、文本降噪特征、答案文本特征以及解釋文本特征進行融合,得到綜合特征2,再將綜合特征2輸入特征編碼,得到編碼特征2,再通過打分器對證據(jù)正確的概率進行打分,最后輸出在二階段選擇的證據(jù)是在一階段選擇的答案的正確解釋的概率(即上述的第一證據(jù)概率)。 [0070] 通過本申請實施例中的N層抗噪注意力模塊,在特征側(cè)面上修復(fù)了輸入的問句文本中的與現(xiàn)實不匹配的信息,即減少了“l(fā)aughing”在特征編碼的過程中會造成對整個特征空間的干擾,避免了出現(xiàn)“答非所問”的情形,提升了VCR模型的推理結(jié)果的準(zhǔn)確性。

權(quán)利要求

1 2 3 4 5 6 7 8 9 10
根據(jù)所述第一推理概率,在候選答案集合中確定所述第一候選答案是否是滿足第一預(yù)設(shè)條件的候選答案,其中,所述第一預(yù)設(shè)條件是指所述第一推理概率是所述候選答案集合中的各個候選答案對應(yīng)的推理概率中最大的概率,所述各個候選答案對應(yīng)的推理概率用于表示所述各個候選答案是所述目標(biāo)問句的答案的概率; 在所述第一候選答案是滿足所述第一預(yù)設(shè)條件的候選答案的情況下,將所述目標(biāo)推理結(jié)果確定為用于表示所述第一候選答案是所述目標(biāo)問句的答案。 17.根據(jù)權(quán)利要求1至15中任一項所述的方法,其特征在于,所述方法還包括: 在所述目標(biāo)推理結(jié)果表示所述第一候選答案是所述目標(biāo)問句的答案的情況下,獲取第一候選解釋文本的第一解釋文本特征; 根據(jù)所述圖像檢測特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解釋文本特征,確定目標(biāo)證據(jù)結(jié)果,其中,所述目標(biāo)證據(jù)結(jié)果用于表示所述第一候選解釋文本是否為所述第一候選答案是所述目標(biāo)問句的答案的解釋文本。 18.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述根據(jù)所述圖像檢測特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解釋文本特征,確定目標(biāo)證據(jù)結(jié)果,包括: 根據(jù)所述圖像檢測特征、所述文本降噪特征、所述第一答案文本特征以及所述第一解釋文本特征,確定第一證據(jù)概率,其中,所述第一證據(jù)概率用于表示所述第一候選解釋文本為所述第一候選答案是所述目標(biāo)問句的答案的解釋文本的概率; 根據(jù)所述第一證據(jù)概率,在候選解釋文本集合中確定所述第一候選解釋文本是否是滿足第二預(yù)設(shè)條件的候選解釋文本,其中,所述第二預(yù)設(shè)條件是指所述第一證據(jù)概率是所述候選解釋文本集合中的各個候選解釋文本對應(yīng)的證據(jù)概率中最大的概率,所述各個候選解釋文本對應(yīng)的證據(jù)概率用于表示所述各個候選解釋文本為所述第一候選答案是所述目標(biāo)問句的答案的解釋文本的概率; 在所述第一候選解釋文本是滿足所述第二預(yù)設(shè)條件的候選解釋文本的情況下,將所述目標(biāo)證據(jù)結(jié)果確定為用于表示所述第一候選解釋文本為所述第一候選答案是所述目標(biāo)問句的答案的解釋文本。 19.一種視覺常識推理裝置,其特征在于,包括: 第一獲取模塊,用于獲取目標(biāo)圖像的圖像檢測特征、目標(biāo)問句的問句文本特征、第一候選答案的第一答案文本特征;
微信群二維碼
意見反饋