視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

專利號(hào)

CN115761273B

公開(kāi)日期

2023-04-25

申請(qǐng)人

蘇州浪潮智能科技有限公司（江蘇省蘇州市吳中經(jīng)濟(jì)開(kāi)發(fā)區(qū)郭巷街道官浦路1號(hào)9幢）

發(fā)明人

李曉川; 李仁剛; 郭振華; 趙雅倩; 范寶余

IPC分類

G06V10/70; G06V10/82; G06V10/80; G06N5/04; G06N3/0464

技術(shù)領(lǐng)域

注意力,答案,注意,問(wèn)句,文本,編碼,候選,圖像,修復(fù),權(quán)重值

地域： 江蘇省江蘇省蘇州市

摘要

本申請(qǐng)實(shí)施例提供了一種視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備，涉及計(jì)算機(jī)領(lǐng)域，其中，該方法包括：獲取目標(biāo)圖像的圖像檢測(cè)特征、目標(biāo)問(wèn)句的問(wèn)句文本特征、第一候選答案的第一答案文本特征；將圖像檢測(cè)特征、問(wèn)句文本特征和第一答案文本特征輸入到N層抗噪注意力模塊，得到目標(biāo)圖像的圖像注意力特征、目標(biāo)問(wèn)句的文本修復(fù)篩選特征、第一候選答案的答案文本空間特征；將問(wèn)句文本特征和文本修復(fù)篩選特征進(jìn)行疊加，得到目標(biāo)問(wèn)句的文本降噪特征；根據(jù)圖像注意力特征、文本降噪特征以及答案文本空間特征，確定目標(biāo)推理結(jié)果。

說(shuō)明書(shū)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

[0045] 圖6是根據(jù)本申請(qǐng)實(shí)施例的視覺(jué)常識(shí)推理方法的流程圖； [0046] 圖7是根據(jù)本申請(qǐng)實(shí)施例的一種視覺(jué)常識(shí)推理方法的示意圖二； [0047] 圖8是根據(jù)本申請(qǐng)實(shí)施例的一種N層抗噪注意力模塊的示意圖； [0048] 圖9是根據(jù)本申請(qǐng)實(shí)施例的一種確定文本修復(fù)篩選特征的示意圖一； [0049] 圖10是根據(jù)本申請(qǐng)實(shí)施例的一種確定第一跨注意力特征的示意圖； [0050] 圖11是根據(jù)本申請(qǐng)實(shí)施例的一種確定第二跨注意力特征的示意圖； [0051] 圖12是根據(jù)本申請(qǐng)實(shí)施例的一種確定第三跨注意力特征的示意圖； [0052] 圖13是根據(jù)本申請(qǐng)實(shí)施例的一種確定文本修復(fù)篩選特征的示意圖二； [0053] 圖14是根據(jù)本申請(qǐng)實(shí)施例的一種確定文本修復(fù)篩選特征的示意圖三； [0054] 圖15是根據(jù)本申請(qǐng)實(shí)施例的一種獲取圖像編碼特征的示意圖； [0055] 圖16是根據(jù)本申請(qǐng)實(shí)施例的一種視覺(jué)常識(shí)推理方法的示意圖三； [0056] 圖17是根據(jù)本申請(qǐng)實(shí)施例的一種詞頻約束的示意圖； [0057] 圖18是根據(jù)本申請(qǐng)實(shí)施例的視覺(jué)常識(shí)推理裝置的結(jié)構(gòu)框圖。具體實(shí)施方式 [0058] 下文中將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)的實(shí)施例。 [0059] 需要說(shuō)明的是，本申請(qǐng)的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象，而不必用于描述特定的順序或先后次序。 [0060] 本申請(qǐng)實(shí)施例中所提供的方法實(shí)施例可以在移動(dòng)終端、計(jì)算機(jī)終端或者類似的運(yùn)算裝置中執(zhí)行。以運(yùn)行在移動(dòng)終端上為例，圖1是本申請(qǐng)實(shí)施例的一種視覺(jué)常識(shí)推理方法的移動(dòng)終端的硬件結(jié)構(gòu)框圖。如圖1所示，移動(dòng)終端可以包括一個(gè)或多個(gè)（圖1中僅示出一個(gè)）處理器102（處理器102可以包括但不限于微處理器MCU或可編程邏輯器件FPGA等的處理裝置）和用于存儲(chǔ)數(shù)據(jù)的存儲(chǔ)器104，其中，上述移動(dòng)終端還可以包括用于通信功能的傳輸設(shè)備106以及輸入輸出設(shè)備108。本領(lǐng)域普通技術(shù)人員可以理解，圖1所示的結(jié)構(gòu)僅為示意，其并不對(duì)上述移動(dòng)終端的結(jié)構(gòu)造成限定。例如，移動(dòng)終端還可包括比圖1中所示更多或者更少的組件，或者具有與圖1所示不同的配置。 [0061] 存儲(chǔ)器104可用于存儲(chǔ)計(jì)算機(jī)程序，例如，應(yīng)用軟件的軟件程序以及模塊，如本申請(qǐng)實(shí)施例中的視覺(jué)常識(shí)推理方法對(duì)應(yīng)的計(jì)算機(jī)程序，處理器102通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器104內(nèi)的計(jì)算機(jī)程序，從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理，即實(shí)現(xiàn)上述的方法。存儲(chǔ)器104可包括高速隨機(jī)存儲(chǔ)器，還可包括非易失性存儲(chǔ)器，如一個(gè)或者多個(gè)磁性存儲(chǔ)裝置、閃存、或者其他非易失性固態(tài)存儲(chǔ)器。在一些實(shí)例中，存儲(chǔ)器104可進(jìn)一步包括相對(duì)于處理器102遠(yuǎn)程設(shè)置的存儲(chǔ)器，這些遠(yuǎn)程存儲(chǔ)器可以通過(guò)網(wǎng)絡(luò)連接至移動(dòng)終端。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。 [0062] 傳輸設(shè)備106用于經(jīng)由一個(gè)網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù)。上述的網(wǎng)絡(luò)具體實(shí)例可包括移動(dòng)終端的通信供應(yīng)商提供的無(wú)線網(wǎng)絡(luò)。在一個(gè)實(shí)例中，傳輸設(shè)備106包括一個(gè)網(wǎng)絡(luò)適配器（Network?Interface?Controller，簡(jiǎn)稱為NIC），其可通過(guò)基站與其他網(wǎng)絡(luò)設(shè)備相連從而可與互聯(lián)網(wǎng)進(jìn)行通訊。在一個(gè)實(shí)例中，傳輸設(shè)備106可以為射頻（Radio?Frequency，簡(jiǎn)稱為RF）模塊，其用于通過(guò)無(wú)線方式與互聯(lián)網(wǎng)進(jìn)行通訊。 [0063] VCR任務(wù)作為多模態(tài)研究的任務(wù)，通常涉及文本、語(yǔ)言、圖像、視頻等多種模態(tài)輸入，訓(xùn)練計(jì)算機(jī)學(xué)習(xí)對(duì)人類行為理解的能力。也就是說(shuō)，通過(guò)觀察視覺(jué)圖像，回答問(wèn)題中涉及到的人物的行為目的或潛在意圖，并給出所選擇的答案是正確答案的依據(jù)。當(dāng)前，VCR任務(wù)這個(gè)過(guò)程簡(jiǎn)化成了選擇題的模式，AI模型需要計(jì)算圖文信息和不同選項(xiàng)卡之間的耦合關(guān)系，推理出相關(guān)性最強(qiáng)的選項(xiàng)。圖2是根據(jù)本申請(qǐng)實(shí)施例的一種視覺(jué)常識(shí)推理的示意圖一，如圖2所示，輸入為圖像A（圖像A中可以但不限于包括人物1，人物2，人物3和人物4），以及一個(gè)有關(guān)人類意圖的問(wèn)句（可以但不限于為why?is[person4]?is?pointing?at?[person?1]（為什么人物4指著人物1）。），可以但不限于從a1）He?is?telling?[person3]?that?[person1]?ordered?the?pancakes（他告訴[人物3][人物1]點(diǎn)了煎餅）；b1）He?just?told?a?joke（他在開(kāi)玩笑）；c1）He?is?feeling?accusatory?towards[person1]（他在指責(zé)[人物

權(quán)利要求

1 2 3 4 5 6 7 8 9 10

11.根據(jù)權(quán)利要求9所述的方法，其特征在于，所述根據(jù)所述第i層的文本修復(fù)特征和所述第i層的答案編碼特征，確定所述第i層的文本修復(fù)特征對(duì)應(yīng)的權(quán)重值，包括：在所述第i層的文本修復(fù)特征包括維度為M×K的特征、所述第i層的答案編碼特征包括維度為H×K的特征的情況下，分別確定所述維度為M×K的特征中的各個(gè)維度為1×K的特征與所述維度為H×K的特征中的各個(gè)維度為1×K的特征之間的相似度，得到維度為M×H的相似度，其中，M、H、K均為大于或等于2的正整數(shù)；根據(jù)維度為M×H的相似度，確定與維度為M×K的特征對(duì)應(yīng)的維度為M×1的權(quán)重值，其中，所述第i層的文本修復(fù)特征對(duì)應(yīng)的權(quán)重值包括所述維度為M×1的權(quán)重值。 12.根據(jù)權(quán)利要求11所述的方法，其特征在于，所述根據(jù)維度為M×H的相似度，確定與維度為M×K的特征對(duì)應(yīng)的維度為M×1的權(quán)重值，包括：在維度為M×H的相似度中的各個(gè)維度為1×H的相似度中選擇取值最大的相似度，得到維度為M×1的相似度；在所述M×1的相似度中查找取值大于或等于預(yù)設(shè)閾值的相似度；在所述M×1的相似度中查找到取值大于或等于預(yù)設(shè)閾值的相似度的情況下，將查找到的取值大于或等于所述預(yù)設(shè)閾值的相似度設(shè)置為0，得到所述維度為M×1的權(quán)重值，或，將查找到的取值大于或等于預(yù)設(shè)閾值的相似度中的各個(gè)相似度的取值設(shè)置為所述各個(gè)相似度的取值與1之間的差值，得到所述維度為M×1的權(quán)重值。 13.根據(jù)權(quán)利要求9所述的方法，其特征在于，所述根據(jù)所述第i層的文本修復(fù)特征對(duì)應(yīng)的權(quán)重值與所述第i層的文本修復(fù)特征，確定所述第i層抗噪注意力模塊輸出的文本修復(fù)篩選特征，包括：在所述第i層的文本修復(fù)特征包括維度為M×K的特征、所述第i層的文本修復(fù)特征對(duì)應(yīng)的權(quán)重值包括維度為M×1的權(quán)重值的情況下，將所述維度為M×1的權(quán)重值與所述維度為M×K的特征對(duì)應(yīng)相乘，得到維度為M×K的加權(quán)特征，其中，所述第i層抗噪注意力模塊輸出的文本修復(fù)篩選特征包括所述維度為M×K的加權(quán)特征。 14.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將輸入所述第i層抗噪注意力模塊的圖像注意力特征輸入到第i層的第一自注意力編碼模塊，得到第i層的圖像編碼特征，包括：

微信群二維碼

意見(jiàn)反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備

摘要

說(shuō)明書(shū)

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：

視覺(jué)常識(shí)推理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備