[0046] 根據(jù)本發(fā)明的實施例,在相關(guān)技術(shù)中,通常使用固定的人工模板,如“一張[預(yù)設(shè)類型]的圖片”來進(jìn)行文本嵌入。然而固定的人工提示詞描述下游任務(wù)的能力很差,因此需要進(jìn)行文本提示調(diào)優(yōu),通過自動學(xué)習(xí)文本提示來增強(qiáng)文本嵌入。因此,不同于使用人工模板的固定文本提示來指導(dǎo)圖像和文本提示詞之間的匹配,本發(fā)明引入了一個輕量級的共享網(wǎng)絡(luò),該共享網(wǎng)絡(luò)能夠為輸入的目標(biāo)內(nèi)窺鏡圖像動態(tài)地生成一個條件化的提示向量,能夠針對每個輸入的目標(biāo)內(nèi)窺鏡圖像的具體內(nèi)容生成更加精確的提示,從而提高了模型在未知類別或新數(shù)據(jù)集上的泛化能力。共享網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計可以提升模型性能,因此共享網(wǎng)絡(luò)可以使用結(jié)構(gòu)簡單、易于實現(xiàn)且具備強(qiáng)大的非線性擬合能力的多層感知機(jī)。
[0047] 根據(jù)本發(fā)明的實施例,利用共享網(wǎng)絡(luò)對目標(biāo)圖像特征向量進(jìn)行特征提取,得到目標(biāo)圖像提示向量,可以為每個輸入的目標(biāo)內(nèi)窺鏡圖像生成獨特的條件化提示,使得模型不再僅僅關(guān)注于訓(xùn)練集中的特定類別,而是更加關(guān)注于輸入的目標(biāo)內(nèi)窺鏡圖像本身的特點。
因此可以有助于減輕過擬合現(xiàn)象,提高模型在更廣泛類別上的泛化性能。
[0048] 在操作S204,將多個第一類別感知提示向量中的每個第一類別感知提示向量均與目標(biāo)圖像提示向量、自動學(xué)習(xí)提示向量進(jìn)行融合,得到多個目標(biāo)融合提示向量,其中,共享網(wǎng)絡(luò)、自動學(xué)習(xí)提示向量和知識嵌入模塊均是根據(jù)多個內(nèi)窺鏡圖像樣本和與多個內(nèi)窺鏡圖像樣本對應(yīng)的多組反映圖像質(zhì)量且具有相反意義的文本提示詞訓(xùn)練得到的。
[0049] 根據(jù)本發(fā)明的實施例,由于共享網(wǎng)絡(luò)、自動學(xué)習(xí)提示向量和知識嵌入模塊均是根據(jù)多個內(nèi)窺鏡圖像樣本和與多個內(nèi)窺鏡圖像樣本對應(yīng)的多組反映圖像質(zhì)量且具有相反意義的文本提示詞訓(xùn)練得到的,因此,共享網(wǎng)絡(luò)、自動學(xué)習(xí)提示向量和知識嵌入模塊可以得到準(zhǔn)確反應(yīng)內(nèi)窺鏡圖像質(zhì)量類別的提示向量。
[0050] 在操作S205,利用第一文本編碼器對多個目標(biāo)融合提示向量分別進(jìn)行編碼,得到多個目標(biāo)類別提示向量。
[0051] 在操作S206,計算多個目標(biāo)類別提示向量分別與目標(biāo)圖像特征向量之間的相似度,得到多個目標(biāo)圖像類別相似度。
[0052] 例如,可以通過計算多個目標(biāo)類別提示向量分別與目標(biāo)圖像特征向量之間的余弦相似度,得到多個目標(biāo)圖像類別相似度。
[0053] 根據(jù)本發(fā)明的實施例,余弦相似度作為一種衡量兩個向量方向相似性的指標(biāo),可以被用來量化圖像內(nèi)容即目標(biāo)圖像特征向量與文本提示即目標(biāo)類別提示向量之間的匹配程度。相似度值越高,表示圖像越符合文本提示所描述的質(zhì)量標(biāo)準(zhǔn)。反之,則表明圖像質(zhì)量相對較低。
[0054] 例如,可以利用多模態(tài)大模型中的對比學(xué)習(xí)模塊對多個目標(biāo)類別提示向量分別與目標(biāo)圖像特征向量進(jìn)行對比,捕捉圖像與文本之間復(fù)雜的語義關(guān)聯(lián),得到多個目標(biāo)圖像類別相似度。其中,多模態(tài)大模型是在大量圖文對數(shù)據(jù)上進(jìn)行了高效的對比學(xué)習(xí),能夠捕捉到圖像與文本之間復(fù)雜的語義關(guān)聯(lián)。
[0055] 在操作S207,根據(jù)多個目標(biāo)圖像類別相似度,生成圖像質(zhì)量評價結(jié)果。
[0056] ?根據(jù)本發(fā)明的實施例,由于共享網(wǎng)絡(luò)、自動學(xué)習(xí)提示向量和知識嵌入模塊均是根據(jù)多個內(nèi)窺鏡圖像樣本和與多個內(nèi)窺鏡圖像樣本對應(yīng)的多組反映圖像質(zhì)量且具有相反意義的文本提示詞訓(xùn)練得到的,因此,利用知識嵌入模塊對多個目標(biāo)類別文本嵌入分別進(jìn)行特征轉(zhuǎn)換,得到多個第一類別感知提示向量,可以得到精確表征內(nèi)窺鏡圖像質(zhì)量且更加貼近主觀感受的類別感知提示向量。然后利用圖像編碼器對目標(biāo)內(nèi)窺鏡圖像進(jìn)行編碼,得到目標(biāo)圖像特征向量,利用共享網(wǎng)絡(luò)對目標(biāo)圖像特征向量進(jìn)行特征提取,得到目標(biāo)圖像提示向量,將多個第一類別感知提示向量中的每個第一類別感知提示向量均與目標(biāo)圖像提示向量、自動學(xué)習(xí)提示向量進(jìn)行融合,得到多個目標(biāo)融合提示向量,?利用第一文本編碼器對多個目標(biāo)融合提示向量分別進(jìn)行編碼,得到多個目標(biāo)類別提示向量,可以動態(tài)地生成一個條件化的即融合主觀感受和實際目標(biāo)內(nèi)窺鏡圖像質(zhì)量特征的提示向量。然后計算多個目標(biāo)類別提示向量分別與目標(biāo)圖像特征向量之間的相似度,得到多個目標(biāo)圖像類別相似度,得到精確反映目標(biāo)內(nèi)窺鏡圖像質(zhì)量與主觀需求相關(guān)的圖像指標(biāo)的相似度,進(jìn)而在根據(jù)多個目標(biāo)圖像類別相似度,生成圖像質(zhì)量評價結(jié)果時,能夠得到準(zhǔn)確反映內(nèi)窺鏡圖像質(zhì)量是否符合主觀需求的評價結(jié)果。
[0057] 根據(jù)本發(fā)明實施例提供的內(nèi)窺鏡圖像質(zhì)量信息生成方法,通過衡量目標(biāo)內(nèi)窺鏡圖像內(nèi)容與給定預(yù)設(shè)文本提示詞之間的語義匹配度來量化圖像的質(zhì)量,不僅突破了傳統(tǒng)圖像質(zhì)量評估技術(shù)依賴于像素級或結(jié)構(gòu)級特征的局限,還引入了人類感知層面的語義理解,使得圖像質(zhì)量評價更加貼近主觀感受。
[0058] 圖3示出了根據(jù)本發(fā)明實施例的內(nèi)窺鏡圖像質(zhì)量信息生成方法所使用的神經(jīng)網(wǎng)絡(luò)模型的示意圖。