一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置
技術(shù)領(lǐng)域
[0001] 本申請(qǐng)涉及深度學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置。
背景技術(shù)
[0002] 隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,生成式模型在圖像生成、文本生成和音頻合成等多種多模態(tài)任務(wù)中得到了廣泛的應(yīng)用,例如,在圖像生成領(lǐng)域中,生成對(duì)抗網(wǎng)絡(luò)被廣泛應(yīng)用于藝術(shù)創(chuàng)作、圖像修復(fù)和超分辨率重建等任務(wù),通過生成器與判別器的對(duì)抗訓(xùn)練,生成了高質(zhì)量的圖像。在通常情況下,生成式模型具有復(fù)雜的結(jié)構(gòu)和大量的參數(shù),導(dǎo)致生成式模型在訓(xùn)練和推理階段消耗大量計(jì)算資源和內(nèi)存,由此如何在保證生成式模型性能的情況下有效地減少模型規(guī)模,成為技術(shù)發(fā)展的難點(diǎn)。
[0003] 在現(xiàn)有技術(shù)中,在融合生成式大模型的過程中,其中的剪枝技術(shù)主要依賴于對(duì)模型權(quán)重的評(píng)估,通過計(jì)算生成式大模型中每個(gè)層級(jí)的權(quán)重值,判斷其對(duì)整體模型性能的影響,以此進(jìn)行模型的層級(jí)剪枝,基于權(quán)重的剪枝方法實(shí)現(xiàn)簡(jiǎn)單,能夠在一定程度上優(yōu)化模型結(jié)構(gòu),并且計(jì)算成本相對(duì)較低,能夠快速減少模型的參數(shù)量。
[0004] 然而,在面對(duì)復(fù)雜多樣的數(shù)據(jù)集時(shí),基于權(quán)重的剪枝方法存在顯著的局限性,由于基于權(quán)重的剪枝方法主要集中在對(duì)每個(gè)層級(jí)的總體評(píng)估,未能充分考慮每個(gè)層級(jí)中內(nèi)部的個(gè)體特性和具體貢獻(xiàn),容易導(dǎo)致剪枝過程中出現(xiàn)過度剪枝的現(xiàn)象,進(jìn)而損害生成式模型的整體性能與生成質(zhì)量。
發(fā)明內(nèi)容
[0005] 為了解決上述技術(shù)問題,本申請(qǐng)?zhí)峁┝艘环N融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置。
[0006] 下面對(duì)本申請(qǐng)中提供的技術(shù)方案進(jìn)行描述:
[0007] 本申請(qǐng)第一方面提供了一種融合生成式大模型的模型匯聚方法,所述方法包括:
[0008] 收集多模態(tài)特征向量的數(shù)據(jù)集,使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型,并基于所述子模型和所述多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型;
[0009] 根據(jù)所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個(gè)層級(jí),每個(gè)所述層級(jí)包括多個(gè)子層;
[0010] 確定所述子層的類型,并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值,所述復(fù)雜值用于評(píng)估每個(gè)子層在推理時(shí)的計(jì)算復(fù)雜度;
[0011] 獲取所述子層在推理時(shí)的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,通過所述可訓(xùn)練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計(jì)算得到每個(gè)子層的內(nèi)存占用值,所述內(nèi)存占用值用于評(píng)估每個(gè)子層在推理時(shí)的內(nèi)存資源;
[0012] 獲取所述子層在推理時(shí)的增益影響和生成指標(biāo)提升值,通過所述增益影響和所述生成指標(biāo)提升值計(jì)算得到每個(gè)子層的貢獻(xiàn)值,所述貢獻(xiàn)值用于評(píng)估每個(gè)子層在推理時(shí)的貢獻(xiàn)程度;
[0013] 基于用戶需求獲取所述復(fù)雜值、所述內(nèi)存占用值以及所述貢獻(xiàn)值的預(yù)設(shè)權(quán)重,結(jié)合所述預(yù)設(shè)權(quán)重計(jì)算得到每個(gè)子層的影響值,所述影響值用于評(píng)估每個(gè)子層對(duì)推理結(jié)果的質(zhì)量影響;
[0014] 判斷每個(gè)子層的所述影響值是否超過剪枝閾值;
[0015] 若否,則對(duì)未超過所述剪枝閾值的子層進(jìn)行剪枝,剪枝后得到多個(gè)目標(biāo)子層;
[0016] 將所述目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型。
[0017] 可選的,所述確定所述子層的類型,并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值,包括:
[0018] 基于所述初始生成式大模型構(gòu)建kTree數(shù)據(jù)結(jié)構(gòu);
[0019] 根據(jù)所述kTree數(shù)據(jù)結(jié)構(gòu)確定所述子層的類型,所述子層的類型包括基礎(chǔ)層和依賴層,所述kTree數(shù)據(jù)結(jié)構(gòu)中的葉子節(jié)點(diǎn)對(duì)應(yīng)所述基礎(chǔ)層,所述kTree數(shù)據(jù)結(jié)構(gòu)中的非葉子節(jié)點(diǎn)對(duì)應(yīng)所述依賴層;
[0020] 基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值。
[0021] 可選的,當(dāng)所述子層的類型為基礎(chǔ)層時(shí),所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值,包括:
[0022] 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取所述基礎(chǔ)層的輸入輸出維度和卷積核參數(shù),并基于所述輸入輸出維度和所述卷積核參數(shù)計(jì)算得到所述基礎(chǔ)層的復(fù)雜值;
[0023] 當(dāng)所述子層的類型為依賴層時(shí),所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值,包括:
[0024] 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量,并基于所述序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量計(jì)算得到所述依賴層的復(fù)雜值。
[0025] 可選的,基礎(chǔ)層的復(fù)雜值通過以下公式表示:
[0026] ;
[0027] 其中, 表示所述基礎(chǔ)層的復(fù)雜值, 表示所述輸入輸出維度中的輸出通道, 表示所述輸入輸出維度中的輸入通道, 表示所述卷積核參數(shù)中的卷積核大小,表示快速傅里葉變換算法, 表示第 個(gè)所述輸入通道的特征圖, 表
示對(duì)應(yīng)所述輸出通道和所述輸入通道的卷積核矩陣;
[0028] 所述依賴層的復(fù)雜值通過以下公式表示:
[0029] ;