一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置
技術(shù)領(lǐng)域
[0001] 本申請涉及深度學習技術(shù)領(lǐng)域,尤其涉及一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置。
背景技術(shù)
[0002] 隨著深度學習技術(shù)的迅猛發(fā)展,生成式模型在圖像生成、文本生成和音頻合成等多種多模態(tài)任務(wù)中得到了廣泛的應(yīng)用,例如,在圖像生成領(lǐng)域中,生成對抗網(wǎng)絡(luò)被廣泛應(yīng)用于藝術(shù)創(chuàng)作、圖像修復和超分辨率重建等任務(wù),通過生成器與判別器的對抗訓練,生成了高質(zhì)量的圖像。在通常情況下,生成式模型具有復雜的結(jié)構(gòu)和大量的參數(shù),導致生成式模型在訓練和推理階段消耗大量計算資源和內(nèi)存,由此如何在保證生成式模型性能的情況下有效地減少模型規(guī)模,成為技術(shù)發(fā)展的難點。
[0003] 在現(xiàn)有技術(shù)中,在融合生成式大模型的過程中,其中的剪枝技術(shù)主要依賴于對模型權(quán)重的評估,通過計算生成式大模型中每個層級的權(quán)重值,判斷其對整體模型性能的影響,以此進行模型的層級剪枝,基于權(quán)重的剪枝方法實現(xiàn)簡單,能夠在一定程度上優(yōu)化模型結(jié)構(gòu),并且計算成本相對較低,能夠快速減少模型的參數(shù)量。
[0004] 然而,在面對復雜多樣的數(shù)據(jù)集時,基于權(quán)重的剪枝方法存在顯著的局限性,由于基于權(quán)重的剪枝方法主要集中在對每個層級的總體評估,未能充分考慮每個層級中內(nèi)部的個體特性和具體貢獻,容易導致剪枝過程中出現(xiàn)過度剪枝的現(xiàn)象,進而損害生成式模型的整體性能與生成質(zhì)量。
發(fā)明內(nèi)容
[0005] 為了解決上述技術(shù)問題,本申請?zhí)峁┝艘环N融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置。
[0006] 下面對本申請中提供的技術(shù)方案進行描述:
[0007] 本申請第一方面提供了一種融合生成式大模型的模型匯聚方法,所述方法包括:
[0008] 收集多模態(tài)特征向量的數(shù)據(jù)集,使用所述數(shù)據(jù)集對預(yù)訓練模型進行訓練得到子模型,并基于所述子模型和所述多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型;
[0009] 根據(jù)所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個層級,每個所述層級包括多個子層;
[0010] 確定所述子層的類型,并基于所述子層的類型計算每個子層的復雜值,所述復雜值用于評估每個子層在推理時的計算復雜度;
[0011] 獲取所述子層在推理時的可訓練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,通過所述可訓練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計算得到每個子層的內(nèi)存占用值,所述內(nèi)存占用值用于評估每個子層在推理時的內(nèi)存資源;
[0012] 獲取所述子層在推理時的增益影響和生成指標提升值,通過所述增益影響和所述生成指標提升值計算得到每個子層的貢獻值,所述貢獻值用于評估每個子層在推理時的貢獻程度;
[0013] 基于用戶需求獲取所述復雜值、所述內(nèi)存占用值以及所述貢獻值的預(yù)設(shè)權(quán)重,結(jié)合所述預(yù)設(shè)權(quán)重計算得到每個子層的影響值,所述影響值用于評估每個子層對推理結(jié)果的質(zhì)量影響;
[0014] 判斷每個子層的所述影響值是否超過剪枝閾值;
[0015] 若否,則對未超過所述剪枝閾值的子層進行剪枝,剪枝后得到多個目標子層;
[0016] 將所述目標子層進行匯聚,得到目標生成式大模型。
[0017] 可選的,所述確定所述子層的類型,并基于所述子層的類型計算每個子層的復雜值,包括:
[0018] 基于所述初始生成式大模型構(gòu)建kTree數(shù)據(jù)結(jié)構(gòu);
[0019] 根據(jù)所述kTree數(shù)據(jù)結(jié)構(gòu)確定所述子層的類型,所述子層的類型包括基礎(chǔ)層和依賴層,所述kTree數(shù)據(jù)結(jié)構(gòu)中的葉子節(jié)點對應(yīng)所述基礎(chǔ)層,所述kTree數(shù)據(jù)結(jié)構(gòu)中的非葉子節(jié)點對應(yīng)所述依賴層;
[0020] 基于所述子層的類型計算每個子層的復雜值。
[0021] 可選的,當所述子層的類型為基礎(chǔ)層時,所述基于所述子層的類型計算每個所述子層的復雜值,包括:
[0022] 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取所述基礎(chǔ)層的輸入輸出維度和卷積核參數(shù),并基于所述輸入輸出維度和所述卷積核參數(shù)計算得到所述基礎(chǔ)層的復雜值;
[0023] 當所述子層的類型為依賴層時,所述基于所述子層的類型計算每個所述子層的復雜值,包括:
[0024] 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取序列長度、嵌入維度以及神經(jīng)元數(shù)量,并基于所述序列長度、嵌入維度以及神經(jīng)元數(shù)量計算得到所述依賴層的復雜值。
[0025] 可選的,基礎(chǔ)層的復雜值通過以下公式表示:
[0026] ;
[0027] 其中, 表示所述基礎(chǔ)層的復雜值, 表示所述輸入輸出維度中的輸出通道, 表示所述輸入輸出維度中的輸入通道, 表示所述卷積核參數(shù)中的卷積核大小,表示快速傅里葉變換算法, 表示第 個所述輸入通道的特征圖, 表
示對應(yīng)所述輸出通道和所述輸入通道的卷積核矩陣;
[0028] 所述依賴層的復雜值通過以下公式表示:
[0029] ;