白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置

專利號(hào)
CN119538197B
公開日期
2025-04-25
申請(qǐng)人
山東極視角科技股份有限公司(山東省青島市黃島區(qū)廬山路57-1號(hào)301)
發(fā)明人
羅韻; 陳振杰; 鄧富城; 陳碩
IPC分類
G06F18/25; G06F18/214; G06N3/044; G06N3/0499; G06N3/082; G06F9/50
技術(shù)領(lǐng)域
子層,模型,ktree,生成,剪枝,內(nèi)存,推理,性能指標(biāo),目標(biāo),指標(biāo)
地域: 山東省 山東省青島市

摘要

本申請(qǐng)公開了一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置,用于提高模型的性能。本申請(qǐng)包括:收集多模態(tài)特征向量的數(shù)據(jù)集,并使用數(shù)據(jù)集訓(xùn)練子模型,基于子模型和多模態(tài)特征向量構(gòu)建初始生成式大模型;將初始生成式大模型劃分為多個(gè)層級(jí),每個(gè)層級(jí)包括多個(gè)子層;基于子層的類型計(jì)算每個(gè)子層的復(fù)雜值;獲取子層的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,并計(jì)算得到內(nèi)存占用值;獲取子層的增益影響和生成指標(biāo)提升值,并計(jì)算得到貢獻(xiàn)值;獲取復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值的預(yù)設(shè)權(quán)重,計(jì)算得到影響值;判斷影響值是否超過剪枝閾值;若否,則對(duì)未超過剪枝閾值的子層進(jìn)行剪枝,得到目標(biāo)子層;將目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型。

說明書

1 2 3 4 5 6 7 8 9
一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置 技術(shù)領(lǐng)域 [0001] 本申請(qǐng)涉及深度學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置。 背景技術(shù) [0002] 隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,生成式模型在圖像生成、文本生成和音頻合成等多種多模態(tài)任務(wù)中得到了廣泛的應(yīng)用,例如,在圖像生成領(lǐng)域中,生成對(duì)抗網(wǎng)絡(luò)被廣泛應(yīng)用于藝術(shù)創(chuàng)作、圖像修復(fù)和超分辨率重建等任務(wù),通過生成器與判別器的對(duì)抗訓(xùn)練,生成了高質(zhì)量的圖像。在通常情況下,生成式模型具有復(fù)雜的結(jié)構(gòu)和大量的參數(shù),導(dǎo)致生成式模型在訓(xùn)練和推理階段消耗大量計(jì)算資源和內(nèi)存,由此如何在保證生成式模型性能的情況下有效地減少模型規(guī)模,成為技術(shù)發(fā)展的難點(diǎn)。 [0003] 在現(xiàn)有技術(shù)中,在融合生成式大模型的過程中,其中的剪枝技術(shù)主要依賴于對(duì)模型權(quán)重的評(píng)估,通過計(jì)算生成式大模型中每個(gè)層級(jí)的權(quán)重值,判斷其對(duì)整體模型性能的影響,以此進(jìn)行模型的層級(jí)剪枝,基于權(quán)重的剪枝方法實(shí)現(xiàn)簡(jiǎn)單,能夠在一定程度上優(yōu)化模型結(jié)構(gòu),并且計(jì)算成本相對(duì)較低,能夠快速減少模型的參數(shù)量。 [0004] 然而,在面對(duì)復(fù)雜多樣的數(shù)據(jù)集時(shí),基于權(quán)重的剪枝方法存在顯著的局限性,由于基于權(quán)重的剪枝方法主要集中在對(duì)每個(gè)層級(jí)的總體評(píng)估,未能充分考慮每個(gè)層級(jí)中內(nèi)部的個(gè)體特性和具體貢獻(xiàn),容易導(dǎo)致剪枝過程中出現(xiàn)過度剪枝的現(xiàn)象,進(jìn)而損害生成式模型的整體性能與生成質(zhì)量。 發(fā)明內(nèi)容 [0005] 為了解決上述技術(shù)問題,本申請(qǐng)?zhí)峁┝艘环N融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置。 [0006] 下面對(duì)本申請(qǐng)中提供的技術(shù)方案進(jìn)行描述: [0007] 本申請(qǐng)第一方面提供了一種融合生成式大模型的模型匯聚方法,所述方法包括: [0008] 收集多模態(tài)特征向量的數(shù)據(jù)集,使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型,并基于所述子模型和所述多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型; [0009] 根據(jù)所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個(gè)層級(jí),每個(gè)所述層級(jí)包括多個(gè)子層; [0010] 確定所述子層的類型,并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值,所述復(fù)雜值用于評(píng)估每個(gè)子層在推理時(shí)的計(jì)算復(fù)雜度; [0011] 獲取所述子層在推理時(shí)的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,通過所述可訓(xùn)練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計(jì)算得到每個(gè)子層的內(nèi)存占用值,所述內(nèi)存占用值用于評(píng)估每個(gè)子層在推理時(shí)的內(nèi)存資源; [0012] 獲取所述子層在推理時(shí)的增益影響和生成指標(biāo)提升值,通過所述增益影響和所述生成指標(biāo)提升值計(jì)算得到每個(gè)子層的貢獻(xiàn)值,所述貢獻(xiàn)值用于評(píng)估每個(gè)子層在推理時(shí)的貢獻(xiàn)程度; [0013] 基于用戶需求獲取所述復(fù)雜值、所述內(nèi)存占用值以及所述貢獻(xiàn)值的預(yù)設(shè)權(quán)重,結(jié)合所述預(yù)設(shè)權(quán)重計(jì)算得到每個(gè)子層的影響值,所述影響值用于評(píng)估每個(gè)子層對(duì)推理結(jié)果的質(zhì)量影響; [0014] 判斷每個(gè)子層的所述影響值是否超過剪枝閾值; [0015] 若否,則對(duì)未超過所述剪枝閾值的子層進(jìn)行剪枝,剪枝后得到多個(gè)目標(biāo)子層; [0016] 將所述目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型。 [0017] 可選的,所述確定所述子層的類型,并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值,包括: [0018] 基于所述初始生成式大模型構(gòu)建kTree數(shù)據(jù)結(jié)構(gòu); [0019] 根據(jù)所述kTree數(shù)據(jù)結(jié)構(gòu)確定所述子層的類型,所述子層的類型包括基礎(chǔ)層和依賴層,所述kTree數(shù)據(jù)結(jié)構(gòu)中的葉子節(jié)點(diǎn)對(duì)應(yīng)所述基礎(chǔ)層,所述kTree數(shù)據(jù)結(jié)構(gòu)中的非葉子節(jié)點(diǎn)對(duì)應(yīng)所述依賴層; [0020] 基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值。 [0021] 可選的,當(dāng)所述子層的類型為基礎(chǔ)層時(shí),所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值,包括: [0022] 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取所述基礎(chǔ)層的輸入輸出維度和卷積核參數(shù),并基于所述輸入輸出維度和所述卷積核參數(shù)計(jì)算得到所述基礎(chǔ)層的復(fù)雜值; [0023] 當(dāng)所述子層的類型為依賴層時(shí),所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值,包括: [0024] 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量,并基于所述序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量計(jì)算得到所述依賴層的復(fù)雜值。 [0025] 可選的,基礎(chǔ)層的復(fù)雜值通過以下公式表示: [0026] ; [0027] 其中, 表示所述基礎(chǔ)層的復(fù)雜值, 表示所述輸入輸出維度中的輸出通道, 表示所述輸入輸出維度中的輸入通道, 表示所述卷積核參數(shù)中的卷積核大小,表示快速傅里葉變換算法, 表示第 個(gè)所述輸入通道的特征圖, 表 示對(duì)應(yīng)所述輸出通道和所述輸入通道的卷積核矩陣; [0028] 所述依賴層的復(fù)雜值通過以下公式表示: [0029] ;

權(quán)利要求

1 2 3
1.一種融合生成式大模型的模型匯聚方法,其特征在于,所述方法包括: 收集多模態(tài)特征向量的數(shù)據(jù)集,使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型,并基于所述子模型和所述多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型; 根據(jù)所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個(gè)層級(jí),每個(gè)所述層級(jí)包括多個(gè)子層; 確定所述子層的類型,并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值,所述復(fù)雜值用于評(píng)估每個(gè)子層在推理時(shí)的計(jì)算復(fù)雜度; 獲取所述子層在推理時(shí)的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,通過所述可訓(xùn)練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計(jì)算得到每個(gè)子層的內(nèi)存占用值,所述內(nèi)存占用值用于評(píng)估每個(gè)子層在推理時(shí)的內(nèi)存資源; 獲取所述子層在推理時(shí)的增益影響和生成指標(biāo)提升值,通過所述增益影響和所述生成指標(biāo)提升值計(jì)算得到每個(gè)子層的貢獻(xiàn)值,所述貢獻(xiàn)值用于評(píng)估每個(gè)子層在推理時(shí)的貢獻(xiàn)程度; 基于用戶需求獲取所述復(fù)雜值、所述內(nèi)存占用值以及所述貢獻(xiàn)值的預(yù)設(shè)權(quán)重,結(jié)合所述預(yù)設(shè)權(quán)重計(jì)算得到每個(gè)子層的影響值,所述影響值用于評(píng)估每個(gè)子層對(duì)推理結(jié)果的質(zhì)量影響; 判斷每個(gè)子層的所述影響值是否超過剪枝閾值; 若否,則對(duì)未超過所述剪枝閾值的子層進(jìn)行剪枝,剪枝后得到多個(gè)目標(biāo)子層; 將所述目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型。 2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述子層的類型,并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值,包括: 基于所述初始生成式大模型構(gòu)建kTree數(shù)據(jù)結(jié)構(gòu); 根據(jù)所述kTree數(shù)據(jù)結(jié)構(gòu)確定所述子層的類型,所述子層的類型包括基礎(chǔ)層和依賴層,所述kTree數(shù)據(jù)結(jié)構(gòu)中的葉子節(jié)點(diǎn)對(duì)應(yīng)所述基礎(chǔ)層,所述kTree數(shù)據(jù)結(jié)構(gòu)中的非葉子節(jié)點(diǎn)對(duì)應(yīng)所述依賴層; 基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值。 3.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)所述子層的類型為基礎(chǔ)層時(shí),所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值,包括: 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取所述基礎(chǔ)層的輸入輸出維度和卷積核參數(shù),并基于所述輸入輸出維度和所述卷積核參數(shù)計(jì)算得到所述基礎(chǔ)層的復(fù)雜值; 當(dāng)所述子層的類型為依賴層時(shí),所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值,包括: 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量,并基于所述序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量計(jì)算得到所述依賴層的復(fù)雜值。
微信群二維碼
意見反饋