一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置

專利號(hào)

CN119538197B

公開日期

2025-04-25

申請(qǐng)人

山東極視角科技股份有限公司（山東省青島市黃島區(qū)廬山路57-1號(hào)301）

發(fā)明人

羅韻; 陳振杰; 鄧富城; 陳碩

IPC分類

G06F18/25; G06F18/214; G06N3/044; G06N3/0499; G06N3/082; G06F9/50

技術(shù)領(lǐng)域

子層,模型,ktree,生成,剪枝,內(nèi)存,推理,性能指標(biāo),目標(biāo),指標(biāo)

地域： 山東省山東省青島市

摘要

本申請(qǐng)公開了一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置，用于提高模型的性能。本申請(qǐng)包括：收集多模態(tài)特征向量的數(shù)據(jù)集，并使用數(shù)據(jù)集訓(xùn)練子模型，基于子模型和多模態(tài)特征向量構(gòu)建初始生成式大模型；將初始生成式大模型劃分為多個(gè)層級(jí)，每個(gè)層級(jí)包括多個(gè)子層；基于子層的類型計(jì)算每個(gè)子層的復(fù)雜值；獲取子層的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存，并計(jì)算得到內(nèi)存占用值；獲取子層的增益影響和生成指標(biāo)提升值，并計(jì)算得到貢獻(xiàn)值；獲取復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值的預(yù)設(shè)權(quán)重，計(jì)算得到影響值；判斷影響值是否超過剪枝閾值；若否，則對(duì)未超過剪枝閾值的子層進(jìn)行剪枝，得到目標(biāo)子層；將目標(biāo)子層進(jìn)行匯聚，得到目標(biāo)生成式大模型。

說明書

1 2 3 4 5 6 7 8 9

一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置技術(shù)領(lǐng)域 [0001] 本申請(qǐng)涉及深度學(xué)習(xí)技術(shù)領(lǐng)域，尤其涉及一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置。背景技術(shù) [0002] 隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展，生成式模型在圖像生成、文本生成和音頻合成等多種多模態(tài)任務(wù)中得到了廣泛的應(yīng)用，例如，在圖像生成領(lǐng)域中，生成對(duì)抗網(wǎng)絡(luò)被廣泛應(yīng)用于藝術(shù)創(chuàng)作、圖像修復(fù)和超分辨率重建等任務(wù)，通過生成器與判別器的對(duì)抗訓(xùn)練，生成了高質(zhì)量的圖像。在通常情況下，生成式模型具有復(fù)雜的結(jié)構(gòu)和大量的參數(shù)，導(dǎo)致生成式模型在訓(xùn)練和推理階段消耗大量計(jì)算資源和內(nèi)存，由此如何在保證生成式模型性能的情況下有效地減少模型規(guī)模，成為技術(shù)發(fā)展的難點(diǎn)。 [0003] 在現(xiàn)有技術(shù)中，在融合生成式大模型的過程中，其中的剪枝技術(shù)主要依賴于對(duì)模型權(quán)重的評(píng)估，通過計(jì)算生成式大模型中每個(gè)層級(jí)的權(quán)重值，判斷其對(duì)整體模型性能的影響，以此進(jìn)行模型的層級(jí)剪枝，基于權(quán)重的剪枝方法實(shí)現(xiàn)簡(jiǎn)單，能夠在一定程度上優(yōu)化模型結(jié)構(gòu)，并且計(jì)算成本相對(duì)較低，能夠快速減少模型的參數(shù)量。 [0004] 然而，在面對(duì)復(fù)雜多樣的數(shù)據(jù)集時(shí)，基于權(quán)重的剪枝方法存在顯著的局限性，由于基于權(quán)重的剪枝方法主要集中在對(duì)每個(gè)層級(jí)的總體評(píng)估，未能充分考慮每個(gè)層級(jí)中內(nèi)部的個(gè)體特性和具體貢獻(xiàn)，容易導(dǎo)致剪枝過程中出現(xiàn)過度剪枝的現(xiàn)象，進(jìn)而損害生成式模型的整體性能與生成質(zhì)量。發(fā)明內(nèi)容 [0005] 為了解決上述技術(shù)問題，本申請(qǐng)?zhí)峁┝艘环N融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置。 [0006] 下面對(duì)本申請(qǐng)中提供的技術(shù)方案進(jìn)行描述： [0007] 本申請(qǐng)第一方面提供了一種融合生成式大模型的模型匯聚方法，所述方法包括： [0008] 收集多模態(tài)特征向量的數(shù)據(jù)集，使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型，并基于所述子模型和所述多模態(tài)特征向量，采用Transformer架構(gòu)構(gòu)建初始生成式大模型； [0009] 根據(jù)所述初始生成式大模型的功能模塊，將所述初始生成式大模型劃分為多個(gè)層級(jí)，每個(gè)所述層級(jí)包括多個(gè)子層； [0010] 確定所述子層的類型，并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值，所述復(fù)雜值用于評(píng)估每個(gè)子層在推理時(shí)的計(jì)算復(fù)雜度； [0011] 獲取所述子層在推理時(shí)的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存，通過所述可訓(xùn)練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計(jì)算得到每個(gè)子層的內(nèi)存占用值，所述內(nèi)存占用值用于評(píng)估每個(gè)子層在推理時(shí)的內(nèi)存資源； [0012] 獲取所述子層在推理時(shí)的增益影響和生成指標(biāo)提升值，通過所述增益影響和所述生成指標(biāo)提升值計(jì)算得到每個(gè)子層的貢獻(xiàn)值，所述貢獻(xiàn)值用于評(píng)估每個(gè)子層在推理時(shí)的貢獻(xiàn)程度； [0013] 基于用戶需求獲取所述復(fù)雜值、所述內(nèi)存占用值以及所述貢獻(xiàn)值的預(yù)設(shè)權(quán)重，結(jié)合所述預(yù)設(shè)權(quán)重計(jì)算得到每個(gè)子層的影響值，所述影響值用于評(píng)估每個(gè)子層對(duì)推理結(jié)果的質(zhì)量影響； [0014] 判斷每個(gè)子層的所述影響值是否超過剪枝閾值； [0015] 若否，則對(duì)未超過所述剪枝閾值的子層進(jìn)行剪枝，剪枝后得到多個(gè)目標(biāo)子層； [0016] 將所述目標(biāo)子層進(jìn)行匯聚，得到目標(biāo)生成式大模型。 [0017] 可選的，所述確定所述子層的類型，并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值，包括： [0018] 基于所述初始生成式大模型構(gòu)建kTree數(shù)據(jù)結(jié)構(gòu)； [0019] 根據(jù)所述kTree數(shù)據(jù)結(jié)構(gòu)確定所述子層的類型，所述子層的類型包括基礎(chǔ)層和依賴層，所述kTree數(shù)據(jù)結(jié)構(gòu)中的葉子節(jié)點(diǎn)對(duì)應(yīng)所述基礎(chǔ)層，所述kTree數(shù)據(jù)結(jié)構(gòu)中的非葉子節(jié)點(diǎn)對(duì)應(yīng)所述依賴層； [0020] 基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值。 [0021] 可選的，當(dāng)所述子層的類型為基礎(chǔ)層時(shí)，所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值，包括： [0022] 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取所述基礎(chǔ)層的輸入輸出維度和卷積核參數(shù)，并基于所述輸入輸出維度和所述卷積核參數(shù)計(jì)算得到所述基礎(chǔ)層的復(fù)雜值； [0023] 當(dāng)所述子層的類型為依賴層時(shí)，所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值，包括： [0024] 通過kTree數(shù)據(jù)結(jié)構(gòu)獲取序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量，并基于所述序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量計(jì)算得到所述依賴層的復(fù)雜值。 [0025] 可選的，基礎(chǔ)層的復(fù)雜值通過以下公式表示： [0026] ； [0027] 其中，表示所述基礎(chǔ)層的復(fù)雜值，表示所述輸入輸出維度中的輸出通道，表示所述輸入輸出維度中的輸入通道，表示所述卷積核參數(shù)中的卷積核大小，表示快速傅里葉變換算法，表示第個(gè)所述輸入通道的特征圖，表示對(duì)應(yīng)所述輸出通道和所述輸入通道的卷積核矩陣； [0028] 所述依賴層的復(fù)雜值通過以下公式表示： [0029] ；

權(quán)利要求

1 2 3

1.一種融合生成式大模型的模型匯聚方法，其特征在于，所述方法包括：收集多模態(tài)特征向量的數(shù)據(jù)集，使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型，并基于所述子模型和所述多模態(tài)特征向量，采用Transformer架構(gòu)構(gòu)建初始生成式大模型；根據(jù)所述初始生成式大模型的功能模塊，將所述初始生成式大模型劃分為多個(gè)層級(jí)，每個(gè)所述層級(jí)包括多個(gè)子層；確定所述子層的類型，并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值，所述復(fù)雜值用于評(píng)估每個(gè)子層在推理時(shí)的計(jì)算復(fù)雜度；獲取所述子層在推理時(shí)的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存，通過所述可訓(xùn)練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計(jì)算得到每個(gè)子層的內(nèi)存占用值，所述內(nèi)存占用值用于評(píng)估每個(gè)子層在推理時(shí)的內(nèi)存資源；獲取所述子層在推理時(shí)的增益影響和生成指標(biāo)提升值，通過所述增益影響和所述生成指標(biāo)提升值計(jì)算得到每個(gè)子層的貢獻(xiàn)值，所述貢獻(xiàn)值用于評(píng)估每個(gè)子層在推理時(shí)的貢獻(xiàn)程度；基于用戶需求獲取所述復(fù)雜值、所述內(nèi)存占用值以及所述貢獻(xiàn)值的預(yù)設(shè)權(quán)重，結(jié)合所述預(yù)設(shè)權(quán)重計(jì)算得到每個(gè)子層的影響值，所述影響值用于評(píng)估每個(gè)子層對(duì)推理結(jié)果的質(zhì)量影響；判斷每個(gè)子層的所述影響值是否超過剪枝閾值；若否，則對(duì)未超過所述剪枝閾值的子層進(jìn)行剪枝，剪枝后得到多個(gè)目標(biāo)子層；將所述目標(biāo)子層進(jìn)行匯聚，得到目標(biāo)生成式大模型。 2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定所述子層的類型，并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值，包括：基于所述初始生成式大模型構(gòu)建kTree數(shù)據(jù)結(jié)構(gòu)；根據(jù)所述kTree數(shù)據(jù)結(jié)構(gòu)確定所述子層的類型，所述子層的類型包括基礎(chǔ)層和依賴層，所述kTree數(shù)據(jù)結(jié)構(gòu)中的葉子節(jié)點(diǎn)對(duì)應(yīng)所述基礎(chǔ)層，所述kTree數(shù)據(jù)結(jié)構(gòu)中的非葉子節(jié)點(diǎn)對(duì)應(yīng)所述依賴層；基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值。 3.根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)所述子層的類型為基礎(chǔ)層時(shí)，所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值，包括：通過kTree數(shù)據(jù)結(jié)構(gòu)獲取所述基礎(chǔ)層的輸入輸出維度和卷積核參數(shù)，并基于所述輸入輸出維度和所述卷積核參數(shù)計(jì)算得到所述基礎(chǔ)層的復(fù)雜值；當(dāng)所述子層的類型為依賴層時(shí)，所述基于所述子層的類型計(jì)算每個(gè)所述子層的復(fù)雜值，包括：通過kTree數(shù)據(jù)結(jié)構(gòu)獲取序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量，并基于所述序列長(zhǎng)度、嵌入維度以及神經(jīng)元數(shù)量計(jì)算得到所述依賴層的復(fù)雜值。

微信群二維碼

意見反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置

摘要

說明書

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：