一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置

專利號(hào)

CN119538197B

公開日期

2025-04-25

申請(qǐng)人

山東極視角科技股份有限公司（山東省青島市黃島區(qū)廬山路57-1號(hào)301）

發(fā)明人

羅韻; 陳振杰; 鄧富城; 陳碩

IPC分類

G06F18/25; G06F18/214; G06N3/044; G06N3/0499; G06N3/082; G06F9/50

技術(shù)領(lǐng)域

子層,模型,ktree,生成,剪枝,內(nèi)存,推理,性能指標(biāo),目標(biāo),指標(biāo)

地域： 山東省山東省青島市

摘要

本申請(qǐng)公開了一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置，用于提高模型的性能。本申請(qǐng)包括：收集多模態(tài)特征向量的數(shù)據(jù)集，并使用數(shù)據(jù)集訓(xùn)練子模型，基于子模型和多模態(tài)特征向量構(gòu)建初始生成式大模型；將初始生成式大模型劃分為多個(gè)層級(jí)，每個(gè)層級(jí)包括多個(gè)子層；基于子層的類型計(jì)算每個(gè)子層的復(fù)雜值；獲取子層的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存，并計(jì)算得到內(nèi)存占用值；獲取子層的增益影響和生成指標(biāo)提升值，并計(jì)算得到貢獻(xiàn)值；獲取復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值的預(yù)設(shè)權(quán)重，計(jì)算得到影響值；判斷影響值是否超過剪枝閾值；若否，則對(duì)未超過剪枝閾值的子層進(jìn)行剪枝，得到目標(biāo)子層；將目標(biāo)子層進(jìn)行匯聚，得到目標(biāo)生成式大模型。

說明書

1 2 3 4 5 6 7 8 9

[0030] 其中，表示所述依賴層的復(fù)雜值，表示所述嵌入維度的頭，表示第個(gè)所述頭的神經(jīng)元數(shù)量，表示第個(gè)所述頭的鍵，第個(gè)所述頭的值向量，表示所述序列長度，表示所述神經(jīng)元數(shù)量的權(quán)重矩陣，表示所述鍵的權(quán)重矩陣，表示所述值向量的權(quán)重矩陣，表示歸一化算法。 [0031] 可選的，所述子層的影響值可通過如下式子表示： [0032] ； [0033] 其中，表示所述子層的所述影響值，表示對(duì)所述復(fù)雜值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重，表示對(duì)所述內(nèi)存占用值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重，表示所述子層的所述貢獻(xiàn)值，表示所述子層的所述復(fù)雜值，表示所述子層的所述內(nèi)存占用值。 [0034] 可選的，在所述將所述目標(biāo)子層進(jìn)行匯聚，得到目標(biāo)生成式大模型之后，還包括： [0035] 獲取測試集，將所述測試集輸入至所述目標(biāo)生成式大模型中進(jìn)行測試，測試完成后對(duì)測試結(jié)果進(jìn)行評(píng)估，得到所述目標(biāo)生成式大模型的性能指標(biāo)； [0036] 基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整，調(diào)整后得到融合生成式大模型。 [0037] 可選的，所述基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整，調(diào)整后得到融合生成式大模型包括： [0038] 基于所述性能指標(biāo)判斷所述目標(biāo)生成式大模型是否達(dá)到目標(biāo)性能指標(biāo)； [0039] 若否，則重新計(jì)算每個(gè)所述子層的復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值，并在迭代過程中提高所述剪枝閾值，直至達(dá)到目標(biāo)性能指標(biāo)； [0040] 當(dāng)確定所述目標(biāo)生成式大模型的所述性能指標(biāo)達(dá)到所述目標(biāo)性能指標(biāo)時(shí)，得到融合生成式大模型。 [0041] 本申請(qǐng)第二方面提供了一種融合生成式大模型的模型匯聚系統(tǒng)，所述系統(tǒng)包括： [0042] 構(gòu)建單元，用于收集多模態(tài)特征向量的數(shù)據(jù)集，使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型，并基于所述子模型和所述多模態(tài)特征向量，采用Transformer架構(gòu)構(gòu)建初始生成式大模型； [0043] 劃分單元，用于根據(jù)所述初始生成式大模型的功能模塊，將所述初始生成式大模型劃分為多個(gè)層級(jí)，每個(gè)所述層級(jí)包括多個(gè)子層； [0044] 第一計(jì)算單元，用于確定所述子層的類型，并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值，所述復(fù)雜值用于評(píng)估每個(gè)子層在推理時(shí)的計(jì)算復(fù)雜度； [0045] 第二計(jì)算單元，用于獲取所述子層在推理時(shí)的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存，通過所述可訓(xùn)練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計(jì)算得到每個(gè)子層的內(nèi)存占用值，所述內(nèi)存占用值用于評(píng)估每個(gè)子層在推理時(shí)的內(nèi)存資源； [0046] 第三計(jì)算單元，用于獲取所述子層在推理時(shí)的增益影響和生成指標(biāo)提升值，通過所述增益影響和所述生成指標(biāo)提升值計(jì)算得到每個(gè)子層的貢獻(xiàn)值，所述貢獻(xiàn)值用于評(píng)估每個(gè)子層在推理時(shí)的貢獻(xiàn)程度； [0047] 第四計(jì)算單元，用于基于用戶需求獲取所述復(fù)雜值、所述內(nèi)存占用值以及所述貢獻(xiàn)值的預(yù)設(shè)權(quán)重，結(jié)合所述預(yù)設(shè)權(quán)重計(jì)算得到每個(gè)子層的影響值，所述影響值用于評(píng)估每個(gè)子層對(duì)推理結(jié)果的質(zhì)量影響； [0048] 第一判斷單元，用于判斷每個(gè)子層的所述影響值是否超過剪枝閾值； [0049] 剪枝單元，用于若否，則對(duì)未超過所述剪枝閾值的子層進(jìn)行剪枝，剪枝后得到多個(gè)目標(biāo)子層； [0050] 匯聚單元，用于將所述目標(biāo)子層進(jìn)行匯聚，得到目標(biāo)生成式大模型。 [0051] 本申請(qǐng)第三方面提供了一種融合生成式大模型的模型匯聚裝置，所述裝置包括： [0052] 處理器、存儲(chǔ)器、輸入輸出單元以及總線； [0053] 所述處理器與所述存儲(chǔ)器、所述輸入輸出單元以及所述總線相連； [0054] 所述存儲(chǔ)器保存有程序，所述處理器調(diào)用所述程序以執(zhí)行如以上任一項(xiàng)所述方法。 [0055] 本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上保存有程序，所述程序在計(jì)算機(jī)上執(zhí)行時(shí)執(zhí)行第一方面以及第一方面中任一項(xiàng)可選的所述方法。 [0056] 從以上技術(shù)方案可以看出，本申請(qǐng)具有以下優(yōu)點(diǎn)： [0057] 本申請(qǐng)通過計(jì)算每個(gè)層級(jí)中的每個(gè)子層的復(fù)雜值、內(nèi)存占用值和貢獻(xiàn)值，能夠全面反映每個(gè)子層對(duì)融合生成式大模型生成結(jié)果的影響，確保了對(duì)每個(gè)層級(jí)中每個(gè)子層的特性進(jìn)行深入分析，而不僅僅是對(duì)層級(jí)的整體評(píng)估，并且基于影響值對(duì)每個(gè)子層的獨(dú)立評(píng)估，并設(shè)置合理的閾值進(jìn)行判定，能夠更準(zhǔn)確地確定該子層是否冗余或非必需的，可以及時(shí)保留或剪掉該子層，有效地避免了過度剪枝的風(fēng)險(xiǎn)，從而確保了融合生成式模型的整體性能與生成質(zhì)量。附圖說明 [0058] 為了更清楚地說明本申請(qǐng)中的技術(shù)方案，下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。 [0059] 圖1為本申請(qǐng)?zhí)峁┑娜诤仙墒酱竽Ｐ偷哪Ｐ蛥R聚方法一個(gè)實(shí)施例流程示意圖；

權(quán)利要求

1 2 3

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述基礎(chǔ)層的復(fù)雜值通過以下公式表示：；其中，表示所述基礎(chǔ)層的復(fù)雜值，表示所述輸入輸出維度中的輸出通道，表示所述輸入輸出維度中的輸入通道，表示所述卷積核參數(shù)中的卷積核大小，表示快速傅里葉變換算法，表示第個(gè)所述輸入通道的特征圖，表示對(duì)應(yīng)所述輸出通道和所述輸入通道的卷積核矩陣；所述依賴層的復(fù)雜值通過以下公式表示：；其中，表示所述依賴層的復(fù)雜值，表示所述嵌入維度的頭，表示第個(gè)所述頭的神經(jīng)元數(shù)量，表示第個(gè)所述頭的鍵，第個(gè)所述頭的值向量，表示所述序列長度，表示所述神經(jīng)元數(shù)量的權(quán)重矩陣，表示所述鍵的權(quán)重矩陣，表示所述值向量的權(quán)重矩陣，表示歸一化算法。 5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述子層的影響值通過如下式子表示：；其中，表示所述子層的所述影響值，表示對(duì)所述復(fù)雜值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重，表示對(duì)所述內(nèi)存占用值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重，表示所述子層的所述貢獻(xiàn)值，表示所述子層的所述復(fù)雜值，表示所述子層的所述內(nèi)存占用值。 6.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述將所述目標(biāo)子層進(jìn)行匯聚，得到目標(biāo)生成式大模型之后，還包括：獲取測試集，將所述測試集輸入至所述目標(biāo)生成式大模型中進(jìn)行測試，測試完成后對(duì)測試結(jié)果進(jìn)行評(píng)估，得到所述目標(biāo)生成式大模型的性能指標(biāo)；基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整，調(diào)整后得到融合生成式大模型。 7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整，調(diào)整后得到融合生成式大模型包括：基于所述性能指標(biāo)判斷所述目標(biāo)生成式大模型是否達(dá)到目標(biāo)性能指標(biāo)；若否，則重新計(jì)算每個(gè)所述子層的復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值，并在迭代過程中提高所述剪枝閾值，直至達(dá)到目標(biāo)性能指標(biāo)；當(dāng)確定所述目標(biāo)生成式大模型的所述性能指標(biāo)達(dá)到所述目標(biāo)性能指標(biāo)時(shí)，得到融合生成式大模型。 8.一種融合生成式大模型的模型匯聚系統(tǒng)，其特征在于，包括：構(gòu)建單元，用于收集多模態(tài)特征向量的數(shù)據(jù)集，使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型，并基于所述子模型和所述多模態(tài)特征向量，采用Transformer架構(gòu)構(gòu)建初始生成式大模型；劃分單元，用于根據(jù)所述初始生成式大模型的功能模塊，將所述初始生成式大模型劃分為多個(gè)層級(jí)，每個(gè)所述層級(jí)包括多個(gè)子層；

微信群二維碼

意見反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置

摘要

說明書

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：

一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：