白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置

專利號(hào)
CN119538197B
公開日期
2025-04-25
申請(qǐng)人
山東極視角科技股份有限公司(山東省青島市黃島區(qū)廬山路57-1號(hào)301)
發(fā)明人
羅韻; 陳振杰; 鄧富城; 陳碩
IPC分類
G06F18/25; G06F18/214; G06N3/044; G06N3/0499; G06N3/082; G06F9/50
技術(shù)領(lǐng)域
子層,模型,ktree,生成,剪枝,內(nèi)存,推理,性能指標(biāo),目標(biāo),指標(biāo)
地域: 山東省 山東省青島市

摘要

本申請(qǐng)公開了一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置,用于提高模型的性能。本申請(qǐng)包括:收集多模態(tài)特征向量的數(shù)據(jù)集,并使用數(shù)據(jù)集訓(xùn)練子模型,基于子模型和多模態(tài)特征向量構(gòu)建初始生成式大模型;將初始生成式大模型劃分為多個(gè)層級(jí),每個(gè)層級(jí)包括多個(gè)子層;基于子層的類型計(jì)算每個(gè)子層的復(fù)雜值;獲取子層的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,并計(jì)算得到內(nèi)存占用值;獲取子層的增益影響和生成指標(biāo)提升值,并計(jì)算得到貢獻(xiàn)值;獲取復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值的預(yù)設(shè)權(quán)重,計(jì)算得到影響值;判斷影響值是否超過剪枝閾值;若否,則對(duì)未超過剪枝閾值的子層進(jìn)行剪枝,得到目標(biāo)子層;將目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型。

說明書

1 2 3 4 5 6 7 8 9
[0030] 其中, 表示所述依賴層的復(fù)雜值, 表示所述嵌入維度的頭, 表示第個(gè)所述頭的神經(jīng)元數(shù)量, 表示第 個(gè)所述頭的鍵, 第 個(gè)所述頭的值向量, 表示所述序列長度, 表示所述神經(jīng)元數(shù)量的權(quán)重矩陣, 表示所述鍵的權(quán)重矩陣,表示所述值向量的權(quán)重矩陣, 表示歸一化算法。 [0031] 可選的,所述子層的影響值可通過如下式子表示: [0032] ; [0033] 其中, 表示所述子層的所述影響值, 表示對(duì)所述復(fù)雜值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重, 表示對(duì)所述內(nèi)存占用值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重, 表示所述子層的所述貢獻(xiàn)值, 表示所述子層的所述復(fù)雜值, 表示所述子層的所述內(nèi)存占用值。 [0034] 可選的,在所述將所述目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型之后,還包括: [0035] 獲取測試集,將所述測試集輸入至所述目標(biāo)生成式大模型中進(jìn)行測試,測試完成后對(duì)測試結(jié)果進(jìn)行評(píng)估,得到所述目標(biāo)生成式大模型的性能指標(biāo); [0036] 基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整,調(diào)整后得到融合生成式大模型。 [0037] 可選的,所述基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整,調(diào)整后得到融合生成式大模型包括: [0038] 基于所述性能指標(biāo)判斷所述目標(biāo)生成式大模型是否達(dá)到目標(biāo)性能指標(biāo); [0039] 若否,則重新計(jì)算每個(gè)所述子層的復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值,并在迭代過程中提高所述剪枝閾值,直至達(dá)到目標(biāo)性能指標(biāo); [0040] 當(dāng)確定所述目標(biāo)生成式大模型的所述性能指標(biāo)達(dá)到所述目標(biāo)性能指標(biāo)時(shí),得到融合生成式大模型。 [0041] 本申請(qǐng)第二方面提供了一種融合生成式大模型的模型匯聚系統(tǒng),所述系統(tǒng)包括: [0042] 構(gòu)建單元,用于收集多模態(tài)特征向量的數(shù)據(jù)集,使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型,并基于所述子模型和所述多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型; [0043] 劃分單元,用于根據(jù)所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個(gè)層級(jí),每個(gè)所述層級(jí)包括多個(gè)子層; [0044] 第一計(jì)算單元,用于確定所述子層的類型,并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值,所述復(fù)雜值用于評(píng)估每個(gè)子層在推理時(shí)的計(jì)算復(fù)雜度; [0045] 第二計(jì)算單元,用于獲取所述子層在推理時(shí)的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,通過所述可訓(xùn)練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計(jì)算得到每個(gè)子層的內(nèi)存占用值,所述內(nèi)存占用值用于評(píng)估每個(gè)子層在推理時(shí)的內(nèi)存資源; [0046] 第三計(jì)算單元,用于獲取所述子層在推理時(shí)的增益影響和生成指標(biāo)提升值,通過所述增益影響和所述生成指標(biāo)提升值計(jì)算得到每個(gè)子層的貢獻(xiàn)值,所述貢獻(xiàn)值用于評(píng)估每個(gè)子層在推理時(shí)的貢獻(xiàn)程度; [0047] 第四計(jì)算單元,用于基于用戶需求獲取所述復(fù)雜值、所述內(nèi)存占用值以及所述貢獻(xiàn)值的預(yù)設(shè)權(quán)重,結(jié)合所述預(yù)設(shè)權(quán)重計(jì)算得到每個(gè)子層的影響值,所述影響值用于評(píng)估每個(gè)子層對(duì)推理結(jié)果的質(zhì)量影響; [0048] 第一判斷單元,用于判斷每個(gè)子層的所述影響值是否超過剪枝閾值; [0049] 剪枝單元,用于若否,則對(duì)未超過所述剪枝閾值的子層進(jìn)行剪枝,剪枝后得到多個(gè)目標(biāo)子層; [0050] 匯聚單元,用于將所述目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型。 [0051] 本申請(qǐng)第三方面提供了一種融合生成式大模型的模型匯聚裝置,所述裝置包括: [0052] 處理器、存儲(chǔ)器、輸入輸出單元以及總線; [0053] 所述處理器與所述存儲(chǔ)器、所述輸入輸出單元以及所述總線相連; [0054] 所述存儲(chǔ)器保存有程序,所述處理器調(diào)用所述程序以執(zhí)行如以上任一項(xiàng)所述方法。 [0055] 本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上保存有程序,所述程序在計(jì)算機(jī)上執(zhí)行時(shí)執(zhí)行第一方面以及第一方面中任一項(xiàng)可選的所述方法。 [0056] 從以上技術(shù)方案可以看出,本申請(qǐng)具有以下優(yōu)點(diǎn): [0057] 本申請(qǐng)通過計(jì)算每個(gè)層級(jí)中的每個(gè)子層的復(fù)雜值、內(nèi)存占用值和貢獻(xiàn)值,能夠全面反映每個(gè)子層對(duì)融合生成式大模型生成結(jié)果的影響,確保了對(duì)每個(gè)層級(jí)中每個(gè)子層的特性進(jìn)行深入分析,而不僅僅是對(duì)層級(jí)的整體評(píng)估,并且基于影響值對(duì)每個(gè)子層的獨(dú)立評(píng)估,并設(shè)置合理的閾值進(jìn)行判定,能夠更準(zhǔn)確地確定該子層是否冗余或非必需的,可以及時(shí)保留或剪掉該子層,有效地避免了過度剪枝的風(fēng)險(xiǎn),從而確保了融合生成式模型的整體性能與生成質(zhì)量。 附圖說明 [0058] 為了更清楚地說明本申請(qǐng)中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。 [0059] 圖1為本申請(qǐng)?zhí)峁┑娜诤仙墒酱竽P偷哪P蛥R聚方法一個(gè)實(shí)施例流程示意圖;

權(quán)利要求

1 2 3
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基礎(chǔ)層的復(fù)雜值通過以下公式表示: ; 其中, 表示所述基礎(chǔ)層的復(fù)雜值, 表示所述輸入輸出維度中的輸出通道,表示所述輸入輸出維度中的輸入通道, 表示所述卷積核參數(shù)中的卷積核大小,表示快速傅里葉變換算法, 表示第 個(gè)所述輸入通道的特征圖, 表 示對(duì)應(yīng)所述輸出通道和所述輸入通道的卷積核矩陣; 所述依賴層的復(fù)雜值通過以下公式表示: ; 其中, 表示所述依賴層的復(fù)雜值, 表示所述嵌入維度的頭, 表示第 個(gè)所述頭的神經(jīng)元數(shù)量, 表示第 個(gè)所述頭的鍵, 第 個(gè)所述頭的值向量, 表示所述序列長度, 表示所述神經(jīng)元數(shù)量的權(quán)重矩陣, 表示所述鍵的權(quán)重矩陣, 表示所述值向量的權(quán)重矩陣, 表示歸一化算法。 5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述子層的影響值通過如下式子表示: ; 其中, 表示所述子層的所述影響值, 表示對(duì)所述復(fù)雜值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重, 表示對(duì)所述內(nèi)存占用值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重, 表示所述子層的所述貢獻(xiàn)值, 表示所述子層的所述復(fù)雜值, 表示所述子層的所述內(nèi)存占用值。 6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述將所述目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型之后,還包括: 獲取測試集,將所述測試集輸入至所述目標(biāo)生成式大模型中進(jìn)行測試,測試完成后對(duì)測試結(jié)果進(jìn)行評(píng)估,得到所述目標(biāo)生成式大模型的性能指標(biāo); 基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整,調(diào)整后得到融合生成式大模型。 7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整,調(diào)整后得到融合生成式大模型包括: 基于所述性能指標(biāo)判斷所述目標(biāo)生成式大模型是否達(dá)到目標(biāo)性能指標(biāo); 若否,則重新計(jì)算每個(gè)所述子層的復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值,并在迭代過程中提高所述剪枝閾值,直至達(dá)到目標(biāo)性能指標(biāo); 當(dāng)確定所述目標(biāo)生成式大模型的所述性能指標(biāo)達(dá)到所述目標(biāo)性能指標(biāo)時(shí),得到融合生成式大模型。 8.一種融合生成式大模型的模型匯聚系統(tǒng),其特征在于,包括: 構(gòu)建單元,用于收集多模態(tài)特征向量的數(shù)據(jù)集,使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型,并基于所述子模型和所述多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型; 劃分單元,用于根據(jù)所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個(gè)層級(jí),每個(gè)所述層級(jí)包括多個(gè)子層;
微信群二維碼
意見反饋