[0030] 其中, 表示所述依賴層的復(fù)雜值, 表示所述嵌入維度的頭, 表示第個(gè)所述頭的神經(jīng)元數(shù)量, 表示第 個(gè)所述頭的鍵, 第 個(gè)所述頭的值向量, 表示所述序列長度, 表示所述神經(jīng)元數(shù)量的權(quán)重矩陣, 表示所述鍵的權(quán)重矩陣,表示所述值向量的權(quán)重矩陣, 表示歸一化算法。
[0031] 可選的,所述子層的影響值可通過如下式子表示:
[0032] ;
[0033] 其中, 表示所述子層的所述影響值, 表示對(duì)所述復(fù)雜值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重, 表示對(duì)所述內(nèi)存占用值和所述貢獻(xiàn)值的所述預(yù)設(shè)權(quán)重, 表示所述子層的所述貢獻(xiàn)值, 表示所述子層的所述復(fù)雜值, 表示所述子層的所述內(nèi)存占用值。
[0034] 可選的,在所述將所述目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型之后,還包括:
[0035] 獲取測試集,將所述測試集輸入至所述目標(biāo)生成式大模型中進(jìn)行測試,測試完成后對(duì)測試結(jié)果進(jìn)行評(píng)估,得到所述目標(biāo)生成式大模型的性能指標(biāo);
[0036] 基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整,調(diào)整后得到融合生成式大模型。
[0037] 可選的,所述基于所述性能指標(biāo)對(duì)所述目標(biāo)生成式大模型進(jìn)行調(diào)整,調(diào)整后得到融合生成式大模型包括:
[0038] 基于所述性能指標(biāo)判斷所述目標(biāo)生成式大模型是否達(dá)到目標(biāo)性能指標(biāo);
[0039] 若否,則重新計(jì)算每個(gè)所述子層的復(fù)雜值、內(nèi)存占用值以及貢獻(xiàn)值,并在迭代過程中提高所述剪枝閾值,直至達(dá)到目標(biāo)性能指標(biāo);
[0040] 當(dāng)確定所述目標(biāo)生成式大模型的所述性能指標(biāo)達(dá)到所述目標(biāo)性能指標(biāo)時(shí),得到融合生成式大模型。
[0041] 本申請(qǐng)第二方面提供了一種融合生成式大模型的模型匯聚系統(tǒng),所述系統(tǒng)包括:
[0042] 構(gòu)建單元,用于收集多模態(tài)特征向量的數(shù)據(jù)集,使用所述數(shù)據(jù)集對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練得到子模型,并基于所述子模型和所述多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型;
[0043] 劃分單元,用于根據(jù)所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個(gè)層級(jí),每個(gè)所述層級(jí)包括多個(gè)子層;
[0044] 第一計(jì)算單元,用于確定所述子層的類型,并基于所述子層的類型計(jì)算每個(gè)子層的復(fù)雜值,所述復(fù)雜值用于評(píng)估每個(gè)子層在推理時(shí)的計(jì)算復(fù)雜度;
[0045] 第二計(jì)算單元,用于獲取所述子層在推理時(shí)的可訓(xùn)練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,通過所述可訓(xùn)練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計(jì)算得到每個(gè)子層的內(nèi)存占用值,所述內(nèi)存占用值用于評(píng)估每個(gè)子層在推理時(shí)的內(nèi)存資源;
[0046] 第三計(jì)算單元,用于獲取所述子層在推理時(shí)的增益影響和生成指標(biāo)提升值,通過所述增益影響和所述生成指標(biāo)提升值計(jì)算得到每個(gè)子層的貢獻(xiàn)值,所述貢獻(xiàn)值用于評(píng)估每個(gè)子層在推理時(shí)的貢獻(xiàn)程度;
[0047] 第四計(jì)算單元,用于基于用戶需求獲取所述復(fù)雜值、所述內(nèi)存占用值以及所述貢獻(xiàn)值的預(yù)設(shè)權(quán)重,結(jié)合所述預(yù)設(shè)權(quán)重計(jì)算得到每個(gè)子層的影響值,所述影響值用于評(píng)估每個(gè)子層對(duì)推理結(jié)果的質(zhì)量影響;
[0048] 第一判斷單元,用于判斷每個(gè)子層的所述影響值是否超過剪枝閾值;
[0049] 剪枝單元,用于若否,則對(duì)未超過所述剪枝閾值的子層進(jìn)行剪枝,剪枝后得到多個(gè)目標(biāo)子層;
[0050] 匯聚單元,用于將所述目標(biāo)子層進(jìn)行匯聚,得到目標(biāo)生成式大模型。
[0051] 本申請(qǐng)第三方面提供了一種融合生成式大模型的模型匯聚裝置,所述裝置包括:
[0052] 處理器、存儲(chǔ)器、輸入輸出單元以及總線;
[0053] 所述處理器與所述存儲(chǔ)器、所述輸入輸出單元以及所述總線相連;
[0054] 所述存儲(chǔ)器保存有程序,所述處理器調(diào)用所述程序以執(zhí)行如以上任一項(xiàng)所述方法。
[0055] 本申請(qǐng)第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上保存有程序,所述程序在計(jì)算機(jī)上執(zhí)行時(shí)執(zhí)行第一方面以及第一方面中任一項(xiàng)可選的所述方法。
[0056] 從以上技術(shù)方案可以看出,本申請(qǐng)具有以下優(yōu)點(diǎn):
[0057] 本申請(qǐng)通過計(jì)算每個(gè)層級(jí)中的每個(gè)子層的復(fù)雜值、內(nèi)存占用值和貢獻(xiàn)值,能夠全面反映每個(gè)子層對(duì)融合生成式大模型生成結(jié)果的影響,確保了對(duì)每個(gè)層級(jí)中每個(gè)子層的特性進(jìn)行深入分析,而不僅僅是對(duì)層級(jí)的整體評(píng)估,并且基于影響值對(duì)每個(gè)子層的獨(dú)立評(píng)估,并設(shè)置合理的閾值進(jìn)行判定,能夠更準(zhǔn)確地確定該子層是否冗余或非必需的,可以及時(shí)保留或剪掉該子層,有效地避免了過度剪枝的風(fēng)險(xiǎn),從而確保了融合生成式模型的整體性能與生成質(zhì)量。
附圖說明
[0058] 為了更清楚地說明本申請(qǐng)中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0059] 圖1為本申請(qǐng)?zhí)峁┑娜诤仙墒酱竽P偷哪P蛥R聚方法一個(gè)實(shí)施例流程示意圖;