白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置

專利號
CN119538197B
公開日期
2025-04-25
申請人
山東極視角科技股份有限公司(山東省青島市黃島區(qū)廬山路57-1號301)
發(fā)明人
羅韻; 陳振杰; 鄧富城; 陳碩
IPC分類
G06F18/25; G06F18/214; G06N3/044; G06N3/0499; G06N3/082; G06F9/50
技術(shù)領(lǐng)域
子層,模型,ktree,生成,剪枝,內(nèi)存,推理,性能指標,目標,指標
地域: 山東省 山東省青島市

摘要

本申請公開了一種融合生成式大模型的模型匯聚方法、系統(tǒng)及相關(guān)裝置,用于提高模型的性能。本申請包括:收集多模態(tài)特征向量的數(shù)據(jù)集,并使用數(shù)據(jù)集訓練子模型,基于子模型和多模態(tài)特征向量構(gòu)建初始生成式大模型;將初始生成式大模型劃分為多個層級,每個層級包括多個子層;基于子層的類型計算每個子層的復雜值;獲取子層的可訓練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,并計算得到內(nèi)存占用值;獲取子層的增益影響和生成指標提升值,并計算得到貢獻值;獲取復雜值、內(nèi)存占用值以及貢獻值的預設(shè)權(quán)重,計算得到影響值;判斷影響值是否超過剪枝閾值;若否,則對未超過剪枝閾值的子層進行剪枝,得到目標子層;將目標子層進行匯聚,得到目標生成式大模型。

說明書

1 2 3 4 5 6 7 8 9
[0060] 圖2為本申請?zhí)峁┑娜诤仙墒酱竽P偷哪P蛥R聚方法另一個實施例流程示意圖; [0061] 圖3為本申請?zhí)峁┑娜诤仙墒酱竽P偷哪P蛥R聚系統(tǒng)一個實施例結(jié)構(gòu)示意圖; [0062] 圖4為本申請?zhí)峁┑娜诤仙墒酱竽P偷哪P蛥R聚裝置一個實施例結(jié)構(gòu)示意圖。 具體實施方式 [0063] 本申請?zhí)峁┝艘环N融合生成式大模型的模型匯聚方法,能夠提高生成式模型的整體性能與生成質(zhì)量。需要說明的是,本申請的融合生成式大模型的模型匯聚方法應(yīng)用于終端。 [0064] 請參閱圖1,本申請首先提供了一種融合生成式大模型的模型匯聚方法的一個實施例,該實施例包括: [0065] S101、收集多模態(tài)特征向量的數(shù)據(jù)集,使用數(shù)據(jù)集對預訓練模型進行訓練得到子模型,并基于子模型和多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型; [0066] Transformer架構(gòu)是一種創(chuàng)新的深度學習架構(gòu),設(shè)計主旨為處理序列數(shù)據(jù)采用了Attention?Mechanism注意力機制,主要由Encoder編碼器和Decoder解碼器組成。Encoder編碼器,能夠并行地處理輸入序列中的每個元素,通過多頭注意力機制捕捉序列元素之間的關(guān)系,并結(jié)合前饋神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行特征提取和轉(zhuǎn)換;Decoder解碼器,采用注意力機制處理輸出序列的生成過程,能夠根據(jù)源語言輸入的不同部分的重要性動態(tài)分配權(quán)重。 [0067] 需要說明的是,本實施例采用Transformer架構(gòu)的優(yōu)勢在于Transformer架構(gòu)能夠有效地處理長序列數(shù)據(jù),避免了傳統(tǒng)RNN中的長序列梯度消失或爆炸問題,并且Transformer架構(gòu)的并行計算能力,可以大幅度提高訓練和推理的速度。 [0068] 本實施例中,所收集的多模態(tài)特征向量的數(shù)據(jù)集包括圖像數(shù)據(jù)、文本數(shù)據(jù)以及音頻數(shù)據(jù),再利用多模態(tài)特征向量的數(shù)據(jù)集對預訓練模型進行訓練。在預訓練模型訓練的過程中,預訓練模型可以通過學習模態(tài)特征向量的數(shù)據(jù)集中不同模態(tài)數(shù)據(jù)的特征模式來調(diào)整參數(shù),從而得到多個不同模態(tài)數(shù)據(jù)的子模型,將得到的子模型與所收集的數(shù)據(jù)集中的多模態(tài)特征向量相結(jié)合,采用Transformer架構(gòu)構(gòu)建初始生成式大模型。 [0069] 收集多模態(tài)特征向量的數(shù)據(jù)集,可以使所訓練的子模型能夠?qū)W習到不同類型數(shù)據(jù)的特征,提高了模型的泛化能力,為后續(xù)構(gòu)建初始生成式大模型提供了數(shù)據(jù)基礎(chǔ)。在構(gòu)建初始生成式大模型時,采用Transformer架構(gòu)進行構(gòu)建,能夠更好地捕捉多模態(tài)特征向量中的長距離依賴關(guān)系,提高初始生成式大模型對復雜語義信息的理解能力,有助于在多種應(yīng)用場景下,增強初始生成式大模型的性能和實用性。 [0070] S102、根據(jù)初始生成式大模型的功能模塊,將初始生成式大模型劃分為多個層級,每個層級包括多個子層; [0071] 本實施例中,需要對構(gòu)建得到的初始生成式大模型進行全面的功能分析,明確初始生成式大模型不同的功能模塊,再根據(jù)不同功能模塊的邏輯關(guān)系和功能特性,將初始生成式大模型劃分為多個層級,例如按照數(shù)據(jù)處理的先后順序、功能的抽象層次或模塊之間的耦合程度的標準進行劃分。在每個層級內(nèi)部,進一步細分出多個子層,每個層級中的每個子層對應(yīng)著模型中不同的計算單元。 [0072] 該實施例按照功能模塊將初始生成式大模型劃分為多個層級,有助于提高模型的可理解性和可維護性,層級中的分層結(jié)構(gòu)可以使初始生成式大模型的架構(gòu)更加清晰,便于對初始生成式大模型進行調(diào)試、優(yōu)化和改進,并且不同層級可以專注于不同層次的任務(wù),例如較低層級可以處理基礎(chǔ)的數(shù)據(jù)特征提取,較高層級可以進行更復雜的語義分析。 [0073] 在實際對初始生成式大模型進行優(yōu)化時,可以針對特定的層級和子層進行優(yōu)化,有助于提高初始生成式大模型的靈活性,并且在初始生成式大模型規(guī)模較大時,能夠有效地控制計算資源的分配,提高初始生成式大模型的訓練和推理效率。 [0074] S103、確定子層的類型,并基于子層的類型計算每個子層的復雜值,復雜值用于評估每個子層在推理時的計算復雜度; [0075] 本實施例中,首先需要根據(jù)子層的結(jié)構(gòu)特征和功能特性確定每個子層的類型,例如子層的計算涉及對序列數(shù)據(jù),并按時間步長進行處理,則該子層的類型為循環(huán)神經(jīng)網(wǎng)絡(luò)層。當確定了子層的類型后,根據(jù)所確定的不同的子層類型計算復雜度,例如計算循環(huán)神經(jīng)網(wǎng)絡(luò)層的復雜度,通常通過輸入維度、隱藏層維度以及時間步長來計算每個子層的復雜值,所得到的復雜值用于評估每個子層在推理時的計算復雜度。

權(quán)利要求

1 2 3
第一計算單元,用于確定所述子層的類型,并基于所述子層的類型計算每個子層的復雜值,所述復雜值用于評估每個子層在推理時的計算復雜度; 第二計算單元,用于獲取所述子層在推理時的可訓練參數(shù)占用內(nèi)存和中間結(jié)果占用內(nèi)存,通過所述可訓練參數(shù)占用內(nèi)存和所述中間結(jié)果占用內(nèi)存計算得到每個子層的內(nèi)存占用值,所述內(nèi)存占用值用于評估每個子層在推理時的內(nèi)存資源; 第三計算單元,用于獲取所述子層在推理時的增益影響和生成指標提升值,通過所述增益影響和所述生成指標提升值計算得到每個子層的貢獻值,所述貢獻值用于評估每個子層在推理時的貢獻程度; 第四計算單元,用于基于用戶需求獲取所述復雜值、所述內(nèi)存占用值以及所述貢獻值的預設(shè)權(quán)重,結(jié)合所述預設(shè)權(quán)重計算得到每個子層的影響值,所述影響值用于評估每個子層對推理結(jié)果的質(zhì)量影響; 第一判斷單元,用于判斷每個子層的所述影響值是否超過剪枝閾值; 剪枝單元,用于若否,則對未超過所述剪枝閾值的子層進行剪枝,剪枝后得到多個目標子層; 匯聚單元,用于將所述目標子層進行匯聚,得到目標生成式大模型。 9.一種融合生成式大模型的模型匯聚裝置,其特征在于,所述裝置包括: 處理器、存儲器、輸入輸出單元以及總線; 所述處理器與所述存儲器、所述輸入輸出單元以及所述總線相連; 所述存儲器保存有程序,所述處理器調(diào)用所述程序以執(zhí)行如權(quán)利要求1至7任一項所述方法。 10.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上保存有程序,所述程序在計算機上執(zhí)行時執(zhí)行如權(quán)利要求1至7中任一項所述方法。
微信群二維碼
意見反饋