[0060] 圖2為本申請?zhí)峁┑娜诤仙墒酱竽P偷哪P蛥R聚方法另一個實施例流程示意圖;
[0061] 圖3為本申請?zhí)峁┑娜诤仙墒酱竽P偷哪P蛥R聚系統(tǒng)一個實施例結(jié)構(gòu)示意圖;
[0062] 圖4為本申請?zhí)峁┑娜诤仙墒酱竽P偷哪P蛥R聚裝置一個實施例結(jié)構(gòu)示意圖。
具體實施方式
[0063] 本申請?zhí)峁┝艘环N融合生成式大模型的模型匯聚方法,能夠提高生成式模型的整體性能與生成質(zhì)量。需要說明的是,本申請的融合生成式大模型的模型匯聚方法應(yīng)用于終端。
[0064] 請參閱圖1,本申請首先提供了一種融合生成式大模型的模型匯聚方法的一個實施例,該實施例包括:
[0065] S101、收集多模態(tài)特征向量的數(shù)據(jù)集,使用數(shù)據(jù)集對預訓練模型進行訓練得到子模型,并基于子模型和多模態(tài)特征向量,采用Transformer架構(gòu)構(gòu)建初始生成式大模型;
[0066] Transformer架構(gòu)是一種創(chuàng)新的深度學習架構(gòu),設(shè)計主旨為處理序列數(shù)據(jù)采用了Attention?Mechanism注意力機制,主要由Encoder編碼器和Decoder解碼器組成。Encoder編碼器,能夠并行地處理輸入序列中的每個元素,通過多頭注意力機制捕捉序列元素之間的關(guān)系,并結(jié)合前饋神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行特征提取和轉(zhuǎn)換;Decoder解碼器,采用注意力機制處理輸出序列的生成過程,能夠根據(jù)源語言輸入的不同部分的重要性動態(tài)分配權(quán)重。
[0067] 需要說明的是,本實施例采用Transformer架構(gòu)的優(yōu)勢在于Transformer架構(gòu)能夠有效地處理長序列數(shù)據(jù),避免了傳統(tǒng)RNN中的長序列梯度消失或爆炸問題,并且Transformer架構(gòu)的并行計算能力,可以大幅度提高訓練和推理的速度。
[0068] 本實施例中,所收集的多模態(tài)特征向量的數(shù)據(jù)集包括圖像數(shù)據(jù)、文本數(shù)據(jù)以及音頻數(shù)據(jù),再利用多模態(tài)特征向量的數(shù)據(jù)集對預訓練模型進行訓練。在預訓練模型訓練的過程中,預訓練模型可以通過學習模態(tài)特征向量的數(shù)據(jù)集中不同模態(tài)數(shù)據(jù)的特征模式來調(diào)整參數(shù),從而得到多個不同模態(tài)數(shù)據(jù)的子模型,將得到的子模型與所收集的數(shù)據(jù)集中的多模態(tài)特征向量相結(jié)合,采用Transformer架構(gòu)構(gòu)建初始生成式大模型。
[0069] 收集多模態(tài)特征向量的數(shù)據(jù)集,可以使所訓練的子模型能夠?qū)W習到不同類型數(shù)據(jù)的特征,提高了模型的泛化能力,為后續(xù)構(gòu)建初始生成式大模型提供了數(shù)據(jù)基礎(chǔ)。在構(gòu)建初始生成式大模型時,采用Transformer架構(gòu)進行構(gòu)建,能夠更好地捕捉多模態(tài)特征向量中的長距離依賴關(guān)系,提高初始生成式大模型對復雜語義信息的理解能力,有助于在多種應(yīng)用場景下,增強初始生成式大模型的性能和實用性。
[0070] S102、根據(jù)初始生成式大模型的功能模塊,將初始生成式大模型劃分為多個層級,每個層級包括多個子層;
[0071] 本實施例中,需要對構(gòu)建得到的初始生成式大模型進行全面的功能分析,明確初始生成式大模型不同的功能模塊,再根據(jù)不同功能模塊的邏輯關(guān)系和功能特性,將初始生成式大模型劃分為多個層級,例如按照數(shù)據(jù)處理的先后順序、功能的抽象層次或模塊之間的耦合程度的標準進行劃分。在每個層級內(nèi)部,進一步細分出多個子層,每個層級中的每個子層對應(yīng)著模型中不同的計算單元。
[0072] 該實施例按照功能模塊將初始生成式大模型劃分為多個層級,有助于提高模型的可理解性和可維護性,層級中的分層結(jié)構(gòu)可以使初始生成式大模型的架構(gòu)更加清晰,便于對初始生成式大模型進行調(diào)試、優(yōu)化和改進,并且不同層級可以專注于不同層次的任務(wù),例如較低層級可以處理基礎(chǔ)的數(shù)據(jù)特征提取,較高層級可以進行更復雜的語義分析。
[0073] 在實際對初始生成式大模型進行優(yōu)化時,可以針對特定的層級和子層進行優(yōu)化,有助于提高初始生成式大模型的靈活性,并且在初始生成式大模型規(guī)模較大時,能夠有效地控制計算資源的分配,提高初始生成式大模型的訓練和推理效率。
[0074] S103、確定子層的類型,并基于子層的類型計算每個子層的復雜值,復雜值用于評估每個子層在推理時的計算復雜度;
[0075] 本實施例中,首先需要根據(jù)子層的結(jié)構(gòu)特征和功能特性確定每個子層的類型,例如子層的計算涉及對序列數(shù)據(jù),并按時間步長進行處理,則該子層的類型為循環(huán)神經(jīng)網(wǎng)絡(luò)層。當確定了子層的類型后,根據(jù)所確定的不同的子層類型計算復雜度,例如計算循環(huán)神經(jīng)網(wǎng)絡(luò)層的復雜度,通常通過輸入維度、隱藏層維度以及時間步長來計算每個子層的復雜值,所得到的復雜值用于評估每個子層在推理時的計算復雜度。