一種數(shù)據(jù)分析方法、系統(tǒng)以及存儲介質
技術領域
[0001] 本申請涉及自然語言處理領域,尤其涉及一種數(shù)據(jù)分析方法、系統(tǒng)以及存儲介質。
背景技術
[0002] 隨著科學技術的飛速發(fā)展,用戶查詢需求日益多樣化和復雜化。用戶期望通過查詢系統(tǒng)快速且準確地獲取所需信息。然而,傳統(tǒng)查詢方式往往依賴于嚴格的語法規(guī)則和關鍵詞匹配,這在一定程度上限制了用戶的查詢自由。當用戶以自然語言的形式輸入查詢信息時,若存在語法或邏輯上的微差,都可能導致查詢系統(tǒng)無法正確理解用戶的意圖,進而引發(fā)查詢失敗或返回結果不準確的問題。
[0003] 為解決這一難題,現(xiàn)有技術引入了自然語言處理技術。這一技術能夠將用戶輸入的自然語言轉換為查詢系統(tǒng)能夠理解的格式,從而有效降低了查詢失敗率,并提高了返回結果的準確性。
[0004] 但是,自然語言處理技術在語義分析理解方面仍然存在不足。特別是在處理復雜或多義的表述時,現(xiàn)有的自然語言處理技術往往難以準確捕捉用戶輸入的真正意圖。這不僅影響了查詢結果的準確性,也限制了查詢系統(tǒng)的應用和用戶體驗。
發(fā)明內容
[0005] 為了解決上述技術問題,本申請?zhí)峁┝艘环N數(shù)據(jù)分析方法、系統(tǒng)以及存儲介質。
[0006] 下面對本申請中提供的技術方案進行描述:
[0007] 本申請第一方面提供了一種數(shù)據(jù)分析方法,所述方法包括:
[0008] 獲取用戶輸入的自然語言;
[0009] 構建初始的數(shù)據(jù)模型;
[0010] 根據(jù)預配置的行業(yè)知識庫和WordPiece分詞器對所述自然語言進行分詞處理,以構建prompt;
[0011] 通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量;
[0012] 將所述預訓練模型輸出的第一個分類標記token的編碼向量作為整個句子表示;
[0013] 根據(jù)所述句子表示對所有所述編碼向量進行處理,得到局部語義表示;
[0014] 通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數(shù)據(jù)庫的Schema元素,以獲取映射關系;
[0015] 根據(jù)所述映射關系和所述局部語義表示,構建語義數(shù)據(jù)模型;
[0016] 將所述語義數(shù)據(jù)模型結合自定義規(guī)則構建語義解析器;
[0017] 將所述自然語言輸入所述語義解析器進行解析,以獲取語義查詢語句;
[0018] 將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句;
[0019] 通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句;
[0020] 將所述結構化查詢語句輸入所述數(shù)據(jù)庫進行查詢,以獲取查詢結果;所述根據(jù)所述映射關系和所述局部語義表示,構建語義數(shù)據(jù)模型包括:
[0021] 根據(jù)當前輸入的自然語言查詢的上下文信息,對所述映射關系進行初始化[0022] 根據(jù)所述上下文信息調整所述數(shù)據(jù)庫的Schema元素的權重;
[0023] 構建初始語義圖,所述初始語義圖包括實體節(jié)點、關系節(jié)點以及操作節(jié)點、實體關系邊、條件關系邊以及操作關系邊;
[0024] 對于每個節(jié)點,結合所述局部語義表示、數(shù)據(jù)庫的元數(shù)據(jù)信息、以及用戶歷史查詢行為,生成每個節(jié)點的綜合節(jié)點特征表示;
[0025] 對所述初始語義圖中的各個邊進行特征初始化,得到綜合邊特征表示;
[0026] 將所述綜合節(jié)點特征表示以及所述綜合邊特征表示嵌入所述初始語義圖中,并基于實現(xiàn)連接器的sink算法動態(tài)更新所述初始語義圖,得到輸入語義圖;
[0027] 將所述輸入語義圖輸入至預先構建的初始圖神經(jīng)網(wǎng)絡中進行訓練,通過所述初始圖神經(jīng)網(wǎng)絡中每一層的圖卷積操作聚合鄰居節(jié)點的信息,并結合各個節(jié)點的特征,對各個節(jié)點的狀態(tài)進行更新;
[0028] 使用Adam優(yōu)化器對所述初始圖神經(jīng)網(wǎng)絡進行優(yōu)化,得到收斂的語義數(shù)據(jù)模型。
[0029] 可選的,通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量,包括:
[0030] 將所述prompt轉化為預訓練模型的輸入格式,以獲取input_ids和attention_mask;
[0031] 將所述input_ids和所述attention_mask輸入至所述預訓練模型,以獲取每個token的編碼向量。
[0032] 可選的,通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數(shù)據(jù)庫的Schema元素,以獲取映射關系,包括:
[0033] 提取所述自然語言中的關鍵實體;
[0034] 查詢數(shù)據(jù)庫模式信息,獲取所述數(shù)據(jù)庫的Schema元素;
[0035] 將所述關鍵實體與所述Schema元素進行匹配,以獲取映射關系。
[0036] 可選的,將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句,包括:
[0037] 構建初始化語義修正器;
[0038] 判斷所述語義查詢語句是否符合預配置的修正規(guī)則;
[0039] 若否,則將所述語義查詢語句輸入預配置的機器學習模型,以獲取修正建議;