白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種數(shù)據(jù)分析方法、系統(tǒng)以及存儲介質

專利號
CN119557424B
公開日期
2025-04-25
申請人
中電科大數(shù)據(jù)研究院有限公司(貴州省貴陽市貴陽國家高新技術產(chǎn)業(yè)開發(fā)區(qū)金陽科技產(chǎn)業(yè)園黎陽大廈)
發(fā)明人
周維; 謝紅韜; 胡建; 袁公萍; 舒玨淋; 龔昱鳴
IPC分類
G06F16/334; G06F16/34; G06F40/284; G06F40/30; G06F40/205; G06N3/042; G06N3/0464; G06N3/09
技術領域
查詢,語義,語句,數(shù)據(jù),語言,修正,模型,自然,規(guī)則,數(shù)據(jù)庫
地域: 貴州省 貴州省貴陽市

摘要

本申請公開了一種數(shù)據(jù)分析方法、系統(tǒng)以及存儲介質,用于自然語言處理領域。本申請方法包括:獲取用戶輸入的自然語言;構建一個將所述自然語言轉換為語義查詢語句的語義數(shù)據(jù)模型;將所述語義數(shù)據(jù)模型結合自定義規(guī)則構建語義解析器;將所述自然語言輸入所述語義解析器進行解析,以獲取語義查詢語句;將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句;通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句;將所述結構化查詢語句輸入所述數(shù)據(jù)庫進行查詢,以獲取查詢結果。

說明書

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
一種數(shù)據(jù)分析方法、系統(tǒng)以及存儲介質 技術領域 [0001] 本申請涉及自然語言處理領域,尤其涉及一種數(shù)據(jù)分析方法、系統(tǒng)以及存儲介質。 背景技術 [0002] 隨著科學技術的飛速發(fā)展,用戶查詢需求日益多樣化和復雜化。用戶期望通過查詢系統(tǒng)快速且準確地獲取所需信息。然而,傳統(tǒng)查詢方式往往依賴于嚴格的語法規(guī)則和關鍵詞匹配,這在一定程度上限制了用戶的查詢自由。當用戶以自然語言的形式輸入查詢信息時,若存在語法或邏輯上的微差,都可能導致查詢系統(tǒng)無法正確理解用戶的意圖,進而引發(fā)查詢失敗或返回結果不準確的問題。 [0003] 為解決這一難題,現(xiàn)有技術引入了自然語言處理技術。這一技術能夠將用戶輸入的自然語言轉換為查詢系統(tǒng)能夠理解的格式,從而有效降低了查詢失敗率,并提高了返回結果的準確性。 [0004] 但是,自然語言處理技術在語義分析理解方面仍然存在不足。特別是在處理復雜或多義的表述時,現(xiàn)有的自然語言處理技術往往難以準確捕捉用戶輸入的真正意圖。這不僅影響了查詢結果的準確性,也限制了查詢系統(tǒng)的應用和用戶體驗。 發(fā)明內容 [0005] 為了解決上述技術問題,本申請?zhí)峁┝艘环N數(shù)據(jù)分析方法、系統(tǒng)以及存儲介質。 [0006] 下面對本申請中提供的技術方案進行描述: [0007] 本申請第一方面提供了一種數(shù)據(jù)分析方法,所述方法包括: [0008] 獲取用戶輸入的自然語言; [0009] 構建初始的數(shù)據(jù)模型; [0010] 根據(jù)預配置的行業(yè)知識庫和WordPiece分詞器對所述自然語言進行分詞處理,以構建prompt; [0011] 通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量; [0012] 將所述預訓練模型輸出的第一個分類標記token的編碼向量作為整個句子表示; [0013] 根據(jù)所述句子表示對所有所述編碼向量進行處理,得到局部語義表示; [0014] 通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數(shù)據(jù)庫的Schema元素,以獲取映射關系; [0015] 根據(jù)所述映射關系和所述局部語義表示,構建語義數(shù)據(jù)模型; [0016] 將所述語義數(shù)據(jù)模型結合自定義規(guī)則構建語義解析器; [0017] 將所述自然語言輸入所述語義解析器進行解析,以獲取語義查詢語句; [0018] 將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句; [0019] 通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句; [0020] 將所述結構化查詢語句輸入所述數(shù)據(jù)庫進行查詢,以獲取查詢結果;所述根據(jù)所述映射關系和所述局部語義表示,構建語義數(shù)據(jù)模型包括: [0021] 根據(jù)當前輸入的自然語言查詢的上下文信息,對所述映射關系進行初始化[0022] 根據(jù)所述上下文信息調整所述數(shù)據(jù)庫的Schema元素的權重; [0023] 構建初始語義圖,所述初始語義圖包括實體節(jié)點、關系節(jié)點以及操作節(jié)點、實體關系邊、條件關系邊以及操作關系邊; [0024] 對于每個節(jié)點,結合所述局部語義表示、數(shù)據(jù)庫的元數(shù)據(jù)信息、以及用戶歷史查詢行為,生成每個節(jié)點的綜合節(jié)點特征表示; [0025] 對所述初始語義圖中的各個邊進行特征初始化,得到綜合邊特征表示; [0026] 將所述綜合節(jié)點特征表示以及所述綜合邊特征表示嵌入所述初始語義圖中,并基于實現(xiàn)連接器的sink算法動態(tài)更新所述初始語義圖,得到輸入語義圖; [0027] 將所述輸入語義圖輸入至預先構建的初始圖神經(jīng)網(wǎng)絡中進行訓練,通過所述初始圖神經(jīng)網(wǎng)絡中每一層的圖卷積操作聚合鄰居節(jié)點的信息,并結合各個節(jié)點的特征,對各個節(jié)點的狀態(tài)進行更新; [0028] 使用Adam優(yōu)化器對所述初始圖神經(jīng)網(wǎng)絡進行優(yōu)化,得到收斂的語義數(shù)據(jù)模型。 [0029] 可選的,通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量,包括: [0030] 將所述prompt轉化為預訓練模型的輸入格式,以獲取input_ids和attention_mask; [0031] 將所述input_ids和所述attention_mask輸入至所述預訓練模型,以獲取每個token的編碼向量。 [0032] 可選的,通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數(shù)據(jù)庫的Schema元素,以獲取映射關系,包括: [0033] 提取所述自然語言中的關鍵實體; [0034] 查詢數(shù)據(jù)庫模式信息,獲取所述數(shù)據(jù)庫的Schema元素; [0035] 將所述關鍵實體與所述Schema元素進行匹配,以獲取映射關系。 [0036] 可選的,將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句,包括: [0037] 構建初始化語義修正器; [0038] 判斷所述語義查詢語句是否符合預配置的修正規(guī)則; [0039] 若否,則將所述語義查詢語句輸入預配置的機器學習模型,以獲取修正建議;

權利要求

1 2 3 4
1.一種數(shù)據(jù)分析方法,其特征在于,所述方法包括: 獲取用戶輸入的自然語言; 構建初始的數(shù)據(jù)模型; 根據(jù)預配置的行業(yè)知識庫和WordPiece分詞器對所述自然語言進行分詞處理,以構建prompt; 通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量; 將所述預訓練模型輸出的第一個分類標記token的編碼向量作為整個句子表示; 根據(jù)所述句子表示對所有所述編碼向量進行處理,得到局部語義表示; 通過識別所述自然語言中的實體和屬性,并將所述實體和所述屬性映射到數(shù)據(jù)庫的Schema元素,以獲取映射關系; 根據(jù)所述映射關系和所述局部語義表示,構建語義數(shù)據(jù)模型; 將所述語義數(shù)據(jù)模型結合自定義規(guī)則構建語義解析器; 將所述自然語言輸入所述語義解析器進行解析,以獲取語義查詢語句; 將所述語義查詢語句輸入語義修正器進行修正,以獲取目標語義查詢語句; 通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句; 將所述結構化查詢語句輸入所述數(shù)據(jù)庫進行查詢,以獲取查詢結果; 所述根據(jù)所述映射關系和所述局部語義表示,構建語義數(shù)據(jù)模型包括: 根據(jù)當前輸入的自然語言查詢的上下文信息,對所述映射關系進行初始化; 根據(jù)所述上下文信息調整所述數(shù)據(jù)庫的Schema元素的權重; 構建初始語義圖,所述初始語義圖包括實體節(jié)點、關系節(jié)點以及操作節(jié)點、實體關系邊、條件關系邊以及操作關系邊; 對于每個節(jié)點,結合所述局部語義表示、數(shù)據(jù)庫的元數(shù)據(jù)信息、以及用戶歷史查詢行為,生成每個節(jié)點的綜合節(jié)點特征表示; 對所述初始語義圖中的各個邊進行特征初始化,得到綜合邊特征表示; 將所述綜合節(jié)點特征表示以及所述綜合邊特征表示嵌入所述初始語義圖中,并基于實現(xiàn)連接器的sink算法動態(tài)更新所述初始語義圖,得到輸入語義圖; 將所述輸入語義圖輸入至預先構建的初始圖神經(jīng)網(wǎng)絡中進行訓練,通過所述初始圖神經(jīng)網(wǎng)絡中每一層的圖卷積操作聚合鄰居節(jié)點的信息,并結合各個節(jié)點的特征,對各個節(jié)點的狀態(tài)進行更新; 使用Adam優(yōu)化器對所述初始圖神經(jīng)網(wǎng)絡進行優(yōu)化,得到收斂的語義數(shù)據(jù)模型。 2.根據(jù)權利要求1中所述的數(shù)據(jù)分析方法,其特征在于,通過預訓練模型將所述prompt進行編碼,得到每個token的編碼向量,包括: 將所述prompt轉化為預訓練模型的輸入格式,以獲取input_ids和attention_mask;
微信群二維碼
意見反饋