一種數(shù)據分析方法、系統(tǒng)以及存儲介質

專利號

CN119557424B

公開日期

2025-04-25

申請人

中電科大數(shù)據研究院有限公司（貴州省貴陽市貴陽國家高新技術產業(yè)開發(fā)區(qū)金陽科技產業(yè)園黎陽大廈）

發(fā)明人

周維; 謝紅韜; 胡建; 袁公萍; 舒玨淋; 龔昱鳴

IPC分類

G06F16/334; G06F16/34; G06F40/284; G06F40/30; G06F40/205; G06N3/042; G06N3/0464; G06N3/09

技術領域

查詢,語義,語句,數(shù)據,語言,修正,模型,自然,規(guī)則,數(shù)據庫

地域： 貴州省貴州省貴陽市

摘要

本申請公開了一種數(shù)據分析方法、系統(tǒng)以及存儲介質，用于自然語言處理領域。本申請方法包括：獲取用戶輸入的自然語言；構建一個將所述自然語言轉換為語義查詢語句的語義數(shù)據模型；將所述語義數(shù)據模型結合自定義規(guī)則構建語義解析器；將所述自然語言輸入所述語義解析器進行解析，以獲取語義查詢語句；將所述語義查詢語句輸入語義修正器進行修正，以獲取目標語義查詢語句；通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句；將所述結構化查詢語句輸入所述數(shù)據庫進行查詢，以獲取查詢結果。

說明書

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

[0087] 本申請第四方面提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質上保存有程序，所述程序在計算機上執(zhí)行時執(zhí)行第一方面以及第一方面中任一項可選的所述方法。 [0088] 從以上技術方案可以看出，本申請具有以下優(yōu)點： [0089] 1、本申請通過預配置的行業(yè)知識庫和WordPiece分詞器對自然語言進行分詞處理，以構建prompt，并利用預訓練模型將prompt進行編碼，能夠準確的捕捉自然語言中的語義信息，提升自然語言分析處理能力。接著，將編碼后得到的首個分類標記token作為整個句子表示，并根據句子表示對所有編碼向量進行處理，以獲取局部語義表示，局部語義表示能夠反映自然語言中復雜的語義結構，有助于更好的理解用戶輸入意圖，為后續(xù)語義轉換提供了基礎。進一步的，通過將自然語言中的實體和屬性映射到數(shù)據庫Schema元素，以獲取映射關系，此步驟建立了自然語言與結構化數(shù)據之間的橋梁，使得非結構化的自然語言能夠被有效地組織和利用。最后，通過映射關系和局部語義表示構建語義數(shù)據模型，再將語義數(shù)據模型結合自定義規(guī)則構建語義解析器，構建的語義解析器提高了自然語言轉換為語義查詢語句的準確性和效率，為后續(xù)語義查詢語句轉換為結構化查詢語句提供了基礎，還增強了系統(tǒng)的語義理解和分析能力； [0090] 2、通過將語義查詢語句輸入語義修正器進行修正，實現(xiàn)了對語義查詢語句進一步優(yōu)化，消除語義查詢語句中的歧義和錯誤，為后續(xù)獲取查詢結果提高了準確性，還進一步提高了自然語言分析能力； [0091] 3、通過語義翻譯器將目標語義查詢語句進行翻譯，此步驟將語義查詢語句轉換為機器能識別的結構化查詢語句，便于數(shù)據庫理解和執(zhí)行，提高了查詢效率和準確性，為用戶提供了更好的查詢體驗。附圖說明 [0092] 為了更清楚地說明本申請中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。 [0093] 圖1為本申請?zhí)峁┑臄?shù)據分析方法的一個實施例流程示意圖； [0094] 圖2為本申請?zhí)峁┑臄?shù)據分析方法的另一個實施例流程示意圖； [0095] 圖3為本申請?zhí)峁┑臄?shù)據分析方法的另一個實施例流程示意圖； [0096] 圖4為本申請?zhí)峁┑臄?shù)據分析方法的另一個實施例流程示意圖； [0097] 圖5為本申請?zhí)峁┑臄?shù)據分析方法的另一個實施例流程示意圖； [0098] 圖6為本申請?zhí)峁┑臄?shù)據分析方法的另一個實施例流程示意圖； [0099] 圖7為本申請?zhí)峁┑臄?shù)據分析系統(tǒng)的一個實施例流程示意圖； [0100] 圖8為本申請?zhí)峁┑臄?shù)據分析系統(tǒng)的另一個實施例流程示意圖。具體實施方式 [0101] 需要說明的是，本申請?zhí)峁┑囊环N數(shù)據分析方法，可以應用于終端也可以應用于系統(tǒng)，還可以應用于服務器上，例如終端可以是智能手機或電腦、平板電腦、智能電視、智能手表、便攜計算機終端也可以是臺式計算機等固定終端。為方便闡述，本申請中以終端為執(zhí)行主體進行舉例說明。 [0102] 請參閱圖1，本申請首先提供了一種數(shù)據分析方法的實施例，該實施例包括： [0103] S101、獲取用戶輸入的自然語言； [0104] 自然語言指的是人類在日常生活中使用的語言，包括口語和書面語，在本實施例中自然語言指的是用戶輸入搜索框的自然問答語句。 [0105] 本實施例中，獲取用戶輸入的自然語言之前，需要提供一個用戶輸入界面，接著用戶在該界面上通過鍵盤、語音或其他輸入方式輸入問答需求。這些輸入的問答需求以數(shù)據的形式被系統(tǒng)捕獲，為后續(xù)生成符合用戶期望的查詢結果提供了幫助。 [0106] S102、構建初始的數(shù)據模型； [0107] 本實施例中，在構建初始數(shù)據模型之前，首先要配置數(shù)據源類型，接著明確所需查詢的數(shù)據源，并進行相應數(shù)據源配置工作。完成配置數(shù)據源后，即可構建數(shù)據模型，構建的數(shù)據模型需要構建其維度、度量值、指標以及關聯(lián)key等要素。 [0108] 本實施例中，構建初始的數(shù)據模型為后續(xù)獲取語義數(shù)據模型提供了基礎。構建數(shù)據模型的維度、度量值、指標以及關聯(lián)key等要素，確保了數(shù)據的準確性和關聯(lián)性。 [0109] S103、根據預配置的行業(yè)知識庫和WordPiece分詞器對所述自然語言進行分詞處理，以構建prompt； [0110] 行業(yè)知識庫是一個集成了特定領域內專業(yè)知識、專業(yè)術語以及相應數(shù)據結構的定制化資源庫，它旨在為模型或相關系統(tǒng)提供便捷、準確且全面的知識支持。WordPiece分詞器是一種用于文本處理的算法，主要用于將單詞分解成子詞或標記。prompt是一種設計好的文本輸入，通常指的是向模型提出的一個請求或問題。

權利要求

1 2 3 4

8.一種數(shù)據分析系統(tǒng)，其特征在于，所述系統(tǒng)包括：獲取單元，用于獲取用戶輸入的自然語言；第一構建單元，用于構建初始的數(shù)據模型；第二構建單元，用于根據預配置的行業(yè)知識庫和WordPiece分詞器對所述自然語言進行分詞處理，以構建prompt；編碼單元，用于通過預訓練模型將所述prompt進行編碼，得到每個token的編碼向量；第一處理單元，用于將所述預訓練模型輸出的第一個分類標記token的編碼向量作為整個句子表示；第二處理單元，用于根據所述句子表示對所有所述編碼向量進行處理，得到局部語義表示；第三處理單元，用于通過識別所述自然語言中的實體和屬性，并將所述實體和所述屬性映射到數(shù)據庫的Schema元素，以獲取映射關系；第三構建單元，用于根據所述映射關系和所述局部語義表示，構建語義數(shù)據模型；第四構建單元，用于將所述語義數(shù)據模型結合自定義規(guī)則構建語義解析器；第四處理單元，用于將所述自然語言輸入所述語義解析器進行解析，以獲取語義查詢語句；第五處理單元，用于將所述語義查詢語句輸入語義修正器進行修正，以獲取目標語義查詢語句；第六處理單元，用于通過語義翻譯器將所述目標語義查詢語句轉換為結構化查詢語句；查詢單元，用于將所述結構化查詢語句輸入所述數(shù)據庫進行查詢，以獲取查詢結果；第三構建單元具體用于：根據當前輸入的自然語言查詢的上下文信息，對所述映射關系進行初始化根據所述上下文信息調整所述數(shù)據庫的Schema元素的權重；構建初始語義圖，所述初始語義圖包括實體節(jié)點、關系節(jié)點以及操作節(jié)點、實體關系邊、條件關系邊以及操作關系邊；對于每個節(jié)點，結合所述局部語義表示、數(shù)據庫的元數(shù)據信息、以及用戶歷史查詢行為，生成每個節(jié)點的綜合節(jié)點特征表示；對所述初始語義圖中的各個邊進行特征初始化，得到綜合邊特征表示；將所述綜合節(jié)點特征表示以及所述綜合邊特征表示嵌入所述初始語義圖中，并基于實現(xiàn)連接器的sink算法動態(tài)更新所述初始語義圖，得到輸入語義圖；將所述輸入語義圖輸入至預先構建的初始圖神經網絡中進行訓練，通過所述初始圖神經網絡中每一層的圖卷積操作聚合鄰居節(jié)點的信息，并結合各個節(jié)點的特征，對各個節(jié)點的狀態(tài)進行更新；使用Adam優(yōu)化器對所述初始圖神經網絡進行優(yōu)化，得到收斂的語義數(shù)據模型。 9.一種數(shù)據分析系統(tǒng)，其特征在于，所述系統(tǒng)包括：處理器、存儲器、輸入輸出單元以及總線；

微信群二維碼

意見反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種數(shù)據分析方法、系統(tǒng)以及存儲介質

摘要

說明書

權利要求

該功能需要專業(yè)版企業(yè)版VIP權限，您可以：

一種數(shù)據分析方法、系統(tǒng)以及存儲介質

該功能需要專業(yè)版企業(yè)版VIP權限，您可以：