白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種數(shù)據(jù)分析方法、系統(tǒng)以及存儲(chǔ)介質(zhì)

專利號(hào)
CN119557424B
公開(kāi)日期
2025-04-25
申請(qǐng)人
中電科大數(shù)據(jù)研究院有限公司(貴州省貴陽(yáng)市貴陽(yáng)國(guó)家高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)金陽(yáng)科技產(chǎn)業(yè)園黎陽(yáng)大廈)
發(fā)明人
周維; 謝紅韜; 胡建; 袁公萍; 舒玨淋; 龔昱鳴
IPC分類
G06F16/334; G06F16/34; G06F40/284; G06F40/30; G06F40/205; G06N3/042; G06N3/0464; G06N3/09
技術(shù)領(lǐng)域
查詢,語(yǔ)義,語(yǔ)句,數(shù)據(jù),語(yǔ)言,修正,模型,自然,規(guī)則,數(shù)據(jù)庫(kù)
地域: 貴州省 貴州省貴陽(yáng)市

摘要

本申請(qǐng)公開(kāi)了一種數(shù)據(jù)分析方法、系統(tǒng)以及存儲(chǔ)介質(zhì),用于自然語(yǔ)言處理領(lǐng)域。本申請(qǐng)方法包括:獲取用戶輸入的自然語(yǔ)言;構(gòu)建一個(gè)將所述自然語(yǔ)言轉(zhuǎn)換為語(yǔ)義查詢語(yǔ)句的語(yǔ)義數(shù)據(jù)模型;將所述語(yǔ)義數(shù)據(jù)模型結(jié)合自定義規(guī)則構(gòu)建語(yǔ)義解析器;將所述自然語(yǔ)言輸入所述語(yǔ)義解析器進(jìn)行解析,以獲取語(yǔ)義查詢語(yǔ)句;將所述語(yǔ)義查詢語(yǔ)句輸入語(yǔ)義修正器進(jìn)行修正,以獲取目標(biāo)語(yǔ)義查詢語(yǔ)句;通過(guò)語(yǔ)義翻譯器將所述目標(biāo)語(yǔ)義查詢語(yǔ)句轉(zhuǎn)換為結(jié)構(gòu)化查詢語(yǔ)句;將所述結(jié)構(gòu)化查詢語(yǔ)句輸入所述數(shù)據(jù)庫(kù)進(jìn)行查詢,以獲取查詢結(jié)果。

說(shuō)明書

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
[0111] 本實(shí)施例中,在對(duì)自然語(yǔ)言進(jìn)行分詞處理之前,需要整合領(lǐng)域?qū)I(yè)知識(shí)、術(shù)語(yǔ)以及數(shù)據(jù)結(jié)構(gòu),以配置行業(yè)知識(shí)庫(kù)。然后利用WordPiece分詞器根據(jù)行業(yè)知識(shí)庫(kù)初始化詞匯表,并計(jì)算自然語(yǔ)言中每個(gè)字詞的概率,得到自然語(yǔ)言的初始似然值。接著,WordPiece分詞器選擇互信息值最大的相鄰子詞進(jìn)行合并,形成新的子詞,并更新詞匯表。每次合并后,都會(huì)重新計(jì)算句子的似然值,以評(píng)估合并后對(duì)句子整體概率的影響,直至達(dá)到預(yù)定的詞匯表大小,最終得到合適長(zhǎng)度的prompt。 [0112] 在實(shí)際應(yīng)用中,假設(shè)由n個(gè)字詞組成的句子,表示第i個(gè)詞,那個(gè)句子T的語(yǔ)言模型似然值可以表示為所有字詞概率的乘積,接著將相鄰的字詞a和b合并為新的字詞c,然后計(jì)算合并前后句子的似然值。然后,利用WordPiece分詞器選擇互信息值最大的兩個(gè)相鄰子詞進(jìn)行合并。合并兩個(gè)字詞后,將它們替換為一個(gè)新的子詞,并更新詞匯表。這個(gè)過(guò)程迭代進(jìn)行,直到達(dá)到預(yù)定詞匯表大小。例如,對(duì)于查詢“電視機(jī)的銷量是多少?”經(jīng)過(guò)上述預(yù)處理后,得到的預(yù)訓(xùn)練模型輸入序列為:[CLS]“電視機(jī)”、“的”、“銷量”、“是”、“多少”?[0113] 本實(shí)施例中,通過(guò)利用預(yù)配置的行業(yè)知識(shí)庫(kù)和WordPiece分詞器對(duì)自然語(yǔ)言進(jìn)行分詞處理,能夠準(zhǔn)確地識(shí)別和分割文本中的詞匯和術(shù)語(yǔ),接著通過(guò)將這些詞匯和術(shù)語(yǔ)重新構(gòu)建,可得到預(yù)訓(xùn)練模型所需要的合適長(zhǎng)度的prompt,為后續(xù)利用預(yù)訓(xùn)練模型將prompt進(jìn)行編碼提供了的幫助。 [0114] S104、通過(guò)預(yù)訓(xùn)練模型將所述prompt進(jìn)行編碼,得到每個(gè)token的編碼向量; [0115] 預(yù)訓(xùn)練模型?是指在大型數(shù)據(jù)集上通過(guò)深度學(xué)習(xí)算法訓(xùn)練得到的模型,這些模型在訓(xùn)練過(guò)程中學(xué)習(xí)到了大量的通用特征和知識(shí)表示,可以用于各種相關(guān)任務(wù)的初始化解決方案,在本實(shí)施例中,采用了BERT、T5以及CodeBERT三種預(yù)訓(xùn)練模型進(jìn)行數(shù)據(jù)模型的訓(xùn)練,在預(yù)訓(xùn)練模型的選擇方面,制定了三種策略,分別為任務(wù)特定性、模型大小以及領(lǐng)域適應(yīng)性,其中,任務(wù)特定性是指選擇與SQL生成任務(wù)相關(guān)的模型;模型大小是指考慮模型的大小與可用計(jì)算資源之間的平衡,大模型在準(zhǔn)確性上可能優(yōu)于小模型,但也會(huì)增加計(jì)算開(kāi)銷;領(lǐng)域適應(yīng)性是指選擇在相關(guān)領(lǐng)域(如金融、醫(yī)療、電子商務(wù))進(jìn)行預(yù)訓(xùn)練的模型,能夠更好地理解領(lǐng)域特定的術(shù)語(yǔ)和關(guān)系。token是指將prompt分割成的最小單位或元素,可以是單詞、子詞(如詞根、詞綴)、字符或者其他文本片段。 [0116] 本實(shí)施例中,在prompt進(jìn)行編碼之前,需要將prompt轉(zhuǎn)化為預(yù)訓(xùn)練模型的輸入格式,即轉(zhuǎn)換為預(yù)訓(xùn)練模型所需要的input_ids和attention_mask,其中,input_ids是每個(gè)token的索引,表示在預(yù)訓(xùn)練模型詞匯表中的表示,attention_mask表示哪些位置是有效的。接著,將input_ids和attention_mask輸入至預(yù)訓(xùn)練模型進(jìn)行處理,得到編碼后的token向量表示,即token的編碼向量。 [0117] S105、將所述預(yù)訓(xùn)練模型輸出的第一個(gè)分類標(biāo)記token的編碼向量作為整個(gè)句子表示; [0118] 分類標(biāo)記token為[CLS]token,是一個(gè)特殊的標(biāo)記,主要用于分類任務(wù),被放置在輸入序列的開(kāi)始位置,用于表示整個(gè)輸入序列的類別或整體語(yǔ)義。句子表示指的是整個(gè)句子的含義。 [0119] 本實(shí)施例中,將預(yù)訓(xùn)練模型輸出的第一個(gè)分類標(biāo)記token的編碼向量,作為整個(gè)句子表示。該分類標(biāo)記token的編碼向量捕捉了句子的整體語(yǔ)義信息,為后續(xù)進(jìn)行獲取局部語(yǔ)義表示提供了基礎(chǔ)。 [0120] S106、根據(jù)所述句子表示對(duì)所有所述編碼向量進(jìn)行處理,得到局部語(yǔ)義表示; [0121] 本實(shí)施例中,基于獲得的句子表示,處理句子中所有token的編碼向量,以提取句子中的局部語(yǔ)義信息。這一過(guò)程通過(guò)分析每個(gè)token的編碼向量,可以得到細(xì)致的局部語(yǔ)義表示,為后續(xù)構(gòu)建語(yǔ)義數(shù)據(jù)模型提供了基礎(chǔ),其中,局部語(yǔ)義表示用于具體的字段匹配和語(yǔ)義sql生成。 [0122] S107、通過(guò)識(shí)別所述自然語(yǔ)言中的實(shí)體和屬性,并將所述實(shí)體和所述屬性映射到數(shù)據(jù)庫(kù)的Schema元素,以獲取映射關(guān)系; [0123] 本實(shí)施例中,自然語(yǔ)言中的實(shí)體和屬性是指具體是人、事以及物。例如,用戶輸入的查詢語(yǔ)句“顯示所有銷售額超過(guò)1000的訂單”,其中“銷售額”為本查詢語(yǔ)句的實(shí)體和屬性。數(shù)據(jù)庫(kù)的Schema元素主要包括表、約束、視圖、存儲(chǔ)過(guò)程以及數(shù)據(jù)類型等,這些元素共同構(gòu)成了數(shù)據(jù)庫(kù)的結(jié)構(gòu)和功能,定義了數(shù)據(jù)的存儲(chǔ)方式和數(shù)據(jù)之間的關(guān)系以及如何操作這些數(shù)據(jù)。映射關(guān)系是指兩個(gè)數(shù)據(jù)之間元素相互對(duì)應(yīng)的關(guān)系。

權(quán)利要求

1 2 3 4
所述處理器與所述存儲(chǔ)器、所述輸入輸出單元以及所述總線相連; 所述存儲(chǔ)器保存有程序,所述處理器調(diào)用所述程序以執(zhí)行如權(quán)利要求1至7任一項(xiàng)所述方法。 10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上保存有程序,所述程序在計(jì)算機(jī)上執(zhí)行時(shí)執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述方法。
微信群二維碼
意見(jiàn)反饋