一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法

專利號(hào)

CN116775589B

公開日期

2023-10-27

申請(qǐng)人

湖北華中電力科技開發(fā)有限責(zé)任公司; 光谷技術(shù)有限公司（湖北省武漢市洪山區(qū)珞瑜路546號(hào)）

發(fā)明人

姜暢; 郭海強(qiáng); 丁鈺; 丁劍鋒; 彭加強(qiáng); 李碩瑜; 劉軻; 張麗君; 涂杰

IPC分類

G06F16/174; G06F17/18; H04L9/06

技術(shù)領(lǐng)域

字符,lzw,字典,優(yōu)先級(jí),數(shù)據(jù),壓縮算法,優(yōu)先,壓縮,概率,網(wǎng)絡(luò)

地域： 湖北省湖北省武漢市

摘要

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，具體涉及一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法，包括：獲取網(wǎng)絡(luò)信息數(shù)據(jù)并初始化LZW壓縮算法中的字典；根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)中各種字符數(shù)量的占比，獲取數(shù)據(jù)中各種字符的優(yōu)先級(jí)參數(shù)；根據(jù)各種字符之間在數(shù)據(jù)中的位置與分布情況，獲取各種字符的中心字符位置與各種字符的離散程度；根據(jù)各種字符的中心字符位置與各種字符的離散程度，獲取各種字符所組成的字符段的概率參數(shù)；根據(jù)數(shù)據(jù)中各種字符的優(yōu)先級(jí)參數(shù)和字符所組成的字符段的概率參數(shù)，獲取字符段優(yōu)先級(jí)參數(shù)；根據(jù)字符段的優(yōu)先級(jí)調(diào)整LZW壓縮算法中的字典的字符段編碼。本發(fā)明通過調(diào)整LZW壓縮算法中的字典的字符段編碼，節(jié)省字典空間，提高壓縮率。

說明書

1 2 3 4

[0028] 通過預(yù)設(shè)一個(gè)可信的閾值，當(dāng)特定字符段的優(yōu)先級(jí)大于所設(shè)置閾值時(shí)，將的字符段存入LZW壓縮算法中的字典，反之則不將字符段存入LZW壓縮算法中的字典。 [0029] 本發(fā)明的技術(shù)方案的有益效果是：由于在網(wǎng)絡(luò)信息數(shù)據(jù)的數(shù)據(jù)中，存在許多不同種類的字符，而這些不同種類的字符會(huì)使傳統(tǒng)的LZW壓縮算法中的字典的大小非常大，從而占用大量的內(nèi)存，導(dǎo)致網(wǎng)絡(luò)信息數(shù)據(jù)得不到良好的壓縮。 [0030] 本發(fā)明根據(jù)字符分布區(qū)間和頻率更新LZW壓縮算法中的字典盡可能將具有重復(fù)模式概率較高的字符串存入LZW中的字典，動(dòng)態(tài)調(diào)整LZW中的字典，使其涵括盡可能多的重復(fù)模式，且不存入低頻短字符串從而減小LZW中的字典大小，從而達(dá)到更好的壓縮效果。附圖說明 [0031] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。 [0032] 圖1為本發(fā)明一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法的步驟流程圖。具體實(shí)施方式 [0033] 為了更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效，以下結(jié)合附圖及較佳實(shí)施例，對(duì)依據(jù)本發(fā)明提出的一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法，其具體實(shí)施方式、結(jié)構(gòu)、特征及其功效，詳細(xì)說明如下。在下述說明中，不同的“一個(gè)實(shí)施例”或“另一個(gè)實(shí)施例”指的不一定是同一實(shí)施例。此外，一或多個(gè)實(shí)施例中的特定特征、結(jié)構(gòu)或特點(diǎn)可由任何合適形式組合。 [0034] 除非另有定義，本文所使用的所有的技術(shù)和科學(xué)術(shù)語(yǔ)與屬于本發(fā)明的技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。 [0035] 下面結(jié)合附圖具體的說明本發(fā)明所提供的一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法的具體方案。 [0036] 請(qǐng)參閱圖1，其示出了本發(fā)明一個(gè)實(shí)施例提供的一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法的步驟流程圖，該方法包括以下步驟： [0037] 步驟S001：獲取網(wǎng)絡(luò)信息數(shù)據(jù)并初始化LZW壓縮算法中的字典。 [0038] 網(wǎng)絡(luò)信息數(shù)據(jù)包含多種字符，例如漢字、字母、數(shù)字、標(biāo)點(diǎn)符號(hào)、特殊字符（空格、換行符）等字符，這些字符在網(wǎng)絡(luò)信息數(shù)據(jù)中或多或少的會(huì)重復(fù)出現(xiàn)，因此在網(wǎng)絡(luò)信息數(shù)據(jù)存儲(chǔ)時(shí)便可根據(jù)字符存在重復(fù)出現(xiàn)這一特點(diǎn)進(jìn)行優(yōu)化存儲(chǔ)，例如LZW壓縮算法便是基于字符在網(wǎng)絡(luò)信息數(shù)據(jù)中重復(fù)出現(xiàn)這一特點(diǎn)設(shè)計(jì)的壓縮算法。 [0039] LZW壓縮算法的基本原理是建立字典，其中包含了輸入數(shù)據(jù)流中出現(xiàn)的所有可能的字符序列，在初始化時(shí)，LZW中的字典中只包含單個(gè)字符序列；然后，算法從輸入數(shù)據(jù)流中讀取字符，將它與已有的字符序列進(jìn)行匹配，如果匹配成功，算法繼續(xù)讀取下一個(gè)字符，并將匹配的字符序列擴(kuò)展為更長(zhǎng)的序列；如果匹配失敗，算法將當(dāng)前的字符序列添加到LZW中的字典中，并將它的編碼輸出；然后，算法從下一個(gè)字符開始重新匹配。 [0040] 而本實(shí)施例是基于LZW壓縮算法思想對(duì)數(shù)據(jù)進(jìn)行處理，所以需要統(tǒng)計(jì)待壓縮網(wǎng)絡(luò)信息數(shù)據(jù)字符種類，將所有字符添加到LZW中的字典，并為每個(gè)字符分配一個(gè)唯一的編碼。 [0041] 然而現(xiàn)有的LZW壓縮算法雖然是基于字符序列是否已經(jīng)在網(wǎng)絡(luò)信息數(shù)據(jù)中重復(fù)出現(xiàn)的頻率這一特征來構(gòu)建字典，進(jìn)而實(shí)現(xiàn)壓縮的，但是該算法沒有考慮到網(wǎng)絡(luò)信息數(shù)據(jù)中重復(fù)出現(xiàn)的字符的相對(duì)位置分布情況以及離散分布情況。因此本實(shí)施例接下來利用網(wǎng)絡(luò)信息數(shù)據(jù)中字符的相對(duì)位置分布情況以及離散分布情況來分析不同字符片段加入字典的優(yōu)先級(jí)來進(jìn)一步提高網(wǎng)絡(luò)信息數(shù)據(jù)的壓縮效率。 [0042] 步驟S002：根據(jù)數(shù)據(jù)中各種字符數(shù)量的占比，獲取數(shù)據(jù)中各種字符的優(yōu)先級(jí)參數(shù)。 [0043] 需要說明的是，由于LZW壓縮算法在初始化后，會(huì)在LZW中的字典內(nèi)依次更新字典內(nèi)所有字符段，并用符號(hào)表示，在后續(xù)讀取相同字符段時(shí)，用記錄好的符號(hào)表示字符段，但其對(duì)于有重復(fù)模式的數(shù)據(jù)壓縮效果比較好，對(duì)于重復(fù)度不高的數(shù)據(jù)壓縮效果欠佳，將所有字符段都加入LZW中的字典會(huì)浪費(fèi)字典空間，增加搜索速度，使后續(xù)字典中記錄字符段的編碼長(zhǎng)度更長(zhǎng)，影響壓縮效果； [0044] 而本實(shí)施例根據(jù)各種字符頻率和分布，判斷字符段的優(yōu)先程度，根據(jù)概率參數(shù)大小選擇性加入LZW中的字典，將概率參數(shù)較小的字符段用字典內(nèi)表示過的字符和字符或字符和字符段編碼（字典編碼）進(jìn)行表示，降低了LZW中的字典的冗余程度，使字典中字符段編碼長(zhǎng)度更短，且可以使LZW中的字典有盡可能多的空間記錄待壓縮數(shù)據(jù)中更多具有重復(fù)模式的字符段。 [0045] 需要進(jìn)一步說明的是，當(dāng)字符在數(shù)據(jù)中的占比越高，即該種字符在數(shù)據(jù)中出現(xiàn)的次數(shù)越多，該種字符的優(yōu)先級(jí)就越高。 [0046] 具體的，以各種字符在數(shù)據(jù)的數(shù)量占比作為各種字符的優(yōu)先級(jí)，得到各種字符的優(yōu)先級(jí)并記為，其中表示第種字符的優(yōu)先級(jí)。

權(quán)利要求

1 2

5.根據(jù)權(quán)利要求1所述一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法，其特征在于，所述獲取任意兩種字符所組成的字符段的概率參數(shù)，包括的具體計(jì)算公式如下：式中，為第種字符與第種字符所組成的字符段的概率參數(shù)；與分別為第種字符與第種字符的中心點(diǎn)字符在數(shù)據(jù)中的位置；與分別為第種字符與第種字符在數(shù)據(jù)中的離散程度。 6.根據(jù)權(quán)利要求1所述一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法，其特征在于，所述獲取字符段優(yōu)先級(jí)參數(shù)，包括的具體計(jì)算公式如下：式中，為長(zhǎng)度的特定字符段的優(yōu)先級(jí)，為在長(zhǎng)度的特定字符段中前個(gè)字符優(yōu)先級(jí)的累乘積，為在長(zhǎng)度的特定字符段中第個(gè)字符的優(yōu)先級(jí)，為在長(zhǎng)度的特定字符段中第一個(gè)字符與第二個(gè)字符所組成字符段的概率參數(shù)，為在長(zhǎng)度的特定字符段中第個(gè)字符的中心字符的位置，為在長(zhǎng)度的特定字符段中前個(gè)字符中各個(gè)字符的中心字符位置的均值，為在長(zhǎng)度的特定字符段中第個(gè)字符在數(shù)據(jù)中的離散程度，為在長(zhǎng)度的特定字符段中前個(gè)字符中各個(gè)字符在數(shù)據(jù)中的離散程度的均值。 7.根據(jù)權(quán)利要求1所述一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法，其特征在于，所述調(diào)整LZW壓縮算法中的字典的字符段編碼，包括的具體步驟如下：通過預(yù)設(shè)一個(gè)可信的閾值，當(dāng)特定字符段的優(yōu)先級(jí)大于所設(shè)置閾值時(shí)，將的字符段存入LZW壓縮算法中的字典，反之則不將字符段存入LZW壓縮算法中的字典。

微信群二維碼

意見反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法

摘要

說明書

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：