[0028] 通過預(yù)設(shè)一個(gè)可信的閾值 ,當(dāng)特定字符段的優(yōu)先級(jí)大于所設(shè)置閾值 時(shí),將的字符段存入LZW壓縮算法中的字典,反之則不將字符段存入LZW壓縮算法中的字典。
[0029] 本發(fā)明的技術(shù)方案的有益效果是:由于在網(wǎng)絡(luò)信息數(shù)據(jù)的數(shù)據(jù)中,存在許多不同種類的字符,而這些不同種類的字符會(huì)使傳統(tǒng)的LZW壓縮算法中的字典的大小非常大,從而占用大量的內(nèi)存,導(dǎo)致網(wǎng)絡(luò)信息數(shù)據(jù)得不到良好的壓縮。
[0030] 本發(fā)明根據(jù)字符分布區(qū)間和頻率更新LZW壓縮算法中的字典盡可能將具有重復(fù)模式概率較高的字符串存入LZW中的字典,動(dòng)態(tài)調(diào)整LZW中的字典,使其涵括盡可能多的重復(fù)模式,且不存入低頻短字符串從而減小LZW中的字典大小,從而達(dá)到更好的壓縮效果。
附圖說明
[0031] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0032] 圖1為本發(fā)明一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法的步驟流程圖。
具體實(shí)施方式
[0033] 為了更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明提出的一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法,其具體實(shí)施方式、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如下。在下述說明中,不同的“一個(gè)實(shí)施例”或“另一個(gè)實(shí)施例”指的不一定是同一實(shí)施例。此外,一或多個(gè)實(shí)施例中的特定特征、結(jié)構(gòu)或特點(diǎn)可由任何合適形式組合。
[0034] 除非另有定義,本文所使用的所有的技術(shù)和科學(xué)術(shù)語(yǔ)與屬于本發(fā)明的技術(shù)領(lǐng)域的技術(shù)人員通常理解的含義相同。
[0035] 下面結(jié)合附圖具體的說明本發(fā)明所提供的一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法的具體方案。
[0036] 請(qǐng)參閱圖1,其示出了本發(fā)明一個(gè)實(shí)施例提供的一種網(wǎng)絡(luò)信息的數(shù)據(jù)安全防護(hù)方法的步驟流程圖,該方法包括以下步驟:
[0037] 步驟S001:獲取網(wǎng)絡(luò)信息數(shù)據(jù)并初始化LZW壓縮算法中的字典。
[0038] 網(wǎng)絡(luò)信息數(shù)據(jù)包含多種字符,例如漢字、字母、數(shù)字、標(biāo)點(diǎn)符號(hào)、特殊字符(空格、換行符)等字符,這些字符在網(wǎng)絡(luò)信息數(shù)據(jù)中或多或少的會(huì)重復(fù)出現(xiàn),因此在網(wǎng)絡(luò)信息數(shù)據(jù)存儲(chǔ)時(shí)便可根據(jù)字符存在重復(fù)出現(xiàn)這一特點(diǎn)進(jìn)行優(yōu)化存儲(chǔ),例如LZW壓縮算法便是基于字符在網(wǎng)絡(luò)信息數(shù)據(jù)中重復(fù)出現(xiàn)這一特點(diǎn)設(shè)計(jì)的壓縮算法。
[0039] LZW壓縮算法的基本原理是建立字典,其中包含了輸入數(shù)據(jù)流中出現(xiàn)的所有可能的字符序列,在初始化時(shí),LZW中的字典中只包含單個(gè)字符序列;然后,算法從輸入數(shù)據(jù)流中讀取字符,將它與已有的字符序列進(jìn)行匹配,如果匹配成功,算法繼續(xù)讀取下一個(gè)字符,并將匹配的字符序列擴(kuò)展為更長(zhǎng)的序列;如果匹配失敗,算法將當(dāng)前的字符序列添加到LZW中的字典中,并將它的編碼輸出;然后,算法從下一個(gè)字符開始重新匹配。
[0040] 而本實(shí)施例是基于LZW壓縮算法思想對(duì)數(shù)據(jù)進(jìn)行處理,所以需要統(tǒng)計(jì)待壓縮網(wǎng)絡(luò)信息數(shù)據(jù)字符種類,將所有字符添加到LZW中的字典,并為每個(gè)字符分配一個(gè)唯一的編碼。
[0041] 然而現(xiàn)有的LZW壓縮算法雖然是基于字符序列是否已經(jīng)在網(wǎng)絡(luò)信息數(shù)據(jù)中重復(fù)出現(xiàn)的頻率這一特征來構(gòu)建字典,進(jìn)而實(shí)現(xiàn)壓縮的,但是該算法沒有考慮到網(wǎng)絡(luò)信息數(shù)據(jù)中重復(fù)出現(xiàn)的字符的相對(duì)位置分布情況以及離散分布情況。因此本實(shí)施例接下來利用網(wǎng)絡(luò)信息數(shù)據(jù)中字符的相對(duì)位置分布情況以及離散分布情況來分析不同字符片段加入字典的優(yōu)先級(jí)來進(jìn)一步提高網(wǎng)絡(luò)信息數(shù)據(jù)的壓縮效率。
[0042] 步驟S002:根據(jù)數(shù)據(jù)中各種字符數(shù)量的占比,獲取數(shù)據(jù)中各種字符的優(yōu)先級(jí)參數(shù)。
[0043] 需要說明的是,由于LZW壓縮算法在初始化后,會(huì)在LZW中的字典內(nèi)依次更新字典內(nèi)所有字符段,并用符號(hào)表示,在后續(xù)讀取相同字符段時(shí),用記錄好的符號(hào)表示字符段,但其對(duì)于有重復(fù)模式的數(shù)據(jù)壓縮效果比較好,對(duì)于重復(fù)度不高的數(shù)據(jù)壓縮效果欠佳,將所有字符段都加入LZW中的字典會(huì)浪費(fèi)字典空間,增加搜索速度,使后續(xù)字典中記錄字符段的編碼長(zhǎng)度更長(zhǎng),影響壓縮效果;
[0044] 而本實(shí)施例根據(jù)各種字符頻率和分布,判斷字符段的優(yōu)先程度,根據(jù)概率參數(shù)大小選擇性加入LZW中的字典,將概率參數(shù)較小的字符段用字典內(nèi)表示過的字符和字符或字符和字符段編碼(字典編碼)進(jìn)行表示,降低了LZW中的字典的冗余程度,使字典中字符段編碼長(zhǎng)度更短,且可以使LZW中的字典有盡可能多的空間記錄待壓縮數(shù)據(jù)中更多具有重復(fù)模式的字符段。
[0045] 需要進(jìn)一步說明的是,當(dāng)字符在數(shù)據(jù)中的占比越高,即該種字符在數(shù)據(jù)中出現(xiàn)的次數(shù)越多,該種字符的優(yōu)先級(jí)就越高。
[0046] 具體的,以各種字符在數(shù)據(jù)的數(shù)量占比作為各種字符的優(yōu)先級(jí),得到各種字符的優(yōu)先級(jí)并記為 ,其中 表示第 種字符的優(yōu)先級(jí)。