數(shù)據(jù)集,此過(guò)程涉及匹配算法和數(shù)據(jù)抽取技術(shù),允許從批量的數(shù)據(jù)中迅速提取關(guān)鍵信息,為數(shù)據(jù)分析和業(yè)務(wù)決策提供支持,關(guān)聯(lián)字段數(shù)據(jù)集通過(guò)精確識(shí)別并關(guān)聯(lián)數(shù)據(jù)中的關(guān)鍵信息,
增加了數(shù)據(jù)的商業(yè)價(jià)值和操作性,這是構(gòu)建有效數(shù)據(jù)模型的基礎(chǔ),對(duì)于數(shù)據(jù)挖掘和分析至
關(guān)重要。
[0080] 在關(guān)聯(lián)字段數(shù)據(jù)集基礎(chǔ)上,進(jìn)行數(shù)據(jù)關(guān)聯(lián)分析,應(yīng)用關(guān)聯(lián)度計(jì)算公式:
;
[0081] 計(jì)算并分析差異化數(shù)據(jù)字段之間的關(guān)聯(lián)度,生成整合原始記錄;
[0082] 其中, 代表第 個(gè)數(shù)據(jù)字段的數(shù)值,用于表示字段在數(shù)據(jù)集中的數(shù)值, 代表第
個(gè)數(shù)據(jù)字段的數(shù)值,用于表示另一個(gè)字段在數(shù)據(jù)集中的數(shù)值, 是第個(gè)字段的權(quán)重系數(shù),
調(diào)整第個(gè)字段在關(guān)聯(lián)度計(jì)算中的影響力, 是第個(gè)字段的權(quán)重系數(shù),調(diào)整第個(gè)字段在關(guān)
聯(lián)度計(jì)算中的影響力, 是在求 平方和時(shí)使用的權(quán)重系數(shù),用于調(diào)整 在分母中的貢
獻(xiàn), 表示第字段和第字段之間的關(guān)聯(lián)度指數(shù),用來(lái)量化兩個(gè)字段之間的關(guān)聯(lián)性強(qiáng)度;
[0083] 公式: ;
[0084] 公式的有益之處在于,根據(jù)差異化字段的關(guān)鍵性加權(quán)調(diào)整關(guān)聯(lián)度計(jì)算,匹配差異
化場(chǎng)景的需求,適用于數(shù)據(jù)環(huán)境中多變量間的關(guān)系評(píng)估;
[0085] 公式詳解和公式計(jì)算推導(dǎo)過(guò)程:
[0086] 設(shè) 權(quán)重 ,計(jì)算 的
權(quán)重調(diào)整值:
[0087] ;
[0088] 計(jì)算 和 的權(quán)重調(diào)整值:
[0089] ;
[0090] ;
[0091] 計(jì)算關(guān)聯(lián)度指數(shù):
[0092] ;
[0093] 結(jié)果表明,字段和之間存在較低的關(guān)聯(lián)度,表明在這兩個(gè)變量之間需要調(diào)查潛在
的關(guān)聯(lián)或權(quán)重參數(shù)調(diào)整。
[0094] 請(qǐng)參閱圖3,處理后數(shù)據(jù)集的獲取步驟具體為:
[0095] 對(duì)整合原始記錄執(zhí)行數(shù)據(jù)值范圍校驗(yàn),基于每個(gè)字段的預(yù)設(shè)標(biāo)準(zhǔn),檢查每個(gè)數(shù)據(jù)
點(diǎn)的符合性,驗(yàn)證數(shù)據(jù)的合規(guī)性,生成符合標(biāo)準(zhǔn)的數(shù)據(jù)集;
[0096] 對(duì)整合原始記錄進(jìn)行數(shù)據(jù)范圍校驗(yàn),首先確保每個(gè)數(shù)據(jù)點(diǎn)符合預(yù)設(shè)的安全標(biāo)準(zhǔn)和
操作范圍,此步驟需要對(duì)每個(gè)字段的數(shù)據(jù)進(jìn)行逐一審核,審查過(guò)程包括比對(duì)數(shù)據(jù)點(diǎn)與預(yù)設(shè)
標(biāo)準(zhǔn)的偏差,標(biāo)準(zhǔn)化處理包括將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式以及將數(shù)據(jù)調(diào)整到預(yù)設(shè)的數(shù)值范圍
內(nèi),調(diào)整過(guò)程中使用的標(biāo)準(zhǔn)化函數(shù)需要根據(jù)數(shù)據(jù)類型和預(yù)期用途設(shè)定,確保數(shù)據(jù)的準(zhǔn)確性
和可用性,生成的數(shù)據(jù)集將用于后續(xù)的分析和處理任務(wù),確保了數(shù)據(jù)處理流程的完整性和
精確度。
[0097] 基于符合標(biāo)準(zhǔn)的數(shù)據(jù)集,計(jì)算每個(gè)數(shù)據(jù)字段的偏離值,對(duì)比偏離值與設(shè)定偏差范
圍,生成偏離值分析數(shù)據(jù)集;
[0098] 在完成數(shù)據(jù)點(diǎn)的初步審查后,接下來(lái)的關(guān)鍵步驟是計(jì)算每個(gè)字段的偏離值,偏離
值的計(jì)算通過(guò)確定每個(gè)數(shù)據(jù)點(diǎn)與字段平均值之間的差異來(lái)進(jìn)行的,此過(guò)程不僅涉及算術(shù)計(jì)
算,還包括對(duì)偏離值進(jìn)行統(tǒng)計(jì)分析,識(shí)別那些超出正常變異范圍的數(shù)據(jù)點(diǎn),統(tǒng)計(jì)分析輔助確定數(shù)據(jù)的標(biāo)準(zhǔn)偏差和變異系數(shù),這些統(tǒng)計(jì)參數(shù)通過(guò)數(shù)據(jù)采集和長(zhǎng)期監(jiān)測(cè)獲得,以確保分析
結(jié)果的可靠性和準(zhǔn)確性,從而生成偏離值分析數(shù)據(jù)集。
[0099] 篩選偏離值分析數(shù)據(jù)集中所有偏離值超出標(biāo)準(zhǔn)的數(shù)據(jù)條目,標(biāo)記條目,并執(zhí)行移
除操作,得到修正后的數(shù)據(jù)集;
[0100] 經(jīng)過(guò)偏離值分析的數(shù)據(jù)集需要篩選以排除那些偏離標(biāo)準(zhǔn)的數(shù)據(jù)條目,篩選過(guò)程包
括標(biāo)記超出偏差范圍的數(shù)據(jù)點(diǎn),并根據(jù)這些標(biāo)記執(zhí)行移除操作,移除的標(biāo)準(zhǔn)是基于數(shù)據(jù)集
中的統(tǒng)計(jì)分析結(jié)果和預(yù)設(shè)的偏差閾值,此步驟確保了數(shù)據(jù)集的一致性和數(shù)據(jù)質(zhì)量,處理后
的數(shù)據(jù)集將更加干凈,準(zhǔn)確地反映實(shí)際情況,移除過(guò)程采用自動(dòng)化腳本來(lái)執(zhí)行,提高處理效率和減少人為錯(cuò)誤,生成的修正后的數(shù)據(jù)集為分析和決策提供了堅(jiān)實(shí)的基礎(chǔ)。
[0101] 對(duì)修正后的數(shù)據(jù)集進(jìn)行處理,采用公式: ;
[0102] 計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的調(diào)整標(biāo)準(zhǔn)化分?jǐn)?shù),生成處理后數(shù)據(jù)集;
[0103] 其中, 表示數(shù)據(jù)點(diǎn)的值, 是數(shù)據(jù)字段的平均值, 是標(biāo)準(zhǔn)偏差,用于調(diào)節(jié)分
數(shù)敏感性, 代表第個(gè)數(shù)據(jù)點(diǎn)對(duì)于第個(gè)數(shù)據(jù)字段的調(diào)整標(biāo)準(zhǔn)化分?jǐn)?shù);
[0104] 公式: ;
[0105] 公式的有益之處在于,提供了一種靈活調(diào)整數(shù)據(jù)點(diǎn)與其標(biāo)準(zhǔn)偏差的關(guān)系的方法,
通過(guò)引入調(diào)整系數(shù) ,可以根據(jù)實(shí)際數(shù)據(jù)的分布特性調(diào)整數(shù)據(jù)點(diǎn)的權(quán)重,從而識(shí)別和處理異常值,這在處理批量數(shù)據(jù)集時(shí)尤其有用,可以有效地優(yōu)化數(shù)據(jù)處理流程,提高數(shù)據(jù)處理的精度和效率;
[0106] 公式詳解和公式計(jì)算推導(dǎo)過(guò)程:
[0107] 設(shè)置有一組數(shù)據(jù) ,其平均值 ,標(biāo)準(zhǔn)偏差
,調(diào)整系數(shù) ,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的 值:
[0108] 1.對(duì) ,計(jì)算計(jì)算 ;
[0109] 2.對(duì) ,計(jì)算 ;
[0110] 3.對(duì) ,計(jì)算 ;
[0111] 4.對(duì) ,計(jì)算 ;
[0112] 5.對(duì) ,計(jì)算 ;
[0113] 總和 值為: ;
[0114] 結(jié)果表明,調(diào)整后的 值分布均勻且符合預(yù)期的統(tǒng)計(jì)設(shè)置,表明數(shù)據(jù)已被正確標(biāo)準(zhǔn)
化,這有助于數(shù)據(jù)分析和決策過(guò)程。
[0115] 請(qǐng)參閱圖4,信源信任評(píng)分表的獲取步驟具體為:
[0116] 對(duì)處理后數(shù)據(jù)集中的多數(shù)據(jù)源進(jìn)行量化評(píng)分,捕捉數(shù)值分布、一致性以及數(shù)據(jù)覆