[0091] 除非另外限定,否則本文中使用的所有措辭(包括工程術(shù)語(yǔ)和科技術(shù)語(yǔ))均具有與本發(fā)明所屬領(lǐng)域普通技術(shù)人員的通常理解相同的含義。還應(yīng)理解的是,除非本發(fā)明中有明確的說(shuō)明,否則在常用詞典中定義的詞語(yǔ)應(yīng)被解釋為具有與它們?cè)谙嚓P(guān)技術(shù)的上下文中的含義一致的含義,而不應(yīng)以理想化或過(guò)于形式化的意義解釋。
[0092] 需要說(shuō)明的是,在不沖突的情況下,本發(fā)明中的實(shí)施方式及實(shí)施方式中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施方式來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0093] 實(shí)施例1
[0094] 參照?qǐng)D1,為本發(fā)明的第一個(gè)實(shí)施例,提供了一種5.5G物聯(lián)網(wǎng)設(shè)備的節(jié)能通信方法。
[0095] S1:根據(jù)物理物聯(lián)網(wǎng)設(shè)備收集的歷史數(shù)據(jù)的時(shí)間特征,構(gòu)建并訓(xùn)練物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)采集頻率調(diào)度模型,控制物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)采集頻率。
[0096] 根據(jù)物聯(lián)網(wǎng)設(shè)備收集的歷史數(shù)據(jù)的時(shí)間特征,構(gòu)建并訓(xùn)練物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)采集頻率調(diào)度模型,控制物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)采集頻率,設(shè)歷史數(shù)據(jù)集為:
[0097]
[0098] 其中, 表示數(shù)據(jù)集的數(shù)據(jù)量, 表示第 條數(shù)據(jù)的數(shù)據(jù)量, 表示數(shù)據(jù)類型,表示數(shù)據(jù)傳輸?shù)臅r(shí)間戳, 表示數(shù)據(jù)優(yōu)先級(jí), 表示設(shè)備類型, 表示設(shè)備ID, 表示設(shè)備電量。
[0099] 使用滑動(dòng)窗口法對(duì) 進(jìn)行特征提取,設(shè)窗口長(zhǎng)度為 ,滑動(dòng)步長(zhǎng)為 則第 個(gè)時(shí)間窗口的特征向量為:
[0100]
[0101] 其中 表示取均值, 表示取標(biāo)準(zhǔn)差, 表示計(jì)數(shù)。
[0102] 將所有窗口的特征向量構(gòu)成時(shí)間特征數(shù)據(jù)集 ,使用時(shí)間特征
訓(xùn)練集和對(duì)應(yīng)的目標(biāo)值 訓(xùn)練LSTM模型, 為數(shù)據(jù)采集頻率, 。
[0103] 搭建LSTM模型結(jié)構(gòu),輸入 個(gè)連續(xù)的時(shí)間窗口特征向量,輸出為第 個(gè)時(shí)間窗口之后的最優(yōu)數(shù)據(jù)采集頻率,將LSTM模型表示為:
[0104]
[0105] 其中, 為L(zhǎng)STM模型函數(shù), 為第 個(gè)時(shí)間窗口之后的最優(yōu)數(shù)據(jù)采集頻
率。
[0106] 基于訓(xùn)練完成的LSTM模型,得到物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)采集頻率:
[0107]
[0108]
[0109] 其中, 是數(shù)據(jù)采集頻率的計(jì)算函數(shù), 表示第 個(gè)時(shí)間窗口的最優(yōu)數(shù)據(jù)采集頻率。
[0110] S2:基于物聯(lián)網(wǎng)設(shè)備的歷史狀態(tài)信息和歷史通信數(shù)據(jù),訓(xùn)練通信策略計(jì)算模型,通信策略包括通信時(shí)刻、頻率、數(shù)據(jù)量以及功率多個(gè)決策變量,通信策略計(jì)算模型通過(guò)設(shè)置獎(jiǎng)賞函數(shù),權(quán)衡通信性能和能耗的平衡。
[0111] 定義物聯(lián)網(wǎng)設(shè)備的狀態(tài)特征向量 ,包括CPU利用率 ,表示第 時(shí)刻物聯(lián)網(wǎng)設(shè)備CPU的使用率;內(nèi)存利用率 ,表示第 時(shí)刻物聯(lián)網(wǎng)設(shè)備內(nèi)存的使用率;電池電量,表示第 時(shí)刻物聯(lián)網(wǎng)設(shè)備電池的剩余電量;信號(hào)強(qiáng)度 ,表示第 時(shí)刻物聯(lián)網(wǎng)設(shè)備接收到的無(wú)線信號(hào)強(qiáng)度;狀態(tài)特征向量 表示為 。
[0112] 定義物聯(lián)網(wǎng)設(shè)備的通信特征向量 ,包括通信時(shí)刻 ,表示第 次通信傳輸?shù)臅r(shí)間戳;數(shù)據(jù)量 ,表示第 次通信傳輸?shù)臄?shù)據(jù)量大?。还β?,表示第 次通信傳
輸使用的發(fā)射功率;通信特征向量 可表示為 。
[0113] 定義通信策略行動(dòng)向量 ,包括通信批準(zhǔn) ,表示是否批準(zhǔn)第 次通信請(qǐng)求,取值為0或1;時(shí)隙分配 ,表示為第 次通信分配的時(shí)隙資源數(shù)量;帶寬分配 ,表示為第 次通信分配的帶寬資源數(shù)量;行動(dòng)向量 表示為 。
[0114] 構(gòu)建狀態(tài)?通信數(shù)據(jù)集 ,其中, 為狀態(tài)?通
信數(shù)據(jù)集的數(shù)據(jù)量,每個(gè)樣本 表示在狀態(tài) 下采取通信行動(dòng) ,并產(chǎn)生通信特
征 ;定義獎(jiǎng)賞函數(shù) ,用于評(píng)估在狀態(tài) 下采取行動(dòng) 的優(yōu)劣,權(quán)衡通信性能和能
耗: ,其中, 表示通信效用,基于通信特征來(lái)計(jì)
算, ; 表示能耗代價(jià);基于功率 和通信時(shí)長(zhǎng)
來(lái)計(jì)算, ?;其中,和 為權(quán)衡因子,控制通信效用和能耗代價(jià)之間
的平衡。
[0115] 使用強(qiáng)化學(xué)習(xí)算法DQN神經(jīng)網(wǎng)絡(luò),基于狀態(tài)?通信數(shù)據(jù)集 訓(xùn)練通信策略計(jì)算模型 。
[0116] 模型的輸入為狀態(tài) ,輸出為各個(gè)行動(dòng) 的 值 ,表示在狀態(tài) 下采取行動(dòng)
的長(zhǎng)期累積獎(jiǎng)勵(lì)期望。
[0117] 訓(xùn)練過(guò)程中,使用 策略進(jìn)行探索,以概率 隨機(jī)選擇行動(dòng);同時(shí),使用
經(jīng)驗(yàn)回放機(jī)制,將每一步的轉(zhuǎn)移樣本 存入回放緩沖區(qū)中,并從中隨機(jī)抽取部分
樣本進(jìn)行訓(xùn)練,以降低樣本之間的相關(guān)性。
[0118] 在訓(xùn)練過(guò)程中,不斷優(yōu)化模型參數(shù),使得預(yù)測(cè)的Q值與實(shí)際累積獎(jiǎng)勵(lì)盡可能接近;
損失函數(shù)可定義為預(yù)測(cè)Q值與目標(biāo)Q值之間的均方誤差(MSE):
[0119]
[0120] 其中,為模型參數(shù), 為目標(biāo)網(wǎng)絡(luò)參數(shù), 為經(jīng)驗(yàn)回放緩沖區(qū),為折扣因子。
[0121] 訓(xùn)練完成后,得到最優(yōu)通信策略 ,對(duì)于任意狀態(tài) ,選擇Q值最大的行動(dòng)作為最優(yōu)決策:
[0122]
[0123]
[0124] 其中, 是動(dòng)作空間, 是下一步行動(dòng), 是下一步狀態(tài), 是折扣因子, 是數(shù)學(xué)期望的符號(hào)表示, 表示在給定狀態(tài) 下采取行動(dòng) 后,獲得的期望未來(lái)累積獎(jiǎng)勵(lì)。
[0125] 得到最優(yōu)通信調(diào)度策略 ,其中,是狀態(tài)空間,對(duì)于任意
狀態(tài) ,選擇行動(dòng) 使得 最大。