白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法

專利號
CN113887341B
公開日期
2025-04-29
申請人
同濟大學(上海市楊浦區(qū)四平路1239號)
發(fā)明人
劉成菊; 曾秦陽; 陳啟軍
IPC分類
G06V40/20; G06V10/764; G06V10/82; G06N3/0464; G06N3/084; G06N3/042
技術領域
卷積,骨骼,網(wǎng)絡,gcn,并聯(lián),神經(jīng)網(wǎng)絡,神經(jīng),堆棧,動作,識別
地域: 上海市 上海市楊浦區(qū)

摘要

本發(fā)明涉及一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法,包括以下步驟:1)獲取骨骼數(shù)據(jù)并進行預處理,剔除無關骨骼數(shù)據(jù)和修復不全的數(shù)據(jù)后進行歸一化處理;2)設計并聯(lián)卷積神經(jīng)網(wǎng)絡的基礎模塊結構;3)設置訓練參數(shù),并進行誤差反向傳播;4)將并聯(lián)卷積神經(jīng)網(wǎng)絡的基礎模塊插入語義引導神經(jīng)網(wǎng)絡SGN網(wǎng)絡中,構建人體骨骼動作識別網(wǎng)絡模型,并在骨骼數(shù)據(jù)集上進行跨視角和跨物體的訓練和測試5)以處理后的骨骼數(shù)據(jù)作為輸入,根據(jù)訓練好的人體骨骼動作識別網(wǎng)絡模型進行人體骨骼動作識別。與現(xiàn)有技術相比,本發(fā)明具有提高識別精度的同時大大降低數(shù)據(jù)量、應用范圍廣、即插即用等優(yōu)點。

說明書

1 2 3
一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法 技術領域 [0001] 本發(fā)明涉及機器人學習與計算機視覺領域,尤其是涉及一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法。 背景技術 [0002] 動作識別廣泛應用于視頻監(jiān)控、人機交互、智能駕駛等領域?;谝曨l的動作識別可分為基于RGB像素點的動作識別和基于骨骼的動作識別,基于骨骼的動作識別由于計算量少且能保留豐富的動作行為信息而廣泛被研究。 [0003] 基于骨骼的算法目前分為傳統(tǒng)的提取特征方法,如時空興趣點法、稠密軌跡法和能量直方圖法以及深度學習算法,如卷積神經(jīng)網(wǎng)絡算法、圖卷積神經(jīng)網(wǎng)絡等,卷積神經(jīng)網(wǎng)絡要求輸入數(shù)據(jù)是規(guī)則且具有歐式距離,而人體骨骼拓撲是不規(guī)則的,骨骼點之間的距離是非歐式距離,圖卷積網(wǎng)絡通過鄰接矩陣解決了這一問題,然而現(xiàn)有的圖卷積網(wǎng)絡往往需要很多層的堆棧才能達到一個比較好的識別精度。 發(fā)明內(nèi)容 [0004] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法。 [0005] 本發(fā)明的目的可以通過以下技術方案來實現(xiàn): [0006] 一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法,包括以下步驟: [0007] 1)獲取骨骼數(shù)據(jù)并進行預處理,剔除無關骨骼數(shù)據(jù)和修復不全的數(shù)據(jù)后進行歸一化處理; [0008] 2)設計并聯(lián)卷積神經(jīng)網(wǎng)絡的基礎模塊結構; [0009] 3)設置訓練參數(shù),并進行誤差反向傳播; [0010] 4)將并聯(lián)卷積神經(jīng)網(wǎng)絡的基礎模塊插入語義引導神經(jīng)網(wǎng)絡(SGN)網(wǎng)絡中,構建人體骨骼動作識別網(wǎng)絡模型,并在骨骼數(shù)據(jù)集上進行跨視角和跨物體的訓練和測試; [0011] 5)以處理后的骨骼數(shù)據(jù)作為輸入,根據(jù)訓練好的人體骨骼動作識別網(wǎng)絡模型進行人體骨骼動作識別。 [0012] 所述的步驟1)中,剔除不符合規(guī)范或數(shù)據(jù)尺度未在設定范圍內(nèi)的骨骼數(shù)據(jù),并采用插值法生成新的骨骼數(shù)據(jù),通過深度學習框架Pytorch中的BatchNorm2d方式進行歸一化處理。 [0013] 所述的步驟2)中,基礎模塊由圖卷積網(wǎng)絡(GCN)和二維卷積網(wǎng)絡(CNN)并聯(lián)構成,分別對輸入的骨骼數(shù)據(jù)進行獨立卷積后經(jīng)過激活函數(shù)(ReLU)進行非線性處理,增大網(wǎng)絡的信息提取能力,所述的圖卷積網(wǎng)絡(GCN)用以提取空間信息特征,通過可學習的鄰接矩陣提取人體各骨骼點之間的動作聯(lián)系,所述的二維卷積網(wǎng)絡(CNN)用以提取不同幀間的光流信息,即規(guī)則的時間幀信息。 [0014] 所述的并聯(lián)卷積神經(jīng)網(wǎng)絡由一個或多個基礎模塊通過堆棧構成,用以實現(xiàn)特征提取的即插即用。 [0015] 所述的步驟3)中,訓練參數(shù)包括學習率(lr)、損失函數(shù)(loss)、批次大小(batch_size)、迭代次數(shù)(epoch)和損失函數(shù)。 [0016] 所述的步驟4)中,將并聯(lián)卷積神經(jīng)網(wǎng)絡的基礎模塊插入語義引導神經(jīng)網(wǎng)絡SGN中具體為: [0017] 將即插即用的并聯(lián)卷積神經(jīng)網(wǎng)絡代替原SGN網(wǎng)絡中的GCN模塊,形成人體骨骼動作識別網(wǎng)絡模型。 [0018] 所述的步驟4)中,在骨骼數(shù)據(jù)集NTU?RGB+D?60上進行跨視角和跨物體的訓練和測試。 [0019] 所述的步驟4)中,進行跨視角和跨物體的訓練和測試具體包括: [0020] 調(diào)整二維卷積網(wǎng)絡(CNN)的卷積核尺寸,重復步驟4),直至獲取跨視角和跨物體的準確率最高時對應的卷積核尺寸,并將對應的尺寸參數(shù)作為基礎模塊的模型參數(shù); [0021] 固定基礎模塊的尺寸參數(shù),調(diào)整并聯(lián)卷積網(wǎng)絡的堆棧層數(shù)和中間層的通道維數(shù),重復步驟4),直至獲取跨視角和跨物體的準確率最高時對應的堆棧層數(shù)和中間層的通道維數(shù),完成并聯(lián)卷積網(wǎng)絡的模型參數(shù)設計。 [0022] 所述的步驟5)中,二維卷積網(wǎng)絡(CNN)的卷積核尺寸的調(diào)整包括1×1尺寸、1×3尺寸和3×3尺寸。 [0023] 所述的步驟6)中,并聯(lián)卷積網(wǎng)絡的堆棧層數(shù)的調(diào)整包括1、2、3、4和5,中間層的通道維數(shù)的調(diào)整包括64、64*2和64*4。 [0024] 與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點: [0025] 一、本發(fā)明的并聯(lián)卷積網(wǎng)絡可以即插即用在任意特征提取識別網(wǎng)絡結構中,基礎模塊是通過圖卷積(GCN)與二維卷積(CNN)并聯(lián)實現(xiàn),對輸入的骨骼點數(shù)據(jù)分別進行獨立卷積,GCN通過可學習的鄰接矩陣提取了人體各個骨骼點之間的動作聯(lián)系,CNN用來提取規(guī)則的時間幀信息,二者直接對輸入的數(shù)據(jù)進行處理,減少了信息損失,從而能最大程度提取豐富的時空信息,增大識別精度,本發(fā)明將并聯(lián)卷積網(wǎng)絡植入最新的語義引導神經(jīng)網(wǎng)絡(SGN)網(wǎng)絡中,在NTU?RGB+D?60數(shù)據(jù)集上進行CV和CS測試精度均有較大提高,精度調(diào)高了0.5%,而整個網(wǎng)絡的參數(shù)量只有1.69M,大大減小了運算量。

權利要求

1 2
1.一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法,其特征在于,包括以下步驟: 1)獲取骨骼數(shù)據(jù)并進行預處理,剔除無關骨骼數(shù)據(jù)和修復不全的數(shù)據(jù)后進行歸一化處理; 2)設計并聯(lián)卷積神經(jīng)網(wǎng)絡的基礎模塊結構; 3)設置訓練參數(shù),并進行誤差反向傳播; 4)將并聯(lián)卷積神經(jīng)網(wǎng)絡的基礎模塊插入語義引導神經(jīng)網(wǎng)絡SGN網(wǎng)絡中,構建人體骨骼動作識別網(wǎng)絡模型,并在骨骼數(shù)據(jù)集上進行跨視角和跨物體的訓練和測試; 5)以處理后的骨骼數(shù)據(jù)作為輸入,根據(jù)訓練好的人體骨骼動作識別網(wǎng)絡模型進行人體骨骼動作識別; 所述的步驟2)中,基礎模塊由圖卷積網(wǎng)絡GCN和二維卷積網(wǎng)絡CNN并聯(lián)構成,分別對輸入的骨骼數(shù)據(jù)進行獨立卷積后經(jīng)過激活函數(shù)ReLU進行非線性處理,增大網(wǎng)絡的信息提取能力,所述的圖卷積網(wǎng)絡GCN用以提取空間信息特征,通過可學習的鄰接矩陣提取人體各骨骼點之間的動作聯(lián)系,所述的二維卷積網(wǎng)絡CNN用以提取不同幀間的光流信息,即規(guī)則的時間幀信息; 所述的步驟4)中,在骨骼數(shù)據(jù)集NTU?RGB+D?60上進行跨視角和跨物體的訓練和測試; 所述的步驟4)中,進行跨視角和跨物體的訓練和測試具體包括: 調(diào)整二維卷積網(wǎng)絡CNN的卷積核尺寸,重復步驟4),直至獲取跨視角和跨物體的準確率最高時對應的卷積核尺寸,并將對應的尺寸參數(shù)作為基礎模塊的模型參數(shù); 固定基礎模塊的尺寸參數(shù),調(diào)整并聯(lián)卷積網(wǎng)絡的堆棧層數(shù)和中間層的通道維數(shù),重復步驟4),直至獲取跨視角和跨物體的準確率最高時對應的堆棧層數(shù)和中間層的通道維數(shù),完成并聯(lián)卷積網(wǎng)絡的模型參數(shù)設計。 2.根據(jù)權利要求1所述的一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法,其特征在于,所述的步驟1)中,剔除不符合規(guī)范或數(shù)據(jù)尺度未在設定范圍內(nèi)的骨骼數(shù)據(jù),并采用插值法生成新的骨骼數(shù)據(jù),通過深度學習框架Pytorch中的BatchNorm2d方式進行歸一化處理。 3.根據(jù)權利要求1所述的一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法,其特征在于,所述的并聯(lián)卷積神經(jīng)網(wǎng)絡由一個或多個基礎模塊通過堆棧構成,用以實現(xiàn)特征提取的即插即用。 4.根據(jù)權利要求1所述的一種基于并聯(lián)卷積神經(jīng)網(wǎng)絡的人體骨骼動作識別方法,其特征在于,所述的步驟3)中,訓練參數(shù)包括學習率、損失函數(shù)、批次大小、迭代次數(shù)和損失函數(shù)。
微信群二維碼
意見反饋