本文摘要:摘要:近幾年市場上出現(xiàn)了許多智能可穿戴設(shè)備,它們可以監(jiān)測用戶的步數(shù)、心率等情況,從而推算出用戶的運動量、睡眠質(zhì)量、作息習(xí)慣等,并根據(jù)這些數(shù)據(jù)給用戶提供健康建議。但是在這些產(chǎn)品中,很少有產(chǎn)品可以識別用戶的運動姿態(tài),即使有,識別的姿態(tài)種類也比
摘要:近幾年市場上出現(xiàn)了許多智能可穿戴設(shè)備,它們可以監(jiān)測用戶的步數(shù)、心率等情況,從而推算出用戶的運動量、睡眠質(zhì)量、作息習(xí)慣等,并根據(jù)這些數(shù)據(jù)給用戶提供健康建議。但是在這些產(chǎn)品中,很少有產(chǎn)品可以識別用戶的運動姿態(tài),即使有,識別的姿態(tài)種類也比較單一。隨著邊緣計算的不斷發(fā)展,傳統(tǒng)的機器學(xué)習(xí)運行也逐漸從云端下沉到邊緣端,在嵌入式微控制器上運行深度學(xué)習(xí)網(wǎng)絡(luò)模型進行結(jié)果預(yù)測成為了可能。在此背景下,本文針對基于深度學(xué)習(xí)的電力工程現(xiàn)場動作識別進行詳細探究。
關(guān)鍵詞:深度學(xué)習(xí);電力工程;現(xiàn)場;動作識別
1 引言
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和視頻獲取設(shè)備的普及,視頻已成為信息的主要載體。視頻數(shù)據(jù)的數(shù)量呈爆炸式增長,如何分析和理解視頻的內(nèi)容顯得越來越重要。人體動作識別作為視頻理解的重要課題之一,已經(jīng)成為了計算機視覺領(lǐng)域研究的焦點。動作識別通過對預(yù)先分割好的時域序列進行時空信息建模,進而學(xué)習(xí)視頻中所包含的表象和運動信息,以此來建立視頻內(nèi)容與動作類別之間的映射關(guān)系,使得計算機能夠有效地勝任視頻理解的任務(wù)。
電力工程論文范例:電力工程設(shè)計的電力系統(tǒng)規(guī)劃設(shè)計淺談
2 基于深度學(xué)習(xí)的人體動作識別概述
目前視頻架構(gòu)之間主要有以下區(qū)別:網(wǎng)絡(luò)的輸入只包含RGB視頻還是包含了預(yù)處理的光流,卷積核是采用2D(基于圖像)還是3D(基于視頻),以及在2D網(wǎng)絡(luò)的基礎(chǔ)上幀間信息如何整合。雙流神經(jīng)網(wǎng)絡(luò)(Two-Stream ConvNet)在動作識別領(lǐng)域是一類很常用的方法,該方法簡單卻有相當(dāng)優(yōu)異的效果。雙流網(wǎng)絡(luò)顧名思義由時間流與空間流兩路網(wǎng)絡(luò)組成,空間流網(wǎng)絡(luò)將視頻單幀或堆疊幀輸入卷積網(wǎng)絡(luò)學(xué)習(xí)空間域上的視頻信息,時間流網(wǎng)絡(luò)將光流圖以多通道的形式輸入卷積網(wǎng)絡(luò)學(xué)習(xí)時間域上的視頻信息[1]。
兩路網(wǎng)絡(luò)各自對視頻輸出屬于各類的概率,最后平均兩個概率向量得到最終的分類結(jié)果。3D神經(jīng)網(wǎng)絡(luò)是另一類很常用的方法。隨著近年來計算力的進一步提升以及數(shù)據(jù)集規(guī)模的進一步增加,3D神經(jīng)網(wǎng)絡(luò)發(fā)展迅速,從最開始的不如傳統(tǒng)方法到如今與雙流網(wǎng)絡(luò)并駕齊驅(qū)。3D網(wǎng)絡(luò)在設(shè)計之初就是一種端到端的網(wǎng)絡(luò)架構(gòu),它可以直接將視頻作為輸入,并輸出最終分類類別。由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,3D網(wǎng)絡(luò)需要很大的數(shù)據(jù)集才能得到較好的結(jié)果,并且網(wǎng)絡(luò)層數(shù)不能過深。
3 基于深度學(xué)習(xí)的電力工程現(xiàn)場動作識別
3.1 結(jié)構(gòu)模型
為了對視頻中的動作進行時空建模,本文設(shè)計時序差異殘差網(wǎng)絡(luò)( Temporal Difference ResNet,ResTD)。
ResTD 主要分為3階段。輸入采樣階段、時空特征提取階段、特征分類階段。(1)在輸入采樣階段,為了覆蓋輸入視頻的整體時序,對輸入視頻沿時間維度展開,進行稀疏時序采樣,組成具有時序順序的序列圖像,作為網(wǎng)絡(luò)訓(xùn)練輸入。(2)在時空特征提取階段,主要完成空間特征與時序特征的統(tǒng)一提取。其中空間特征提取通過殘差模塊( ResNet Block) 實現(xiàn),利用短路連接機制,使網(wǎng)絡(luò)加深時無損地進行梯度傳播,并且通過下采樣操作,使特征圖空間大小減半。時序特征的提取通過時序建模層( Temporal Model, TM) 實現(xiàn),利用特征級別的時序差異計算得到激活圖,用于增強特征的運動信息[2]。(3)在特征分類階段,通過全連接層實現(xiàn)特征映射,將時空特征提取階段已編碼好的高維特征映射為具有動作類別數(shù)目的分類特征,應(yīng)用Softmax激活函數(shù)將分類特征轉(zhuǎn)化為概率表示,與真實目標(biāo)類別計算損失。
3.2 自編碼
自編碼器是一種無監(jiān)督的學(xué)習(xí)算法,其網(wǎng)絡(luò)結(jié)構(gòu)類似連接編碼器和解碼器的沙漏。通過對編碼器的輸入數(shù)據(jù)進行降維,獲得壓縮后的輸入數(shù)據(jù)特征值。解碼器的主要任務(wù)是使重建損失最小化,以便重建盡可能多的原始數(shù)據(jù)。首先,自編碼器輸入向量x∈[0,1]d,通過非線性映射函數(shù)y=σ(Wx+b)將輸入向量映射至潛在空間,表示為y∈[0,1]d'。其映射函數(shù)中的W是權(quán)重矩陣,b是相應(yīng)的偏差矢量,σ是激活函數(shù)。每個神經(jīng)元連接到具有相應(yīng)權(quán)重和偏差的下一層,并且為建立魯棒的模型而對每個神經(jīng)元的權(quán)重和偏差值進行迭代訓(xùn)練。
3.3 非局域時間段網(wǎng)絡(luò)
雙流神經(jīng)網(wǎng)絡(luò)的一個很明顯的問題是其現(xiàn)有形式在建模長期時序結(jié)構(gòu)的羸弱能力。這主要歸咎于其對時序上下文的處理方法有限,因為它本身是為單幀(空間域網(wǎng)絡(luò))或一小段時間內(nèi)的堆疊幀(時間域網(wǎng)絡(luò))而設(shè)計。然而復(fù)雜行為例如運動包含相當(dāng)長時間內(nèi)的多個階段。如若無法將利用這些動作的長期時序結(jié)構(gòu)訓(xùn)練卷積網(wǎng)絡(luò),那將產(chǎn)生相當(dāng)大的損失。為了處理這個情況,使用時間段網(wǎng)絡(luò),一個視頻級別的框架,可建模整個視頻的動態(tài)變化。特別地,時間段網(wǎng)絡(luò)是為了利用整個視頻的時序信息來進行視頻級別的預(yù)測。它也是由空間流卷積網(wǎng)絡(luò)和時間流卷積網(wǎng)絡(luò)組成。并非處理單幀和堆疊幀,時間段網(wǎng)絡(luò)處理從整個視頻中進行稀疏采樣所得的切片序列。序列的每個切片會對動作類進行初步預(yù)測,然后對這些預(yù)測進行整合得到整個視頻級的預(yù)測。在訓(xùn)練過程中,迭代優(yōu)化視頻級預(yù)測的損失值,而不是切片級的預(yù)測。
3.4 長短期記憶網(wǎng)絡(luò)( LSTM)
在數(shù)據(jù)模式隨時間變化的情況下,神經(jīng)網(wǎng)絡(luò)難以處理時序數(shù)據(jù)之間的關(guān)聯(lián)。處理時序依賴性的一個常見辦法是應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。RNN利用內(nèi)部存儲器存儲先前的數(shù)據(jù)狀態(tài),然后輸出引用此類先前狀態(tài)的順序信息。但是由于梯度問題的消失和爆炸,RNN網(wǎng)絡(luò)難以收斂,訓(xùn)練難度較大[3]。因此,具有門控機制的長短期記憶網(wǎng)絡(luò)(LSTM)被提出來以克服RNN的缺陷。LSTM包含不同的存儲塊。每個存儲塊包含三個門:LSTM中的一個輸入門、一個忘記門和一個輸出門。這三個門具有各自的權(quán)重,可以指明何時學(xué)習(xí)、確定哪些參數(shù)、更新內(nèi)存狀態(tài)或何時忘記先前的內(nèi)存狀態(tài)。LSTM在自然語言處理、圖像字幕識別等領(lǐng)域得到廣泛運用。
3.5 生物傳感器
它是一種將物質(zhì)濃度轉(zhuǎn)變成電信號的一種測量儀器。生物傳感器既可以作為轉(zhuǎn)換器,也可以作為接收器來使用。傳統(tǒng)傳感器作為可以獲得環(huán)境信息并按照一定規(guī)律轉(zhuǎn)換為電信號輸出的技術(shù),其應(yīng)用已經(jīng)相當(dāng)廣泛,一定程度上減少了人工勘測的成本。但是傳統(tǒng)傳感器也存在缺點:其一,單個傳感器檢測的物理量有限,故通常需要多種傳感器協(xié)同合作,這便增加了設(shè)備部署的復(fù)雜度;其二,價格相對便宜的傳感器則存在容易受到環(huán)境干擾的問題,而應(yīng)用在特殊場景下的傳感器價格昂貴,不利于推廣;其三,傳統(tǒng)傳感器是一種物理介質(zhì)的實物,存在攜帶不方便,易丟失等缺點,這些潛在的問題在一定程度上制約了基于傳感器應(yīng)用的發(fā)展。
4 結(jié)束語
隨著社會的發(fā)展和科技的進步,人們對不同工作場景中通過技術(shù)的應(yīng)用提高效率、降低成本的要求顯著提高,技術(shù)的應(yīng)用方向?qū)I(yè)化、應(yīng)用形式多樣化、環(huán)境部署簡易化已成為研究目標(biāo)。針對基于深度學(xué)習(xí)的電力工程現(xiàn)場動作識別進行詳細探究,旨在通過動作識別,及時發(fā)現(xiàn)和糾正電力工程現(xiàn)場的違章操作,并對不同的違章行為進行分類分析,為施工人員的教育培訓(xùn)提供方向。
參考文獻:
[1] 桑海峰, 趙子裕, 何大闊. 基于循環(huán)區(qū)域關(guān)注和視頻幀關(guān)注的視頻行為識別網(wǎng)絡(luò)設(shè)計[J] . 電子學(xué)報, 2020, 48( 6) : 1052 - 1061.
[2] 鄭勇峰, 張小俊, 王志鵬. 一種輕量化卷積神經(jīng)網(wǎng)絡(luò)的行為識別模型[J] . 機械設(shè)計, 2020, 37( 5) : 111 - 116.
[3] 呂潔, 李洪奇, 趙艷紅, 等. 基于關(guān)節(jié)空時特征融合的人體行為識別[J] . 計算機工程與設(shè)計, 2020, 41( 1) : 246 - 252.
作者:張新峰 1 賈艾靜 2
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/26380.html