基于深度學(xué)習(xí)的電力工程現(xiàn)場動作識別研究

所屬分類：電子論文閱讀次時間：2021-04-08 10:00

本文摘要：摘要：近幾年市場上出現(xiàn)了許多智能可穿戴設(shè)備，它們可以監(jiān)測用戶的步數(shù)、心率等情況，從而推算出用戶的運(yùn)動量、睡眠質(zhì)量、作息習(xí)慣等，并根據(jù)這些數(shù)據(jù)給用戶提供健康建議。但是在這些產(chǎn)品中，很少有產(chǎn)品可以識別用戶的運(yùn)動姿態(tài)，即使有，識別的姿態(tài)種類也比

　　摘要：近幾年市場上出現(xiàn)了許多智能可穿戴設(shè)備，它們可以監(jiān)測用戶的步數(shù)、心率等情況，從而推算出用戶的運(yùn)動量、睡眠質(zhì)量、作息習(xí)慣等，并根據(jù)這些數(shù)據(jù)給用戶提供健康建議。但是在這些產(chǎn)品中，很少有產(chǎn)品可以識別用戶的運(yùn)動姿態(tài)，即使有，識別的姿態(tài)種類也比較單一。隨著邊緣計算的不斷發(fā)展，傳統(tǒng)的機(jī)器學(xué)習(xí)運(yùn)行也逐漸從云端下沉到邊緣端，在嵌入式微控制器上運(yùn)行深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行結(jié)果預(yù)測成為了可能。在此背景下，本文針對基于深度學(xué)習(xí)的電力工程現(xiàn)場動作識別進(jìn)行詳細(xì)探究。

　　關(guān)鍵詞：深度學(xué)習(xí);電力工程;現(xiàn)場;動作識別

深度學(xué)習(xí)

　　1 引言

　　隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和視頻獲取設(shè)備的普及，視頻已成為信息的主要載體。視頻數(shù)據(jù)的數(shù)量呈爆炸式增長，如何分析和理解視頻的內(nèi)容顯得越來越重要。人體動作識別作為視頻理解的重要課題之一，已經(jīng)成為了計算機(jī)視覺領(lǐng)域研究的焦點(diǎn)。動作識別通過對預(yù)先分割好的時域序列進(jìn)行時空信息建模，進(jìn)而學(xué)習(xí)視頻中所包含的表象和運(yùn)動信息，以此來建立視頻內(nèi)容與動作類別之間的映射關(guān)系，使得計算機(jī)能夠有效地勝任視頻理解的任務(wù)。

　　電力工程論文范例：電力工程設(shè)計的電力系統(tǒng)規(guī)劃設(shè)計淺談

　　2 基于深度學(xué)習(xí)的人體動作識別概述

　　目前視頻架構(gòu)之間主要有以下區(qū)別：網(wǎng)絡(luò)的輸入只包含RGB視頻還是包含了預(yù)處理的光流，卷積核是采用2D(基于圖像)還是3D(基于視頻)，以及在2D網(wǎng)絡(luò)的基礎(chǔ)上幀間信息如何整合。雙流神經(jīng)網(wǎng)絡(luò)(Two-Stream ConvNet)在動作識別領(lǐng)域是一類很常用的方法，該方法簡單卻有相當(dāng)優(yōu)異的效果。雙流網(wǎng)絡(luò)顧名思義由時間流與空間流兩路網(wǎng)絡(luò)組成，空間流網(wǎng)絡(luò)將視頻單幀或堆疊幀輸入卷積網(wǎng)絡(luò)學(xué)習(xí)空間域上的視頻信息，時間流網(wǎng)絡(luò)將光流圖以多通道的形式輸入卷積網(wǎng)絡(luò)學(xué)習(xí)時間域上的視頻信息[1]。

　　兩路網(wǎng)絡(luò)各自對視頻輸出屬于各類的概率，最后平均兩個概率向量得到最終的分類結(jié)果。3D神經(jīng)網(wǎng)絡(luò)是另一類很常用的方法。隨著近年來計算力的進(jìn)一步提升以及數(shù)據(jù)集規(guī)模的進(jìn)一步增加，3D神經(jīng)網(wǎng)絡(luò)發(fā)展迅速，從最開始的不如傳統(tǒng)方法到如今與雙流網(wǎng)絡(luò)并駕齊驅(qū)。3D網(wǎng)絡(luò)在設(shè)計之初就是一種端到端的網(wǎng)絡(luò)架構(gòu)，它可以直接將視頻作為輸入，并輸出最終分類類別。由于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜，3D網(wǎng)絡(luò)需要很大的數(shù)據(jù)集才能得到較好的結(jié)果，并且網(wǎng)絡(luò)層數(shù)不能過深。

　　3 基于深度學(xué)習(xí)的電力工程現(xiàn)場動作識別

　　3.1 結(jié)構(gòu)模型

　　為了對視頻中的動作進(jìn)行時空建模，本文設(shè)計時序差異殘差網(wǎng)絡(luò)( Temporal Difference ResNet，ResTD)。

　　ResTD 主要分為3階段。輸入采樣階段、時空特征提取階段、特征分類階段。(1)在輸入采樣階段，為了覆蓋輸入視頻的整體時序，對輸入視頻沿時間維度展開，進(jìn)行稀疏時序采樣，組成具有時序順序的序列圖像，作為網(wǎng)絡(luò)訓(xùn)練輸入。(2)在時空特征提取階段，主要完成空間特征與時序特征的統(tǒng)一提取。其中空間特征提取通過殘差模塊( ResNet Block) 實(shí)現(xiàn)，利用短路連接機(jī)制，使網(wǎng)絡(luò)加深時無損地進(jìn)行梯度傳播，并且通過下采樣操作，使特征圖空間大小減半。時序特征的提取通過時序建模層( Temporal Model， TM) 實(shí)現(xiàn)，利用特征級別的時序差異計算得到激活圖，用于增強(qiáng)特征的運(yùn)動信息[2]。(3)在特征分類階段，通過全連接層實(shí)現(xiàn)特征映射，將時空特征提取階段已編碼好的高維特征映射為具有動作類別數(shù)目的分類特征，應(yīng)用Softmax激活函數(shù)將分類特征轉(zhuǎn)化為概率表示，與真實(shí)目標(biāo)類別計算損失。

　　3.2 自編碼

　　自編碼器是一種無監(jiān)督的學(xué)習(xí)算法，其網(wǎng)絡(luò)結(jié)構(gòu)類似連接編碼器和解碼器的沙漏。通過對編碼器的輸入數(shù)據(jù)進(jìn)行降維，獲得壓縮后的輸入數(shù)據(jù)特征值。解碼器的主要任務(wù)是使重建損失最小化，以便重建盡可能多的原始數(shù)據(jù)。首先，自編碼器輸入向量x∈[0，1]d，通過非線性映射函數(shù)y=σ(Wx+b)將輸入向量映射至潛在空間，表示為y∈[0，1]d'。其映射函數(shù)中的W是權(quán)重矩陣，b是相應(yīng)的偏差矢量，σ是激活函數(shù)。每個神經(jīng)元連接到具有相應(yīng)權(quán)重和偏差的下一層，并且為建立魯棒的模型而對每個神經(jīng)元的權(quán)重和偏差值進(jìn)行迭代訓(xùn)練。

　　3.3 非局域時間段網(wǎng)絡(luò)

　　雙流神經(jīng)網(wǎng)絡(luò)的一個很明顯的問題是其現(xiàn)有形式在建模長期時序結(jié)構(gòu)的羸弱能力。這主要?dú)w咎于其對時序上下文的處理方法有限，因?yàn)樗旧硎菫閱螏?空間域網(wǎng)絡(luò))或一小段時間內(nèi)的堆疊幀(時間域網(wǎng)絡(luò))而設(shè)計。然而復(fù)雜行為例如運(yùn)動包含相當(dāng)長時間內(nèi)的多個階段。如若無法將利用這些動作的長期時序結(jié)構(gòu)訓(xùn)練卷積網(wǎng)絡(luò)，那將產(chǎn)生相當(dāng)大的損失。為了處理這個情況，使用時間段網(wǎng)絡(luò)，一個視頻級別的框架，可建模整個視頻的動態(tài)變化。特別地，時間段網(wǎng)絡(luò)是為了利用整個視頻的時序信息來進(jìn)行視頻級別的預(yù)測。它也是由空間流卷積網(wǎng)絡(luò)和時間流卷積網(wǎng)絡(luò)組成。并非處理單幀和堆疊幀，時間段網(wǎng)絡(luò)處理從整個視頻中進(jìn)行稀疏采樣所得的切片序列。序列的每個切片會對動作類進(jìn)行初步預(yù)測，然后對這些預(yù)測進(jìn)行整合得到整個視頻級的預(yù)測。在訓(xùn)練過程中，迭代優(yōu)化視頻級預(yù)測的損失值，而不是切片級的預(yù)測。

　　3.4 長短期記憶網(wǎng)絡(luò)( LSTM)

　　在數(shù)據(jù)模式隨時間變化的情況下，神經(jīng)網(wǎng)絡(luò)難以處理時序數(shù)據(jù)之間的關(guān)聯(lián)。處理時序依賴性的一個常見辦法是應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。RNN利用內(nèi)部存儲器存儲先前的數(shù)據(jù)狀態(tài)，然后輸出引用此類先前狀態(tài)的順序信息。但是由于梯度問題的消失和爆炸，RNN網(wǎng)絡(luò)難以收斂，訓(xùn)練難度較大[3]。因此，具有門控機(jī)制的長短期記憶網(wǎng)絡(luò)(LSTM)被提出來以克服RNN的缺陷。LSTM包含不同的存儲塊。每個存儲塊包含三個門：LSTM中的一個輸入門、一個忘記門和一個輸出門。這三個門具有各自的權(quán)重，可以指明何時學(xué)習(xí)、確定哪些參數(shù)、更新內(nèi)存狀態(tài)或何時忘記先前的內(nèi)存狀態(tài)。LSTM在自然語言處理、圖像字幕識別等領(lǐng)域得到廣泛運(yùn)用。

　　3.5 生物傳感器

　　它是一種將物質(zhì)濃度轉(zhuǎn)變成電信號的一種測量儀器。生物傳感器既可以作為轉(zhuǎn)換器，也可以作為接收器來使用。傳統(tǒng)傳感器作為可以獲得環(huán)境信息并按照一定規(guī)律轉(zhuǎn)換為電信號輸出的技術(shù)，其應(yīng)用已經(jīng)相當(dāng)廣泛，一定程度上減少了人工勘測的成本。但是傳統(tǒng)傳感器也存在缺點(diǎn)：其一，單個傳感器檢測的物理量有限，故通常需要多種傳感器協(xié)同合作，這便增加了設(shè)備部署的復(fù)雜度;其二，價格相對便宜的傳感器則存在容易受到環(huán)境干擾的問題，而應(yīng)用在特殊場景下的傳感器價格昂貴，不利于推廣;其三，傳統(tǒng)傳感器是一種物理介質(zhì)的實(shí)物，存在攜帶不方便，易丟失等缺點(diǎn)，這些潛在的問題在一定程度上制約了基于傳感器應(yīng)用的發(fā)展。

　　4 結(jié)束語

　　隨著社會的發(fā)展和科技的進(jìn)步，人們對不同工作場景中通過技術(shù)的應(yīng)用提高效率、降低成本的要求顯著提高，技術(shù)的應(yīng)用方向?qū)I(yè)化、應(yīng)用形式多樣化、環(huán)境部署簡易化已成為研究目標(biāo)。針對基于深度學(xué)習(xí)的電力工程現(xiàn)場動作識別進(jìn)行詳細(xì)探究，旨在通過動作識別，及時發(fā)現(xiàn)和糾正電力工程現(xiàn)場的違章操作，并對不同的違章行為進(jìn)行分類分析，為施工人員的教育培訓(xùn)提供方向。

　　參考文獻(xiàn)：

　　[1] 桑海峰, 趙子裕, 何大闊. 基于循環(huán)區(qū)域關(guān)注和視頻幀關(guān)注的視頻行為識別網(wǎng)絡(luò)設(shè)計[J] . 電子學(xué)報, 2020, 48( 6) : 1052 - 1061.

　　[2] 鄭勇峰, 張小俊, 王志鵬. 一種輕量化卷積神經(jīng)網(wǎng)絡(luò)的行為識別模型[J] . 機(jī)械設(shè)計, 2020, 37( 5) : 111 - 116.

　　[3] 呂潔, 李洪奇, 趙艷紅, 等. 基于關(guān)節(jié)空時特征融合的人體行為識別[J] . 計算機(jī)工程與設(shè)計, 2020, 41( 1) : 246 - 252.

　　作者：張新峰 1 賈艾靜 2