無(wú)人機(jī)空中基站的路徑規(guī)劃研究

所屬分類：電子論文閱讀次時(shí)間：2022-02-28 10:49

本文摘要：摘要:無(wú)人機(jī)(UAV)作為空中基站在工業(yè)界和學(xué)術(shù)界受到廣泛關(guān)注。在無(wú)人機(jī)網(wǎng)絡(luò)中，地面用戶的移動(dòng)可能降低用戶與基站無(wú)人機(jī)間的無(wú)線通信速率，造成網(wǎng)絡(luò)性能損失。為了避免這種損失，提出一種基于深度強(qiáng)化學(xué)習(xí)的基站無(wú)人機(jī)路徑規(guī)劃方法。該方法能夠在連續(xù)動(dòng)作空間內(nèi)計(jì)算出

　　摘要:無(wú)人機(jī)(UAV)作為空中基站在工業(yè)界和學(xué)術(shù)界受到廣泛關(guān)注。在無(wú)人機(jī)網(wǎng)絡(luò)中，地面用戶的移動(dòng)可能降低用戶與基站無(wú)人機(jī)間的無(wú)線通信速率，造成網(wǎng)絡(luò)性能損失。為了避免這種損失，提出一種基于深度強(qiáng)化學(xué)習(xí)的基站無(wú)人機(jī)路徑規(guī)劃方法。該方法能夠在連續(xù)動(dòng)作空間內(nèi)計(jì)算出無(wú)人機(jī)的飛行動(dòng)作，以幫助無(wú)人機(jī)實(shí)時(shí)追蹤移動(dòng)地面用戶，提高用戶與基站無(wú)人機(jī)間的無(wú)線通信速率，增強(qiáng)網(wǎng)絡(luò)性能。首先，將無(wú)人機(jī)提供通信服務(wù)的任務(wù)周期劃分成多個(gè)時(shí)間間隔充分小的時(shí)隙，每個(gè)時(shí)隙內(nèi)移動(dòng)地面用戶的位置被視為固定的，每個(gè)時(shí)隙內(nèi)的網(wǎng)絡(luò)吞吐量為該時(shí)隙內(nèi)所有用戶的無(wú)線通信速率之和;然后，以最大化任務(wù)周期內(nèi)網(wǎng)絡(luò)總吞吐量為目標(biāo)，運(yùn)用深度確定性策略梯度算法實(shí)時(shí)計(jì)算出每個(gè)時(shí)隙內(nèi)無(wú)人機(jī)的飛行動(dòng)作，實(shí)現(xiàn)對(duì)無(wú)人機(jī)的路徑規(guī)劃。仿真實(shí)驗(yàn)結(jié)果表明，在考慮地面用戶移動(dòng)的無(wú)人機(jī)網(wǎng)絡(luò)中，所提方法與三種常見的基準(zhǔn)方法相比，在網(wǎng)絡(luò)吞吐量上有更好的性能表現(xiàn)。

　　關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);無(wú)人機(jī);路徑規(guī)劃;無(wú)線通信;移動(dòng)地面用戶

無(wú)人機(jī)技術(shù)論文

　　1引言

　　得益于無(wú)人機(jī)(UnmannedAerialVehicle,UAV)的一些優(yōu)點(diǎn)，例如很高的機(jī)動(dòng)性、可按需部署、成本較低等，可以將其作為空中基站[1](BaseStation,BS)與地面用戶建立無(wú)線連接以提供通信服務(wù)，增強(qiáng)網(wǎng)絡(luò)的覆蓋范圍以及數(shù)據(jù)傳輸性能�？罩谢颈徊渴鹪谝欢ǜ叨鹊目罩�，相較于傳統(tǒng)地面基站能夠有更大的機(jī)會(huì)與地面用戶建立視距鏈路連接(LineofSight，LoS)。

　　空戰(zhàn)基站有很多實(shí)際應(yīng)用場(chǎng)景，例如在地面基站受損的災(zāi)害環(huán)境中提供穩(wěn)定可靠的無(wú)線通信服務(wù)，以及在傳統(tǒng)地面網(wǎng)絡(luò)出現(xiàn)擁塞時(shí)作為輔助通信基站。近年來(lái)，無(wú)人機(jī)作為空中基站提供無(wú)線通信服務(wù)受到了較為廣泛的關(guān)注[29]。在關(guān)于基站無(wú)人機(jī)的研究中，有較多工作致力于尋找基站無(wú)人機(jī)的部署位置[46]。

　　文獻(xiàn)[4]以最大化用戶體驗(yàn)質(zhì)量(QualityofExperience，QoE)為目標(biāo)尋找無(wú)人機(jī)的最佳部署位置;文獻(xiàn)5]通過(guò)設(shè)計(jì)基站無(wú)人機(jī)的三維部署位置來(lái)增強(qiáng)目標(biāo)信號(hào)強(qiáng)度和減少信道干擾;文獻(xiàn)6]在存在同頻道干擾的情況下，以最大化所有地面用戶可實(shí)現(xiàn)的最小系統(tǒng)吞吐量為目標(biāo)計(jì)算基站無(wú)人機(jī)最佳的三維部署位置。這類研究將無(wú)人機(jī)作為靜態(tài)空中基站，忽視了無(wú)人機(jī)的高機(jī)動(dòng)和可控制特性。

　　另外，有部分研究關(guān)注于計(jì)算無(wú)人機(jī)的飛行路徑[79]，通過(guò)規(guī)劃無(wú)人機(jī)的飛行路徑最大化下行通信中所有地面用戶的最小吞吐量[7]、最大化無(wú)人機(jī)飛行期間的整體平均總傳輸速率[8]、實(shí)現(xiàn)對(duì)目標(biāo)區(qū)域較高的通信覆蓋率[9]。這類研究在設(shè)計(jì)無(wú)人機(jī)飛行路徑時(shí)沒(méi)有考慮地面用戶位置可能發(fā)生變化。上述對(duì)于基站無(wú)人機(jī)部署問(wèn)題和飛行路徑規(guī)劃問(wèn)題的研究很少考慮到地面用戶的移動(dòng)。然而在現(xiàn)實(shí)應(yīng)用場(chǎng)景中，地面用戶的活動(dòng)往往呈現(xiàn)動(dòng)態(tài)性和隨機(jī)性10],[11]。地面用戶持續(xù)移動(dòng)且基站無(wú)人機(jī)的通信范圍有限，可能降低移動(dòng)地面用戶與基站無(wú)人機(jī)間的無(wú)線通信速率，從而造成網(wǎng)絡(luò)性能的損失12]。

　　故在部署基站無(wú)人機(jī)的無(wú)線通信網(wǎng)絡(luò)中考慮地面用戶的移動(dòng)是必要的。得益于無(wú)人機(jī)的機(jī)動(dòng)性和可控制特性，可以通過(guò)動(dòng)態(tài)調(diào)整無(wú)人機(jī)的飛行距離和飛行方向角(即規(guī)劃無(wú)人機(jī)的飛行路徑)實(shí)時(shí)追蹤移動(dòng)地面用戶，提高用戶與基站無(wú)人機(jī)間的無(wú)線通信速率，增強(qiáng)無(wú)人機(jī)網(wǎng)絡(luò)性能。在考慮地面用戶移動(dòng)的無(wú)人機(jī)網(wǎng)絡(luò)中規(guī)劃基站無(wú)人機(jī)飛行路徑的挑戰(zhàn)主要有兩點(diǎn)：一是無(wú)人機(jī)的飛行距離和飛行方向角都是連續(xù)變量13]，在連續(xù)空間內(nèi)尋找最優(yōu)的飛行動(dòng)作比較困難;二是在實(shí)時(shí)追蹤持續(xù)移動(dòng)的地面用戶時(shí)，很難保持優(yōu)化算法的較高性能14]。為了應(yīng)對(duì)上述挑戰(zhàn)，運(yùn)用DRL15](DeepReinforcementLearning)規(guī)劃基站無(wú)人機(jī)的飛行路徑是一個(gè)比較有效的解決辦法。

　　無(wú)人機(jī)路徑規(guī)劃是一個(gè)連續(xù)控制問(wèn)題(飛行方向角和飛行距離都是連續(xù)變量)，DRL中的執(zhí)行者評(píng)論者(ctorritic)算法在解決這種連續(xù)控制問(wèn)題上有較好的性能表現(xiàn)9]。訓(xùn)練完成的DRL模型可以根據(jù)不同的地面用戶位置直接計(jì)算出對(duì)應(yīng)的基站無(wú)人機(jī)飛行策略。DRL算法相較于傳統(tǒng)啟發(fā)式算法，能夠避免在應(yīng)對(duì)變化的地面用戶位置時(shí)重新初始化和運(yùn)行整個(gè)算法。

　　本文提出一種基于DRL的基站無(wú)人機(jī)路徑規(guī)劃算法(DDPGTD)來(lái)應(yīng)對(duì)地面用戶移動(dòng)的無(wú)人機(jī)網(wǎng)絡(luò)，以避免由于用戶移動(dòng)造成的無(wú)人機(jī)網(wǎng)絡(luò)性能損失。將基站無(wú)人機(jī)提供通信服務(wù)的任務(wù)周期劃分為多個(gè)時(shí)間間隔相同的時(shí)隙，算法以最大化任務(wù)周期內(nèi)無(wú)人機(jī)網(wǎng)絡(luò)總吞吐量(所有時(shí)隙內(nèi)的網(wǎng)絡(luò)吞吐量之和)為目標(biāo)，在連續(xù)動(dòng)作空間中計(jì)算出每個(gè)時(shí)隙內(nèi)無(wú)人機(jī)的飛行動(dòng)作，完成對(duì)無(wú)人機(jī)飛行路徑的規(guī)劃。算法中的DRL模型經(jīng)過(guò)訓(xùn)練后能夠針對(duì)變化的地面用戶位置做出相應(yīng)的飛行策略調(diào)整。

　　為驗(yàn)證本文提出的算法在規(guī)劃基站無(wú)人機(jī)飛行路徑時(shí)的有效性，將DDPGTD算法與三種較為常用的算法進(jìn)行比較。仿真結(jié)果表明，DDPGTD算法中的無(wú)人機(jī)網(wǎng)絡(luò)吞吐量明顯高于三種對(duì)比算法。此外，本文還對(duì)DRL中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和超參設(shè)定進(jìn)行了實(shí)驗(yàn)對(duì)比，以幫助我們挑選合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和超參設(shè)定。

　　2模型建立

　　2.1環(huán)境模型

　　在一個(gè)部署基站無(wú)人機(jī)的無(wú)線通信網(wǎng)絡(luò)中，有多個(gè)基站無(wú)人機(jī)為多個(gè)地面用戶提供無(wú)線通信服務(wù)，地面用戶的位置可能持續(xù)變化�；緹o(wú)人機(jī)的數(shù)量為，地面用戶的數(shù)量為。所有基站無(wú)人機(jī)可以通過(guò)通信衛(wèi)星與外部網(wǎng)絡(luò)建立通信連接。由于地面用戶的位置隨著時(shí)間的推移發(fā)生改變，導(dǎo)致固定位置部署的基站無(wú)人機(jī)與地面用戶間的無(wú)線通信速率可能下降。因此需要規(guī)劃無(wú)人機(jī)的飛行路徑實(shí)時(shí)追蹤移動(dòng)地面用戶，提高用戶與基站無(wú)人機(jī)間的無(wú)線通信速率。

　　假定一個(gè)基站無(wú)人機(jī)為地面用戶提供網(wǎng)絡(luò)通信服務(wù)的任務(wù)，該任務(wù)時(shí)長(zhǎng)為個(gè)時(shí)隙，每個(gè)時(shí)隙的時(shí)間間隔均相同。在任務(wù)初始時(shí)刻，每個(gè)基站無(wú)人機(jī)在隨機(jī)位置起飛，并以固定高度飛行，隨后使用本文提出的路徑規(guī)劃算法不斷調(diào)整自己的飛行軌跡，以使得個(gè)時(shí)隙的任務(wù)周期內(nèi)無(wú)人機(jī)網(wǎng)絡(luò)中總吞吐量最大化。需要提出，每個(gè)用戶在一個(gè)時(shí)隙內(nèi)僅可以與一架基站無(wú)人機(jī)建立通信連接，無(wú)人機(jī)在同時(shí)服務(wù)多個(gè)地面用戶時(shí)使用的是頻分多址(requencyDivisionMultipleAccess，F(xiàn)DMA)技術(shù)。

　　2.2無(wú)人機(jī)飛行路徑表示

　　無(wú)人機(jī)路徑規(guī)劃需要計(jì)算出一段時(shí)間內(nèi)無(wú)人機(jī)的飛行軌跡，文獻(xiàn)采用將一段時(shí)間離散為多個(gè)時(shí)隙(時(shí)間間隔充分小)的方法，通過(guò)計(jì)算每個(gè)離散時(shí)隙的無(wú)人機(jī)飛行策略(包括飛行方向角和飛行距離)，實(shí)現(xiàn)對(duì)無(wú)人機(jī)的路徑規(guī)劃。

　　2.3地面用戶移動(dòng)模型

　　地面用戶的活動(dòng)具有動(dòng)態(tài)性和隨機(jī)性，目前有較多研究對(duì)地面用戶的活動(dòng)進(jìn)行預(yù)測(cè)建模，文獻(xiàn)16對(duì)這些地面用戶運(yùn)動(dòng)模型做了比較全面的調(diào)查。其中一種比較常見的模型是隨機(jī)游走模型(RandomWalkModel，RWM)。

　　由于無(wú)人機(jī)的飛行動(dòng)作空間是連續(xù)的，且地面用戶活動(dòng)呈現(xiàn)動(dòng)態(tài)性和隨機(jī)性，這就導(dǎo)致解決最大化sum問(wèn)題是具有挑戰(zhàn)性的18]。基于傳統(tǒng)搜索式算法會(huì)帶來(lái)比較高的計(jì)算復(fù)雜度。為了解決該問(wèn)題，本文提出DDPGTD算法來(lái)計(jì)算基站無(wú)人機(jī)的飛行路徑。

　　3DDPGTD路徑規(guī)劃算法

　　3.1深度強(qiáng)化學(xué)習(xí)

　　強(qiáng)化學(xué)習(xí)(ReinforcementLearning，RL)是和監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)并列的第三種機(jī)器學(xué)習(xí)方法，其更側(cè)重于以交互目標(biāo)為導(dǎo)向進(jìn)行學(xué)習(xí)，近年來(lái)強(qiáng)化學(xué)習(xí)在一些游戲應(yīng)用中表現(xiàn)出不錯(cuò)的性能。強(qiáng)化學(xué)習(xí)中，智能體(Agent)與系統(tǒng)環(huán)境(Environment)不斷進(jìn)行交互，以實(shí)現(xiàn)目標(biāo)收益(Reward)最大化為目標(biāo)，學(xué)習(xí)環(huán)境中不同狀態(tài)(State)對(duì)應(yīng)的正確動(dòng)作(Action)。

　　結(jié)合了深度學(xué)習(xí)的強(qiáng)化學(xué)習(xí)(DRL)解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)中狀態(tài)空間和動(dòng)作空間無(wú)限帶來(lái)的“維度災(zāi)難”問(wèn)題，它利用神經(jīng)網(wǎng)絡(luò)幫助智能體在與環(huán)境的交互中不斷學(xué)習(xí)理想動(dòng)作，可以應(yīng)對(duì)更復(fù)雜的狀態(tài)空間和時(shí)變環(huán)境。

　　3.2DDPGTD算法設(shè)計(jì)

　　本文提出一種基于DRL的基站無(wú)人機(jī)路徑規(guī)劃算法。在該算法中，DRL智能體周期性地收集地面環(huán)境數(shù)據(jù)(地面用戶的位置)，根據(jù)地面環(huán)境計(jì)算出每個(gè)時(shí)隙最優(yōu)的飛行動(dòng)作，并通過(guò)指令將動(dòng)作信息發(fā)送給正在提供無(wú)線通信服務(wù)的基站無(wú)人機(jī)，無(wú)人機(jī)收到指令做出相應(yīng)的調(diào)整。

　　4實(shí)驗(yàn)仿真與結(jié)果分析

　　4.1仿真實(shí)驗(yàn)設(shè)置

　　在仿真實(shí)驗(yàn)中，我們?cè)O(shè)置一個(gè)大小為的1000×1000的矩形目標(biāo)區(qū)域，地面用戶的數(shù)量為20，網(wǎng)絡(luò)中部署架基站無(wú)人機(jī)。實(shí)驗(yàn)使用TensorFlow2.0和Python3.7，仿真設(shè)備為一臺(tái)搭載28核2.4GHz的IntelXenoE5處理器和一張24GB顯存3090顯卡的計(jì)算機(jī)。網(wǎng)絡(luò)一共訓(xùn)練1000幕(Episode)，每一幕包含100個(gè)時(shí)隙(100秒)。

　　執(zhí)行者網(wǎng)絡(luò)結(jié)構(gòu)為兩層全連接神經(jīng)網(wǎng)絡(luò)，第一個(gè)隱藏層包含100個(gè)神經(jīng)元，第二個(gè)隱藏層包含100個(gè)神經(jīng)元，使用ReLU函數(shù)作為激活函數(shù)。執(zhí)行者網(wǎng)絡(luò)輸出層使用Sigmoid函數(shù)作為激活函數(shù)，防止輸出的動(dòng)作值超過(guò)算法設(shè)計(jì)的邊界值。評(píng)論者網(wǎng)絡(luò)也是兩層全連接神經(jīng)網(wǎng)絡(luò)，第一層第二層分別包含100和100個(gè)神經(jīng)元，使用ReLU函數(shù)作為激活函數(shù)。執(zhí)行者和評(píng)論者網(wǎng)絡(luò)中均使用權(quán)重衰減來(lái)防止過(guò)擬合。通過(guò)大量的實(shí)驗(yàn)比較，找到神經(jīng)網(wǎng)絡(luò)中性能表現(xiàn)良好的超參。

　　5結(jié)語(yǔ)

　　本文提出一種基于深度強(qiáng)化學(xué)習(xí)的基站無(wú)人機(jī)路徑規(guī)劃算法，該算法在地面用戶移動(dòng)的無(wú)人機(jī)網(wǎng)絡(luò)中規(guī)劃多架基站無(wú)人機(jī)的飛行路徑。仿真結(jié)果表明，通過(guò)所提算法規(guī)劃基站無(wú)人機(jī)飛行路徑，無(wú)人機(jī)網(wǎng)絡(luò)的吞吐量始終維持在較高水平。本文提出的算法是一種集中式算法，無(wú)人機(jī)的飛行動(dòng)作指令由后端服務(wù)設(shè)備計(jì)算給出，這對(duì)后端服務(wù)設(shè)備和無(wú)人機(jī)之間的往返通信連接有較高的帶寬要求，在某些特殊情況如災(zāi)害環(huán)境下后端服務(wù)設(shè)備帶寬可能無(wú)法支持與大量無(wú)人機(jī)進(jìn)行通信連接。分布式算法較好地解決了上述集中式算法存在的問(wèn)題。文獻(xiàn)21提出一種分布式強(qiáng)化學(xué)習(xí)算法，未來(lái)可以結(jié)合該算法進(jìn)行相關(guān)研究。

　　參考文獻(xiàn)：

　　[1]LYUJ,YONGZ,RUIZ,etal.PlacementptimizationofUAVmountedmobilebasestations[J].IEEECommunicationsLetters,2016,213):604607.

　　[2]SAMIRM,SHARAFEDDINES,ASSICM,etal.UAVtrajectoryplanningfordatacollectionfromtimeconstrainedIoTdevices[J].IEEETransactionsonWirelessCommunications,2019,19(1):3446.

　　[3]ZHAOHT,WANGHJ,WUWY,etal.DeploymentalgorithmsforUAVairbornenetworkstowardondemandcoverage[J].IEEEJournalonSelectedAreasinCommunications,2018,369):20152031

　　[4]ZHANGTK,WANGY,LIUYW,etal.CacheenablingUAVcommunications:Networkdeploymentandresourceallocation[J].IEEETransactionsonWirelessCommunications,2020,19(11):74707483.

　　[5]ANGC,ZHANGLY,ZHULP,etal.3DdeploymentofmultipleUAVmountedbasestationsforUAVcommunications[J].IEEETransactionsonCommunications,2021,69(4):24732488.

　　作者：周永濤，劉唐，彭艦

轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng)：http://m.liangshanbai.cn/dzlw/29657.html

上一篇：數(shù)字人文視域下口述歷史檔案資源知識(shí)發(fā)現(xiàn)模型構(gòu)建

下一篇：基于物聯(lián)網(wǎng)平臺(tái)的城市綜合體智慧化建設(shè)研究

五月丁香婷婷爱,在线视频 日韩精品 欧美 都市,偷拍自拍A V,久久高潮日本

電子論文

無(wú)人機(jī)空中基站的路徑規(guī)劃研究

期刊知識(shí)

論文知識(shí)

論文范文

職稱評(píng)審

職稱教著專利

論文發(fā)表期刊咨詢

五月丁香婷婷爱,在线视频日韩精品欧美都市,偷拍自拍A V,久久高潮日本