本文摘要:摘要:無人機(UAV)作為空中基站在工業(yè)界和學術(shù)界受到廣泛關(guān)注。在無人機網(wǎng)絡(luò)中,地面用戶的移動可能降低用戶與基站無人機間的無線通信速率,造成網(wǎng)絡(luò)性能損失。為了避免這種損失,提出一種基于深度強化學習的基站無人機路徑規(guī)劃方法。該方法能夠在連續(xù)動作空間內(nèi)計算出
摘要:無人機(UAV)作為空中基站在工業(yè)界和學術(shù)界受到廣泛關(guān)注。在無人機網(wǎng)絡(luò)中,地面用戶的移動可能降低用戶與基站無人機間的無線通信速率,造成網(wǎng)絡(luò)性能損失。為了避免這種損失,提出一種基于深度強化學習的基站無人機路徑規(guī)劃方法。該方法能夠在連續(xù)動作空間內(nèi)計算出無人機的飛行動作,以幫助無人機實時追蹤移動地面用戶,提高用戶與基站無人機間的無線通信速率,增強網(wǎng)絡(luò)性能。首先,將無人機提供通信服務(wù)的任務(wù)周期劃分成多個時間間隔充分小的時隙,每個時隙內(nèi)移動地面用戶的位置被視為固定的,每個時隙內(nèi)的網(wǎng)絡(luò)吞吐量為該時隙內(nèi)所有用戶的無線通信速率之和;然后,以最大化任務(wù)周期內(nèi)網(wǎng)絡(luò)總吞吐量為目標,運用深度確定性策略梯度算法實時計算出每個時隙內(nèi)無人機的飛行動作,實現(xiàn)對無人機的路徑規(guī)劃。仿真實驗結(jié)果表明,在考慮地面用戶移動的無人機網(wǎng)絡(luò)中,所提方法與三種常見的基準方法相比,在網(wǎng)絡(luò)吞吐量上有更好的性能表現(xiàn)。
關(guān)鍵詞:深度強化學習;無人機;路徑規(guī)劃;無線通信;移動地面用戶
1引言
得益于無人機(UnmannedAerialVehicle,UAV)的一些優(yōu)點,例如很高的機動性、可按需部署、成本較低等,可以將其作為空中基站[1](BaseStation,BS)與地面用戶建立無線連接以提供通信服務(wù),增強網(wǎng)絡(luò)的覆蓋范圍以及數(shù)據(jù)傳輸性能?罩谢颈徊渴鹪谝欢ǜ叨鹊目罩,相較于傳統(tǒng)地面基站能夠有更大的機會與地面用戶建立視距鏈路連接(LineofSight,LoS)。
空戰(zhàn)基站有很多實際應(yīng)用場景,例如在地面基站受損的災害環(huán)境中提供穩(wěn)定可靠的無線通信服務(wù),以及在傳統(tǒng)地面網(wǎng)絡(luò)出現(xiàn)擁塞時作為輔助通信基站。近年來,無人機作為空中基站提供無線通信服務(wù)受到了較為廣泛的關(guān)注[29]。在關(guān)于基站無人機的研究中,有較多工作致力于尋找基站無人機的部署位置[46]。
文獻[4]以最大化用戶體驗質(zhì)量(QualityofExperience,QoE)為目標尋找無人機的最佳部署位置;文獻5]通過設(shè)計基站無人機的三維部署位置來增強目標信號強度和減少信道干擾;文獻6]在存在同頻道干擾的情況下,以最大化所有地面用戶可實現(xiàn)的最小系統(tǒng)吞吐量為目標計算基站無人機最佳的三維部署位置。這類研究將無人機作為靜態(tài)空中基站,忽視了無人機的高機動和可控制特性。
另外,有部分研究關(guān)注于計算無人機的飛行路徑[79],通過規(guī)劃無人機的飛行路徑最大化下行通信中所有地面用戶的最小吞吐量[7]、最大化無人機飛行期間的整體平均總傳輸速率[8]、實現(xiàn)對目標區(qū)域較高的通信覆蓋率[9]。這類研究在設(shè)計無人機飛行路徑時沒有考慮地面用戶位置可能發(fā)生變化。上述對于基站無人機部署問題和飛行路徑規(guī)劃問題的研究很少考慮到地面用戶的移動。然而在現(xiàn)實應(yīng)用場景中,地面用戶的活動往往呈現(xiàn)動態(tài)性和隨機性10],[11]。地面用戶持續(xù)移動且基站無人機的通信范圍有限,可能降低移動地面用戶與基站無人機間的無線通信速率,從而造成網(wǎng)絡(luò)性能的損失12]。
故在部署基站無人機的無線通信網(wǎng)絡(luò)中考慮地面用戶的移動是必要的。得益于無人機的機動性和可控制特性,可以通過動態(tài)調(diào)整無人機的飛行距離和飛行方向角(即規(guī)劃無人機的飛行路徑)實時追蹤移動地面用戶,提高用戶與基站無人機間的無線通信速率,增強無人機網(wǎng)絡(luò)性能。在考慮地面用戶移動的無人機網(wǎng)絡(luò)中規(guī)劃基站無人機飛行路徑的挑戰(zhàn)主要有兩點:一是無人機的飛行距離和飛行方向角都是連續(xù)變量13],在連續(xù)空間內(nèi)尋找最優(yōu)的飛行動作比較困難;二是在實時追蹤持續(xù)移動的地面用戶時,很難保持優(yōu)化算法的較高性能14]。為了應(yīng)對上述挑戰(zhàn),運用DRL15](DeepReinforcementLearning)規(guī)劃基站無人機的飛行路徑是一個比較有效的解決辦法。
無人機路徑規(guī)劃是一個連續(xù)控制問題(飛行方向角和飛行距離都是連續(xù)變量),DRL中的執(zhí)行者評論者(ctorritic)算法在解決這種連續(xù)控制問題上有較好的性能表現(xiàn)9]。訓練完成的DRL模型可以根據(jù)不同的地面用戶位置直接計算出對應(yīng)的基站無人機飛行策略。DRL算法相較于傳統(tǒng)啟發(fā)式算法,能夠避免在應(yīng)對變化的地面用戶位置時重新初始化和運行整個算法。
本文提出一種基于DRL的基站無人機路徑規(guī)劃算法(DDPGTD)來應(yīng)對地面用戶移動的無人機網(wǎng)絡(luò),以避免由于用戶移動造成的無人機網(wǎng)絡(luò)性能損失。將基站無人機提供通信服務(wù)的任務(wù)周期劃分為多個時間間隔相同的時隙,算法以最大化任務(wù)周期內(nèi)無人機網(wǎng)絡(luò)總吞吐量(所有時隙內(nèi)的網(wǎng)絡(luò)吞吐量之和)為目標,在連續(xù)動作空間中計算出每個時隙內(nèi)無人機的飛行動作,完成對無人機飛行路徑的規(guī)劃。算法中的DRL模型經(jīng)過訓練后能夠針對變化的地面用戶位置做出相應(yīng)的飛行策略調(diào)整。
為驗證本文提出的算法在規(guī)劃基站無人機飛行路徑時的有效性,將DDPGTD算法與三種較為常用的算法進行比較。仿真結(jié)果表明,DDPGTD算法中的無人機網(wǎng)絡(luò)吞吐量明顯高于三種對比算法。此外,本文還對DRL中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計和超參設(shè)定進行了實驗對比,以幫助我們挑選合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和超參設(shè)定。
2模型建立
2.1環(huán)境模型
在一個部署基站無人機的無線通信網(wǎng)絡(luò)中,有多個基站無人機為多個地面用戶提供無線通信服務(wù),地面用戶的位置可能持續(xù)變化;緹o人機的數(shù)量為,地面用戶的數(shù)量為。所有基站無人機可以通過通信衛(wèi)星與外部網(wǎng)絡(luò)建立通信連接。由于地面用戶的位置隨著時間的推移發(fā)生改變,導致固定位置部署的基站無人機與地面用戶間的無線通信速率可能下降。因此需要規(guī)劃無人機的飛行路徑實時追蹤移動地面用戶,提高用戶與基站無人機間的無線通信速率。
假定一個基站無人機為地面用戶提供網(wǎng)絡(luò)通信服務(wù)的任務(wù),該任務(wù)時長為個時隙,每個時隙的時間間隔均相同。在任務(wù)初始時刻,每個基站無人機在隨機位置起飛,并以固定高度飛行,隨后使用本文提出的路徑規(guī)劃算法不斷調(diào)整自己的飛行軌跡,以使得個時隙的任務(wù)周期內(nèi)無人機網(wǎng)絡(luò)中總吞吐量最大化。需要提出,每個用戶在一個時隙內(nèi)僅可以與一架基站無人機建立通信連接,無人機在同時服務(wù)多個地面用戶時使用的是頻分多址(requencyDivisionMultipleAccess,F(xiàn)DMA)技術(shù)。
2.2無人機飛行路徑表示
無人機路徑規(guī)劃需要計算出一段時間內(nèi)無人機的飛行軌跡,文獻采用將一段時間離散為多個時隙(時間間隔充分小)的方法,通過計算每個離散時隙的無人機飛行策略(包括飛行方向角和飛行距離),實現(xiàn)對無人機的路徑規(guī)劃。
2.3地面用戶移動模型
地面用戶的活動具有動態(tài)性和隨機性,目前有較多研究對地面用戶的活動進行預測建模,文獻16對這些地面用戶運動模型做了比較全面的調(diào)查。其中一種比較常見的模型是隨機游走模型(RandomWalkModel,RWM)。
由于無人機的飛行動作空間是連續(xù)的,且地面用戶活動呈現(xiàn)動態(tài)性和隨機性,這就導致解決最大化sum問題是具有挑戰(zhàn)性的18]。基于傳統(tǒng)搜索式算法會帶來比較高的計算復雜度。為了解決該問題,本文提出DDPGTD算法來計算基站無人機的飛行路徑。
3DDPGTD路徑規(guī)劃算法
3.1深度強化學習
強化學習(ReinforcementLearning,RL)是和監(jiān)督學習、非監(jiān)督學習并列的第三種機器學習方法,其更側(cè)重于以交互目標為導向進行學習,近年來強化學習在一些游戲應(yīng)用中表現(xiàn)出不錯的性能。強化學習中,智能體(Agent)與系統(tǒng)環(huán)境(Environment)不斷進行交互,以實現(xiàn)目標收益(Reward)最大化為目標,學習環(huán)境中不同狀態(tài)(State)對應(yīng)的正確動作(Action)。
結(jié)合了深度學習的強化學習(DRL)解決了傳統(tǒng)強化學習中狀態(tài)空間和動作空間無限帶來的“維度災難”問題,它利用神經(jīng)網(wǎng)絡(luò)幫助智能體在與環(huán)境的交互中不斷學習理想動作,可以應(yīng)對更復雜的狀態(tài)空間和時變環(huán)境。
3.2DDPGTD算法設(shè)計
本文提出一種基于DRL的基站無人機路徑規(guī)劃算法。在該算法中,DRL智能體周期性地收集地面環(huán)境數(shù)據(jù)(地面用戶的位置),根據(jù)地面環(huán)境計算出每個時隙最優(yōu)的飛行動作,并通過指令將動作信息發(fā)送給正在提供無線通信服務(wù)的基站無人機,無人機收到指令做出相應(yīng)的調(diào)整。
4實驗仿真與結(jié)果分析
4.1仿真實驗設(shè)置
在仿真實驗中,我們設(shè)置一個大小為的1000×1000的矩形目標區(qū)域,地面用戶的數(shù)量為20,網(wǎng)絡(luò)中部署架基站無人機。實驗使用TensorFlow2.0和Python3.7,仿真設(shè)備為一臺搭載28核2.4GHz的IntelXenoE5處理器和一張24GB顯存3090顯卡的計算機。網(wǎng)絡(luò)一共訓練1000幕(Episode),每一幕包含100個時隙(100秒)。
執(zhí)行者網(wǎng)絡(luò)結(jié)構(gòu)為兩層全連接神經(jīng)網(wǎng)絡(luò),第一個隱藏層包含100個神經(jīng)元,第二個隱藏層包含100個神經(jīng)元,使用ReLU函數(shù)作為激活函數(shù)。執(zhí)行者網(wǎng)絡(luò)輸出層使用Sigmoid函數(shù)作為激活函數(shù),防止輸出的動作值超過算法設(shè)計的邊界值。評論者網(wǎng)絡(luò)也是兩層全連接神經(jīng)網(wǎng)絡(luò),第一層第二層分別包含100和100個神經(jīng)元,使用ReLU函數(shù)作為激活函數(shù)。執(zhí)行者和評論者網(wǎng)絡(luò)中均使用權(quán)重衰減來防止過擬合。通過大量的實驗比較,找到神經(jīng)網(wǎng)絡(luò)中性能表現(xiàn)良好的超參。
5結(jié)語
本文提出一種基于深度強化學習的基站無人機路徑規(guī)劃算法,該算法在地面用戶移動的無人機網(wǎng)絡(luò)中規(guī)劃多架基站無人機的飛行路徑。仿真結(jié)果表明,通過所提算法規(guī)劃基站無人機飛行路徑,無人機網(wǎng)絡(luò)的吞吐量始終維持在較高水平。本文提出的算法是一種集中式算法,無人機的飛行動作指令由后端服務(wù)設(shè)備計算給出,這對后端服務(wù)設(shè)備和無人機之間的往返通信連接有較高的帶寬要求,在某些特殊情況如災害環(huán)境下后端服務(wù)設(shè)備帶寬可能無法支持與大量無人機進行通信連接。分布式算法較好地解決了上述集中式算法存在的問題。文獻21提出一種分布式強化學習算法,未來可以結(jié)合該算法進行相關(guān)研究。
參考文獻:
[1]LYUJ,YONGZ,RUIZ,etal.PlacementptimizationofUAVmountedmobilebasestations[J].IEEECommunicationsLetters,2016,213):604607.
[2]SAMIRM,SHARAFEDDINES,ASSICM,etal.UAVtrajectoryplanningfordatacollectionfromtimeconstrainedIoTdevices[J].IEEETransactionsonWirelessCommunications,2019,19(1):3446.
[3]ZHAOHT,WANGHJ,WUWY,etal.DeploymentalgorithmsforUAVairbornenetworkstowardondemandcoverage[J].IEEEJournalonSelectedAreasinCommunications,2018,369):20152031
[4]ZHANGTK,WANGY,LIUYW,etal.CacheenablingUAVcommunications:Networkdeploymentandresourceallocation[J].IEEETransactionsonWirelessCommunications,2020,19(11):74707483.
[5]ANGC,ZHANGLY,ZHULP,etal.3DdeploymentofmultipleUAVmountedbasestationsforUAVcommunications[J].IEEETransactionsonCommunications,2021,69(4):24732488.
作者:周永濤,劉唐,彭艦
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///dzlw/29657.html