國產化環(huán)境下基于強化學習的地空協(xié)同作戰(zhàn)仿真

所屬分類：電子論文閱讀次時間：2022-03-16 10:36

本文摘要：摘要：以未來戰(zhàn)場無人地空協(xié)同作戰(zhàn)為需求牽引，面對軍事領域實戰(zhàn)場景匱乏、訓練數據不足的實際問題，聚焦仿真環(huán)境下的深度強化學習方法，實現地空協(xié)同作戰(zhàn)仿真中多智能體決策模型。在飛騰CPU和昆侖K200硬件平臺與麒麟V10操作系統(tǒng)環(huán)境下搭建虛擬仿真環(huán)境，設置仿真環(huán)境

　　摘要：以未來戰(zhàn)場無人地空協(xié)同作戰(zhàn)為需求牽引，面對軍事領域實戰(zhàn)場景匱乏、訓練數據不足的實際問題，聚焦仿真環(huán)境下的深度強化學習方法，實現地空協(xié)同作戰(zhàn)仿真中多智能體決策模型。在飛騰CPU和昆侖K200硬件平臺與麒麟V10操作系統(tǒng)環(huán)境下搭建虛擬仿真環(huán)境，設置仿真環(huán)境狀態(tài)表征、各智能體動作空間及獎勵機制，構建基于深度確定性策略梯度算法的多智能體模型(MADDPG)，通過仿真實驗驗證采用MADDPG算法能夠使獎勵值在地空協(xié)同作戰(zhàn)仿真場景中逐漸收斂，從而證明該模型應用于地空協(xié)同作戰(zhàn)的決策有效性。

　　關鍵詞：地空協(xié)同作戰(zhàn);強化學習;基于深度確定性策略梯度算法的多智能體模型;國產化環(huán)境

強化學習論文

　　引言

　　隨著未來戰(zhàn)爭環(huán)境愈發(fā)復雜多變，具有強隱蔽性、高伴隨性、不受時空因素制約無人作戰(zhàn)裝備的重要性日益凸顯[1]，甚至將顛覆傳統(tǒng)戰(zhàn)爭理念。在無人化裝備基礎上，為提升作戰(zhàn)效能提出的協(xié)同作戰(zhàn)概念也引起了廣泛關注。不論是有人-無人協(xié)同，還是無人-無人協(xié)同，通過態(tài)勢共享、統(tǒng)一決策，形成功能完備、優(yōu)勢互補的有機整體，達到1+1>2的效果。地空協(xié)同作戰(zhàn)是未來協(xié)同作戰(zhàn)的重要形式，無人機將是坦克在偵察、火力等方面的強力補充，二者聯(lián)合作戰(zhàn)可實現作戰(zhàn)集群整體效能最大化[2]。

　　得益于近年來人工智能技術的飛速發(fā)展，單一無人裝備的控制方式逐步由遠程遙控向自主控制轉變，已初步具備感知、分析、決策和執(zhí)行的能力，但協(xié)同作戰(zhàn)能力仍有限。接近實際應用場景的無人地空聯(lián)合作戰(zhàn)更由于可變因素眾多、環(huán)境復雜性高而呈現出異常艱難的特點。

　　另一方面，數據稀缺性很大程度上限制著以傳統(tǒng)算法進行的無人協(xié)同作戰(zhàn)研究，主要體現在無法通過收集真實的戰(zhàn)場數據調教智控算法。強化學習的興起為無人協(xié)同作戰(zhàn)提供了另外一種研究思路，以作戰(zhàn)單元為智能體，通過其自學習優(yōu)化策略，在無訓練數據的條件下實現復雜戰(zhàn)場環(huán)境中的地空力量協(xié)同配合。本文針對實戰(zhàn)環(huán)境稀缺、作戰(zhàn)數據積累不足等實際問題，聚焦于仿真環(huán)境中的強化學習方法。同時考慮到自主可控需求，在國產化飛騰CPU和昆侖K200硬件平臺與麒麟V10操作系統(tǒng)環(huán)境上搭建了虛擬仿真環(huán)境，構建了一種地空協(xié)同作戰(zhàn)場景下的基于深度確定性策略梯度算法的決策模型，通過智能體與環(huán)境交互自學習，以實現地面裝備、無人機等智能體的相互協(xié)同與配合攻敵。

　　1相關研究

　　決策模型是作戰(zhàn)仿真模擬的“大腦”，一般可分為基于規(guī)則、基于深度學習和基于強化學習的三種方法[3]�；谝�(guī)則的決策模型是對專家經驗建模，形成具有泛化能力的狀態(tài)機，驅動仿真對象的行為，其優(yōu)勢是可以充分利用先驗知識，但策略空間有限，適用于領域知識完備的軍事博弈對抗;基于深度學習的決策模型是通過學習歷史對抗數據生成決策神經網絡，具有較高的泛化性，但模型依賴于海量數據積累且可解釋性差;基于強化學習的決策模型是利用智能體不斷試錯以學得決策網絡�；趶娀瘜W習的方法和基于深度學習的方法類似，雖然都存在可解釋性差的問題，但其優(yōu)勢是不需要依賴數據積累，因此格外適合軍事領域缺乏訓練數據積累的場景。

　　1.1深度強化學習

　　強化學習(RL)的要素包括環(huán)境、智能體、值函數和策略函數，其核心思想是通過最大化智能體從環(huán)境中獲得的獎勵值，以學習到完成目標的最優(yōu)策略。隨著深度Q網絡(DQN)[4]的提出而興起的深度強化學習(DRL)是強化學習和深度學習的結合。DQN創(chuàng)新性地使用深度神經網絡作為近似表示值函數的方式，以處理視覺圖像為輸入的任務。利用深度神經網絡，一可以更高效地表征環(huán)境狀態(tài)，二可以使獎勵函數訓練擬合更穩(wěn)定，三可以提高算法的泛化能力使之適用于不同任務。

　　DRL算法大致可分為基于值函數的DRL、基于策略梯度的DRL和基于搜索與監(jiān)督的DRL三類。以DQN為代表的基于值函數的DRL算法通過更新值函數Q來學習行動策略，但只適用于離散動作空間。在真實場景中，如自動駕駛、無人機控制等，往往需要輸出連續(xù)的動作更精確地操控智能體。

　　Lillicrap等[5]基于策略梯度優(yōu)化方法改造DQN，提出基于行動者-評論家(AC)框架的深度確定性策略梯度(DDPG)算法，可用于解決連續(xù)動作空間上的DRL問題。基于搜索與監(jiān)督的DRL是將監(jiān)督學習和搜索策略相結合，常應用于游戲博弈中，AlphaGo圍棋算法[6]中利用蒙特卡洛搜索樹結合策略網絡以及值網絡的方法，就是這種DRL策略的典型實踐。

　　1.2多智能體強化學習

　　在解決真實場景復雜決策問題過程中，往往涉及到多個智能體間的協(xié)作配合，因此僅考慮單一智能體的決策模型問題解決能力十分有限，多智能體深度強化學習(MADRL)成為強化學習領域研究的重點和難點。MADRL問題按智能體協(xié)作類型可分為完全合作、完全競爭和混合環(huán)境。Hernandez-Leal等[7]將MADRL研究分為以下4類內容：

　　1)行為分析。把DRL算法直接應用與多智能體環(huán)境中，每個智能體獨立學習行為策略并將其他智能體看作環(huán)境的一部分[8]，適用于完全合作、完全競爭和混合環(huán)境，但容易出現非平穩(wěn)性問題。2)通信學習。著重探索智能體間共享信息的方式，如直接消息通訊或共享內存，可用于處理完全合作和混合環(huán)境問題。

　　3)協(xié)作學習。在智能體間無通信的環(huán)境下，將多智能體學習、強化學習的思想擴展到MADRL領域，該類型工作仍然是多智能體學習的主流方向。例如將DDPG算法擴展到多智能體環(huán)境的多智能體深度確定性策略梯度算法(MADDPG)[9]。該類型算法實驗環(huán)境包括完全合作、完全競爭和混合環(huán)境。4)智能體建模。通過對智能體建模，加強智能體間合作、推斷隱藏目標以及解釋其他智能體的學習行為。這類算法通常應用于完全競爭和混合環(huán)境。

　　1.3軍事應用

　　強化學習側重學習解決問題的策略，因此被認為是通向人工智能的重要途徑。目前強化學習已在參數調優(yōu)[10]、機器人控制[11]、游戲博弈[4，6，12]、自動駕駛[13]等場景中得到了廣泛應用。隨著技術逐步成熟，強化學習在軍事領域也得到了更多的關注。軍事博弈與游戲博弈有著高度相似性，因此AlphaGo、AlphaStar的成功引發(fā)了強化學習在指揮決策[14]、作戰(zhàn)任務規(guī)劃[15]中應用的探討。

　　仿真作戰(zhàn)方面，李航等[3]構建了適用于強化學習的軍事智能博弈對抗系統(tǒng)框架;徐志雄等[16-17]將基于DoubleBP神經網絡的分層強化學習方法、基于MMSarsa的強化學習方法應用于坦克對戰(zhàn)仿真中;盧銳軒等[18]設計并實驗了基于強化學習的1V1空戰(zhàn)仿真;黃曉冬等[19]將DQN算法應用到海戰(zhàn)場船舶路徑規(guī)劃仿真中。作為軍事領域戰(zhàn)術優(yōu)化、決策輔助的重要手段，目前基于強化學習的仿真作戰(zhàn)研究還存在著想定單一、仿真環(huán)境設置簡單、未充分考慮實際協(xié)同作戰(zhàn)需求的不足，距離實戰(zhàn)應用仍有一定的距離。

　　2基于MADDPG的地空協(xié)同作戰(zhàn)模型構建

　　地空協(xié)同作戰(zhàn)是典型的混合環(huán)境下多智能體學習問題，其中對智能體的控制是一個連續(xù)過程，DDPG算法以及MADDPG算法可實現對各智能體的連續(xù)操控。另外，多智能體MADDPG算法全局化學習策略相較每個智能體單獨使用DDPG學習能獲得更平穩(wěn)地訓練過程。

　　因此，本文基于MADDPG算法構建地空協(xié)同作戰(zhàn)模型，在不需要訓練樣本的前提下，依托作戰(zhàn)仿真環(huán)境對多智能體進行訓練。多智能體深度確定性策略梯度(MADDPG)算法[9]通過改造DDPG算法，使其適用于多智能體環(huán)境。MADDPG算法的核心思路是在訓練階段使用觀察全局的Critic網絡獲取其他智能體的策略，而推理階段僅使用有局部觀測的Actor網絡采取行動，即中心化訓練和非中心化執(zhí)行。這種結構一是使智能體學得更加全局的策略，二是可以緩解由于智能體分別優(yōu)化策略而導致的環(huán)境不穩(wěn)定問題。

　　3實驗設計及結果

　　基于國產化軟硬件環(huán)境，設計紅藍雙方對抗想定以驗證地空協(xié)同作戰(zhàn)中MADDPG算法決策的有效性。

　　3.1實驗環(huán)境搭建

　　實驗環(huán)境的搭建分為硬件實驗環(huán)境和軟件仿真環(huán)境兩個部分。硬件實驗環(huán)境設施采用國產化自主可控器件，以應對目前軍事領域對國產化要求;軟件仿真環(huán)境同樣采用國產化的深度學習框架與國產仿真推演平臺。

　　3.1.1實驗硬件環(huán)境

　　實驗硬件環(huán)境為一臺可插8塊國產昆侖K200高性能計算卡和國產飛騰CPU組成的服務器，運行麒麟V10(SP1)操作系統(tǒng)，封裝有飛槳國產深度學習框架。整機采用2U機架式，基于國產飛騰S2500設計，具有128個處理器核心，采用ARMV8架構，內存為64GBDDR4ECCRDIMM，硬盤采用240GB數據中心級SSD，支持8塊3.5英寸/2.5英寸SATA/SAS6Gb/s熱插拔磁盤，3個PCIE3.0×16和3個PCIE3.0×8插槽。昆侖K200高性能計算卡采用XPU架構，HBM內存達到16GB，單塊計算卡在全精度浮點數情況下能夠提供16TOPS、在半精度浮點數情況下能夠提供64TOPS、在8位整型情況下能夠提供256TOPS的峰值算力，HBM訪問寬帶為512GB/s.硬件環(huán)境采用PCIE插槽的方式，昆侖K200高性能計算卡通過PCIE與飛騰CPU進行通信。

　　3.1.2軟件仿真環(huán)境

　　軟件運行環(huán)境基于麒麟V10系統(tǒng)搭建，分為仿真環(huán)境和決策模型兩部分。仿真環(huán)境采用墨子仿真推演平臺，包括可視化界面以及與模型交互的數據接口，決策模型基于飛槳深度學習框架實現MADDPG算法。仿真環(huán)境和決策模型之間通過數據接口進行交互，實現模型對仿真環(huán)境中智能體的驅動以及仿真環(huán)境狀態(tài)、行動獎勵對模型的反饋。

　　3.2仿真環(huán)境

　　構建地空協(xié)同作戰(zhàn)場景下的仿真作戰(zhàn)任務，紅藍雙方兵力設置分別為紅方坦克2輛，無人機1架;藍方坦克1輛，地空導彈3排。其中，地空導彈僅具有對空擊打能力，固定位置無法移動。無人機具有偵察功能，并攜帶反坦克導彈。藍方坦克攻擊范圍大于紅方坦克。任務以紅方擊毀藍方坦克為勝利，以紅方所有坦克、無人機被摧毀或時間耗盡為失敗。分別設定紅藍雙方各智能體的獎勵機制。

　　對紅方坦克，擊毀藍方坦克記100分，擊中但未擊毀時得分與藍方坦克戰(zhàn)損值呈正比;擊毀藍方地空導彈記50分，擊中但未擊毀時得分與導彈戰(zhàn)損值呈正比。紅方坦克被擊毀記-100分，被擊中但未被擊毀得分與戰(zhàn)損值呈反比。紅方無人機被擊毀記-50分，被擊中但未被擊毀得分與戰(zhàn)損值呈反比。對藍方坦克來說，擊毀紅方坦克記100分，擊中但未擊毀時得分與紅方坦克戰(zhàn)損值呈正比;被擊毀記-100分，被擊中但未被擊毀得分與戰(zhàn)損值呈反比。藍方地空導彈擊中紅方無人機記50分，被擊毀記-50分，被擊中但未被擊毀得分與戰(zhàn)損值呈反比。

　　3.3參數配置

　　本文實驗共訓練20000輪，每輪訓練以紅藍一方勝利或達到單輪最大決策步數結束。每輪最大決策步數為30步，仿真時間每120s進行一步決策，在仿真平臺可視化推演速度設置為30倍加速，即每輪訓練時間上限為實際時間2min，仿真時間60min.一輪訓練結束后，計算雙方得分情況，初始化雙方得分，進入下一輪學習。MADDPG算法中學習率lr=0.001，折扣因子γ=0.95，更新系數τ=0.01.

　　4結束語

　　本文研究了仿真環(huán)境下地空協(xié)同作戰(zhàn)決策模型設計與應用，分析了地空協(xié)同作戰(zhàn)仿真研究的重點和難點，針對缺乏訓練數據的問題聚焦強化學習方法，針對坦克、無人機連續(xù)控制問題選用深度確定性策略梯度算法，針對多智能體協(xié)同問題最終確定使用MADDPG算法作為地空協(xié)同作戰(zhàn)決策模型。在國產化軟硬件環(huán)境下，搭建了地空協(xié)同作戰(zhàn)仿真實驗場景并通過模型訓練達到獎勵值收斂，從而驗證了MADDPG算法在地空協(xié)同作戰(zhàn)仿真場景下決策的有效性。

　　多智能體協(xié)同作戰(zhàn)研究作為軍事博弈與人工智能的交叉領域，目前還處于起步階段，未來將在以下方向繼續(xù)探索：1)當前僅驗證在單一場景下決策模型有效性，可進一步提高模型泛化能力使其適用于多種場景。2)為簡化計算過程，目前僅選取部分有代表性的參數描述狀態(tài)空間與動作空間，存在與真實世界擬合度低的問題，可進一步優(yōu)化仿真環(huán)境狀態(tài)空間與智能體動作空間的表征。3)強化學習雖然具有無需訓練數據等優(yōu)勢，但可解釋性差且無法利用專家經驗，并且智能體行為存在小范圍內抖動的問題，因此可展開強化學習與決策樹等方法相結合的仿真決策模型探索。

　　參考文獻(References)

　　[1]孟紅，朱森地面無人系統(tǒng)的發(fā)展及未來趨勢[J].兵工學報，2014，35(增刊1):17.MENGH，ZHUS.Thedevelopmentandfuturetrendsofunmannedgroundsystems[J].ActaArmamentarii，2014，35(S1):17.(nChinese)

　　[2]張宇，張琰，邱綿浩，等地空無人平臺協(xié)同作戰(zhàn)應用研究[J].火力與指揮控制，2021，46(5):1，11.ZHANGY，ZHANGY，QIUMH，etal.Researchonthegroundairunmannedplatformcooperativecombatapplication[J].FireControl&CommandControl，2021，46(5):1，11(inChinese)

　　[3]李航，劉代金，劉禹軍事智能博弈對抗系統(tǒng)設計框架研究[J].火力與指揮控制，2020，45(9):116121.LIH，LIUDJ，LIUY.Architecturedesignresearchofmilitaryintelligentwargamesystem[J].FireControl&CommandControl，2020，45(9):116121.(inChinese)[4]MNIHV，KAVUKCUOGLUK，SILVERD，etal.PlayingAtariwithdeepreinforcementlearning[J/OL].ComputerScience，2013.arXivpreprintarXiv:1312.5602.

　　作者：李理，李旭光，郭凱杰，史超，陳昭文