亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國(guó)內(nèi)或國(guó)外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)電子論文》 國(guó)產(chǎn)化環(huán)境下基于強(qiáng)化學(xué)習(xí)的地空協(xié)同作戰(zhàn)仿真> 正文

國(guó)產(chǎn)化環(huán)境下基于強(qiáng)化學(xué)習(xí)的地空協(xié)同作戰(zhàn)仿真

所屬分類(lèi):電子論文 閱讀次 時(shí)間:2022-03-16 10:36

本文摘要:摘要:以未來(lái)戰(zhàn)場(chǎng)無(wú)人地空協(xié)同作戰(zhàn)為需求牽引,面對(duì)軍事領(lǐng)域?qū)崙?zhàn)場(chǎng)景匱乏、訓(xùn)練數(shù)據(jù)不足的實(shí)際問(wèn)題,聚焦仿真環(huán)境下的深度強(qiáng)化學(xué)習(xí)方法,實(shí)現(xiàn)地空協(xié)同作戰(zhàn)仿真中多智能體決策模型。在飛騰CPU和昆侖K200硬件平臺(tái)與麒麟V10操作系統(tǒng)環(huán)境下搭建虛擬仿真環(huán)境,設(shè)置仿真環(huán)境

  摘要:以未來(lái)戰(zhàn)場(chǎng)無(wú)人地空協(xié)同作戰(zhàn)為需求牽引,面對(duì)軍事領(lǐng)域?qū)崙?zhàn)場(chǎng)景匱乏、訓(xùn)練數(shù)據(jù)不足的實(shí)際問(wèn)題,聚焦仿真環(huán)境下的深度強(qiáng)化學(xué)習(xí)方法,實(shí)現(xiàn)地空協(xié)同作戰(zhàn)仿真中多智能體決策模型。在飛騰CPU和昆侖K200硬件平臺(tái)與麒麟V10操作系統(tǒng)環(huán)境下搭建虛擬仿真環(huán)境,設(shè)置仿真環(huán)境狀態(tài)表征、各智能體動(dòng)作空間及獎(jiǎng)勵(lì)機(jī)制,構(gòu)建基于深度確定性策略梯度算法的多智能體模型(MADDPG),通過(guò)仿真實(shí)驗(yàn)驗(yàn)證采用MADDPG算法能夠使獎(jiǎng)勵(lì)值在地空協(xié)同作戰(zhàn)仿真場(chǎng)景中逐漸收斂,從而證明該模型應(yīng)用于地空協(xié)同作戰(zhàn)的決策有效性。

  關(guān)鍵詞:地空協(xié)同作戰(zhàn);強(qiáng)化學(xué)習(xí);基于深度確定性策略梯度算法的多智能體模型;國(guó)產(chǎn)化環(huán)境

強(qiáng)化學(xué)習(xí)論文

  引言

  隨著未來(lái)戰(zhàn)爭(zhēng)環(huán)境愈發(fā)復(fù)雜多變,具有強(qiáng)隱蔽性、高伴隨性、不受時(shí)空因素制約無(wú)人作戰(zhàn)裝備的重要性日益凸顯[1],甚至將顛覆傳統(tǒng)戰(zhàn)爭(zhēng)理念。在無(wú)人化裝備基礎(chǔ)上,為提升作戰(zhàn)效能提出的協(xié)同作戰(zhàn)概念也引起了廣泛關(guān)注。不論是有人-無(wú)人協(xié)同,還是無(wú)人-無(wú)人協(xié)同,通過(guò)態(tài)勢(shì)共享、統(tǒng)一決策,形成功能完備、優(yōu)勢(shì)互補(bǔ)的有機(jī)整體,達(dá)到1+1>2的效果。地空協(xié)同作戰(zhàn)是未來(lái)協(xié)同作戰(zhàn)的重要形式,無(wú)人機(jī)將是坦克在偵察、火力等方面的強(qiáng)力補(bǔ)充,二者聯(lián)合作戰(zhàn)可實(shí)現(xiàn)作戰(zhàn)集群整體效能最大化[2]。

  得益于近年來(lái)人工智能技術(shù)的飛速發(fā)展,單一無(wú)人裝備的控制方式逐步由遠(yuǎn)程遙控向自主控制轉(zhuǎn)變,已初步具備感知、分析、決策和執(zhí)行的能力,但協(xié)同作戰(zhàn)能力仍有限。接近實(shí)際應(yīng)用場(chǎng)景的無(wú)人地空聯(lián)合作戰(zhàn)更由于可變因素眾多、環(huán)境復(fù)雜性高而呈現(xiàn)出異常艱難的特點(diǎn)。

  另一方面,數(shù)據(jù)稀缺性很大程度上限制著以傳統(tǒng)算法進(jìn)行的無(wú)人協(xié)同作戰(zhàn)研究,主要體現(xiàn)在無(wú)法通過(guò)收集真實(shí)的戰(zhàn)場(chǎng)數(shù)據(jù)調(diào)教智控算法。強(qiáng)化學(xué)習(xí)的興起為無(wú)人協(xié)同作戰(zhàn)提供了另外一種研究思路,以作戰(zhàn)單元為智能體,通過(guò)其自學(xué)習(xí)優(yōu)化策略,在無(wú)訓(xùn)練數(shù)據(jù)的條件下實(shí)現(xiàn)復(fù)雜戰(zhàn)場(chǎng)環(huán)境中的地空力量協(xié)同配合。本文針對(duì)實(shí)戰(zhàn)環(huán)境稀缺、作戰(zhàn)數(shù)據(jù)積累不足等實(shí)際問(wèn)題,聚焦于仿真環(huán)境中的強(qiáng)化學(xué)習(xí)方法。同時(shí)考慮到自主可控需求,在國(guó)產(chǎn)化飛騰CPU和昆侖K200硬件平臺(tái)與麒麟V10操作系統(tǒng)環(huán)境上搭建了虛擬仿真環(huán)境,構(gòu)建了一種地空協(xié)同作戰(zhàn)場(chǎng)景下的基于深度確定性策略梯度算法的決策模型,通過(guò)智能體與環(huán)境交互自學(xué)習(xí),以實(shí)現(xiàn)地面裝備、無(wú)人機(jī)等智能體的相互協(xié)同與配合攻敵。

  1相關(guān)研究

  決策模型是作戰(zhàn)仿真模擬的“大腦”,一般可分為基于規(guī)則、基于深度學(xué)習(xí)和基于強(qiáng)化學(xué)習(xí)的三種方法[3];谝(guī)則的決策模型是對(duì)專(zhuān)家經(jīng)驗(yàn)建模,形成具有泛化能力的狀態(tài)機(jī),驅(qū)動(dòng)仿真對(duì)象的行為,其優(yōu)勢(shì)是可以充分利用先驗(yàn)知識(shí),但策略空間有限,適用于領(lǐng)域知識(shí)完備的軍事博弈對(duì)抗;基于深度學(xué)習(xí)的決策模型是通過(guò)學(xué)習(xí)歷史對(duì)抗數(shù)據(jù)生成決策神經(jīng)網(wǎng)絡(luò),具有較高的泛化性,但模型依賴(lài)于海量數(shù)據(jù)積累且可解釋性差;基于強(qiáng)化學(xué)習(xí)的決策模型是利用智能體不斷試錯(cuò)以學(xué)得決策網(wǎng)絡(luò);趶(qiáng)化學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法類(lèi)似,雖然都存在可解釋性差的問(wèn)題,但其優(yōu)勢(shì)是不需要依賴(lài)數(shù)據(jù)積累,因此格外適合軍事領(lǐng)域缺乏訓(xùn)練數(shù)據(jù)積累的場(chǎng)景。

  1.1深度強(qiáng)化學(xué)習(xí)

  強(qiáng)化學(xué)習(xí)(RL)的要素包括環(huán)境、智能體、值函數(shù)和策略函數(shù),其核心思想是通過(guò)最大化智能體從環(huán)境中獲得的獎(jiǎng)勵(lì)值,以學(xué)習(xí)到完成目標(biāo)的最優(yōu)策略。隨著深度Q網(wǎng)絡(luò)(DQN)[4]的提出而興起的深度強(qiáng)化學(xué)習(xí)(DRL)是強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合。DQN創(chuàng)新性地使用深度神經(jīng)網(wǎng)絡(luò)作為近似表示值函數(shù)的方式,以處理視覺(jué)圖像為輸入的任務(wù)。利用深度神經(jīng)網(wǎng)絡(luò),一可以更高效地表征環(huán)境狀態(tài),二可以使獎(jiǎng)勵(lì)函數(shù)訓(xùn)練擬合更穩(wěn)定,三可以提高算法的泛化能力使之適用于不同任務(wù)。

  DRL算法大致可分為基于值函數(shù)的DRL、基于策略梯度的DRL和基于搜索與監(jiān)督的DRL三類(lèi)。以DQN為代表的基于值函數(shù)的DRL算法通過(guò)更新值函數(shù)Q來(lái)學(xué)習(xí)行動(dòng)策略,但只適用于離散動(dòng)作空間。在真實(shí)場(chǎng)景中,如自動(dòng)駕駛、無(wú)人機(jī)控制等,往往需要輸出連續(xù)的動(dòng)作更精確地操控智能體。

  Lillicrap等[5]基于策略梯度優(yōu)化方法改造DQN,提出基于行動(dòng)者-評(píng)論家(AC)框架的深度確定性策略梯度(DDPG)算法,可用于解決連續(xù)動(dòng)作空間上的DRL問(wèn)題;谒阉髋c監(jiān)督的DRL是將監(jiān)督學(xué)習(xí)和搜索策略相結(jié)合,常應(yīng)用于游戲博弈中,AlphaGo圍棋算法[6]中利用蒙特卡洛搜索樹(shù)結(jié)合策略網(wǎng)絡(luò)以及值網(wǎng)絡(luò)的方法,就是這種DRL策略的典型實(shí)踐。

  1.2多智能體強(qiáng)化學(xué)習(xí)

  在解決真實(shí)場(chǎng)景復(fù)雜決策問(wèn)題過(guò)程中,往往涉及到多個(gè)智能體間的協(xié)作配合,因此僅考慮單一智能體的決策模型問(wèn)題解決能力十分有限,多智能體深度強(qiáng)化學(xué)習(xí)(MADRL)成為強(qiáng)化學(xué)習(xí)領(lǐng)域研究的重點(diǎn)和難點(diǎn)。MADRL問(wèn)題按智能體協(xié)作類(lèi)型可分為完全合作、完全競(jìng)爭(zhēng)和混合環(huán)境。Hernandez-Leal等[7]將MADRL研究分為以下4類(lèi)內(nèi)容:

  1)行為分析。把DRL算法直接應(yīng)用與多智能體環(huán)境中,每個(gè)智能體獨(dú)立學(xué)習(xí)行為策略并將其他智能體看作環(huán)境的一部分[8],適用于完全合作、完全競(jìng)爭(zhēng)和混合環(huán)境,但容易出現(xiàn)非平穩(wěn)性問(wèn)題。2)通信學(xué)習(xí)。著重探索智能體間共享信息的方式,如直接消息通訊或共享內(nèi)存,可用于處理完全合作和混合環(huán)境問(wèn)題。

  3)協(xié)作學(xué)習(xí)。在智能體間無(wú)通信的環(huán)境下,將多智能體學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的思想擴(kuò)展到MADRL領(lǐng)域,該類(lèi)型工作仍然是多智能體學(xué)習(xí)的主流方向。例如將DDPG算法擴(kuò)展到多智能體環(huán)境的多智能體深度確定性策略梯度算法(MADDPG)[9]。該類(lèi)型算法實(shí)驗(yàn)環(huán)境包括完全合作、完全競(jìng)爭(zhēng)和混合環(huán)境。4)智能體建模。通過(guò)對(duì)智能體建模,加強(qiáng)智能體間合作、推斷隱藏目標(biāo)以及解釋其他智能體的學(xué)習(xí)行為。這類(lèi)算法通常應(yīng)用于完全競(jìng)爭(zhēng)和混合環(huán)境。

  1.3軍事應(yīng)用

  強(qiáng)化學(xué)習(xí)側(cè)重學(xué)習(xí)解決問(wèn)題的策略,因此被認(rèn)為是通向人工智能的重要途徑。目前強(qiáng)化學(xué)習(xí)已在參數(shù)調(diào)優(yōu)[10]、機(jī)器人控制[11]、游戲博弈[4,6,12]、自動(dòng)駕駛[13]等場(chǎng)景中得到了廣泛應(yīng)用。隨著技術(shù)逐步成熟,強(qiáng)化學(xué)習(xí)在軍事領(lǐng)域也得到了更多的關(guān)注。軍事博弈與游戲博弈有著高度相似性,因此AlphaGo、AlphaStar的成功引發(fā)了強(qiáng)化學(xué)習(xí)在指揮決策[14]、作戰(zhàn)任務(wù)規(guī)劃[15]中應(yīng)用的探討。

  仿真作戰(zhàn)方面,李航等[3]構(gòu)建了適用于強(qiáng)化學(xué)習(xí)的軍事智能博弈對(duì)抗系統(tǒng)框架;徐志雄等[16-17]將基于DoubleBP神經(jīng)網(wǎng)絡(luò)的分層強(qiáng)化學(xué)習(xí)方法、基于MMSarsa的強(qiáng)化學(xué)習(xí)方法應(yīng)用于坦克對(duì)戰(zhàn)仿真中;盧銳軒等[18]設(shè)計(jì)并實(shí)驗(yàn)了基于強(qiáng)化學(xué)習(xí)的1V1空戰(zhàn)仿真;黃曉冬等[19]將DQN算法應(yīng)用到海戰(zhàn)場(chǎng)船舶路徑規(guī)劃仿真中。作為軍事領(lǐng)域戰(zhàn)術(shù)優(yōu)化、決策輔助的重要手段,目前基于強(qiáng)化學(xué)習(xí)的仿真作戰(zhàn)研究還存在著想定單一、仿真環(huán)境設(shè)置簡(jiǎn)單、未充分考慮實(shí)際協(xié)同作戰(zhàn)需求的不足,距離實(shí)戰(zhàn)應(yīng)用仍有一定的距離。

  2基于MADDPG的地空協(xié)同作戰(zhàn)模型構(gòu)建

  地空協(xié)同作戰(zhàn)是典型的混合環(huán)境下多智能體學(xué)習(xí)問(wèn)題,其中對(duì)智能體的控制是一個(gè)連續(xù)過(guò)程,DDPG算法以及MADDPG算法可實(shí)現(xiàn)對(duì)各智能體的連續(xù)操控。另外,多智能體MADDPG算法全局化學(xué)習(xí)策略相較每個(gè)智能體單獨(dú)使用DDPG學(xué)習(xí)能獲得更平穩(wěn)地訓(xùn)練過(guò)程。

  因此,本文基于MADDPG算法構(gòu)建地空協(xié)同作戰(zhàn)模型,在不需要訓(xùn)練樣本的前提下,依托作戰(zhàn)仿真環(huán)境對(duì)多智能體進(jìn)行訓(xùn)練。多智能體深度確定性策略梯度(MADDPG)算法[9]通過(guò)改造DDPG算法,使其適用于多智能體環(huán)境。MADDPG算法的核心思路是在訓(xùn)練階段使用觀察全局的Critic網(wǎng)絡(luò)獲取其他智能體的策略,而推理階段僅使用有局部觀測(cè)的Actor網(wǎng)絡(luò)采取行動(dòng),即中心化訓(xùn)練和非中心化執(zhí)行。這種結(jié)構(gòu)一是使智能體學(xué)得更加全局的策略,二是可以緩解由于智能體分別優(yōu)化策略而導(dǎo)致的環(huán)境不穩(wěn)定問(wèn)題。

  3實(shí)驗(yàn)設(shè)計(jì)及結(jié)果

  基于國(guó)產(chǎn)化軟硬件環(huán)境,設(shè)計(jì)紅藍(lán)雙方對(duì)抗想定以驗(yàn)證地空協(xié)同作戰(zhàn)中MADDPG算法決策的有效性。

  3.1實(shí)驗(yàn)環(huán)境搭建

  實(shí)驗(yàn)環(huán)境的搭建分為硬件實(shí)驗(yàn)環(huán)境和軟件仿真環(huán)境兩個(gè)部分。硬件實(shí)驗(yàn)環(huán)境設(shè)施采用國(guó)產(chǎn)化自主可控器件,以應(yīng)對(duì)目前軍事領(lǐng)域?qū)?guó)產(chǎn)化要求;軟件仿真環(huán)境同樣采用國(guó)產(chǎn)化的深度學(xué)習(xí)框架與國(guó)產(chǎn)仿真推演平臺(tái)。

  3.1.1實(shí)驗(yàn)硬件環(huán)境

  實(shí)驗(yàn)硬件環(huán)境為一臺(tái)可插8塊國(guó)產(chǎn)昆侖K200高性能計(jì)算卡和國(guó)產(chǎn)飛騰CPU組成的服務(wù)器,運(yùn)行麒麟V10(SP1)操作系統(tǒng),封裝有飛槳國(guó)產(chǎn)深度學(xué)習(xí)框架。整機(jī)采用2U機(jī)架式,基于國(guó)產(chǎn)飛騰S2500設(shè)計(jì),具有128個(gè)處理器核心,采用ARMV8架構(gòu),內(nèi)存為64GBDDR4ECCRDIMM,硬盤(pán)采用240GB數(shù)據(jù)中心級(jí)SSD,支持8塊3.5英寸/2.5英寸SATA/SAS6Gb/s熱插拔磁盤(pán),3個(gè)PCIE3.0×16和3個(gè)PCIE3.0×8插槽。昆侖K200高性能計(jì)算卡采用XPU架構(gòu),HBM內(nèi)存達(dá)到16GB,單塊計(jì)算卡在全精度浮點(diǎn)數(shù)情況下能夠提供16TOPS、在半精度浮點(diǎn)數(shù)情況下能夠提供64TOPS、在8位整型情況下能夠提供256TOPS的峰值算力,HBM訪問(wèn)寬帶為512GB/s.硬件環(huán)境采用PCIE插槽的方式,昆侖K200高性能計(jì)算卡通過(guò)PCIE與飛騰CPU進(jìn)行通信。

  3.1.2軟件仿真環(huán)境

  軟件運(yùn)行環(huán)境基于麒麟V10系統(tǒng)搭建,分為仿真環(huán)境和決策模型兩部分。仿真環(huán)境采用墨子仿真推演平臺(tái),包括可視化界面以及與模型交互的數(shù)據(jù)接口,決策模型基于飛槳深度學(xué)習(xí)框架實(shí)現(xiàn)MADDPG算法。仿真環(huán)境和決策模型之間通過(guò)數(shù)據(jù)接口進(jìn)行交互,實(shí)現(xiàn)模型對(duì)仿真環(huán)境中智能體的驅(qū)動(dòng)以及仿真環(huán)境狀態(tài)、行動(dòng)獎(jiǎng)勵(lì)對(duì)模型的反饋。

  3.2仿真環(huán)境

  構(gòu)建地空協(xié)同作戰(zhàn)場(chǎng)景下的仿真作戰(zhàn)任務(wù),紅藍(lán)雙方兵力設(shè)置分別為紅方坦克2輛,無(wú)人機(jī)1架;藍(lán)方坦克1輛,地空導(dǎo)彈3排。其中,地空導(dǎo)彈僅具有對(duì)空擊打能力,固定位置無(wú)法移動(dòng)。無(wú)人機(jī)具有偵察功能,并攜帶反坦克導(dǎo)彈。藍(lán)方坦克攻擊范圍大于紅方坦克。任務(wù)以紅方擊毀藍(lán)方坦克為勝利,以紅方所有坦克、無(wú)人機(jī)被摧毀或時(shí)間耗盡為失敗。分別設(shè)定紅藍(lán)雙方各智能體的獎(jiǎng)勵(lì)機(jī)制。

  對(duì)紅方坦克,擊毀藍(lán)方坦克記100分,擊中但未擊毀時(shí)得分與藍(lán)方坦克戰(zhàn)損值呈正比;擊毀藍(lán)方地空導(dǎo)彈記50分,擊中但未擊毀時(shí)得分與導(dǎo)彈戰(zhàn)損值呈正比。紅方坦克被擊毀記-100分,被擊中但未被擊毀得分與戰(zhàn)損值呈反比。紅方無(wú)人機(jī)被擊毀記-50分,被擊中但未被擊毀得分與戰(zhàn)損值呈反比。對(duì)藍(lán)方坦克來(lái)說(shuō),擊毀紅方坦克記100分,擊中但未擊毀時(shí)得分與紅方坦克戰(zhàn)損值呈正比;被擊毀記-100分,被擊中但未被擊毀得分與戰(zhàn)損值呈反比。藍(lán)方地空導(dǎo)彈擊中紅方無(wú)人機(jī)記50分,被擊毀記-50分,被擊中但未被擊毀得分與戰(zhàn)損值呈反比。

  3.3參數(shù)配置

  本文實(shí)驗(yàn)共訓(xùn)練20000輪,每輪訓(xùn)練以紅藍(lán)一方勝利或達(dá)到單輪最大決策步數(shù)結(jié)束。每輪最大決策步數(shù)為30步,仿真時(shí)間每120s進(jìn)行一步?jīng)Q策,在仿真平臺(tái)可視化推演速度設(shè)置為30倍加速,即每輪訓(xùn)練時(shí)間上限為實(shí)際時(shí)間2min,仿真時(shí)間60min.一輪訓(xùn)練結(jié)束后,計(jì)算雙方得分情況,初始化雙方得分,進(jìn)入下一輪學(xué)習(xí)。MADDPG算法中學(xué)習(xí)率lr=0.001,折扣因子γ=0.95,更新系數(shù)τ=0.01.

  4結(jié)束語(yǔ)

  本文研究了仿真環(huán)境下地空協(xié)同作戰(zhàn)決策模型設(shè)計(jì)與應(yīng)用,分析了地空協(xié)同作戰(zhàn)仿真研究的重點(diǎn)和難點(diǎn),針對(duì)缺乏訓(xùn)練數(shù)據(jù)的問(wèn)題聚焦強(qiáng)化學(xué)習(xí)方法,針對(duì)坦克、無(wú)人機(jī)連續(xù)控制問(wèn)題選用深度確定性策略梯度算法,針對(duì)多智能體協(xié)同問(wèn)題最終確定使用MADDPG算法作為地空協(xié)同作戰(zhàn)決策模型。在國(guó)產(chǎn)化軟硬件環(huán)境下,搭建了地空協(xié)同作戰(zhàn)仿真實(shí)驗(yàn)場(chǎng)景并通過(guò)模型訓(xùn)練達(dá)到獎(jiǎng)勵(lì)值收斂,從而驗(yàn)證了MADDPG算法在地空協(xié)同作戰(zhàn)仿真場(chǎng)景下決策的有效性。

  多智能體協(xié)同作戰(zhàn)研究作為軍事博弈與人工智能的交叉領(lǐng)域,目前還處于起步階段,未來(lái)將在以下方向繼續(xù)探索:1)當(dāng)前僅驗(yàn)證在單一場(chǎng)景下決策模型有效性,可進(jìn)一步提高模型泛化能力使其適用于多種場(chǎng)景。2)為簡(jiǎn)化計(jì)算過(guò)程,目前僅選取部分有代表性的參數(shù)描述狀態(tài)空間與動(dòng)作空間,存在與真實(shí)世界擬合度低的問(wèn)題,可進(jìn)一步優(yōu)化仿真環(huán)境狀態(tài)空間與智能體動(dòng)作空間的表征。3)強(qiáng)化學(xué)習(xí)雖然具有無(wú)需訓(xùn)練數(shù)據(jù)等優(yōu)勢(shì),但可解釋性差且無(wú)法利用專(zhuān)家經(jīng)驗(yàn),并且智能體行為存在小范圍內(nèi)抖動(dòng)的問(wèn)題,因此可展開(kāi)強(qiáng)化學(xué)習(xí)與決策樹(shù)等方法相結(jié)合的仿真決策模型探索。

  參考文獻(xiàn)(References)

  [1]孟紅,朱森地面無(wú)人系統(tǒng)的發(fā)展及未來(lái)趨勢(shì)[J].兵工學(xué)報(bào),2014,35(增刊1):17.MENGH,ZHUS.Thedevelopmentandfuturetrendsofunmannedgroundsystems[J].ActaArmamentarii,2014,35(S1):17.(nChinese)

  [2]張宇,張琰,邱綿浩,等地空無(wú)人平臺(tái)協(xié)同作戰(zhàn)應(yīng)用研究[J].火力與指揮控制,2021,46(5):1,11.ZHANGY,ZHANGY,QIUMH,etal.Researchonthegroundairunmannedplatformcooperativecombatapplication[J].FireControl&CommandControl,2021,46(5):1,11(inChinese)

  [3]李航,劉代金,劉禹軍事智能博弈對(duì)抗系統(tǒng)設(shè)計(jì)框架研究[J].火力與指揮控制,2020,45(9):116121.LIH,LIUDJ,LIUY.Architecturedesignresearchofmilitaryintelligentwargamesystem[J].FireControl&CommandControl,2020,45(9):116121.(inChinese)[4]MNIHV,KAVUKCUOGLUK,SILVERD,etal.PlayingAtariwithdeepreinforcementlearning[J/OL].ComputerScience,2013.arXivpreprintarXiv:1312.5602.

  作者:李理,李旭光,郭凱杰,史超,陳昭文

轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///dzlw/29784.html