本文摘要:摘要:[目的]作為船舶航行安全的核心問題,若船舶避碰完全依賴船長的個人狀態(tài)和判斷將存在一定的安全隱患。為了統(tǒng)籌關(guān)鍵水域上所有船舶(游船、貨船等)并進(jìn)行路徑預(yù)測,需要建立防碰撞預(yù)警機(jī)制。[方法]利用深度確定性策略梯度(DDPG)算法和船舶領(lǐng)域模型,采用電子海圖模擬
摘要:[目的]作為船舶航行安全的核心問題,若船舶避碰完全依賴船長的個人狀態(tài)和判斷將存在一定的安全隱患。為了統(tǒng)籌關(guān)鍵水域上所有船舶(游船、貨船等)并進(jìn)行路徑預(yù)測,需要建立防碰撞預(yù)警機(jī)制。[方法]利用深度確定性策略梯度(DDPG)算法和船舶領(lǐng)域模型,采用電子海圖模擬船舶的航行路徑,提出基于失敗區(qū)域重點(diǎn)學(xué)習(xí)的DDPG算法改進(jìn)策略,并針對游船特點(diǎn)改進(jìn)的船舶領(lǐng)域模型參數(shù)等改進(jìn)方法,提高航線預(yù)測和防碰撞準(zhǔn)確率。[結(jié)果]使用改進(jìn)的DDPG算法和改進(jìn)的船舶領(lǐng)域模型,與未改進(jìn)前的算法相比,船舶避碰正確率由84.9%升至89.7%,模擬航線與真實(shí)航線的平均誤差由25.2m降至21.4m。[結(jié)論]通過基于改進(jìn)的DDPG算法和改進(jìn)的船舶領(lǐng)域模型開展船舶避碰路徑規(guī)劃,可以實(shí)現(xiàn)水域船舶航線監(jiān)管功能,且當(dāng)預(yù)測航線與其他船舶存在交會時,告警調(diào)度人員,從而實(shí)現(xiàn)防碰撞預(yù)警機(jī)制。
關(guān)鍵詞:混合航道;船舶領(lǐng)域;船舶避碰;深度確定性策略梯度算法;失敗區(qū)域探索策略
0引 言
本文主要研究周莊水域的船舶航行安全。由于該水域急水港航道由4級升為3級,通行的各類貨船無論是數(shù)量還是噸位都有明顯的增加,而游船進(jìn)出港穿越航道并與貨船共線航行會增加游船的碰撞風(fēng)險,人為駕駛因素也會引發(fā)碰撞事故,進(jìn)而造成嚴(yán)重的經(jīng)濟(jì)損失和人員傷亡[1-2]。
船舶論文范例: 環(huán)保新政下的內(nèi)河船舶用油分析
因此,開展船舶避碰研究,對推動水運(yùn)行業(yè)安全發(fā)展具有積極意義,F(xiàn)有的船舶避碰算法,例如遺傳算法[3-4]、粒子群算法以及蟻群算法[5-6]等,都存在實(shí)時性差的問題,因?yàn)闊o法預(yù)先從樣本數(shù)據(jù)中建立模型,所以在應(yīng)用過程中需要重復(fù)進(jìn)行路徑優(yōu)化搜索過程,造成大量無用的計(jì)算,且其依賴的評價函數(shù)較簡單,在不同水域應(yīng)用環(huán)境下的魯棒性較差。所以,船舶避碰算法需能夠從大量經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)避碰策略,同時保證在未知環(huán)境下依然可以保證避碰策略的準(zhǔn)確性[7-10]。
DDPG算法具有多維特征提取能力,能從大量樣本中學(xué)習(xí)避碰模型及評價函數(shù),而且具備良好的泛化應(yīng)用能力[11-14],其采用的DQN(deepQnetwork)算法可根據(jù)不同應(yīng)用環(huán)境選擇合適的避碰策略[15-16],較現(xiàn)有的避碰算法有明顯的優(yōu)勢。但DDPG訓(xùn)練收斂速度慢[17],訓(xùn)練過程所采用的經(jīng)驗(yàn)池隨機(jī)采樣方式一定程度上降低了有效樣本數(shù)據(jù)的利用率。針對此問題,陳希亮等[18]優(yōu)化了優(yōu)先緩存經(jīng)驗(yàn)回放機(jī)制,提高了有效數(shù)據(jù)在學(xué)習(xí)時被選中的概率,提升了算法的學(xué)習(xí)效率。
但上述對經(jīng)驗(yàn)池回放機(jī)制的改進(jìn)大都集中在提高樣本的利用率方面,而忽略了智能體盲目探索時造成有效數(shù)據(jù)不足的問題。鑒于以上存在的不足之處,本文將提出基于失敗區(qū)域重點(diǎn)學(xué)習(xí)的DDPG算法改進(jìn)策略,在訓(xùn)練過程中的失敗區(qū)域擴(kuò)大探索的隨機(jī)性,有針對性地收集該區(qū)域的學(xué)習(xí)樣本,提高避碰學(xué)習(xí)效率。同時,提出根據(jù)游船特征改進(jìn)的船舶領(lǐng)域模型參數(shù)等方法,保障領(lǐng)域模型的正確性,進(jìn)一步提高路徑預(yù)測的準(zhǔn)確性。
1游船航道環(huán)境下的船舶領(lǐng)域模型
船舶領(lǐng)域模型被廣泛應(yīng)用于船舶的避碰分析中。上世紀(jì)60~70年代,F(xiàn)ujii等[19-20]提出了船舶領(lǐng)域的概念,將其定義為“絕大部分后續(xù)船舶駕駛?cè)藛T避免侵入前一艘船舶周圍的領(lǐng)域”。我國內(nèi)河流域水道狹窄彎曲,藤井(Fujii)提出的狹窄水域船舶領(lǐng)域模型對內(nèi)河貨船有著較好的適用性。本文的研究內(nèi)容主要應(yīng)用于周莊客貨混合航道,航道長約1.5km,寬約130m。周莊水域中貨船平均長寬為43和7m,游船平均長寬為24和6m。
由于游船與貨船在長寬比、尺度以及駕駛規(guī)范方面存在的差異,藤井狹窄船舶領(lǐng)域模型難以準(zhǔn)確適用于游船。為進(jìn)一步提高游船避碰路徑規(guī)劃的精度,本文在藤井狹窄船舶領(lǐng)域模型的基礎(chǔ)上采用數(shù)據(jù)統(tǒng)計(jì)方式建立了游船的船舶領(lǐng)域改進(jìn)模型。傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)主要依賴于船舶自動識別(AIS)系統(tǒng),AIS系統(tǒng)雖能提供大量的船舶數(shù)據(jù),但也存在覆蓋率不足的問題,例如在游船水域存在大量未安裝AIS系統(tǒng)的漁船。
由其確定的橢圓區(qū)域?yàn)橛未拇邦I(lǐng)域范圍,橢圓船舶領(lǐng)域的長半軸為60.3m,短半軸為25.2m。藤井狹窄水域船舶領(lǐng)域的長軸為船長的6倍,短軸為船長的1.6倍,基于藤井模型的游船領(lǐng)域長軸為144m,短軸為38.4m,相較于傳統(tǒng)藤井船舶領(lǐng)域模型,改進(jìn)后的游船領(lǐng)域模型長軸更短,長寬比更小,體現(xiàn)出游船慣性小、駕駛更加靈活的特性,所以基于最大密度法改進(jìn)的游船領(lǐng)域模型更符合游船航行的特征。
2DDPG船舶避碰路徑規(guī)劃算法設(shè)計(jì)
strtatst+1rt+1DDPG是基于Actor-Critic框架的深度確定性策略梯度(deepdeterministicpolicygradient)算法,其可有效解決復(fù)雜物理系統(tǒng)的控制和決策問題。強(qiáng)化學(xué)習(xí)智能體與系統(tǒng)環(huán)境交互的過程中,智能體根據(jù)當(dāng)前狀態(tài)和環(huán)境獎勵值選擇下一步動作,達(dá)到新的狀態(tài)以及獲取環(huán)境獎勵值;而智能體根據(jù)當(dāng)前狀態(tài),以最大化獎勵期望值為目標(biāo),在與實(shí)際環(huán)境交互過程中不斷學(xué)習(xí)并改進(jìn)動作策略,其中DDPG使用深度神經(jīng)網(wǎng)絡(luò)擬合策略和價值函數(shù),運(yùn)用經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)技術(shù)提高算法的收斂性與穩(wěn)定性。
本文的防碰撞系統(tǒng)通過AIS系統(tǒng)實(shí)時讀取水域內(nèi)所有船舶的真實(shí)經(jīng)緯度信息,并同步到電子海圖中。游船智能體依據(jù)當(dāng)前周圍船舶的分布及航道走向、長寬等信息來規(guī)劃航線。當(dāng)游船智能體規(guī)劃的未來航線不可避免地與其他船舶發(fā)生碰撞時,防碰撞系統(tǒng)將給出告警提示,指揮中心調(diào)度員將對目標(biāo)船舶進(jìn)行緊急調(diào)度,通過預(yù)測航線實(shí)現(xiàn)船舶碰撞提前預(yù)警、緊急調(diào)度的功能,從而進(jìn)一步保障游船的航行安全。本文模擬的船舶智能體主要通過DDPG算法對周圍水域環(huán)境數(shù)據(jù)進(jìn)行處理,輸出船舶未來最佳行駛路徑。DDPG算法的設(shè)計(jì)主要包括在船舶避碰路徑規(guī)劃過程中的狀態(tài)設(shè)計(jì)、船舶動作設(shè)計(jì)和所獲獎勵值的設(shè)計(jì)。
1)DDPG算法的狀態(tài)設(shè)計(jì)。強(qiáng)化學(xué)習(xí)中智能體在決策時需要參考當(dāng)前智能體自身狀態(tài)及環(huán)境因素。船舶要從當(dāng)前位置駛向目標(biāo)點(diǎn),避碰算法模型需考慮船舶當(dāng)前的位置、速度、航向、目標(biāo)點(diǎn)位置以及與周圍障礙物之間的距離和方位等信息。在船舶避碰仿真環(huán)境中,船舶的位置、速度及航向通過AIS系統(tǒng)獲得;目標(biāo)點(diǎn)位置的選取依賴于航行水域的環(huán)境信息;對于障礙物和其他船的船舶方位、距離等信息,采用模擬雷達(dá)的方式掃描周圍環(huán)境獲得。
2)DDPG算法的動作設(shè)計(jì)。在航行過程中遇到其他船舶或障礙物時,駕駛員通常采取改變航向的方式以避碰。船舶需要在舵的控制下才能改變航向。本文在仿真環(huán)境中設(shè)定船舶單位時間航向變化量在到之間。通過對船舶進(jìn)行直角轉(zhuǎn)彎過程的實(shí)測數(shù)據(jù)分析,航向角變化約為1(°)/s。因此,本文將設(shè)置為1°,使船舶智能體的轉(zhuǎn)向輸出更貼近實(shí)際情況。
3)DDPG算法的獎勵值設(shè)計(jì)。船舶避碰路徑規(guī)劃過程可以分為2個部分:一是船舶周圍無危險障礙物時駛向目標(biāo)點(diǎn);二是船舶存在碰撞危險時進(jìn)行避碰路徑規(guī)劃。本文使用的DDPG算法的獎勵函數(shù)設(shè)計(jì)分別圍繞以上內(nèi)容展開。
3DDPG算法改進(jìn)
3.1基于失敗區(qū)域重點(diǎn)學(xué)習(xí)的改進(jìn)DDPG算法
受人類學(xué)習(xí)過程的啟發(fā),針對智能體盲目探索時造成有效數(shù)據(jù)不足的問題,有學(xué)者提出了失敗區(qū)域重點(diǎn)學(xué)習(xí)方法,該方法有以下幾個要點(diǎn):
1)失敗區(qū)域的反復(fù)試錯學(xué)習(xí)。前期DDPG探索中,通過在行為的確定性策略上添加高斯噪聲來使算法實(shí)現(xiàn)探索的隨機(jī)性。
2)經(jīng)驗(yàn)池分類。為進(jìn)一步增強(qiáng)算法對學(xué)習(xí)樣本中有用數(shù)據(jù)的利用效率,本文采用了經(jīng)驗(yàn)池分類的方法將主經(jīng)驗(yàn)池A的樣本數(shù)據(jù)分為2類:常規(guī)樣本經(jīng)驗(yàn)池和重點(diǎn)區(qū)域樣本經(jīng)驗(yàn)池。其中,常規(guī)樣本經(jīng)驗(yàn)池為正常探索時獲得的樣本數(shù)據(jù),重點(diǎn)區(qū)域樣本經(jīng)驗(yàn)池為單獨(dú)經(jīng)驗(yàn)池B復(fù)制過來的反復(fù)試錯的樣本數(shù)據(jù)。
3.2改進(jìn)算法會遇仿真實(shí)驗(yàn)
船舶在航行中會存在與其他船舶航線會遇的情況,這會增加碰撞風(fēng)險。本文通過DDPG算法建立船舶會遇避碰路徑規(guī)劃模型,實(shí)現(xiàn)了船舶在會遇時的避碰路徑規(guī)劃,從而可以保障船舶航行安全。
3.3原始與改進(jìn)的DDPG算法比較
為驗(yàn)證改進(jìn)算法的有效性,本文分別從學(xué)習(xí)速率和學(xué)習(xí)效果這兩個方面對原始算法和改進(jìn)算法進(jìn)行比較。其中,對學(xué)習(xí)速率的比較主要依據(jù)計(jì)算達(dá)到相同正確率的訓(xùn)練迭代次數(shù);對學(xué)習(xí)效果的比較主要通過每步平均獎勵值,每步平均獎勵值越大表示學(xué)習(xí)效果越好。
4結(jié) 語
本文將深度強(qiáng)化學(xué)習(xí)的DDPG算法與船舶領(lǐng)域模型相結(jié)合,利用改進(jìn)的游船船舶領(lǐng)域模型,提出了基于失敗區(qū)域重點(diǎn)學(xué)習(xí)的DDPG算法改進(jìn)策略。通過仿真實(shí)驗(yàn)表明,基于失敗區(qū)域重點(diǎn)學(xué)習(xí)的改進(jìn)DDPG算法無論是在學(xué)習(xí)速率,還是在學(xué)習(xí)效果方面都優(yōu)于原始的DDPG算法。通過對改進(jìn)的算法預(yù)測路徑與真實(shí)航跡的比較,結(jié)果顯示,改進(jìn)算法獲得的航跡點(diǎn)平均距離偏差降低了15.1%,轉(zhuǎn)向正確率提高了4.8%。將改進(jìn)DDPG算法和游船船舶領(lǐng)域模型運(yùn)用于周莊水域,實(shí)現(xiàn)了對游船的避碰路徑規(guī)劃,驗(yàn)證了改進(jìn)算法在真實(shí)水域環(huán)境下的可行性。
參考文獻(xiàn):
吳飛,李志特.新時期中國內(nèi)河航運(yùn)發(fā)展問題分析[J].珠江水運(yùn),2020(15):87–88.WUF,LIZT.AnalysisofthesustainabledevelopmentofChina'sinlandriverinthenewera[J].PearlRiverWaterTransport,2020(15):87–88(inChinese).
[1]童霖.內(nèi)河船舶避碰事故調(diào)查處理要點(diǎn)[C]//中國航海學(xué)會內(nèi)河船舶駕駛專業(yè)委員會橋區(qū)船舶航行安全與管理學(xué)術(shù)會議論文集.珠海:中國航海學(xué)會,2010:3.TONGL.Keypointsofinvestigationandhandlingofinlandwatercraftcollisionavoidanceaccidents[C]//PapersonNavigationSafetyandManagementinBridgeArea(1).Zhuhai:ChinaNauticalSociety,2010:3(inChinese).
[2]倪生科,劉正江,蔡垚,等.基于遺傳算法的船舶避碰決策輔助[J].上海海事大學(xué)學(xué)報,2017,38(1):12–15.NISK,LIUZJ,CAIY,etal.Shipcollisionavoidancedecisionaidsbasedongeneticalgorithm[J].JournalofShanghaiMaritimeUniversity,2017,38(1):12–15(inChinese).
[3]倪生科,劉正江,蔡垚,等.基于混合遺傳算法的船舶避碰路徑規(guī)劃[J].上海海事大學(xué)學(xué)報,2019,40(1):21–26.
作者:周怡,袁傳平,謝海成,羊箭鋒
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/28954.html