本文摘要:摘要:[目的]作為船舶航行安全的核心問題,若船舶避碰完全依賴船長的個人狀態(tài)和判斷將存在一定的安全隱患。為了統(tǒng)籌關(guān)鍵水域上所有船舶(游船、貨船等)并進行路徑預測,需要建立防碰撞預警機制。[方法]利用深度確定性策略梯度(DDPG)算法和船舶領(lǐng)域模型,采用電子海圖模擬
摘要:[目的]作為船舶航行安全的核心問題,若船舶避碰完全依賴船長的個人狀態(tài)和判斷將存在一定的安全隱患。為了統(tǒng)籌關(guān)鍵水域上所有船舶(游船、貨船等)并進行路徑預測,需要建立防碰撞預警機制。[方法]利用深度確定性策略梯度(DDPG)算法和船舶領(lǐng)域模型,采用電子海圖模擬船舶的航行路徑,提出基于失敗區(qū)域重點學習的DDPG算法改進策略,并針對游船特點改進的船舶領(lǐng)域模型參數(shù)等改進方法,提高航線預測和防碰撞準確率。[結(jié)果]使用改進的DDPG算法和改進的船舶領(lǐng)域模型,與未改進前的算法相比,船舶避碰正確率由84.9%升至89.7%,模擬航線與真實航線的平均誤差由25.2m降至21.4m。[結(jié)論]通過基于改進的DDPG算法和改進的船舶領(lǐng)域模型開展船舶避碰路徑規(guī)劃,可以實現(xiàn)水域船舶航線監(jiān)管功能,且當預測航線與其他船舶存在交會時,告警調(diào)度人員,從而實現(xiàn)防碰撞預警機制。
關(guān)鍵詞:混合航道;船舶領(lǐng)域;船舶避碰;深度確定性策略梯度算法;失敗區(qū)域探索策略
0引 言
本文主要研究周莊水域的船舶航行安全。由于該水域急水港航道由4級升為3級,通行的各類貨船無論是數(shù)量還是噸位都有明顯的增加,而游船進出港穿越航道并與貨船共線航行會增加游船的碰撞風險,人為駕駛因素也會引發(fā)碰撞事故,進而造成嚴重的經(jīng)濟損失和人員傷亡[1-2]。
船舶論文范例: 環(huán)保新政下的內(nèi)河船舶用油分析
因此,開展船舶避碰研究,對推動水運行業(yè)安全發(fā)展具有積極意義,F(xiàn)有的船舶避碰算法,例如遺傳算法[3-4]、粒子群算法以及蟻群算法[5-6]等,都存在實時性差的問題,因為無法預先從樣本數(shù)據(jù)中建立模型,所以在應(yīng)用過程中需要重復進行路徑優(yōu)化搜索過程,造成大量無用的計算,且其依賴的評價函數(shù)較簡單,在不同水域應(yīng)用環(huán)境下的魯棒性較差。所以,船舶避碰算法需能夠從大量經(jīng)驗數(shù)據(jù)中學習避碰策略,同時保證在未知環(huán)境下依然可以保證避碰策略的準確性[7-10]。
DDPG算法具有多維特征提取能力,能從大量樣本中學習避碰模型及評價函數(shù),而且具備良好的泛化應(yīng)用能力[11-14],其采用的DQN(deepQnetwork)算法可根據(jù)不同應(yīng)用環(huán)境選擇合適的避碰策略[15-16],較現(xiàn)有的避碰算法有明顯的優(yōu)勢。但DDPG訓練收斂速度慢[17],訓練過程所采用的經(jīng)驗池隨機采樣方式一定程度上降低了有效樣本數(shù)據(jù)的利用率。針對此問題,陳希亮等[18]優(yōu)化了優(yōu)先緩存經(jīng)驗回放機制,提高了有效數(shù)據(jù)在學習時被選中的概率,提升了算法的學習效率。
但上述對經(jīng)驗池回放機制的改進大都集中在提高樣本的利用率方面,而忽略了智能體盲目探索時造成有效數(shù)據(jù)不足的問題。鑒于以上存在的不足之處,本文將提出基于失敗區(qū)域重點學習的DDPG算法改進策略,在訓練過程中的失敗區(qū)域擴大探索的隨機性,有針對性地收集該區(qū)域的學習樣本,提高避碰學習效率。同時,提出根據(jù)游船特征改進的船舶領(lǐng)域模型參數(shù)等方法,保障領(lǐng)域模型的正確性,進一步提高路徑預測的準確性。
1游船航道環(huán)境下的船舶領(lǐng)域模型
船舶領(lǐng)域模型被廣泛應(yīng)用于船舶的避碰分析中。上世紀60~70年代,F(xiàn)ujii等[19-20]提出了船舶領(lǐng)域的概念,將其定義為“絕大部分后續(xù)船舶駕駛?cè)藛T避免侵入前一艘船舶周圍的領(lǐng)域”。我國內(nèi)河流域水道狹窄彎曲,藤井(Fujii)提出的狹窄水域船舶領(lǐng)域模型對內(nèi)河貨船有著較好的適用性。本文的研究內(nèi)容主要應(yīng)用于周莊客貨混合航道,航道長約1.5km,寬約130m。周莊水域中貨船平均長寬為43和7m,游船平均長寬為24和6m。
由于游船與貨船在長寬比、尺度以及駕駛規(guī)范方面存在的差異,藤井狹窄船舶領(lǐng)域模型難以準確適用于游船。為進一步提高游船避碰路徑規(guī)劃的精度,本文在藤井狹窄船舶領(lǐng)域模型的基礎(chǔ)上采用數(shù)據(jù)統(tǒng)計方式建立了游船的船舶領(lǐng)域改進模型。傳統(tǒng)的數(shù)據(jù)統(tǒng)計主要依賴于船舶自動識別(AIS)系統(tǒng),AIS系統(tǒng)雖能提供大量的船舶數(shù)據(jù),但也存在覆蓋率不足的問題,例如在游船水域存在大量未安裝AIS系統(tǒng)的漁船。
由其確定的橢圓區(qū)域為游船的船舶領(lǐng)域范圍,橢圓船舶領(lǐng)域的長半軸為60.3m,短半軸為25.2m。藤井狹窄水域船舶領(lǐng)域的長軸為船長的6倍,短軸為船長的1.6倍,基于藤井模型的游船領(lǐng)域長軸為144m,短軸為38.4m,相較于傳統(tǒng)藤井船舶領(lǐng)域模型,改進后的游船領(lǐng)域模型長軸更短,長寬比更小,體現(xiàn)出游船慣性小、駕駛更加靈活的特性,所以基于最大密度法改進的游船領(lǐng)域模型更符合游船航行的特征。
2DDPG船舶避碰路徑規(guī)劃算法設(shè)計
strtatst+1rt+1DDPG是基于Actor-Critic框架的深度確定性策略梯度(deepdeterministicpolicygradient)算法,其可有效解決復雜物理系統(tǒng)的控制和決策問題。強化學習智能體與系統(tǒng)環(huán)境交互的過程中,智能體根據(jù)當前狀態(tài)和環(huán)境獎勵值選擇下一步動作,達到新的狀態(tài)以及獲取環(huán)境獎勵值;而智能體根據(jù)當前狀態(tài),以最大化獎勵期望值為目標,在與實際環(huán)境交互過程中不斷學習并改進動作策略,其中DDPG使用深度神經(jīng)網(wǎng)絡(luò)擬合策略和價值函數(shù),運用經(jīng)驗回放和目標網(wǎng)絡(luò)技術(shù)提高算法的收斂性與穩(wěn)定性。
本文的防碰撞系統(tǒng)通過AIS系統(tǒng)實時讀取水域內(nèi)所有船舶的真實經(jīng)緯度信息,并同步到電子海圖中。游船智能體依據(jù)當前周圍船舶的分布及航道走向、長寬等信息來規(guī)劃航線。當游船智能體規(guī)劃的未來航線不可避免地與其他船舶發(fā)生碰撞時,防碰撞系統(tǒng)將給出告警提示,指揮中心調(diào)度員將對目標船舶進行緊急調(diào)度,通過預測航線實現(xiàn)船舶碰撞提前預警、緊急調(diào)度的功能,從而進一步保障游船的航行安全。本文模擬的船舶智能體主要通過DDPG算法對周圍水域環(huán)境數(shù)據(jù)進行處理,輸出船舶未來最佳行駛路徑。DDPG算法的設(shè)計主要包括在船舶避碰路徑規(guī)劃過程中的狀態(tài)設(shè)計、船舶動作設(shè)計和所獲獎勵值的設(shè)計。
1)DDPG算法的狀態(tài)設(shè)計。強化學習中智能體在決策時需要參考當前智能體自身狀態(tài)及環(huán)境因素。船舶要從當前位置駛向目標點,避碰算法模型需考慮船舶當前的位置、速度、航向、目標點位置以及與周圍障礙物之間的距離和方位等信息。在船舶避碰仿真環(huán)境中,船舶的位置、速度及航向通過AIS系統(tǒng)獲得;目標點位置的選取依賴于航行水域的環(huán)境信息;對于障礙物和其他船的船舶方位、距離等信息,采用模擬雷達的方式掃描周圍環(huán)境獲得。
2)DDPG算法的動作設(shè)計。在航行過程中遇到其他船舶或障礙物時,駕駛員通常采取改變航向的方式以避碰。船舶需要在舵的控制下才能改變航向。本文在仿真環(huán)境中設(shè)定船舶單位時間航向變化量在到之間。通過對船舶進行直角轉(zhuǎn)彎過程的實測數(shù)據(jù)分析,航向角變化約為1(°)/s。因此,本文將設(shè)置為1°,使船舶智能體的轉(zhuǎn)向輸出更貼近實際情況。
3)DDPG算法的獎勵值設(shè)計。船舶避碰路徑規(guī)劃過程可以分為2個部分:一是船舶周圍無危險障礙物時駛向目標點;二是船舶存在碰撞危險時進行避碰路徑規(guī)劃。本文使用的DDPG算法的獎勵函數(shù)設(shè)計分別圍繞以上內(nèi)容展開。
3DDPG算法改進
3.1基于失敗區(qū)域重點學習的改進DDPG算法
受人類學習過程的啟發(fā),針對智能體盲目探索時造成有效數(shù)據(jù)不足的問題,有學者提出了失敗區(qū)域重點學習方法,該方法有以下幾個要點:
1)失敗區(qū)域的反復試錯學習。前期DDPG探索中,通過在行為的確定性策略上添加高斯噪聲來使算法實現(xiàn)探索的隨機性。
2)經(jīng)驗池分類。為進一步增強算法對學習樣本中有用數(shù)據(jù)的利用效率,本文采用了經(jīng)驗池分類的方法將主經(jīng)驗池A的樣本數(shù)據(jù)分為2類:常規(guī)樣本經(jīng)驗池和重點區(qū)域樣本經(jīng)驗池。其中,常規(guī)樣本經(jīng)驗池為正常探索時獲得的樣本數(shù)據(jù),重點區(qū)域樣本經(jīng)驗池為單獨經(jīng)驗池B復制過來的反復試錯的樣本數(shù)據(jù)。
3.2改進算法會遇仿真實驗
船舶在航行中會存在與其他船舶航線會遇的情況,這會增加碰撞風險。本文通過DDPG算法建立船舶會遇避碰路徑規(guī)劃模型,實現(xiàn)了船舶在會遇時的避碰路徑規(guī)劃,從而可以保障船舶航行安全。
3.3原始與改進的DDPG算法比較
為驗證改進算法的有效性,本文分別從學習速率和學習效果這兩個方面對原始算法和改進算法進行比較。其中,對學習速率的比較主要依據(jù)計算達到相同正確率的訓練迭代次數(shù);對學習效果的比較主要通過每步平均獎勵值,每步平均獎勵值越大表示學習效果越好。
4結(jié) 語
本文將深度強化學習的DDPG算法與船舶領(lǐng)域模型相結(jié)合,利用改進的游船船舶領(lǐng)域模型,提出了基于失敗區(qū)域重點學習的DDPG算法改進策略。通過仿真實驗表明,基于失敗區(qū)域重點學習的改進DDPG算法無論是在學習速率,還是在學習效果方面都優(yōu)于原始的DDPG算法。通過對改進的算法預測路徑與真實航跡的比較,結(jié)果顯示,改進算法獲得的航跡點平均距離偏差降低了15.1%,轉(zhuǎn)向正確率提高了4.8%。將改進DDPG算法和游船船舶領(lǐng)域模型運用于周莊水域,實現(xiàn)了對游船的避碰路徑規(guī)劃,驗證了改進算法在真實水域環(huán)境下的可行性。
參考文獻:
吳飛,李志特.新時期中國內(nèi)河航運發(fā)展問題分析[J].珠江水運,2020(15):87–88.WUF,LIZT.AnalysisofthesustainabledevelopmentofChina'sinlandriverinthenewera[J].PearlRiverWaterTransport,2020(15):87–88(inChinese).
[1]童霖.內(nèi)河船舶避碰事故調(diào)查處理要點[C]//中國航海學會內(nèi)河船舶駕駛專業(yè)委員會橋區(qū)船舶航行安全與管理學術(shù)會議論文集.珠海:中國航海學會,2010:3.TONGL.Keypointsofinvestigationandhandlingofinlandwatercraftcollisionavoidanceaccidents[C]//PapersonNavigationSafetyandManagementinBridgeArea(1).Zhuhai:ChinaNauticalSociety,2010:3(inChinese).
[2]倪生科,劉正江,蔡垚,等.基于遺傳算法的船舶避碰決策輔助[J].上海海事大學學報,2017,38(1):12–15.NISK,LIUZJ,CAIY,etal.Shipcollisionavoidancedecisionaidsbasedongeneticalgorithm[J].JournalofShanghaiMaritimeUniversity,2017,38(1):12–15(inChinese).
[3]倪生科,劉正江,蔡垚,等.基于混合遺傳算法的船舶避碰路徑規(guī)劃[J].上海海事大學學報,2019,40(1):21–26.
作者:周怡,袁傳平,謝海成,羊箭鋒
轉(zhuǎn)載請注明來自發(fā)表學術(shù)論文網(wǎng):http:///jjlw/28954.html