<dd id="saiiy"></dd>
  1. <s id="saiiy"></s>

    1. <s id="saiiy"></s>
      1. <span id="saiiy"><blockquote id="saiiy"></blockquote></span>

        基于深度強化學(xué)習的智能網(wǎng)聯(lián)車(chē)輛換道軌跡規劃方法

        發(fā)布時(shí)間:2025-05-29 04:04:18   來(lái)源:心得體會(huì )    點(diǎn)擊:   
        字號:

        馮 耀,景首才,3*,惠 飛,趙祥模,劉建蓓

        (1.長(cháng)安大學(xué) 信息工程學(xué)院,陜西 710064,中國;
        2.交通運輸部交通安全與應急保障技術(shù)行業(yè)研發(fā)中心,陜西 710075,中國;
        3.中交第一公路勘察設計研究院有限公司,陜西 710075,中國)

        智能網(wǎng)聯(lián)車(chē)輛搭載先進(jìn)的感知設備,融合無(wú)線(xiàn)通信技術(shù),實(shí)現車(chē)與車(chē)、車(chē)與路的信息共享,利用合理的決策規劃與控制方法,可以提高車(chē)輛的安全性,減少擁堵和提升駕乘舒適性,因此相關(guān)的自動(dòng)駕駛運動(dòng)決策規劃方法成為近年來(lái)的研究熱點(diǎn)[1-2]。換道是車(chē)輛行駛過(guò)程中的一項基本任務(wù),對車(chē)輛的安全行駛起著(zhù)非常重要的作用,同時(shí)也是智能網(wǎng)聯(lián)車(chē)輛的關(guān)鍵技術(shù)之一[3]。隨著(zhù)車(chē)輛智能化水平的提高,兼顧安全與交通效能的車(chē)輛變道決策規劃逐漸成為智能網(wǎng)聯(lián)車(chē)輛變道研究的熱點(diǎn)之一[4]。

        現有的智能網(wǎng)聯(lián)車(chē)輛的換道軌跡規劃方法主要包括3 類(lèi):基于采樣和搜索的算法、基于幾何曲線(xiàn)函數的算法、基于優(yōu)化的控制算法?;诓蓸雍退阉鞯某R?jiàn)方法有快速擴展隨機樹(shù)法(rapid-exploration random tree,RRT)[5]、Dijkstra 算法[6]、A*算法[7]等。張衛波等[8]提出的改進(jìn)RRT 算法,解決了RRT 算法采樣效率低下的問(wèn)題,提高了路徑規劃的效果。這類(lèi)方法適用范圍較大,但其采樣過(guò)程復雜且計算量大,在規劃期間未能考慮汽車(chē)的動(dòng)力學(xué)等約束。

        基于幾何曲線(xiàn)函數的軌跡規劃方法主要有多項式曲線(xiàn)[9]、螺旋線(xiàn)[10]、B 樣條曲線(xiàn)[11]、Bezier 曲線(xiàn)[12]等。陳成等[12]將曲率約束、速度約束和加速度約束考慮進(jìn)四階Bezier 曲線(xiàn),生成了滿(mǎn)足實(shí)時(shí)性和有效果性的軌跡?;趲缀吻€(xiàn)函數的方法進(jìn)行軌跡規劃,其優(yōu)點(diǎn)是方便構建和插入新的路徑點(diǎn)集,使得到的參考軌跡更加平滑連續,但是其路徑的優(yōu)化性并不能得到保證。

        基于優(yōu)化的控制算法是將軌跡規劃作為一個(gè)優(yōu)化問(wèn)題,將車(chē)輛的期望狀態(tài)作為優(yōu)化目標,從而得到最優(yōu)軌跡。徐揚等[13]將行車(chē)環(huán)境勢場(chǎng)作為模型預測控制的優(yōu)化目標,生成最優(yōu)參考軌跡,實(shí)現對無(wú)人車(chē)的縱橫向控制。江浩斌等[14]結合實(shí)際駕駛人變道數據,研究了基于自適應偽普法的變道切入點(diǎn)選擇優(yōu)化方法?;趦?yōu)化的控制算法考慮了車(chē)輛的運動(dòng)學(xué)和動(dòng)力學(xué)約束,可實(shí)現多優(yōu)化目標問(wèn)題的求解,但面對精度要求較高的模型時(shí)其計算時(shí)效較低。

        換道軌跡規劃是一個(gè)考慮時(shí)間的序貫決策問(wèn)題,完成換道過(guò)程中的每一步都是決策的結果,共同構成該換道問(wèn)題的解,從而實(shí)現軌跡規劃,相較于上述傳統的換道決策軌跡規劃方法,在解決具有復雜時(shí)序交互特點(diǎn)的車(chē)輛換道軌跡規劃問(wèn)題時(shí),深度強化學(xué)習方法更具有優(yōu)勢[15]。

        目前,強化學(xué)習已經(jīng)被廣泛應用到車(chē)輛自動(dòng)駕駛領(lǐng)域[16]。文獻[17-18]采用改進(jìn)深度Q 網(wǎng)絡(luò )(deep Q-network,DQN 算法實(shí)現了自動(dòng)駕駛車(chē)輛的換道決策。PENG Baiyu 等[19]使用深度雙Q 網(wǎng)絡(luò )(dueling double deep Q-network,DDDQN)網(wǎng)絡(luò ),將圖像和主車(chē)速度作為狀態(tài)輸入實(shí)現了端到端的自動(dòng)駕駛。CHEN Jianyu[20]引入了潛在序貫環(huán)境模型,與強化學(xué)習相結合,在復雜的城市駕駛場(chǎng)景中取得了較好的效果。LI Guofa 等[21]建立了駕駛風(fēng)險評估的安全指標,利用深度強化學(xué)習尋找期望風(fēng)險最小的策略,生成魯棒的安全駕駛策略。當前的深度強化學(xué)習算法中,DQN 類(lèi)的算法其輸出為離散的動(dòng)作,無(wú)法應用到車(chē)輛速度、加速度等連續變量的控制中;
        谷歌DeepMind 團隊提出的DDPG 算法[22]實(shí)現了連續動(dòng)作空間的應用,但存在Q 值高估的情況,在不斷的迭代過(guò)程中會(huì )使誤差擴大,從而使得學(xué)到的策略失效。

        綜上所述,基于傳統軌跡規劃算法的劣勢以及現有強化學(xué)習算法在軌跡規劃方面的不足,本文使用雙延遲深度確定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)[23],采用裁剪雙Q 學(xué)習、目標策略噪聲處理和延遲策略網(wǎng)絡(luò )更新3 個(gè)技巧,減緩DDPG 算法Q 值高估的程度,提高算法效率。針對考慮安全與能效的智能網(wǎng)聯(lián)車(chē)輛換道時(shí)空軌跡規劃問(wèn)題,設計分層式換道決策規劃架構,解耦智能網(wǎng)聯(lián)車(chē)輛的縱橫向運動(dòng)學(xué)約束,建立縱橫向離散化的車(chē)輛運動(dòng)學(xué)模型;
        為了保障換道過(guò)程中的安全性,構建考慮安全性與高效性的換道決策博弈論模型;
        以降低燃油消耗和提高駕駛效率為目標,研究基于深度強化學(xué)習(TD3 網(wǎng)絡(luò ))的智能網(wǎng)聯(lián)車(chē)輛換道軌跡規劃方法;
        最后以3 個(gè)典型換道場(chǎng)景為仿真用例,驗證了算法的有效性。

        1.1 分層式架構設計

        智能網(wǎng)聯(lián)車(chē)輛的換道軌跡規劃,是在已知全局路徑的基礎上,結合實(shí)時(shí)車(chē)輛狀態(tài)和動(dòng)態(tài)道路交通環(huán)境信息,根據局部實(shí)際場(chǎng)景規劃出一條包含空間位置-車(chē)速映射關(guān)系的時(shí)間序列點(diǎn)集或關(guān)系式[24]。換道過(guò)程中的決策與規劃只與車(chē)輛當前狀態(tài)有關(guān),與車(chē)輛之前的歷史狀態(tài)沒(méi)有關(guān)系[25],針對這一特征,本文設計了分層式智能網(wǎng)聯(lián)車(chē)輛換道決策規劃架構,如圖1所示。

        圖1 分層式智能網(wǎng)聯(lián)車(chē)輛換道決策規劃架構

        按照信息的傳遞將車(chē)輛換道分為環(huán)境感知、行為決策層和軌跡規劃3 層。環(huán)境感知層中智能網(wǎng)聯(lián)車(chē)輛搭載了車(chē)載攝像頭、激光雷達、毫米波雷達等傳感器實(shí)現對環(huán)境信息的感知,并且能夠以L(fǎng)TE-V2X 的通信方式在低延時(shí)、無(wú)丟包的情況下獲取周?chē)?chē)輛的速度、加速度、位置等信息;
        行為決策層車(chē)輛利用純策略博弈換道決策模型,在保障安全的條件下,確定車(chē)輛行駛行為;
        軌跡規劃層利用基于深度強化學(xué)習的換道軌跡優(yōu)化算法,構建考慮換道油耗和舒適性的智能網(wǎng)聯(lián)車(chē)輛縱橫向換道軌跡。

        1.2 車(chē)輛運動(dòng)學(xué)模型

        軌跡規劃是面向車(chē)輛上層控制的運動(dòng)狀態(tài)規劃,為車(chē)輛下層跟蹤控制器提供優(yōu)化參考軌跡。因此,本文利用車(chē)輛點(diǎn)運動(dòng)模型描述車(chē)輛狀態(tài)[26],對車(chē)輛運動(dòng)學(xué)模型進(jìn)行縱橫向解耦,并以Δt為采樣時(shí)間進(jìn)行離散化,得到車(chē)輛縱橫運動(dòng)方程及約束條件如下:

        其中:vxt、vyt分別表示t時(shí)刻車(chē)輛的縱向速度和橫向速度,xt和yt分別表示t刻車(chē)輛的縱、橫坐標??v、橫向加速度axt、ayt,由每個(gè)時(shí)間步Δt中車(chē)輛與算法交互得到,vx,max和vy,max分別是縱橫向速度的最大值,xmax和ymax分別是縱橫向位置的最大值,tf為換道的完成時(shí)間。通過(guò)運動(dòng)學(xué)公式得到下一時(shí)刻車(chē)輛的位置和速度,直到車(chē)輛到達換道目標位置或駛離車(chē)道時(shí)終止狀態(tài)結束。

        車(chē)輛換道前需根據當前行駛狀態(tài)及周?chē)?chē)輛狀態(tài)在確保安全的條件下決策換道行為。換道決策是換道車(chē)輛與周?chē)?chē)輛策略博弈的一個(gè)過(guò)程,通過(guò)博弈得到使雙方的收益達到最大[27],因此本文建立了基于博弈論的智能網(wǎng)聯(lián)車(chē)輛換道決策模型。

        2.1 基于博弈論的換道決策模型

        博弈的基本要素有博弈參與者、參與者的策略集和每種策略對應的收益函數。本文建立了基于完全信息靜態(tài)純策略博弈的換道決策模型,完全信息博弈表示所有博弈參與者的物理狀態(tài)、策略空間和收益函數對于其他參與者都是透明的,純策略指的是構成的策略不考慮博弈參與者的行為概率。

        車(chē)輛換道示意圖如圖2 所示,其中M 車(chē)為換道車(chē)輛;
        Ao車(chē)和Bo車(chē)分別為原始車(chē)道前車(chē)和跟隨車(chē)輛;
        Ad車(chē)和Bd車(chē)分別為目標車(chē)道前車(chē)和跟隨車(chē)輛;
        Li,i={Ad,Bd,Ao,Bo},表示換道車(chē)輛與周?chē)?chē)輛的車(chē)頭間距。

        圖2 車(chē)輛換道示意圖

        換道時(shí)博弈的參與者為換道車(chē)輛M,目標車(chē)道跟隨車(chē)輛Bd和目標道前車(chē)Ad,換道車(chē)輛M 的策略集為Φ1={m1,m2},包括2 種純策略,其中m1表示換道,m2表示不換道;
        目標車(chē)道車(chē)輛Bd,Ad的策略集為Φ2={di1,di2},其中di1表示車(chē)輛允許換道,di2表示拒絕換道。

        以確保換道的安全性和提高換道的效率為目的,建立體現安全和駕駛效率的收益函數,以最小安全距離作為安全性的評估指標,利用當前策略完成換道所需時(shí)間與原始狀態(tài)下所需時(shí)間對比評判該策略的時(shí)效收益,使得車(chē)輛在博弈時(shí)考慮這2 個(gè)因素最終得到換道行為決策。換道車(chē)輛和目標車(chē)道車(chē)輛的收益函數定義如下:

        其中,Rsafe、Rtime,表示決策車(chē)輛考慮安全性和時(shí)效性所獲得的收益,其計算公式如(8) -(12);αs、αt分別為安全性收益和時(shí)效性收益的權重系數,αs+αt=1,代表進(jìn)行換道決策時(shí)不同駕駛因素的重要程度。

        其中Lhead為當前時(shí)刻兩車(chē)的車(chē)頭間距,Lmin為當前狀態(tài)下所需的最小安全距離(以換道車(chē)輛M 和目標車(chē)道前車(chē)Ad為例),當兩車(chē)勻速運動(dòng)時(shí),可寫(xiě)成公式(10);
        vMx和vLdx分別表示換道車(chē)輛和目標車(chē)道前車(chē)的縱向速度,aMx和aLdx為換道車(chē)輛和目標車(chē)道前車(chē)的縱向加速度。t0表示保持原狀態(tài)下達到目的地所需的時(shí)間,xtarg為換道目的點(diǎn)的縱向坐標;
        tf表示當前策略下到達換道終點(diǎn)所需要的時(shí)間,可由軌跡規劃部分得出。

        2.2 換道決策收益矩陣

        根據搭建好的博弈模型求取最優(yōu)換道決策,即達到Nash 均衡的狀態(tài)[28]。Nash 均衡是一組對于所有的博弈參與者均是最佳的策略集合,任何參與者在不選擇該策略的情況下,都不會(huì )有更佳收益。在換道博弈中,Nash 均衡可以理解為每一輛車(chē)在當前交通環(huán)境下所選擇的最優(yōu)駕駛策略,所有車(chē)都不會(huì )舍棄最優(yōu)策略去選擇其他策略。

        如在一次博弈下,有n個(gè)換道參與者,車(chē)輛的單個(gè)策略可表示為ci,其策略集和收益分別表示為Ci和Ri,則該博弈可表示為

        本文采用收益矩陣來(lái)求解換道博弈模型的最優(yōu)策略,通過(guò)式(7)分別求出換道車(chē)輛M 與目標車(chē)道車(chē)輛Ad和Bd進(jìn)行博弈時(shí)的博弈收益,換道車(chē)輛的收益用RM表示,目標車(chē)道車(chē)輛的收益用RD表示,如RM(di1,m1)表示換道車(chē)輛選擇“換道”策略,目標車(chē)道車(chē)輛選擇“允許換道”策略而得到的收益,列出博弈收益矩陣,如表1 所示。

        表1 博弈收益矩陣

        表1 中,換道車(chē)輛與目標車(chē)道前車(chē)和跟隨車(chē)分別進(jìn)行博弈,得到4 種博弈結果為:換道車(chē)輛進(jìn)行換道,目標車(chē)道車(chē)輛允許換道;
        換道車(chē)輛進(jìn)行換道,目標車(chē)道車(chē)輛拒絕換道;
        換道車(chē)輛不換道,目標車(chē)道車(chē)輛允許換道;
        換道車(chē)輛不換道,目標車(chē)道車(chē)輛拒絕換道。只有換道車(chē)輛選擇“換道”策略,且目標車(chē)道前后車(chē)都做出“允許換道”的策略時(shí),才能成功執行換道。

        計算出每種策略下?lián)Q道車(chē)輛和目標車(chē)道車(chē)輛考慮安全性和時(shí)效性的收益值,得到博弈收益矩陣,如果博弈矩陣中存在某一純策略(din,mn)使得下式(15)成立,則稱(chēng)(din,mn)為當前博弈的純策略Nash 均衡。即為當前環(huán)境下車(chē)輛做出的最優(yōu)換道決策,根據此決策確定所需求解的換道軌跡規劃子問(wèn)題,如左換道、右換道、車(chē)道保持(不換道)。

        3.1 強化學(xué)習

        強化學(xué)習是一種典型的經(jīng)驗驅動(dòng)、自主學(xué)習的方法,用來(lái)解決序貫決策的問(wèn)題,換道問(wèn)題可以用Markov 決策過(guò)程(Markov decision process,MDP)進(jìn)行建模,其主要元素為S,A,P,R,γ,智能體的狀態(tài)集用S 表示;
        決策所產(chǎn)生的動(dòng)作構成動(dòng)作集A;
        P表示當前狀態(tài)轉移到下一狀態(tài)的概率;
        R 為獎勵集;
        γ為獎勵折扣因子,其值越大,在進(jìn)行策略選擇時(shí)越具有全局性,反之則只考慮當前收益。強化學(xué)習的最優(yōu)策略π*滿(mǎn)足如下條件[29],即:

        本文使用TD3 網(wǎng)絡(luò )框架作為智能網(wǎng)聯(lián)車(chē)輛換道軌跡規劃的架構,TD3 算法沿用Actor-Critic 類(lèi)算法的網(wǎng)絡(luò )框架,使用Actor 網(wǎng)絡(luò )進(jìn)行策略的選擇,Critic網(wǎng)絡(luò )對狀態(tài)-動(dòng)作(state-action)對進(jìn)行評估,能夠處理連續狀態(tài)空間和動(dòng)作空間的問(wèn)題,將車(chē)輛的當前狀態(tài)作為Actor 網(wǎng)絡(luò )的輸入,輸出為車(chē)輛執行的動(dòng)作at,Critic 網(wǎng)絡(luò )以車(chē)輛當前狀態(tài)st和動(dòng)作at作為輸入,輸出為累計獎勵的期望Qπ(st,at) (以下用Q值描述)。

        表示成遞歸的Bellman 方程形式為

        Critic 網(wǎng)絡(luò )通過(guò)最小化損失函數Loss 進(jìn)行更新:

        Actor 網(wǎng)絡(luò )通過(guò)策略梯度進(jìn)行更新:

        TD3 算法在DDPG 基礎上,使用兩個(gè)策略評估Critic 網(wǎng)絡(luò )計算Q值,如式(20),在進(jìn)行Critic 網(wǎng)絡(luò )的梯度更新時(shí),選取二者的較小值,以減緩過(guò)估計問(wèn)題;
        對目標動(dòng)作的計算添加基于正態(tài)分布的噪聲,使得Q值函數更新更加平滑;
        延遲更新策略網(wǎng)絡(luò )使得Q值的評估更穩定?;赥D3 的智能網(wǎng)聯(lián)車(chē)輛換道軌跡規劃架構如圖3 所示。

        圖3 基于TD3 的智能網(wǎng)聯(lián)車(chē)輛換道軌跡規劃架構

        3.2 基于TD3 網(wǎng)絡(luò )的智能網(wǎng)聯(lián)車(chē)輛換道軌跡規劃問(wèn)題建模

        智能網(wǎng)聯(lián)車(chē)輛換道問(wèn)題的交互過(guò)程如下:假設車(chē)輛在t時(shí)刻的狀態(tài)為st,Actor 網(wǎng)絡(luò )輸入st,輸出當前時(shí)刻的動(dòng)作選擇at,與環(huán)境進(jìn)行交互得到車(chē)輛下一狀態(tài)st+1和采取本次動(dòng)作的獎勵rt,將每一步采集的樣本(st,at,rt,st+1)進(jìn)行存儲,車(chē)輛通過(guò)與環(huán)境不斷交互-探索產(chǎn)生大量的數據,TD3 算法則從這些數據中采樣進(jìn)行訓練,在考慮油耗和舒適性的情況下不斷優(yōu)化策略選擇網(wǎng)絡(luò )和策略評估網(wǎng)絡(luò ),得到整個(gè)換道過(guò)程中的車(chē)輛加、減速決策序列和車(chē)輛狀態(tài)序列。

        針對基于TD3 算法的智能網(wǎng)聯(lián)車(chē)輛換道問(wèn)題的軌跡規劃模型,設計其狀態(tài)、動(dòng)作和獎勵函數。

        3.2.1 狀態(tài)空間

        狀態(tài)空間中包含智能網(wǎng)聯(lián)車(chē)輛換道所需要的全部信息,每個(gè)時(shí)刻都需要獲取當前車(chē)輛的縱坐標xt,橫坐標yt,縱向速度vxt,橫向速度vyt。每一時(shí)刻的狀態(tài)用一個(gè)四元組表示,st=[xt,vxt;yt,vyt]。

        3.2.2 動(dòng)作空間

        動(dòng)作空間主要定義智能網(wǎng)聯(lián)車(chē)輛所采取的動(dòng)作,結合車(chē)輛運動(dòng)學(xué)縱橫向解耦狀態(tài)方程(1-4),用縱橫向加速度作為智能網(wǎng)聯(lián)車(chē)輛的動(dòng)作,考慮駕駛的舒適性[30],縱向加速度axt的取值范圍設定為[-2,2] m/s2;
        考慮車(chē)的橫向安全約束和橫向舒適性,橫向加速度ayt的取值范圍為[-0.2,0.2] m/s2。每一時(shí)刻的動(dòng)作用一個(gè)二元組表示,at=[axt,ayt]。

        3.2.3 獎勵函數

        強化學(xué)習中,獎勵函數對于引導智能體采取獲得更高收益的動(dòng)作,從而得到期望策略具有重要作用。因此,設計合理的獎勵函數是智能網(wǎng)聯(lián)車(chē)輛能否完成換道任務(wù)的關(guān)鍵。

        本算法期望智能網(wǎng)聯(lián)車(chē)輛以最快的換道效率和最小的燃油消耗從當前車(chē)道換到目標車(chē)道,并能夠與前車(chē)以相同的速度保持安全車(chē)距行駛。

        1) 沿目標車(chē)道中心線(xiàn)獎勵設置Ry

        其中:yt和ytarg分別表示車(chē)輛當前位置的橫向坐標和目標位置的橫向坐標,此項是為了讓車(chē)輛在換道過(guò)程中盡量靠近車(chē)道中心線(xiàn)行駛。

        2) 目標速度獎勵設置Rv

        其中:axt為表示當前時(shí)刻的縱向加速度,vxt和vtarg分別表示當前時(shí)刻的縱向速度和換道目標速度,此項目的是使換道車(chē)輛能夠按照期望速度行駛,提高換道效率。

        3) 油耗獎勵設置Re

        油耗計算使用了K.Ahn 等[31]建立的VT-Micro微觀(guān)油耗排放模型,

        其中,MOEe為瞬時(shí)燃油消耗,包括線(xiàn)性、二次和三次速度和加速度項的組合,表示在速度的k次冪和加速度的q次冪下MOEe的模型系數,此項用瞬時(shí)燃油消耗作為懲罰項,使車(chē)輛學(xué)習到節能的換道方式。

        4) 終止獎勵設置Rd

        智能網(wǎng)聯(lián)車(chē)輛處于終止狀態(tài)時(shí),本回合實(shí)驗結束,終止狀態(tài)包括駛離車(chē)道范圍、達到最大仿真步數但未完成換道、在誤差范圍內到達換道終點(diǎn)這3 種情況。當智能網(wǎng)聯(lián)車(chē)輛出現駛離車(chē)道或者未完成換道任務(wù)時(shí),給予較大的懲罰;
        而當智能網(wǎng)聯(lián)車(chē)輛在誤差允許的范圍內完成換道任務(wù)時(shí),則給予較大的獎勵:

        其中,C1、C2取較大的正數。

        綜合上述4 個(gè)影響智能網(wǎng)聯(lián)車(chē)輛換道因素來(lái)驅動(dòng)車(chē)輛以高效、舒適和節能的方式完成換道任務(wù)。最終的聯(lián)合獎勵函數Rt設計為

        其中,wy,wv,we,wd分別為不同收益的權重系數,表示其重要程度。

        3.3 基于TD3 的換道軌跡規劃流程

        完成換道問(wèn)題的建模后,確定換道車(chē)輛的換道起點(diǎn)和換道終點(diǎn)位置,設置訓練回合數和超參數,通過(guò)以下步驟對TD3 網(wǎng)絡(luò )進(jìn)行訓練,如表2 所示,使其能夠在考慮油耗、舒適性的情況下完成換道任務(wù)。

        表2 TD3 算法流程

        本文所用的硬件設備為:Window10 64位操作系統,顯卡Nvidia Quadro P600,處理器為Intel 至強Bronze 3104,內存為16GB;
        軟件設備為:編程語(yǔ)言python3.8,深度學(xué)習框架Pytorch1.8,用gym 庫創(chuàng )建仿真實(shí)驗場(chǎng)景,運行環(huán)境為pycharm2020。

        4.1 仿真環(huán)境設計

        為了驗證換道軌跡規劃的有效性,實(shí)驗使用python 作為仿真環(huán)境,模仿了gym 庫中的仿真環(huán)境設計規則,設計了一個(gè)長(cháng)120 m,寬3.5 m 的單向雙車(chē)道,并做出如下假設:

        1)只考慮直道上相鄰車(chē)道的換道行為;

        2)車(chē)輛做出的決策和規劃都是依據當前時(shí)刻的狀態(tài)進(jìn)行的,車(chē)輛狀態(tài)發(fā)生變化時(shí)重新進(jìn)行決策和規劃。

        換道車(chē)輛的初始速度為指定速度范圍內的隨機值,初始位置為指定的換道起點(diǎn),周?chē)?chē)輛的行駛速度為當前時(shí)刻的速度值,換道終點(diǎn)為滿(mǎn)足最小安全換道距離的指定位置。車(chē)輛駛出車(chē)道或達到最大步數時(shí)結束本回合。

        4.2 參數設定及模型訓練

        實(shí)驗中TD3 網(wǎng)絡(luò )的結構如表3 所示,訓練超參數設置如表4 所示。

        表3 TD3 網(wǎng)絡(luò )結構

        表4 主要超參數說(shuō)明

        4.3 訓練及測試結果分析

        4.3.1 左換道軌跡規劃

        在這個(gè)場(chǎng)景中,假設換道車(chē)輛的初始位置在右車(chē)道中心線(xiàn)起點(diǎn)(1.75,0) m 處,初始速度在43.2~72 km/h中隨機初始化,周?chē)?chē)輛的行駛速度為57.6 km/h,換道車(chē)輛與原始車(chē)道前車(chē)的車(chē)頭間距為50 m,與目標車(chē)道前后車(chē)的車(chē)頭間距均為60 m,目標位置為左車(chē)道中心線(xiàn)(-1.75,100) m 處,博弈收益中的權重系數αs、αt分別取0.6 和0.4,得到左換道時(shí)的博弈收益矩陣如表5 所示。

        表5 左換道博弈收益矩陣

        由表5 可知,此時(shí)博弈的最優(yōu)策略為:換道車(chē)輛進(jìn)行左換道,目標車(chē)道車(chē)輛允許換道(換道車(chē)輛與目標車(chē)道車(chē)輛前后車(chē)的車(chē)頭間距是一樣的,得到的博弈收益矩陣是相同的)。訓練結果及換道車(chē)輛以初始速度12 m/s 進(jìn)行左換道的測試結果如圖4 所示。

        圖4 左換道訓練結果

        4.3.2 車(chē)道保持軌跡規劃

        在這個(gè)場(chǎng)景中,假設換道車(chē)輛的初始位置在右車(chē)道中心線(xiàn)起點(diǎn)(1.75,0) m 處,初始速度為54~90 km/h中隨機初始化,周?chē)?chē)輛的行駛速度為72 km/h,換道車(chē)輛與原始車(chē)道前車(chē)的車(chē)頭間距為30 m,與目標車(chē)道前后車(chē)的車(chē)頭間距均為20 m,目標位置為右車(chē)道中心線(xiàn) (1.75,100) m 處,博弈收益中的權重系數αs,αt分別取0.6 和0.4,得到車(chē)道保持時(shí)的博弈收益矩陣如表6 所示。

        表6 車(chē)道保持博弈收益矩陣

        由表6 可知,此時(shí)博弈的最優(yōu)策略為:換道車(chē)輛不換道,周?chē)?chē)輛拒絕換道,因此換道車(chē)輛需要減速進(jìn)行車(chē)道保持,訓練結果及車(chē)輛以初始速度為25 m/s進(jìn)行車(chē)道保持的測試結果如圖5 所示。

        圖5 車(chē)道保持訓練結果

        4.3.3 右換道軌跡規劃

        在這個(gè)場(chǎng)景中,假設換道車(chē)輛的初始位置在左車(chē)道中心線(xiàn)起點(diǎn)(-1.75,0) m 處,初始速度為 54~90 km/h中隨機初始化,周?chē)?chē)輛行駛速度為72 km/h,換道車(chē)輛與原始車(chē)道前車(chē)的車(chē)頭間距為50 m,與目標車(chē)道前后車(chē)的車(chē)頭間距均為60 m,目標位置為右車(chē)道中心線(xiàn)(1.75,120) m 處,博弈收益中的權重系數αs,αt分別取0.6 和0.4,得到右換道時(shí)的博弈收益矩陣如表7所示。

        表7 右換道博弈收益矩陣

        由表7 可知,此時(shí)博弈的最優(yōu)策略為換道車(chē)輛進(jìn)行右換道,周?chē)?chē)輛允許換道。訓練結果及換道車(chē)輛以初始速度16 m/s 進(jìn)行右換道的測試結果如圖6 所示。

        圖6 右換道訓練結果

        從左換道、右換道的實(shí)驗結果看出: 車(chē)輛智能體在前150 個(gè)回合中處于試錯階段,車(chē)輛智能體不知道如何進(jìn)行換道,總是由于異常結束而導致回合提前結束;大概從150 回合后,收集到足夠的歷史數據后,開(kāi)始逐步學(xué)習提升,每回合所得的累積收益開(kāi)始增大,說(shuō)明車(chē)輛智能體學(xué)習到的策略在不斷變好,由剛開(kāi)始的無(wú)法完成換道任務(wù)到能夠逐步完成換道,并不斷增加(為了便于看出智能體學(xué)習到的策略在進(jìn)行優(yōu)化,使用滑動(dòng)平均曲線(xiàn)將收益進(jìn)行平滑,收益曲線(xiàn)波動(dòng)是由于不同初始速度完成換道所得到的收益不同),最終逐漸穩定在一個(gè)范圍內,表明車(chē)輛的策略的優(yōu)化過(guò)程,此時(shí)車(chē)輛智能體能夠到達設定的換道終點(diǎn),且換道車(chē)輛的速度與環(huán)境車(chē)的速度相等,能夠安全完成換道任務(wù)。用訓練好的模型進(jìn)行測試,得到的換道軌跡如圖4c、6c 所示,速度控制曲線(xiàn)如圖4d、6d 所示。

        在換道過(guò)程中考慮油耗問(wèn)題,以油耗的大小作為對智能體的懲罰: 油耗越大,懲罰越大,希望車(chē)輛智能體能夠以節能的方式完成換道任務(wù)。車(chē)輛在左、右換道任務(wù)中訓練前后完成換道任務(wù)的平均油耗對比如表8所示。

        從表8 可見(jiàn),未經(jīng)過(guò)TD3 算法學(xué)習前,左換道過(guò)程中每步的平均油耗為30 mL/ s,右換道過(guò)程中每步的平均油耗為32 mL/ s;
        經(jīng)過(guò)算法提升后的左換道過(guò)程中的單步平均油耗為11 mL/ s,右換道過(guò)程中的單步平均油耗為18 mL/ s;
        左、右換道過(guò)程中的平均油耗分別減少了63%和44%,達到了節能駕駛的目的。

        表8 平均油耗對比

        實(shí)驗2 中由于當前車(chē)輛不滿(mǎn)足安全換道條件,此時(shí)車(chē)輛需要進(jìn)行車(chē)道保持,并減速行駛,最終與周?chē)?chē)輛的速度相同,如圖5c 所示,車(chē)輛的初始速度為25 m/s,到達目標位置的速度為20 m/s;
        測試得到的車(chē)道保持軌跡如圖5b 所示。

        使用DDPG 算法和TD3 算法進(jìn)行左換道和右換道實(shí)驗時(shí)每回合所用的訓練時(shí)間對比如圖7 中所示。

        圖7 DDPG 與TD3 訓練時(shí)間對比

        總的訓練時(shí)間、每回合的平均訓練時(shí)間以及具體場(chǎng)景的單步軌跡規劃所需時(shí)間對比如表9 所示。

        從表9 中看出,使用TD3 算法在左換道和右換道實(shí)驗中所用的訓練時(shí)間均少于DDPG,在左換道實(shí)驗中,TD3 總的訓練速度和每回合的平均訓練速度較DDPG提升了約12%。在右換道實(shí)驗中,TD3 總的訓練速度和每回合的平均訓練速度較DDPG 提升了約9%。綜上,與DDPG 算法相比,本文所用算法的平均訓練速度提升了約10.5%;
        而且采用訓練好的模型完成左、右換道場(chǎng)景完整的軌跡規劃所需時(shí)間均在1.3 s 內,單步規劃所需時(shí)間在10 ms 內,可滿(mǎn)足實(shí)時(shí)要求。因為所需時(shí)間與處理器性能有關(guān),若采用高性能處理器所需時(shí)間會(huì )更短。

        表9 訓練時(shí)間對比

        本文提出了基于深度強化學(xué)習的智能網(wǎng)聯(lián)車(chē)輛換道軌跡規劃方法,在考慮安全性、舒適性、燃油經(jīng)濟性和效率的情況下實(shí)現對智能網(wǎng)聯(lián)車(chē)輛的換道軌跡規劃。使用基于完全信息的靜態(tài)純策略博弈模型做出換道決策,保證了決策的安全性和時(shí)效性,并確定需要求解的軌跡規劃子問(wèn)題;
        將換道軌跡規劃問(wèn)題解耦為縱橫向控制問(wèn)題,使用TD3 算法進(jìn)行求解,在獎勵設計部分,使用瞬時(shí)燃油消耗、與期望速度的差值和加速度作為獎懲項,引導車(chē)輛以節能、高效、舒適的方式得到換道軌跡。

        通過(guò)設計左換道、車(chē)道保持和右換道的仿真實(shí)驗,表明了算法在燃油經(jīng)濟性和實(shí)時(shí)性方面的優(yōu)勢。與DDPG 算法作比較,本文所提方法在左換道和右換道實(shí)驗中的平均訓練效率提升了約10.5%,平均油耗分別減少了63%和44%,且用該模型進(jìn)行換道的軌跡規劃,單步軌跡的規劃時(shí)間在10 ms 內,能夠實(shí)時(shí)規劃車(chē)輛的行駛軌跡。

        猜你喜歡智能網(wǎng)車(chē)道軌跡交通運輸部:擴大新能源智能網(wǎng)聯(lián)汽車(chē)應用中國交通信息化(2022年9期)2022-11-19北斗+手機實(shí)現車(chē)道級導航應用衛星應用(2021年11期)2022-01-19避免跟車(chē)闖紅燈的地面車(chē)道線(xiàn)科學(xué)大眾(2021年9期)2021-07-16淺談MTC車(chē)道改造中國交通信息化(2020年11期)2021-01-14軌跡讀友·少年文學(xué)(清雅版)(2020年4期)2020-08-24軌跡讀友·少年文學(xué)(清雅版)(2020年3期)2020-07-24基于單片機的智能網(wǎng)控風(fēng)扇設計電子制作(2019年11期)2019-07-04智能網(wǎng)聯(lián)硬實(shí)力趨強汽車(chē)觀(guān)察(2018年12期)2018-12-26迎戰智能網(wǎng)聯(lián)大爆發(fā)汽車(chē)觀(guān)察(2018年10期)2018-11-06軌跡現代裝飾(2018年5期)2018-05-26
        国产另类无码专区|日本教师强伦姧在线观|看纯日姘一级毛片|91久久夜色精品国产按摩|337p日本欧洲亚洲大胆精

        <dd id="saiiy"></dd>
        1. <s id="saiiy"></s>

          1. <s id="saiiy"></s>
            1. <span id="saiiy"><blockquote id="saiiy"></blockquote></span>