針對強化學(xué)習(xí)在連續(xù)狀態(tài)連續(xù)動作空間中的維度災(zāi)難問題,利用BP神經(jīng)網(wǎng)絡(luò)算法作為值函數(shù)逼近策略,設(shè)計了自動駕駛儀。并引入動作池機制,有效避免飛行仿真中危險動作的發(fā)生。首先,建立了TD強化學(xué)習(xí)算法框架;然后根據(jù)經(jīng)驗將舵機動作合理分割為若干組,在不同的飛行狀態(tài)時,調(diào)取不同組中的動作;其次,構(gòu)建了BP神經(jīng)網(wǎng)絡(luò),通過飛行過程中的立即獎賞,更新網(wǎng)絡(luò)的值函數(shù)映射;最后,通過數(shù)字仿真驗證了強化學(xué)習(xí)自動駕駛儀的性能,仿真結(jié)果表明,該算法具有良好的動態(tài)和穩(wěn)態(tài)性能。
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶:
資源簡介:
上傳時間:
上傳用戶: