精品综合免费视频观看,一级特级欧美aaaaa免费观看,2929免费A级毛片无码

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

RSS 2020 | 在目標(biāo)、動(dòng)力學(xué)和意圖不確定下的隱含信念空間運(yùn)動(dòng)規(guī)劃

2020-07-10 14:58

將門創(chuàng)投

二、問題規(guī)范化

該論文考慮的是如下圖所示的POMDP 問題：系統(tǒng)處于連續(xù)的狀態(tài)－動(dòng)作－觀測空間中，而系統(tǒng)的狀態(tài)轉(zhuǎn)移除了受到上一時(shí)刻的狀態(tài)和動(dòng)作影響，還由一個(gè)離散的隱變量z 決定，而每一時(shí)刻的觀測量則由當(dāng)前時(shí)刻的系統(tǒng)狀態(tài)以及隱變量共同決定。其中隱變量z 可用于表示系統(tǒng)中不確定性的不同模態(tài)，如旁側(cè)車輛駕駛者的性格、不同行進(jìn)路線的路況、路面的物理狀況等。

對隱變量z 的不同可能性的置信度b（z），我們可以通過如下定義進(jìn)行更新。

問題的最終目標(biāo)是對行為策略π 進(jìn)行優(yōu)化，從而使得累計(jì)損失函數(shù)值 J 達(dá)到最低。

其中l(wèi) 和lf分別為根據(jù)置信度b 加權(quán)平均得到的過程損失函數(shù)和最終損失函數(shù)。由該公式取最優(yōu)行為策略π＊后得出的值函數(shù)V 可以表示成貝爾曼方程形式，進(jìn)行遞歸處理。

三、方法

論文提出了一種新的微分動(dòng)態(tài)規(guī)劃（DDP）算法，Partially Observable Differential Dynamic Programming （PODDP），可用于解決連續(xù)空間下的POMDP 問題。與一般的iLQG／DDP 算法相似，PODDP 也把流程分為了前向過程（Forward Pass）和后向過程（Backward Pass），并對動(dòng)作序列進(jìn)行迭代優(yōu)化。

1．前向過程在前向過程進(jìn)行前，動(dòng)作序列U ＝｛ u0， u1， …， uT－1 ｝需要預(yù)先給定。在初始化的前向過程中，一般使用隨機(jī)生成的動(dòng)作序列，或者通過某些前導(dǎo)知識有規(guī)律地生成動(dòng)作序列。在此后的過程中，將使用前一次優(yōu)化得到的動(dòng)作序列，進(jìn)行迭代優(yōu)化。

在確定性系統(tǒng)中，由于狀態(tài)轉(zhuǎn)移過程是確定的，故給定的動(dòng)作序列將衍生出一條鏈?zhǔn)降臓顟B(tài)序列。但在我們考慮的系統(tǒng)中，由于多模態(tài)不確定性的存在，類比于離散空間下的POMDP 問題，每一個(gè)節(jié)點(diǎn)都可以根據(jù)隱變量z 的不同取值可能性，延伸出多個(gè)分支，最終形成一個(gè)樹狀的軌跡推演，即軌跡樹（trajectory tree），如上圖所示。

為了更直觀地理解，我們可以考慮一個(gè)公路上的變道場景。如下圖，我們的汽車（紅色）希望變道到左側(cè)車道，可是左側(cè)車道上已經(jīng)有一輛車了。我們在進(jìn)行軌跡優(yōu)化的時(shí)候，將未來可能獲得的關(guān)于旁側(cè)車輛駕駛者性格的觀測納入考慮當(dāng)中，對方可能是合作性格的，也可能是激進(jìn)性格的，這兩種性格分別對應(yīng)兩個(gè)不同的模態(tài)。在向前推演的時(shí)候，根據(jù)這兩種不同模態(tài)的最大似然值進(jìn)行分支，獲得軌跡推演樹。每一條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的完整支路對應(yīng)一條可能發(fā)生的軌跡。

2．后向過程為了對軌跡樹進(jìn)行優(yōu)化，我們首先定義值函數(shù)擾動(dòng)方程Qt以描述在某一時(shí)刻t 下系統(tǒng)狀態(tài)和動(dòng)作的擾動(dòng)對值函數(shù)的影響。

<上一頁 1 2 3 下一頁>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

3月27日
立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
4月30日
立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中，新智能座艙挑戰(zhàn)的解決方案
5月15-17日
立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
即日-5.15
立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
5月15日
立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
5月16日
立即參評 >> 【評選啟動(dòng)】維科杯·OFweek 2025（第十屆）人工智能行業(yè)年度評選

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频

<code id="ckpia"><tbody id="ckpia"></tbody></code>

<source id="ckpia"></source>

<ul id="ckpia"><video id="ckpia"><dfn id="ckpia"></dfn></video></ul>

<big id="ckpia"><object id="ckpia"></object></big>