强化学习入门-第二讲--基于模型的强化学习

强化学习入门-第二讲--基于模型的强化学习强化学习入门第二讲郭宪2017.3.4强化学习的形式化强化学习目标：策略：累积回报:折扣回报:值函数最优策略：序贯决策问题常采用随机策略：强化学习方法分类本节讲基于模型的策略迭代算法和值迭代算法动态规划动态规划是一类算法：包括离散和连续。动态：蕴含着序列决策规划：蕴含着优化，如线性优化，二次优化或者非线性优化。动态规划可以解决的问题：1.整个优化问题可以分解成多个子优化问题2.子优化问题的解可以被存储和重复利用马尔科夫决策过程（MDP），贝尔曼最优性原理，得到贝尔曼最优化方程：动态规划可以解决MDP的问题核心：动态...

强化学习入门第二讲郭宪2017.3.4强化学习的形式化强化学习目标：策略：累积回报:折扣回报:值函数最优策略：序贯决策问题常采用随机策略：强化学习方法分类本节讲基于模型的策略迭代算法和值迭代算法动态规划动态规划是一类算法：包括离散和连续。动态：蕴含着序列决策规划：蕴含着优化，如线性优化，二次优化或者非线性优化。动态规划可以解决的问题：1.整个优化问题可以分解成多个子优化问题2.子优化问题的解可以被存储和重复利用马尔科夫决策过程（MDP），贝尔曼最优性原理，得到贝尔曼最优化方程：动态规划可以解决MDP的问题核心：动态规划通过值函数来迭代构造最优解策略评估(policyevaluation)模型已知，方程组中只有值函数是未知数，方程组是线性方程组。未知数的数目等于状态的数目。采用数值迭代算法给定策略构造值函数：策略评估(policyevaluation)高斯-赛德尔迭代[1][2][3][5][4][6][7][8]策略评估(policyevaluation)状态空间：S={1,2..14}动作空间:{东，南，西，北}回报函数：-1，直到终止状态均匀随机策略：一次状态扫描动作MDP策略评估(policyevaluation)一次状态扫描策略改进(policyimprovement)计算策略值的目的是为了帮助找到更好的策略，在每个状态采用贪婪策略。0.00.00.00.0max策略迭代(policyiteration)策略评估策略改进[1][2][3][5][4][6]值函数迭代策略改进一定要等到值函数收敛吗？当K=1时便进行策略改进，得到值函数迭代算法[1][2][3][5][4][6]值函数迭代与最优控制值函数迭代算法状态方程：性能指标函数：最优控制问题：Bellman最优性原理：2.利用变分法，将微分方程转化成变分代数方程，在标称轨迹展开，得到微分动态规划DDP1.将值函数进行离散，进行数值求解。UntilRepeatl=0,1,…foreverysdo值函数迭代与最优控制值函数迭代算法此式是关于值函数的偏微分方程，利用数值算法可进行迭代计算值函数。From胡亚楠博士论文 UntilRepeatl=0,1,…foreverysdo值函数迭代与最优控制值函数迭代算法贪婪策略：利用变分法，将微分方程转化成变分代数方程UntilRepeatl=0,1,…foreverysdo微分动态规划方法微分动态规划：（1）（3）（2）3.正向迭代新的控制序列：1.前向迭代：给定初始控制序列正向迭代计算标称轨迹2.反向迭代：由代价函数边界条件反向迭代计算（1）,（2）,(3)得到序列值函数迭代与最优控制值函数迭代算法UntilRepeatl=0,1,…foreverysdo微分动态规划：3.正向迭代新的控制序列：基于模型的其他方法逼近动态规划（逼近值函数）基于模型的策略搜索（dynamic）异步动态规划实时动态规划Guidedpolicysearch

                    本文档为【强化学习入门-第二讲--基于模型的强化学习】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

强化学习入门-第二讲--基于模型的强化学习

你可能还喜欢