强化学习入门第二讲郭宪2017.3.4强化学习的形式化强化学习目标:策略:累积回报:折扣回报:值函数最优策略:序贯决策问题常采用随机策略:强化学习方法分类本节讲基于模型的策略迭代算法和值迭代算法动态规划动态规划是一类算法:包括离散和连续。动态:蕴含着序列决策规划:蕴含着优化,如线性优化,二次优化或者非线性优化。动态规划可以解决的问题:1.整个优化问题可以分解成多个子优化问题2.子优化问题的解可以被存储和重复利用马尔科夫决策过程(MDP),贝尔曼最优性原理,得到贝尔曼最优化方程:动态规划可以解决MDP的问题核心:动态规划通过值函数来迭代构造最优解策略评估(policyevaluation)模型已知,方程组中只有值函数是未知数,方程组是线性方程组。未知数的数目等于状态的数目。采用数值迭代算法给定策略构造值函数:策略评估(policyevaluation)高斯-赛德尔迭代[1][2][3][5][4][6][7][8]策略评估(policyevaluation)状态空间:S={1,2..14}动作空间:{东,南,西,北}回报函数:-1,直到终止状态均匀随机策略:一次状态扫描动作MDP策略评估(policyevaluation)一次状态扫描策略改进(policyimprovement)计算策略值的目的是为了帮助找到更好的策略,在每个状态采用贪婪策略。0.00.00.00.0max策略迭代(policyiteration)策略评估策略改进[1][2][3][5][4][6]值函数迭代策略改进一定要等到值函数收敛吗?当K=1时便进行策略改进,得到值函数迭代算法[1][2][3][5][4][6]值函数迭代与最优控制值函数迭代算法状态方程:性能指标函数:最优控制问题:Bellman最优性原理:2.利用变分法,将微分方程转化成变分代数方程,在标称轨迹展开,得到微分动态规划DDP1.将值函数进行离散,进行数值求解。UntilRepeatl=0,1,…foreverysdo值函数迭代与最优控制值函数迭代算法此式是关于值函数的偏微分方程,利用数值算法可进行迭代计算值函数。From胡亚楠博士
论文
政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载
UntilRepeatl=0,1,…foreverysdo值函数迭代与最优控制值函数迭代算法贪婪策略:利用变分法,将微分方程转化成变分代数方程UntilRepeatl=0,1,…foreverysdo微分动态规划方法微分动态规划:(1)(3)(2)3.正向迭代新的控制序列:1.前向迭代:给定初始控制序列正向迭代计算标称轨迹2.反向迭代:由代价函数边界条件反向迭代计算(1),(2),(3)得到序列值函数迭代与最优控制值函数迭代算法UntilRepeatl=0,1,…foreverysdo微分动态规划:3.正向迭代新的控制序列:基于模型的其他方法逼近动态规划(逼近值函数)基于模型的策略搜索(dynamic)异步动态规划实时动态规划Guidedpolicysearch