首页 强化学习

强化学习

举报
开通vip

强化学习电子与信息工程学院汇报人:强化学习ReinforcementLearning强化学习的基本概念1基于值的强化学习2基于策略的强化学习3深度强化学习经典算法4强化学习的应用5目录Contents强化学习基本概念11.强化学习基本元素2.强化学习的分类Part强化学习基本概念强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。通常,强化学习的设置由两部分组成,一个是智能体(agent),另一个是环境(environment)。强化学习基本元素1.动作(A):智能体可以...

强化学习
电子与信息 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 学院汇报人:强化学习ReinforcementLearning强化学习的基本概念1基于值的强化学习2基于策略的强化学习3深度强化学习经典算法4强化学习的应用5目录Contents强化学习基本概念11.强化学习基本元素2.强化学习的分类Part强化学习基本概念强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。通常,强化学习的设置由两部分组成,一个是智能体(agent),另一个是环境(environment)。强化学习基本元素1.动作(A):智能体可以采取的所有可能的行动。2.状态(S):环境返回的当前情况。3.奖励(R):环境的即时返回值,以评估智能体的上一个动作。4.策略(π):智能体根据当前状态决定下一步动作的策略。5.价值(V):折扣(𝛾)下的长期期望返回,与R代 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 的短期返回相区分。Vπ(s)则被定义为策略π下当前状态s的期望长期返回值。(状态值函数)6.Q值或行动值(Q):Q值与价值相似,不同点在于它还多一个 参数 转速和进给参数表a氧化沟运行参数高温蒸汽处理医疗废物pid参数自整定算法口腔医院集中消毒供应 ,也就是当前动作a。Qπ(s,a)指当前状态s在策略π下采取动作a的长期回报。(动作值函数)强化学习分类无模型和有模型无模型(Model-free)vs.基于模型(Model-based)这里的模型指的是环境的动态模拟,即模型学习从当前状态s0和动作a到下一个状态s1的转移概率P(s1|(s0,a))。如果成功地学习了转移概率,那么智能体将知道给定当前状态和动作时,进入特定状态的可能性。然而,当状态空间和动作空间增长(S×S×A,用于表格设置)时,基于模型的算法就变得不切实际了。另一方面,无模型算法依赖试错来更新知识。因此,它不需要空间来存储所有状态和动作的组合。强化学习分类Model-free:不尝试去理解环境,环境给什么就是什么,一步一步等待真实世界的反馈,再根据反馈采取下一步行动。Model-based:先理解真实世界是怎样的,并建立一个模型来模拟现实世界的反馈,通过想象来预判断接下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略。它比Model-free多出了一个虚拟环境,还有想象力。Policybased:通过感官分析所处的环境,直接输出下一步要采取的各种动作的概率,然后根据概率采取行动。Valuebased:输出的是所有动作的价值,根据最高价值来选动作,这类方法不能选取连续的动作。Monte-carloupdate:游戏开始后,要等待游戏结束,然后再总结这一回合中的所有转折点,再更新行为准则。Temporal-differenceupdate:在游戏进行中每一步都在更新,不用等待游戏的结束,这样就能边玩边学习了。On-policy:必须本人在场,并且一定是本人边玩边学习。Off-policy:可以选择自己玩,也可以选择看着别人玩,通过看别人玩来学习别人的行为准则。强化学习分类贝尔曼方程:强化学习分类基于策略的强化学习策略评估会评估从上次策略改进中获得的贪心策略的价值函数V。策略改进通过使每个状态的V值最大化的动作来更新策略。更新方程以贝尔曼方程为基础。它不断迭代直到收敛。强化学习分类基于策略的强化学习强化学习分类基于策略的强化学习强化学习分类基于值的强化学习强化学习分类基于值的强化学习强化学习分类policyiteration使用bellman方程来更新value,最后收敛的value即vπ是当前policy下的value值(所以叫做对policy进行评估),目的是为了后面的policyimprovement得到新的policy。而valueiteration是使用bellman最优方程来更新value,最后收敛得到的value即vπ*就是当前state状态下的最优的value值。因此,只要最后收敛,那么最优的policy也就得到的。因此这个方法是基于更新value的,所以叫valueiteration。从上面的分析看,valueiteration较之policyiteration更直接。不过问题也都是一样,需要知道状态转移函数p才能计算。本质上依赖于模型,而且理想条件下需要遍历所有的状态,这在稍微复杂一点的问题上就基本不可能了。强化学习分类基于MC的强化学习基于TD的强化学习蒙特卡罗方法不需要对环境的完整知识,仅仅需要经验就可以求解最优策略,这些经验可以在线获得或者根据某种模拟机制获得。经验其实就是训练样本,比如在初始状态s,遵循策略π,最终获得了总回报R,这就是一个样本。如果我们有许多这样的样本,就可以估计在状态s下,遵循策略π的期望回报,也就是状态值函数Vπ(s)了。蒙特卡罗方法就是依靠样本的平均回报来解决增强学习问题的。要注意的是,我们仅将蒙特卡罗方法定义在episodetask上,所谓的episodetask就是指不管采取哪种策略π,都会在有限时间内到达终止状态并获得回报的任务。比如玩棋类游戏,在有限步数以后总能达到输赢或者平局的结果并获得相应回报与基于策略迭代和值迭代的算法相比,蒙特卡洛算法需要采样完成一个轨迹之后,才能进行值估计(valueestimation),这样看,就感觉蒙特卡洛速度很慢啊!据说主要原因在于蒙特卡洛没有充分的利用强化学习任务的MDP结构。但是,TD充分利用了“MC”和动态规划的思想,做到了更加高效率的免模型学习。探索还是利用通常来讲每一个动作的奖励并不是以一个固定的值出现的,而是以一定的概率分布出现。因此,需要不断的去尝试出,到底各个动作的期望奖励是多少,这个过程被称作是探索(Exploration)的过程(这个过程一般来平均的去尝试每一种动作,通过很多次(越多越好,越准确)的尝试得到每一个动作的期望的结果,这种方式最大的问题是:你知道当前期望最高的奖励,但是为了探索你就失去了使用当前最好的机会);另一种方式被称作是利用(Exploitation),既然当前已经得到了最大期望的动作,那就直接使用它就好了(这种方式,应用了当前最好的策略,但是它仍然是以一定概率出现而已,说不定你还是得不到最大的;另一点,这样不去探索,万一最好的还在后面勒?)。基于值的强化学习2SARSA、Q-Learning、DQNPartValueiterationMCpolicyevaluationMCESOff-policyMCOff-policyMCTDLearningSARSAQ-LearningTD(0)withfunctionapproximationDQNDoubleQ-learning基于策略的强化学习3策略梯度算法PartIterativePolicyevaluationPolicyIterativeReinforcewithbaseline(episodic)Actor-Critic(episodic)深度强化学习经典算法4A3CDDPGPartDQNDQNDueling-DDQNA3CA3CDDPGDDPGDDPGDDPG强化学习算法应用5这里可以用一段简洁的文字描述出本章中心思想,或者作为章节导语。还可以列出本章的小节标题。Part实际应用总体思路主要介绍了强化学习的基本概念,强化学习分类,强化学习经典算法,以及近几年用的较多的强化学习算法,最后提出了强化学习的应用场景和强化学习模型。后记谢谢大家!汇报人:
本文档为【强化学习】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
慢慢文档
8年外贸单证以及相关的工作经验
格式:ppt
大小:4MB
软件:PowerPoint
页数:48
分类:
上传时间:2023-03-27
浏览量:4