增强蚁群算法的机器人最优路径规划

增强蚁群算法的机器人最优路径规划第 41卷 � 第 3期 2 0 0 9年 3月 � 哈 � 尔 � 滨 � 工 � 业 � 大 � 学 � 学 � 报 JOURNAL OF HARBIN INSTITUTE OF TECHNOLOGY � Vo l�41 N o�3 M ar. 2009 � � � � � � 增强蚁群算法的机器人最优路径规划齐 � 勇 1, 2, 魏志强 2, 殷 � 波 2, 费云瑞2, 于忠达 2, 庄晓东2 ( 1.山东省科学院海洋仪器仪表研究所, 青岛 266001; 2.中国海洋大学计算机科学系,...

第 41卷 � 第 3期 2 0 0 9年 3月 � 哈 � 尔 � 滨 � 工 � 业 � 大 � 学 � 学 � 报 JOURNAL OF HARBIN INSTITUTE OF TECHNOLOGY � Vo l�41 N o�3 M ar. 2009 � � � � � � 增强蚁群算法的机器人最优路径规划齐 � 勇 1, 2, 魏志强 2, 殷 � 波 2, 费云瑞2, 于忠达 2, 庄晓东2 ( 1.山东省科学院海洋仪器仪表研究所, 青岛 266001; 2.中国海洋大学计算机科学系, 青岛 266100) 摘 � 要: 为解决复杂环境中机器人最优路径规划问题 , 本文结合增强学习和人工势场法的原理, 提出一种基于增强势场优化的机器人路径规划方法,引入增强学习思想对人工势场法进行自适应路径规划.再把该规划结果作为先验知识, 对蚁群算法进行初始化, 提高了蚁群算法的优化效率, 同时克服了传统人工势场法的局部极小问题. 仿真实验结果表明, 该方法在复杂环境中,对机器人的路径规划效果令人满意. 关键词: 增强学习;增强势场 ;蚁群算法; 最优路径中图分类号: TP24 文献标识码: A 文章编号: 0367- 6234( 2009) 03- 0130- 04 Path planning optim ization based on reinforcem ent of artificial potential field Q IYong 1, 2 , WE IZh-i q iang 2 , Y IN Bo 2 , FE IYun-ru i 2 , YU Zhong-da 2 , ZHUANG X iao-dong 2 ( 1. Institute o f Oceanag raph ic Instrum entation, Shandong Academ y o f Sc ience, Q ingdao 266001, China; 2. Dept. of Com puter Science, Ocean Un iversity o f China, Q ingdao 266100, Ch ina) Abstract: In order to solve the problem o f opt imal path plann ing for robot in comp lex env ironmen,t a path plann ing method based on the artif icial po tent ia l field optim ization is proposed in th is paper. The ant algo rithm is initialized by the plann ing result o f the art ific ia l po tentia l field re inforcement as the prio r know ledge, w hich improves the a lgorithm � s e ff ic iency. On the other hand, the localm in ima prob lem in the artif icial po tent ia l fieldmethod is so lved successfully. The result o f simu lation show s tha t the method in this paperw orks w e ll in solv ing the relevan t prob lem s. Key words: learn ing reinforcemen;t po tent ia l field reinforcemen;t ant colony a lgorithm; optmi al path planning 收稿日期: 2006- 05- 27. 基金项目: 国家自然科学基金资助项目 ( 60374031) . 作者简介: 齐 � 勇 ( 1980� ) ,男,硕士; 魏志强 ( 1969� ) ,男,教授,博士生导师. � � 路径规划算法的性能直接影响移动机器人的智能度.多障碍复杂环境中的路径规划是目前研究的热点和难点之一. 较成熟的规划方法有人工势场法、栅格法等 [ 1~ 3] .这类方法通过环境模型或者局部动态搜索来规划一条可行路径,但是没有考察路径是否最优.比如人工势场法中会产生局部极小值,引起机器人路径的振荡摆动.诸多改进方法基本是通过合理定义势场方程,保证势场中不存在局部极值,但也没有考察路径是否最优. 为解决此问题, 统计启发式优化算法被应用到路径规划问题中. 比如遗传算法、蚁群算法 [ 4] 等.这类方法通过解空间中的优化搜索得到最优路径, 但是随着问题复杂度的增大, 解空间也增大,使得优化收敛的速度变慢, 影响了路径规划效率.本文首先把增强学习思想引入人工势场法,提出状态评价函数和势场的对应关系,以及控制策略和势场力方向的对应关系.机器人通过自学习, 自适应调整势场空间,得到优于传统人工势场法的路径.又提出一种基于增强势场优化的机器人最优路径规划方法.将增强势场法的最优解作为先验知识,对蚁群算法的参数进行初始化,缩小了蚁群算法的解空间,加快了收敛速度,同时优化结果克服了人工势场法的局部极小问题. 1� 增强学习与增强势场优化方法 1�1� 增强学习增强学习是一种无监督、自适应的学习方法, 不需要给定确切的训练集合, 通过利用决策和控制过程中的反馈信息, 把学习和决策过程结合在一起. 见图 1, Agent选择一个动作作用于环境, 环境接受该动作后状态发生变化, 同时产生一个增强信号 (奖励或惩罚 ) 反馈给 Agen,t A gent根据强化信号和环境状态再选择下一个动作. 选择的原则是使受到正信号 (奖励 ) 的概率增大 [ 6 ] . 图 1� 增强学习原理 � � 系统的状态属于一个有限的状态集合 S, 控制策略产生的决策结果属于一个有限的控制行为集合 A.在路径规划中, S对应于离散化的环境状态集合 (机器人的位置 ); A 对应于离散化的运动控制行为集合.控制策略 �被定义成状态集合到控制行为集合 A 的映射, 表达成函数的形式是: a = �(x ), x � S, a � A. 其含义是: 根据策略 �, 当观察到系统状态为 x时, 决策结果是控制行为 a.控制策略可以由一系列控制参数描述, 学习中通过参数的调整, 来实现策略的调整. 强化信号 r 是执行某个控制行为后, 环境给决策系统的反馈信号, 其大小反映了该控制行为的直接效果. 状态评价函数 V是某个状态和目标状态之间距离的度量.其定义如下:在某种控制策略下,从某个状态转移到目标状态的过程中,把增强信号加权和的数学期望定义为该状态的评价函数值,即: V ( x ) = E �� t= 0 �t r t+ 1 |x 0= x . ( 1) 式中: E表示数学期望; �称为折扣因子,也是 ( 0, 1)之间的常数,在数学上使上式中的无穷级数收敛; r t+ 1是 t+ 1时刻产生的增强信号值; x0表示初始状态.某个状态的评价函数值越大,表示它距离目标状态越近.从上述定义可知,状态评价函数和控制策略是相联系的, 不同控制策略下的状态评价函数可能不同. 增强学习使状态评价的估计值逐渐逼近最优策略控制下的状态评价值, 同时使控制策略逼近最优策略. 1�2� 增强势场法路径规划需要让机器人沿最短路径绕过障碍物, 并到达目标.从增强学习的角度来看,就是要寻找一个最优控制策略, 使机器人不论从哪个初始位置出发,都能沿最短路径到达目标. 1�2�1� 增强学习与人工势场法的融合人工势场法是仿照物理学中电场的概念, 通过建立以目标点及障碍为场源的虚拟势场, 按照势场力的方向规划出可行的避障路径 [ 5] . 该方法擅长局部路径规划,对于简单环境很有效,但对于复杂的多障碍环境,容易产生局部极值点,会使机器人未达到目标就停止运动,或者产生振荡、摆动现象. 把环境状态 (即前述系统状态 )定义为某时刻机器人在二维运动平面上的坐标,并把坐标离散化, 以构成增强学习中所要求的有限的、离散的状态集合.在计算机模拟实验中,把机器人运动平面离散化成 32 � 32的网格. 对于控制行为集合, 把机器人的运动方向离散化成 8个运动方向: Eas,t W es,t No rth, South, Northeas,t Northw es,t Southeas,t Southw es.t 在路径规划问题中, 状态评价值对应了待优化的势场,而控制策略对应了势场力.对于强化信号 r ( t)作如下规定: ( 1) 如果 t时刻的决策结果使机器人到达目标状态,则 r( t ) = + 1; ( 2) 如果 t时刻的决策结果没有使机器人到达目标状态,则 r( t ) = - 1,即 r( t) = + 1, if s( t + 1) is goa l po in t; - 1, othe rw ise. ( 2) 1�2�2� 采用具有随机性质的控制策略为了实现增强学习的探索机制, 实验中采用具有随机性质的控制策略.对于每个环境状态 s, 8种不同的控制行为被赋予 8个不同的概率值: Pe ( s), Pw ( s), Pn ( s), P s ( s), Pne ( s), Pnw ( s), P se ( s), P sw ( s). 在状态 s下究竟采取哪种控制行为,按照各自概率随机选取. 对所有可能的状态, 这些概率值构成一个决策概率矩阵. 于是控制策略可以表达成决策概率矩阵 P: P = P e ( s1 ) Pw ( s1 )� P sw ( s1 ) P e ( s2 ) Pw ( s2 )� P sw ( s2 ) � � � P e ( sN ) Pw ( sN )� P sw ( sN ) . ( 3) 式中N代表状态的总数.在各种状态下,不同的控制行为都可能被尝试. 随着学习过程的进行, 最优控制行为不断得到加强,其概率值逼近 1.而控制策略也会逼近一个最优策略.这一点在实验过程中得到了验证. 2� 蚁群优化算法蚁群优化算法是 M arco Dor igo等 [ 7 ]学者提出的一种优化算法.在蚁群算法中,问题的解被抽象成在离散状态空间中从起始状态到达目标状态的 �131�第 3期齐 � 勇, 等: 增强蚁群算法的机器人最优路径规划状态转移序列,即从起始状态到目标状态的路径. 最优解对应着满足最优评价准则的状态转移序列 [ 3] .我们的最优评价准则是状态转移序列的长度最短,即所经过的路径最短. 蚂蚁从起始状态开始在相邻状态之间转移, 直到达到目标状态完成一次解的搜索. 路径强度值是蚂蚁进行状态转移的依据. 每只蚂蚁的状态转移是根据状态转移概率随机进行的. 从状态 si 转移到某个相邻状态 sj的状态转移概率 pij ( t) 定义为 [ 5] pij ( t) = [�ij ( t) ]�� [ �ij ]�� sj� A llow ed [ �ij ( t) ]�� [ �ij ]�, if sj � A llow ed; 0, o therw ise. ( 4) 式中: �ij ( t)是第 t次搜索时 si和 sj之间的路径强度值; �和 �是大于零的参数; �ij是 si和 sj之间距离的倒数, 是一种启发信息; A llow ed是与 si相邻的、并且当前的蚂蚁未经历的状态的集合. 在群体中所有的蚂蚁都完成一次搜索后, 对每一个状态 si,路径强度按下式更新 [ 7 ] �ij ( t+ 1) = �� ij ( t) + ��ij ( t, t + 1) . ( 5) 式中: �ij ( t)和 �ij ( t+ 1)分别是 si和相邻状态 sj 之间在更新前和更新后的路径强度值, �是常数且 0 < �< 1. ��ij ( t, t+ 1)是路径强度更新值,定义为 [ 7] ��ij ( t, t + 1) = �m k= 1 ��kij ( t, t + 1) . ( 6) 式中: m是群体中蚂蚁的个数; ��kij ( t, t + 1)是第 t次搜索时,第 k只蚂蚁在 si和 sj之间的路径上留下的路径增强信息,定义为 [ 7] : ��kij ( t, t+ 1) = 1/Lk, if the k-th ant goes from si to sj a t the t- th loop; 0, othe rw ise. ( 7) 式中: 1 /Lk是第 k只蚂蚁经过路径长度的倒数, 路径长度越短,增强值越大.如果一条路径有越多的蚂蚁经过,该路径强度值就增大地越快,又会吸引更多的蚂蚁沿该路径移动. 3� 基于增强势场法的路径规划 3�1� 路径强度初始化蚁群算法的求解过程包含两个方面: 初始解的产生和在此基础上的优化. 由于蚁群算法的正反馈机制,质量不高的初始解有可能使算法收敛于次优解.因此, 获得高质量的初始解可以提高算法性能. 本文把增强势场法的最优解作为蚁群算法路径强度初始值 �ij ( 0). 对应于蚁群算法的离散状态,将机器人的二维工作平面离散化.机器人的运动方向也被离散化成 {M ove Eas,t M ove Wes,t M ove North, M ove South, M ove Northeas,t M ove N orthw es,t M ove Southeas,t M ove Southw est} 8个方向. 初始化的计算过程如下: ( 1)对机器人工作空间中的每一个位置 si, 计算 si处的增强势场矢量 E ( si ): E ( si ) = A� �M k= 1 nki r 2 ki + B� n it r 2 ti . ( 8) 式中: A、B是大于零的常数, 用来权衡避障和到达目标两个因素的相对重要性; M 是离散工作平面中障碍点的个数; rki是第 k个障碍点到 si的距离, r ti是目标点到 si的距离; nk i是从第 k个障碍点指向 si的单位矢量, nit是从 si指向目标点的单位矢量. E ( si )的方向就是根据增强势场优化法得到的在位置 si的机器人运动方向; ( 2)分别计算机器人 8个运动方向和 E ( si ) 的夹角 �i ( i = 1, 2, �, 8); ( 3)按照 �i从小到大的顺序, 对相应方向的路径强度赋以从大到小的值.这样, 与 E ( si )夹角越小的运动方向上,路径强度越大. 根据增强势场法进行初始化之后, 如果从起始点开始按照路径强度最大的方向移动, 得到的初始路径就是增强势场法的规划结果. 随着优化过程的进行,初始路径上由于势场局部极小问题引起的振荡和摆动会减少,最终得到最优路径.仿真实验中,对每个位置 si, 8个运动方向对应的路径强度按照和势场矢量 E ( si )夹角从小到大的顺序, 依次被赋值为实数集 R: R = { 0�5, 0�16, 0�16, 0�05, 0�05, 0�03, 0�03, 0�02}. 3�2� 蚁群算法规划最优路径经过路径强度值的初始化之后, 蚂蚁群体开始从起始点进行路径搜索. 蚂蚁在相邻的位置之间移动,每次移动都按照式 ( 4)所定义的概率随机决定下一个位置.当蚂蚁到达目标点时就完成一次搜索.群体中所有蚂蚁都完成一次搜索之后, 按照式 ( 5 )进行路径强度值的更新, 式 ( 7)中 Lk 是根据第 k只蚂蚁的轨迹得到的路径长度. 蚂蚁群体的搜索过程不断循环, 直到所有蚂蚁收敛到同一路径,或者搜索次数达到一个预先规定的最大值为止. 4� 仿真实验结果仿真实验中,机器人的二维工作空间被离散 �132� 哈 � 尔 � 滨 � 工 � 业 � 大 � 学 � 学 � 报 � � � � � � � � � � � � � 第 41卷 � 化成 32 � 32的网格. 图 2和图 3是 1组实验结果.图中黑色区域表示障碍, � S�表示机器人起始点 ( Start Point) , � G�表示目标点 ( Goa l Po int). 图 2� 人工势场法的规划结果图 3� 增强势场的蚁群算法的规划结果 � � 图中的箭头表示机器人处于该位置时的运动方向. 图 2机器人经过 46步到达目标点. 图 3机器人经过 42步到达目标点. 图 2中圆圈所示区域 ,机器人的路径由于人工势场的局部极小问题发生摇摆.由图 3可以看出,本文提出方法有效地解决了这一问题,使路径规划结果更为优化. 5� 结 � 语提出了一种增强势场优化的路径规划方法, 根据增强势场优化法来初始化蚁群算法的参数, 提高了蚁群算法的优化效率. 同时克服了势场法中局部极小问题,得到最优路径.仿真实验结果表明,在复杂环境中,该方法能够有效地帮助机器人进行最优路径搜索. 参考文献: [ 1] 石鸿雁,孙茂相,孙昌志.未知环境下移动机器人路径规划方法 [ J].沈阳工业大学学报, 2005, 27( 1): 63- 69. [ 2] NAGAYUK IY, ISH II S, DOYA K. Mu lt-i agent re in fo- rcem ent lea rning: an app roach based on the other agent� s interna l mode l[ C ] / / P ro ceedings o f the IEEE 5th Internationa l Con ference on Mu lt-iAgent System s. Boston, MA, USA: IEEE, 2000: 215- 221. [ 3 ] BORENSTE IN J, KOREN Y. The vector fie ld h isto- g ram- fast obstac le avo idance for m obile robo ts [ J ]. IEEE Journal of Robo tics and Automa tion, 1991, 7( 3): 278- 288. [ 4] 金飞虎, 洪炳熔, 高庆吉. 基于蚁群算法的自由飞行空间机器人路径规划 [ J] . 机器人, 2002, 24 ( 6 ): 526- 529. [ 5] 庄晓东, 孟庆春,高云 ,等. 复杂环境中基于人工势场优化算法的最优路径规划 [ J]. 机器人, 2003, 25 ( 6): 530- 535. [ 6] 张汝波,周宁, 顾国昌,等. 基于强化学习的智能机器人避碰方法研究 [ J]. 机器人, 1999, 21( 3): 204- 209. [ 7] DORIGO M, D i CARO G, GAMBARDELLA L M. Ant co lony optim iza tion [ C ] / /New M eta-H euristic P roceed- ings o f the Cong ress on Evo lutionary Com putation. W ash ing ton: [ s. n. ], 1999: 1470- 1477. (编辑 � 赵丽莹 ) �133�第 3期齐 � 勇, 等: 增强蚁群算法的机器人最优路径规划

                    本文档为【增强蚁群算法的机器人最优路径规划】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

增强蚁群算法的机器人最优路径规划

你可能还喜欢