第8章神经网络设计_Ch8_性能曲面和最优点

第8章神经网络设计_Ch8_性能曲面和最优点 8 1 性能曲面和最优点 8 2 性能学习性能学习的优化分两步骤进行： (1) 找一个衡量网络性能的定量标准，即性能指数：F(x)。性能指数在网络性能良好时很小，反之则很大。 (2) 搜索减小性能指数的参数空间(调整网络权值和偏置值)。下面将研究性能曲面的特性，建立确保极小点(即所寻求的最优点)存在的条件。学习规则的几种类型：联想学习，竞争学习，性能学习。性能学习目的在于调整网络参数以优化网络性能。 8 3 Taylor级数展开 F x( ) F x*( ) xd ...

8 1 性能曲面和最优点 8 2 性能学习性能学习的优化分两步骤进行： (1) 找一个衡量网络性能的定量标准，即性能指数：F(x)。性能指数在网络性能良好时很小，反之则很大。 (2) 搜索减小性能指数的参数空间(调整网络权值和偏置值)。下面将研究性能曲面的特性，建立确保极小点(即所寻求的最优点)存在的条件。学习规则的几种类型：联想学习，竞争学习，性能学习。性能学习目的在于调整网络参数以优化网络性能。 8 3 Taylor级数展开 F x( ) F x*( ) xd d F x( ) x x*= x x*–( )+= 1 2 --- x 2 2 d d F x( ) x x*= x x*–( ) 2 + + 1 n! ----- x n n d d F x( ) x x*= x x*–( ) n + + 8 4 例子 F x( ) e x– e 0– e 0– x 0–( ) 1 2 ---e 0– x 0–( ) 2 +– 1 6 ---e 0– x 0–( ) 3 – += = F x( ) e x– = F x( ) 1 x– 1 2 ---x 2 1 6 ---x 3 – + += F x( ) F0 x( ) 1= F x( ) F1 x( ) 1 x–= F x( ) F2 x( ) 1 x– 1 2 ---x 2 += Taylor级数的近似表示： F(x) 在x*=0点的Taylor级数展开式为：０阶近似：１阶近似：２阶近似： 8 5 三个近似的图形 -2 -1 0 1 2 0 1 2 3 4 5 6 F0 x( ) F1 x( ) F2 x( ) 8 6 向量情况 F x( ) F x1 x2  xn  ( )= F x( ) F x*( ) x1  F x( ) x x*= x1 x1*–( ) x2  F x( ) x x*= x2 x2*–( )+ +=  xn  F x( ) x x*= xn xn*–( ) 1 2 --- x1 2 2   F x( ) x x*= x1 x1*–( ) 2 + + + 1 2 --- x1 x2 2   F x( ) x x*= x1 x1*–( ) x2 x2*–( ) + + 8 7 矩阵形式 F x( ) F x*( ) F x( ) T x x*= x x*–( )+= 1 2 --- x x*–( ) T F x( ) x x*= x x*–( )2 + + F x( ) x1  F x( ) x2  F x( )  xn  F x( ) = F x( )2 x1 2 2   F x( ) x1 x2 2   F x( )  x1 xn 2   F x( ) x2 x1 2   F x( ) x2 2 2   F x( )  x2 xn 2   F x( )    xn x1 2   F x( ) xn x2 2   F x( )  xn 2 2   F x( ) = 梯度 Hessian矩阵 8 8 方向导数 F x( ) xi  2 F x( ) xi 2  F(x)沿xi轴的一阶导数(斜率): F(x)沿xi轴的二阶导数(曲率): (梯度的第i个元素) (Hessian矩阵的第i,i处的元素) p T F x( ) p -----------------------F(x)沿向量p的一阶导数(斜率): F(x)沿向量p的二阶导数(曲率): p T F x( )2 p p 2 ------------------------------ 一阶斜率二阶曲率 8 9 例子 F x( ) x1 2 2x1x2 2 x2 2 + += x* 0.5 0 = p 1 1– = F x( ) x x*=  x1  F x( ) x2  F x( ) x x*= 2x1 2x2+ 2x1 4x2+ x x*= 1 1 = = = p T F x( ) p ----------------------- 1 1– 1 1 1 1– ------------------------ 0 2 ------- 0= = = 与梯度正交方向的斜率都为0 8 1 0 图 -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 0 5 10 15 20 x1 x1 x2 x2 1.4 1.3 0.5 0.0 1.0 方向导数 8 1 1 极小点点x*是F(x)的强极小点，如果存在某个纯量d>0, 使得当d> ||Dx|| >0 时，对所有Dx都有F(x*) < F(x* +Dx)成立。－强极小点：点x*是F(x)的唯一全局极小点，如果F(x*) < F(x* +Dx)对所有 Dx≠０都成立。－全局极小点：点x*是F(x)的弱极小点，如果它不是一个强极小点，且存在某个纯量d>0, 使得当d> ||Dx|| >0 时，对所有Dx都有F(x*)≦ F(x*+Dx)成立。－弱极小点：强极小点全大于0 弱极小点可等于0 8 1 2 例子 -2 -1 0 1 2 0 2 4 6 8 F x( ) 3x 4 7x 2 – 1 2 ---x– 6+= Strong Minimum Strong Maximum Global Minimum 8 1 3 向量例子 -2 -1 0 1 2 -2 -1 0 1 2 0 4 8 12 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 F x( ) x2 x1–( ) 4 8x1x2 x1– x2 3+ + += -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 0 2 4 6 8 F x( ) x1 2 1.5x1x2– 2x2 2 +( )x1 2 = 8 1 4 一阶优化的必要条件 F x( ) F x* Dx+( ) F x*( ) F x( ) T x x*= Dx+= = 1 2 ---Dx T F x( ) x x*= Dx2 + + Dx x x*–= F x* Dx+( ) F x*( ) F x( ) T x x*= Dx+ 对很小的Dx： F x( ) T x x*= Dx 0 F x( ) T x x*= Dx 0 如果x*是个极小点, 则要求： F x* Dx–( ) F x*( ) F x( ) T x x*= Dx – F x*( )如果则有这与x*是极小点相矛盾，所以唯一的选择只有 F x( ) T x x*= Dx 0= 该式对所有的Dx都必须成立Dx，即 F x( ) x x*= 0= 驻点：使得梯度为零的点称为驻点(稳定点)。一个极小点一定为驻点，这是局部极小点的一阶必要条件(不是充分条件)。 8 1 5 二阶条件 F x* Dx+( ) F x*( ) 1 2 ---Dx T F x( ) x x*= Dx2 + += Dx T F x( ) x x*= Dx2 0在x* 将存在强极小点，如果对所有Dx≠ 0成立。 Hessian矩阵正定是强极小点存在的二阶充分条件。 z T Az 0 一个矩阵A是半正定的，如果任意向量z，有： z T Az 0 如果一阶条件满足(梯度为０), 则有一个矩阵A是正定的，如果对任意向量z≠ 0，有：可以通过检验矩阵的特征值来检验这些条件。如果矩阵所有特征值为正，则矩阵为正定矩阵；如果矩阵所有特征值非负，则矩阵为半正定矩阵。 Hessian矩阵半正定是强极小点存在的二阶必要条件。半正定：特征根≥0 8 1 6 例子 F x( ) x1 2 2x1x2 2x2 2 x1+ + += F x( ) 2 x1 2x2 1+ + 2 x1 4x2+ 0= = x* 1– 0.5 = F x( )2 2 2 2 4 = (不是x的函数) 检查上述Hessian矩阵的特征值来检验正定性。如果特征值全都大于零，则该矩阵是正定的。 F x( )2 I– 2 – 2 2 4 –  2 6– 4+  0.76–( )  5.24–( )= = =  0.76 5.24= 两个特征值是正定的，所以x*是强极小点。 8 1 7 二次函数 F x( ) 1 2 ---x T Ax d T x c+ += h T x( ) x T h( ) h= = x T Qx Qx Q T x+ 2Qx (for symmetric Q)= = F x( ) Ax d+= F x( )2 A= 梯度的性质：梯度和Hessian矩阵：二次函数的梯度：二次函数的Hessian矩阵： (A是对称矩阵) F x( ) T 8 1 8 Hessian的特征系统 F x( ) 1 2 ---x T Ax= 考虑驻点为原点且在原点值为0的二次函数. B z1 z2  zn= B 1– B T = A' B T AB[ ] 1 0  0 0 2  0    0 0  n L= = = 使用Hessian矩阵的特征向量为新的基向量对 Hessian矩阵进行变换. 因为Hessian矩阵是对称的, 它的特征向量正交. A BLB T = 8 1 9 二阶方向导数 p T F x( )2 p p 2 ------------------------------ p T Ap p 2 ---------------= p Bc= P用特征向量(新的基)来表示: p T Ap p 2 --------------- c T B T BLB T ( )Bc c T B T Bc -------------------------------------------- c T Lc c T c -------------- ici 2 i 1= n  ci 2 i 1= n  --------------------= = = min p T Ap p 2 --------------- max  B 1– B T = 8 2 0 特征向量(最大的特征值) p zmax=   c B T p B T zmax 0 0 0 1 0 0 = = = zmax T Azmax zmax 2 -------------------------------- ici 2 i 1= n  ci 2 i 1= n  -------------------- max= = 特征值代表了沿相应特征向量(函数轮廓线的主轴)方向上的曲率(二阶导数)。 8 2 1 圆形空洞 -2 -1 0 1 2 -2 -1 0 1 2 0 2 4 -2 -1 0 1 2 -2 -1 0 1 2 F x( ) x 1 2 x2 2 + 1 2 ---x T 2 0 0 2 x= = F x( )2 2 0 0 2 = 1 2= z1 1 0 = 2 2= z2 0 1 = (任意两个相互独立的向量都行.) 8 2 2 椭圆空洞 F x( ) x 1 2 x1 x2 x2 2 + + 1 2 ---x T 2 1 1 2 x= = F x( )2 2 1 1 2 = 1 1= z1 1 1– = 2 3= z2 1 1 = -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 0 1 2 3 8 2 3 伸长的鞍形 -2 -1 0 1 2 -2 -1 0 1 2 -8 -4 0 4 F x( ) 1 4 ---x1 2 – 3 2 ---x1x2– 1 4 ---x2 2 – 1 2 ---x T 0.5– 1.5– 1.5– 0.5– x= = F x( )2 0.5– 1.5– 1.5– 0.5– = 1 1= z1 1– 1 = 2 2–= z2 1– 1– = -2 -1 0 1 2 -2 -1 0 1 2 8 2 4 驻点凹槽 F x( ) 1 2 ---x1 2 x1x2– 1 2 ---x2 2 + 1 2 ---x T 1 1– 1– 1 x= = F x( )2 1 1– 1– 1 = 1 1= z1 1– 1 = z2 1– 1– =2 0= -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 0 1 2 3 8 2 5 二次函数特点的小结 • 如果赫森矩阵的所有特征值为正，则函数有一个强极小点。 • 如果赫森矩阵的所有特征值为负，则函数有一个强极大点。 • 如果赫森矩阵的所有特征值有正有负，则函数有一个鞍点。 • 如果赫森矩阵的所有特征值为非负，但某些特征值为零，则函数要么有一个弱极小点，要么没有驻点。 • 如果赫森矩阵的所有特征值为非正，但某些特征值为零，则函数要么有一个弱极大点，要么没有驻点。 x* A– 1– d=驻点：

                    本文档为【第8章神经网络设计_Ch8_性能曲面和最优点】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第8章神经网络设计_Ch8_性能曲面和最优点

你可能还喜欢