8
1
性能曲面和最优点
8
2
性能学习
性能学习的优化分两步骤进行:
(1) 找一个衡量网络性能的定量标准,即性能指数:F(x)。性
能指数在网络性能良好时很小,反之则很大。
(2) 搜索减小性能指数的参数空间(调整网络权值和偏置值)。
下面将研究性能曲面的特性,建立确保极小点(即所寻求的
最优点)存在的条件。
学习规则的几种类型:
联想学习,竞争学习,性能学习。
性能学习目的在于调整网络参数以优化网络性能。
8
3
Taylor级数展开
F x( ) F x*( )
xd
d
F x( )
x x*=
x x*–( )+=
1
2
---
x
2
2
d
d
F x( )
x x*=
x x*–( )
2 + +
1
n!
-----
x
n
n
d
d
F x( )
x x*=
x x*–( )
n + +
8
4
例子
F x( ) e
x–
e
0–
e
0–
x 0–( )
1
2
---e
0–
x 0–( )
2
+–
1
6
---e
0–
x 0–( )
3
– += =
F x( ) e
x–
=
F x( ) 1 x–
1
2
---x
2 1
6
---x
3
– + +=
F x( ) F0 x( ) 1=
F x( ) F1 x( ) 1 x–=
F x( ) F2 x( ) 1 x–
1
2
---x
2
+=
Taylor级数的近似表示:
F(x) 在x*=0点的Taylor级数展开式为:
0阶近似:
1阶近似:
2阶近似:
8
5
三个近似的图形
-2 -1 0 1 2
0
1
2
3
4
5
6
F0 x( )
F1 x( )
F2 x( )
8
6
向量情况
F x( ) F x1 x2 xn ( )=
F x( ) F x*( )
x1
F x( )
x x*=
x1 x1*–( ) x2
F x( )
x x*=
x2 x2*–( )+ +=
xn
F x( )
x x*=
xn xn*–( )
1
2
---
x1
2
2
F x( )
x x*=
x1 x1*–( )
2
+ + +
1
2
---
x1 x2
2
F x( )
x x*=
x1 x1*–( ) x2 x2*–( )
+ +
8
7
矩阵形式
F x( ) F x*( ) F x( )
T
x x*=
x x*–( )+=
1
2
--- x x*–( )
T
F x( )
x x*=
x x*–( )2 + +
F x( )
x1
F x( )
x2
F x( )
xn
F x( )
= F x( )2
x1
2
2
F x( )
x1 x2
2
F x( )
x1 xn
2
F x( )
x2 x1
2
F x( )
x2
2
2
F x( )
x2 xn
2
F x( )
xn x1
2
F x( )
xn x2
2
F x( )
xn
2
2
F x( )
=
梯度 Hessian矩阵
8
8
方向导数
F x( ) xi
2
F x( ) xi
2
F(x)沿xi轴的一阶导数(斜率):
F(x)沿xi轴的二阶导数(曲率):
(梯度的第i个元素)
(Hessian矩阵的第i,i处的元素)
p
T
F x( )
p
-----------------------F(x)沿向量p的一阶导数(斜率):
F(x)沿向量p的二阶导数(曲率): p
T
F x( )2 p
p
2
------------------------------
一阶斜率
二阶曲率
8
9
例子
F x( ) x1
2
2x1x2 2 x2
2
+ +=
x*
0.5
0
= p
1
1–
=
F x( )
x x*=
x1
F x( )
x2
F x( )
x x*=
2x1 2x2+
2x1 4x2+
x x*=
1
1
= = =
p
T
F x( )
p
-----------------------
1 1–
1
1
1
1–
------------------------
0
2
------- 0= = = 与梯度正交方向
的斜率都为0
8
1
0
图
-2 -1 0 1 2
-2
-1
0
1
2
-2
-1
0
1
2
-2
-1
0
1
2
0
5
10
15
20
x1
x1
x2
x2
1.4
1.3
0.5
0.0
1.0
方向导数
8
1
1
极小点
点x*是F(x)的强极小点,如果存在某个纯量d>0, 使得当d>
||Dx|| >0 时,对所有Dx都有F(x*) < F(x* +Dx)成立。
-强极小点:
点x*是F(x)的唯一全局极小点,如果F(x*) < F(x* +Dx)对所有
Dx≠0都成立。
-全局极小点:
点x*是F(x)的弱极小点,如果它不是一个强极小点,且存在
某个纯量d>0, 使得当d> ||Dx|| >0 时,对所有Dx都有F(x*)≦
F(x*+Dx)成立。
-弱极小点:
强极小点全大于0
弱极小点可等于0
8
1
2
例子
-2 -1 0 1 2
0
2
4
6
8
F x( ) 3x
4
7x
2
–
1
2
---x– 6+=
Strong Minimum
Strong Maximum
Global Minimum
8
1
3
向量例子
-2
-1
0
1
2
-2
-1
0
1
2
0
4
8
12
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
F x( ) x2 x1–( )
4
8x1x2 x1– x2 3+ + +=
-2 -1 0 1 2
-2
-1
0
1
2
-2
-1
0
1
2
-2
-1
0
1
2
0
2
4
6
8
F x( ) x1
2
1.5x1x2– 2x2
2
+( )x1
2
=
8
1
4
一阶优化的必要条件
F x( ) F x* Dx+( ) F x*( ) F x( )
T
x x*=
Dx+= =
1
2
---Dx
T
F x( )
x x*=
Dx2 + +
Dx x x*–=
F x* Dx+( ) F x*( ) F x( )
T
x x*=
Dx+
对很小的Dx:
F x( )
T
x x*=
Dx 0
F x( )
T
x x*=
Dx 0
如果x*是个极小点, 则要求:
F x* Dx–( ) F x*( ) F x( )
T
x x*=
Dx – F x*( )如果 则有
这与x*是极小点相矛盾,所以唯一的选择只有 F x( )
T
x x*=
Dx 0=
该式对所有的Dx都必须成立Dx,即 F x( )
x x*=
0=
驻点:使得梯度为零的点称为驻点(稳定点)。一个极小点一定为驻点,这是局部
极小点的一阶必要条件(不是充分条件)。
8
1
5
二阶条件
F x* Dx+( ) F x*( )
1
2
---Dx
T
F x( )
x x*=
Dx2 + +=
Dx
T
F x( )
x x*=
Dx2 0在x* 将存在强极小点,如果 对所有Dx≠ 0成立。
Hessian矩阵正定是强极小点存在的二阶充分条件。
z
T
Az 0
一个矩阵A是半正定的,如果任意向量z,有:
z
T
Az 0
如果一阶条件满足(梯度为0), 则有
一个矩阵A是正定的,如果对任意向量z≠ 0,有:
可以通过检验矩阵的特征值来检验这些条件。如果矩阵所有特征值为正,则矩阵
为正定矩阵;如果矩阵所有特征值非负,则矩阵为半正定矩阵。
Hessian矩阵半正定是强极小点存在的二阶必要条件。
半正定:特征根≥0
8
1
6
例子
F x( ) x1
2
2x1x2 2x2
2
x1+ + +=
F x( )
2 x1 2x2 1+ +
2 x1 4x2+
0= = x*
1–
0.5
=
F x( )2 2 2
2 4
= (不是x的函数)
检查上述Hessian矩阵的特征值来检验正定性。如果特征值全都大于零,则该
矩阵是正定的。
F x( )2 I– 2 – 2
2 4 –
2
6– 4+ 0.76–( ) 5.24–( )= = =
0.76 5.24= 两个特征值是正定的,所以x*是强极小点。
8
1
7
二次函数
F x( )
1
2
---x
T
Ax d
T
x c+ +=
h
T
x( ) x
T
h( ) h= =
x
T
Qx Qx Q
T
x+ 2Qx (for symmetric Q)= =
F x( ) Ax d+=
F x( )2 A=
梯度的性质:
梯度和Hessian矩阵:
二次函数的梯度:
二次函数的Hessian矩阵:
(A是对称矩阵)
F x( )
T
8
1
8
Hessian的特征系统
F x( )
1
2
---x
T
Ax=
考虑驻点为原点且在原点值为0的二次函数.
B z1 z2 zn=
B
1–
B
T
=
A' B
T
AB[ ]
1 0 0
0 2 0
0 0 n
L= = =
使用Hessian矩阵的特征向量为新的基向量对
Hessian矩阵进行变换.
因为Hessian矩阵是对称的, 它的特征向量正交.
A BLB
T
=
8
1
9
二阶方向导数
p
T
F x( )2 p
p
2
------------------------------
p
T
Ap
p
2
---------------=
p Bc=
P用特征向量(新的基)来表示:
p
T
Ap
p
2
---------------
c
T
B
T
BLB
T
( )Bc
c
T
B
T
Bc
--------------------------------------------
c
T
Lc
c
T
c
--------------
ici
2
i 1=
n
ci
2
i 1=
n
--------------------= = =
min
p
T
Ap
p
2
--------------- max
B
1–
B
T
=
8
2
0
特征向量(最大的特征值)
p zmax=
c B
T
p B
T
zmax
0
0
0
1
0
0
= = =
zmax
T
Azmax
zmax
2
--------------------------------
ici
2
i 1=
n
ci
2
i 1=
n
-------------------- max= =
特征值代表了沿相应特征向量(函数轮廓线
的主轴)方向上的曲率(二阶导数)。
8
2
1
圆形空洞
-2
-1
0
1
2
-2
-1
0
1
2
0
2
4
-2 -1 0 1 2
-2
-1
0
1
2
F x( ) x 1
2
x2
2
+
1
2
---x
T 2 0
0 2
x= =
F x( )2 2 0
0 2
= 1 2= z1
1
0
= 2 2=
z2
0
1
=
(任意两个相互独立的向量都行.)
8
2
2
椭圆空洞
F x( ) x 1
2
x1 x2 x2
2
+ +
1
2
---x
T 2 1
1 2
x= =
F x( )2 2 1
1 2
= 1 1= z1
1
1–
= 2 3= z2
1
1
=
-2 -1 0 1 2
-2
-1
0
1
2
-2
-1
0
1
2
-2
-1
0
1
2
0
1
2
3
8
2
3
伸长的鞍形
-2
-1
0
1
2
-2
-1
0
1
2
-8
-4
0
4
F x( )
1
4
---x1
2
–
3
2
---x1x2–
1
4
---x2
2
–
1
2
---x
T 0.5– 1.5–
1.5– 0.5–
x= =
F x( )2 0.5– 1.5–
1.5– 0.5–
= 1 1= z1
1–
1
= 2 2–= z2
1–
1–
=
-2 -1 0 1 2
-2
-1
0
1
2
8
2
4
驻点凹槽
F x( )
1
2
---x1
2
x1x2–
1
2
---x2
2
+
1
2
---x
T 1 1–
1– 1
x= =
F x( )2 1 1–
1– 1
= 1 1= z1
1–
1
= z2
1–
1–
=2 0=
-2 -1 0 1 2
-2
-1
0
1
2
-2
-1
0
1
2
-2
-1
0
1
2
0
1
2
3
8
2
5
二次函数特点的小结
• 如果赫森矩阵的所有特征值为正,则函数有一个强极
小点。
• 如果赫森矩阵的所有特征值为负,则函数有一个强极
大点。
• 如果赫森矩阵的所有特征值有正有负,则函数有一个
鞍点。
• 如果赫森矩阵的所有特征值为非负,但某些特征值为
零,则函数要么有一个弱极小点,要么没有驻点。
• 如果赫森矩阵的所有特征值为非正,但某些特征值为
零,则函数要么有一个弱极大点,要么没有驻点。
x* A–
1–
d=驻点:
本文档为【第8章神经网络设计_Ch8_性能曲面和最优点】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。