首页 第十章非参数密度估计和回归

第十章非参数密度估计和回归

举报
开通vip

第十章非参数密度估计和回归第十章非参数密度估计和回归第一页,共32页。10.1非参数密度估计例10.1在美国黄石国家公园有一个间歇式的温泉,它的喷发间隔很有规律,大约66分钟喷发一次,实际上从33分钟到148分钟之间变化,水柱高度可达150英尺,由于其喷发保持较明显的规律性,人们称之为老忠实.问题:人们想知道间隔时间的密度函数.第二页,共32页。第三页,共32页。第四页,共32页。一元密度估计直方图记录了每个区间中点的个数或频率,但很难给出较为准确的密度估计.核密度估计:原理和直方图类似,计算某一点周围点的个数.若数据为,在任意一点x处的一...

第十章非参数密度估计和回归
第十章非参数密度估计和回归第一页,共32页。10.1非参数密度估计例10.1在美国黄石国家公园有一个间歇式的温泉,它的喷发间隔很有规律,大约66分钟喷发一次,实际上从33分钟到148分钟之间变化,水柱高度可达150英尺,由于其喷发保持较明显的规律性,人们称之为老忠实.问题:人们想知道间隔时间的密度函数.第二页,共32页。第三页,共32页。第四页,共32页。一元密度估计直方图记录了每个区间中点的个数或频率,但很难给出较为准确的密度估计.核密度估计:原理和直方图类似,计算某一点周围点的个数.若数据为,在任意一点x处的一种核密度估计为其中K(.)称为核函数,满足对称性及h称为带宽,一般,h越大,估计的密度函数就越光滑,但偏差可能较大,选择的原则是使得均方误差最小为宜.(交叉验证法,直接插入法)注:该估计利用数据点xi到x的距离来决定xi在估计点x的密度时所起的作用第五页,共32页。第六页,共32页。局部多项式密度估计:目前最流行,效果很好的密度估计方法.对每一个点x拟合一个局部多项式来估计该点的密度.k近邻估计:无论欧氏距离多少,只要是x点的最近的k个点就可参与加权.一种具体的k近邻密度估计:令表示按升幂排列的x到所有n个样本点的欧氏距离.K的取值决定了估计密度曲线的光滑程度,k越大越光滑.与核估计结合起来定义广义的k近邻估计:第七页,共32页。多元密度估计对于二元数据,可以画二维直方图.假定x为d-维向量,则多元密度估计可以为其中第八页,共32页。10.2非参数回归回归是指给了一组数据之后,希望找到一个X变量和Y变量的一个关系:主要目的是对m(x)进行估计.例10.2研究摩托车碰撞,变量times(X)为在模拟的和摩托车相撞之后的时间,变量accel(Y)是头部的加速度.问题:X和Y之间有何种函数关系?第九页,共32页。回归实际上就是把原始数据点光滑化,线性回归是最光滑的,此外还可以用多项式或其它函数来拟合.在非参数回归中,主要考虑的是局部加权回归方法,有核光滑,局部多项式回归,k-近邻光滑,样条光滑等第十页,共32页。滑动平均:最初等的平滑是三点滑动平均,把每一点的Y值用该点的和邻近两点的平均代替.平均的点数越多,就越光滑.核回归光滑:基本思路和三点平均是类似的,只不过作平均时是按照核函数进行加权平均.Nadaraya-Watson形式的核估计第十一页,共32页。Gausser—Muller核估计:其中第十二页,共32页。k-近邻光滑:令Jx表示和x最近的k个点的集合,此时其中局部多项式回归:假定在局部上,回归函数m(.)在x的邻域点z可以由Taylor展开来近似:第十三页,共32页。需要估计出,再加权,这归结为所谓的局部的加权多项式回归,它要选择,使得下式最小记这样的对的估计为,由此得到的估计也就是说在每一点x的附近运用估计:当p=1时称为局部线性估计.局部多项式估计有很多优点:兼备有Nadaraya—Watson估计和Gausser---Muller估计二者的优点,而且在边沿附近的性质又优于这二者.第十四页,共32页。Loess局部加权多项式回归最初由Cleveland提出,后又被Cleveland&Devlin及其他许多人发展.Loess方法和Lowess方法相近.其主要思想为:在数据集合的每一点用低维多项式拟合数据点的一个子集,并估计该点附近自变量数据点所对应的因变量值,该多项式是用加权最小二乘法来拟合;离该点越远,权重越小,该点的回归函数值就是这个局部多项式来得到,而用于加权最小二乘回归的数据子集是由最近邻方法确定.最大优点:不需要事先设定一个函数来对所有数据拟合一个模型.Loess很灵活,适用于很复杂的没有理论模型存在的情况.数据越密集,Loess的结果越好.第十五页,共32页。光滑样条:原理是调和拟合度和光滑程度.选择的近似函数f(.)要使下式尽可能地小:当(>0)大时,二阶导数要很小才行,这样就使得拟合很光滑,但第一项代表的偏差就可能很大.Friedman超光滑法:这种方法会使得带宽随着x变化.对每个点有三个带宽来自动选取,,这依据该点每边的邻域中的点数而定,不用迭代,该方法是源于斯坦福大学的Friedman用Fortran程序来实现.第十六页,共32页。第十七页,共32页。第十八页,共32页。第十九页,共32页。第二十页,共32页。第二十一页,共32页。第二十二页,共32页。第二十三页,共32页。第二十四页,共32页。第二十五页,共32页。第二十六页,共32页。第二十七页,共32页。第二十八页,共32页。第二十九页,共32页。第三十页,共32页。第三十一页,共32页。第三十二页,共32页。
本文档为【第十章非参数密度估计和回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
阿司
道路千万条,脱贫第一条
格式:ppt
大小:1MB
软件:PowerPoint
页数:32
分类:教育学
上传时间:2022-01-08
浏览量:15