首页 4第四章概率密度函数的非参数估计 - 2013

4第四章概率密度函数的非参数估计 - 2013

4第四章概率密度函数的非参数估计 - 2013内容纲要研究目的和意义内容纲要研究目的和意义2.1.2Bayes公式第二章贝叶斯决策理论Bayes公式如下：Bayes公式体现了先验概率、类概率密度函数、后验概率三者之间的关系。先验概率类条件概率密度函数后验概率内容纲要研究目的和意义§参数估计与监督学习研究如何用已知训练样本的信息去估计P(x|ωi)?一．参数估计与非参数估计参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估计里面的参数。非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接...

内容纲要研究目的和意义内容纲要研究目的和意义2.1.2Bayes公式第二章贝叶斯决策理论Bayes公式如下：Bayes公式体现了先验概率、类概率密度函数、后验概率三者之间的关系。先验概率类条件概率密度函数后验概率内容纲要研究目的和意义§参数估计与监督学习研究如何用已知训练样本的信息去估计P(x|ωi)?一．参数估计与非参数估计参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估计里面的参数。非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。内容纲要研究目的和意义参数估计要求密度函数的形式已知; 但这种假定有时并不成立，常见的一些函数形式很难拟合实际的概率密度; 经典的密度函数都是单峰的，而在许多实际情况中却是多峰的; 因此用非参数估计。内容纲要研究目的和意义 4.1基本思想 4.2Parzen窗方法 4.3近邻分类 4.4本章小结第四章概率密度函数的非参数估计第四章内容纲要内容纲要研究目的和意义4.1基本思想第四章概率密度函数的非参数估计内容纲要研究目的和意义非参数估计:直接用已知类别样本去估计总体密度分布 1. 密度估计:一个随机变量X落在区域R的概率为P P(X’)为P(X)在R内的变化值,P(X)为总体概率密度4.1基本思想P(x)R内容纲要研究目的和意义1）假设有N个样本X=(X1,X2,…XN)T都是按照P(X)从总体中独立抽取的2）若N个样本中有k个落入在R内的概率符合二项分布其中P是样本X落入R内的概率Pk是k个样本落入R内的概率3）数学期望:E(k)=k=NP∴对概率P的估计:。是P的一个比较好的估计（小区域中落入k个样本） 4）设P(x’)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上几乎没有变化时(单击详解)，则其中是R包围的体积内容纲要研究目的和意义令R是包含样本点x的一个区域，其体积为V，设有N个训练样本，其中有k落在区域R中，则可对概率密度作出一个估计：相当于用R区域内的平均性质来作为一点x估计，是一种数据的平滑。4.1基本思想(V足够小)内容纲要研究目的和意义讨论:①当V固定的时候N增加,k也增加；当时，只反映了P(x)的空间平均估计而反映不出空间的变化②N固定,体积变小当时,k=0时时所以起伏比较大,噪声比较大,需要对V进行改进.因此，V的选择应与样本总数相适应！内容纲要研究目的和意义1)对体积V、样本总数综合考虑对体积V进行改进：为了估计X点的密度,我们构造一串包括X的区域序列R1,R2,..RN.对R1采用一个样本进行估计，对R2采用二个样本进行估计..。设VN是RN的体积，KN是N个样本落入VN的样本数，则密度的第N次估计为：VN是RN的体积，KN是N个样本落入VN的样本数 ∴PN(x)是P(x)的第N次估计内容纲要研究目的和意义若PN(x)收敛于P(x)应满足三个条件：①，当N↑时，VN↓，N→∞，VN→0这时虽然样本数多，但由于VN↓，落入VN内的样本KN也减小，所以空间变化才反映出来 ②，N↑，kN↑，N与KN同相变化③，KN的变化远小于N的变化。因此尽管在R内落入了很多的样本，但同总数N比较,仍然是很小的一部分。直观的解释：1)随着样本数的增加，小舱体积应该尽可能小，2)同时又必须保证小舱内有充分多的样本；3)但每个小舱内的样本数又必须是总样本数中很小的一部分。内容纲要研究目的和意义构造一系列包含x的区域R1,R2,…，对应n=1,2,…，则对p(x)有一系列的估计：当满足下列条件时，pn(x)收敛于p(x)：收敛性4.1基本思想内容纲要研究目的和意义有效性当n固定时，V的大小对估计的效果影响很大，过大则平滑过多，不够精确；过小则可能导致在此区域内无样本点，k=0。此方法的有效性取决于样本数量的多少，以及区域体积选择的合适。4.1基本思想下一步：如何选择VN？内容纲要研究目的和意义如何选择VN满足以上条件：①使体积VN以N的某个函数减小，如 (h为常数)②使KN作为N的某个函数，例VN的选择使RN正好包含KN个近邻V1→K1，V2→K2，..VR→KR→Kn近邻法窗口法内容纲要研究目的和意义区域选定的两个途径 Parzen窗法：区域体积V是样本数n的函数，如： K-近邻法：落在区域内的样本数k是总样本数n的函数，如：区域选定的两个途径内容纲要研究目的和意义Parzen窗法和K-近邻法内容纲要研究目的和意义§非参数估计非参数估计:直接用已知类别样本去估计总体密度分布，方法有：① 用样本直接去估计类概率密度p(x|ωi)以此来设计分类器,如窗口估计② 用学习样本直接估计后验概率p(ωi|x)作为分类准则来设计分类器,如k近邻法.内容纲要研究目的和意义4.2Parzen窗方法估计第四章概率密度函数的非参数估计内容纲要研究目的和意义第四章概率密度函数的非参数估计小窗——小体积——小舱VN每个小舱内落入的样本数目KN内容纲要研究目的和意义Parzen窗口估计假设RN为一个d维的超立方体，hN为超立方体的长度 ∴超立方体体积为：， d=1，窗口为一线段d=2，窗口为一平面 d=3，窗口为一立方体d>3，窗口为一超立方体内容纲要研究目的和意义第四章概率密度函数的非参数估计Parzen窗口估计1）定义一个窗；2）落入窗内或者没落入窗每个小舱内落入的样本数目KN最简单的情况内容纲要研究目的和意义定义窗函数4.2Parzen窗方法内容纲要研究目的和意义1维数据的窗函数内容纲要研究目的和意义概率密度函数的估计超立方体中的样本数：概率密度估计：②①内容纲要研究目的和意义窗函数的要求上述过程是一个内插过程，样本xi距离x越近，对概率密度估计的贡献越大，越远贡献越小。只要满足如下条件，就可以作为窗函数：内容纲要研究目的和意义窗函数的形式内容纲要研究目的和意义窗口的选择：方窗函数指数窗函数正态窗函数Φ(u)Φ(u)Φ(u)hN正态窗函数内容纲要研究目的和意义∵ф(u)是以原点x为中心的超立方体。∴在xi落入方窗时，则有在VN内为1不在VN内为0 落入VN的样本数为所有为1者之和 ∴密度估计内容纲要研究目的和意义讨论：①每个样本对估计所起的作用依赖于它到x的距离，即|x-xi|≤hN/2时，xi在VN内为1，否则为0。②称为的窗函数，取0，1两种值，但有时可以取0,0.1,0.2……多种数值，例如随xi离x接近的程度，取值由0,0.1,0.2……到1。内容纲要研究目的和意义③要求估计的PN(x)应满足：为满足这两个条件，要求窗函数满足：④窗长度hN对PN(x)的影响若hN太大,PN(x)是P(x)的一个平坦,分辨率低的估计,有平均误差若hN太小,PN(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重，hN应很好选择内容纲要研究目的和意义例1：对于一个二类（ω1，ω2）识别问题，随机抽取ω1类的6个样本X=(x1，x2，….x6)ω1=(x1，x2，….x6)=(x1=3.2，x2=3.6，x3=3，x4=6，x5=2.5，x6=1.1)估计P(x|ω1)即PN(x)解：选正态窗函数0123456x6x5x3x1x2x4x内容纲要研究目的和意义∵x是一维的上式用图形表示是6个分别以3.2，3.6，3，6，2.5，1.1为中心的丘形曲线(正态曲线)，而PN(x)则是这些曲线之和。内容纲要研究目的和意义由图看出，每个样本对估计的贡献与样本间的距离有关，样本越多，PN(x)越准确。内容纲要研究目的和意义例2：设待估计的P(x)是个均值为0，方差为1的正态密度函数。若随机地抽取X样本中的1个、16个、256个作为学习样本xi,试用窗口法估计PN(x)。解：设窗口函数为正态的，σ＝1，μ＝0hN:窗长度，N为样本数，h1为选定可调节的参数。内容纲要研究目的和意义内容纲要研究目的和意义讨论：由图看出,PN(x)随N,h1的变化情况①当N＝1时，PN(x)是一个以第一个样本为中心的正态形状的小丘，与窗函数差不多。②当N＝16及N=256时h1＝0.25曲线起伏很大，噪声大h1＝1起伏减小h1＝4曲线平坦，平均误差③当N→∞时，PN(x)收敛于一平滑的正态曲线，估计曲线较好。内容纲要研究目的和意义例3。待估的密度函数为二项分布解：此为多峰情况的估计设窗函数为正态解：此为多峰情况的估计设窗函数为正态x-2.5-210.2502P(x)-0.25<x<-20<x<2x为其它内容纲要研究目的和意义内容纲要研究目的和意义当N=1、16、256、∞时的PN(x)估计如图所示①当N＝1时，PN(x)实际是窗函数。②当N＝16及N=256时h1＝0.25曲线起伏大h1＝1曲线起伏减小h1＝4曲线平坦③当N→∞时，曲线较好。内容纲要研究目的和意义结论：①由上例知窗口法的优点是应用的普遍性。对规则分布，非规则分布，单锋或多峰分布都可用此法进行密度估计。②要求样本足够多，才能有较好的估计。因此使计算量，存储量增大。应用场合还很多，想想还有哪些场合可以用？内容纲要研究目的和意义 hn称为窗的宽度窗函数的宽度对估计的影响内容纲要研究目的和意义窗函数的宽度对估计的影响课后练习内容纲要研究目的和意义识别方法保存每个类别所有的训练样本；选择窗函数的形式，根据训练样本数n选择窗函数的h宽度；识别时，利用每个类别的训练样本计算待识别样本x的类条件概率密度：采用Bayes判别准则进行分类。内容纲要研究目的和意义4.3近邻分类第四章概率密度函数的非参数估计内容纲要研究目的和意义KN近邻估计在窗口法中存在一个问题是对hN的选择问题。1）若hN选太小，则大部分体积将是空的（即不包含样本），从而使PN(x)估计不稳定。2）若hN选太大，则PN(x)估计较平坦，反映不出总体分布的变化，而KN近邻法的思想是以x为中心建立空胞，使v↑，直到捕捉到KN个样本为止。∴称KN-近邻估计v的改进，样本密度大，VN↓;样本密度小，VN↑;∴P(x)的估计为：∴KN近邻估计对KN和VN都作了限制内容纲要研究目的和意义使PN(x)收敛于P(x)的充分必要条件：①，N与KN同相变化②，KN的变化远小于N的变化③V1为N=1时的VN值21内容纲要研究目的和意义KN近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为：N个样本落入VN内有KN个，KN个样本内有Ki个样本属于ωi类则联合概率密度：内容纲要研究目的和意义根据Bayes公式可求出后验概率：类别为ωi的后验概率就是落在VN内属于ωi的样本ki与VN内总样本数KN的比值∴∵内容纲要研究目的和意义后验概率的估计 Parzen窗法估计的是每个类别的类条件概率密度，而k-近邻法是直接估计每个类别的后验概率。将一个体积为V的区域放到待识样本点x周围，包含k个训练样本点，其中ki个属于ωi类，总的训练样本数为n，则有：4.3近邻分类器公式解释一下内容纲要研究目的和意义 K近邻分类准则：对于待分样本x，找出它的k个近邻，检查它的类别，把x归于样本最多的那个类别。 K近邻分类的错误率随K↑，Pk↓,最低的错误率为Bayes分类。P*PK内容纲要研究目的和意义最近邻分类准则：待分样本x，找一个离它最近的样本，把x归于最近的样本一类。错误率：M为类别数P(e)为Bayes估计的错误率最近邻分类法则的错误率P比K近邻错误率还大，但最大不会超过贝叶斯分类器错误率的二倍。PP(e)BayesK近邻最近邻内容纲要研究目的和意义k-近邻分类器 k-近邻分类算法设置参数k，输入待识别样本x；计算x与每个训练样本的距离；选取距离最小的前k个样本，统计其中包含各个类别的样本数ki；K近邻分类准则：对于待分样本x，找出它的k个近邻，检查它的类别，把x归于样本最多的那个类别。内容纲要研究目的和意义k-近邻分类，k=13还可以参考25叶的土内容纲要研究目的和意义4.4本章小结第四章概率密度函数的非参数估计内容纲要研究目的和意义本章主要介绍了概率密度函数的非参数估计。非参数估计方法主要有：Parzen窗法、KN近邻法等。4.4本章小结第四章概率密度函数的非参数估计公式解释一下还可以参考25叶的土

                    本文档为【4第四章 概率密度函数的非参数估计 - 2013】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

4第四章 概率密度函数的非参数估计 - 2013

你可能还喜欢

4第四章概率密度函数的非参数估计 - 2013