EM：一种极大似然参数估计方法

EM：一种极大似然参数估计方法 EM算法：一种极大似然参数估计方法报告人：林子洋 2014/03/14 Outline Kmeans与EM算法 从最大似然说起 EM算法思想与简单证明 应用实例 Outline Kmeans与EM算法 从最大似然估计说起 EM算法思想与简单证明 应用实例 Kmeans与EM算法 Kmeans与EM算法 1. 回到Kmeans算法想解决的初始问题，即将样本分成k个类，也就是说求出每一个样例隐含的类别y，并将...

EM算法：一种极大似然参数估计方法报告人：林子洋 2014/03/14 Outline Kmeans与EM算法 从最大似然说起 EM算法思想与简单证明 应用实例 Outline Kmeans与EM算法 从最大似然估计说起 EM算法思想与简单证明 应用实例 Kmeans与EM算法 Kmeans与EM算法 1. 回到Kmeans算法想解决的初始问题，即将样本分成k个类，也就是说求出每一个样例隐含的类别y，并将样本x进行分类。 2. 假如我们知道这k个类别的质心，那么将样本x分类就顺理成章了；或者假如样本x是已经分好的类，我们也可以根据极大似然的思想求出每一个类的质心。相对应与EM算法：待估参数质心θ，指定一个初始值。 E步骤：kmeans中将样例根据欧式距离分配到每一个类中，即在当前的质心分布情况下，期望的类别分布。 M步骤：重新计算聚类的中心，修正质心θ。不同之处在于，EM算法给出的是样例x,属于每一个聚类的概率，而Kmeans 则是将每个样本确定地分配到某一个聚类中。所以可以知道EM算法最终得到的也仅是局部最优解。 Kmeans与EM算法收敛性证明与梯度下降法：无论是修改质心 μ还是重新计算一个新的分类，以上函数的值总是下降的，可以证明Kmeans就是一种梯度下降的优化方法，最后可以得到一个局部最优解。 Outline Kmeans与EM算法 从最大似然估计说起 EM算法思想与简单证明 应用实例从最大似然估计说起从最大似然估计说起  应用实例：一个小黑球沿着一个三角形的木桩滚入杯子a或b中，可建立一个概率模型，若其滚入杯子a的概率是p，则满足 B~(1,p)。  观察到的结果是X=（b,b,b,a,b,b,b,b,b,a）。小球进入a杯的概率为p，则满足10次实验的联合概率为  为了使X发生的概率最大，可令上式的关于p的导数为0，求得 p=0.2. Outline Kmeans与EM算法 从最大似然估计说起 EM算法思想与简单证明 应用实例 EM算法思想与简单证明 EM算法思想与简单证明 EM算法思想与简单证明 EM算法思想与简单证明 a) EM：期望最大化 b) 构造L(θ) >= J(Q(y); θ)，其中Q(y)是隐藏变量Y的分布，J(Q(y); θ)则是关于y的某个函数g(y;θ)的期望。 c) 在给定θ = θ0下，我们可以找到一个隐藏变量Y的分布𝑄0 𝑦 ，使g(y; θ0) 的期望即 J(Q(y); θ0) = L(θ0)，这一步叫做E步，我们构造了一个期望 E[g(y; θ0)]，并使得其成为L(θ)的一个新的下界，即L(θ0)。 d) 在上一步得到𝑄0 𝑦 的基础上，不再固定θ = θ0，那么现在是不是可以找到一个新的θ = θ1，使得在Y的分布为𝑄0 𝑦 的情况下E[g(y; θ)]得到最大化，也即最大化了J(𝑄0 𝑦 ; θ)；这一步叫做M步，它最大化了g(y; θ)的期望，最终得到： J(𝑄0 𝑦 ; θ1) >= J(𝑄0 𝑦 ; θ0) = L(θ0) e) 又由于L(θ) >= J(Q(y); θ)，因此L(θ1) >= J(𝑄0 𝑦 ; θ1) ；所以有L(θ1) >= L(θ0)，这是，我们将L(θ)的下界拉升到了J(𝑄0 𝑦 ; θ1) 。 f) 怎么构造J(Q(y); θ)？ EM算法思想与简单证明 EM算法思想与简单证明 EM算法思想与简单证明 EM算法思想与简单证明根据Jansen不等式，等号成立的条件即随机变量为常数的时候！ EM算法思想与简单证明 EM算法思想与简单证明 Outline Kmeans与EM算法 从最大似然估计说起 EM算法思想与简单证明 应用实例小黑球例子的扩展小黑球例子的扩展其中的隐藏变量，电磁铁是否通电我不可知的，我们利用EM算法。令当前模型的参数为为π,p,q： E步骤：计算隐藏变量Z={电磁铁通电，电磁铁未通电}。 P(Z=电磁铁通电)的后验概率：当然，电磁铁未通电的概率即（1−μ）。 M步骤：在以上概率下求期望函数的最大值：小黑球例子的扩展 R语言代码实现：小黑球例子的扩展运行结果！小黑球例子的扩展运行结果！ GMM高斯混合模型 GMM高斯混合模型 GMM高斯混合模型首先，给出K个类每一个高斯分布的初始值，他们的均值方差以及出现的概率，根据条件概率和全概率公式，计算出每一个观测到的样本属于类别k的概率： E步骤： GMM高斯混合模型首先，给出K个类每一个高斯分布的初始值，他们的均值方差以及出现的概率，根据条件概率和全概率公式，计算出每一个观测到的样本属于类别k的概率： E步骤： M步骤： GMM高斯混合模型假设全校的男生身高服从正态分布N(1.7,0.08)，女生身高服从分布N(1.6,0.07)，男女比例为45:55，从中随机取出128个样本，要求从这个128个样本中估计总体的分布和那女比例：代码：生成随机样本 GMM高斯混合模型代码： EM算法参数估计 GMM高斯混合模型运行结果： GMM高斯混合模型运用K-means算法：运行结果： R以及Python中的包 a) R和Python中均有对特定模型的包，例如上面的GMM-高斯混合模型等等，其中的程序设计有用到EM算法。 b) 如果把EM算法视为一种参数估计的具体方法，那么它之于参数估计恰如快排等对于排序算法，在Python中排序的时候我们仅调用sorted()函数，具体使用哪种方法对程序员是透明的。 c) 在Python和R中都有参数估计的包，其中可能会用到EM算法。 d) R： library(bbmle) 或 library(maxLik) e) Python: from scipy.optimize import minimize 大致看了一下scipy的代码实现，看起来像是用梯度下降或者EM算法。 Thanks ! Q & A

                    本文档为【EM：一种极大似然参数估计方法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

EM：一种极大似然参数估计方法

你可能还喜欢