首页 结构方程建模缺失数据填补方法研究

结构方程建模缺失数据填补方法研究

举报
开通vip

结构方程建模缺失数据填补方法研究结构方程建模缺失数据填补方法研究 文/李保东 亢金轩 e 2002 如下三种类型(Littl& Rubin()):一、问题的背景 1、如果缺失数据的缺失与数据集中的观测数据和 在行为学、社会学、教育学、经济学和心理学等领 缺失数据都无关,则称这样的缺失数据为完全随机缺 域研究中,人们常常遇到诸如健康状况、个性、智力水 (missing completely at random,MCAR); 失平、满意度等不可观测变量,这类变量通常称为潜变 structural equation model,SEM)是目 如...

结构方程建模缺失数据填补方法研究
结构方程建模缺失数据填补方法研究 文/李保东 亢金轩 e 2002 如下三种类型(Littl& Rubin()):一、问题的背景 1、如果缺失数据的缺失与数据集中的观测数据和 在行为学、社会学、教育学、经济学和心理学等领 缺失数据都无关,则称这样的缺失数据为完全随机缺 域研究中,人们常常遇到诸如健康状况、个性、智力水 (missing completely at random,MCAR); 失平、满意度等不可观测变量,这类变量通常称为潜变 structural equation model,SEM)是目 如果MCAR假设成立,则可以直接将缺失值删除, 量,结构方程模型(前国内外分析研究可观测变量与潜变量内在联系,以 但缺点是可能会丧失一些信息, 。而不用担心估计偏差 。及潜变量之间关系的重要工具当然也可以用均值替换等方法对缺失值进行填充,以 随着结构方程模型应用领域的日益扩大,各种分 。 充分利用信息 结 构 方 程 模 型 的 统 计 软 件 也 应 运 而 生 , 主 要 有 析要评价MCAR假设是否成立,可以比较回答者和未 LISREL,EQS6.0以及Small Waters公司开发的结构方程 t检 AMOS。 回答者分布的方法来评估观察数据,也可用单变量模型分析软件 Little’s MCAR检验来进行更精确的评价,缺失数 在应用这些软件进行建模时,都不能对含有缺失 验或 MCAR的情况并不多见,况且上述的检验方 。观测变量在数据采集阶段,缺 据完全符合值的数据进行直接分析 MCAR假设不成立,而不能证明其成立 。。在大型问卷调查中,含有缺项、漏项的 法,只能证明失值经常出现 2、如果缺失数据的缺失只与数据集中的观测数据 10%是很普遍的事情特别是在问卷中涉及 。记录达到 有关而与缺失数据无关,则称这样的缺失数据为随机 家庭收入、婚外性伴侣等敏感问题时,缺失值的发生尤 (mssng at random,MAR); ii。 缺失其显著该定义的含义是指有缺失值的变量,其缺失情况 遗憾的是,目前对这些缺失值的处理并没有公认 的发生与数据集中其他无缺失变量的取值有关,而不 的好的方法,通常采用的方法要么对含有缺失数据的 。这种情况下,缺失值不仅会导致损失 但简单的删除会带来样 。依赖于缺失部分样本进行删除,或者进行填补。比如在本研究 信息,更有可能导致分析结论发生偏差本信息的损失,不同填补方法结果的评价缺少合理的 (国家自然科学基金项目:转型时期中国企业员工组 “ 。 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 ”(70571067))中,收集上来 国内对缺失数据的研究也是一个热门话题,针对 织认同及其整合机制研究 的数据有缺失,并以高层管理人员为主,可能是高层管 结构方程建模时,缺失值处理方法进行研究的并不多 。这就 。下面拟在常见缺失数据模式、不同缺失机制研究成 理人员工作繁忙,或对于调查量 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 没有认真对待见 可能会影响后面的结构方程建模、分层分析、列联表分 果基础之上,针对结构方程建模时,不同缺失值填补方 。 。 析等法做系统的研究当缺失机制为随机缺失时,直接将其删除或采用 二、常见的缺失模式 根据Little & Rubin(2002)的分析和研究,常见的缺 简单的均值填充方式均不合适,而应采取有效的算法 : 失数据模式有对缺失值进行填充,或就缺失值对分析结果的影响程 1、只有一个变量存在缺失数据; 。 2、缺失数据只出现在几个变量的观测值中,且每 度进行评价,以使能得到更为客观、准确的分析结果3、如果缺失数据的缺失与其本身有关,则称这样 一变量的观测值的缺失数据模式一样; 的 缺 失 数 据 为 非 随 机 缺 失 (not mssng at random, ii3、缺失数据随变量的变化呈现出单调性; 4、缺失数据的缺失没有规律可循; NMAR)。5、缺失数据的缺失呈现出互补型。 三、缺失机制指数据的缺失不仅和其他变量的取值有关,也和 分析 缺失数据的缺失,可能与观测数据有关,也自身取值有关,比如本研究调查收入时,收入高的人出 可能与于各种原因不愿意填写,这种情形缺失值处理方法只 缺失数据本身有关,因此缺失数据的缺失机制可分为 。 能通过算法做出估计 由于前两种缺失数据机制与缺失数据本身无关, 所 以 , 通 常 称 该 类 缺 失 数 据 为 可 忽 略 缺 失 数 据 ?项目基金国家自然科学基金资助项目(7057106)7河南财经政法大学博士科研启动基金 ,,。2 0 1 1, 1 38 问 题 研 究 (ignorable missing Data);而由后一种缺失数据机制导致 填补主要是来自该变量与其他变量间的关系。必须假 定缺失值的变量与其他变量间有实质的关系,并且回 的数据缺失与该缺失数据本身有关,这样的缺失数据 归估计并没有限制估计数的范围,在实践中出现过 通常称为不可忽略的缺失数据ignorable missing (non- Lkert5级量表(最高分为5,最低分为1),但所得到的填 idata)。 6,还得进一步进行调整。 补值却是四、缺失值填补方法 3epeced azaon agoh()EM算法(xtmximitilritm),设y= 缺失值的填补方法的探讨,一直是个热门话题,大T,y,???,y)是多维变量,均值为μ(向量),协方差为 12p(y致可以分为两大类,简单填补和算法填补。 1、常用的简单填补方法有: (1)均值填补,就是以变量有效值(不含缺失值)的 (矩阵),样本容量为N。 Σ 。此法简单易操作,并且 平均数来填补该变量的缺失值在M- 步,基于无缺失样本的均值y和协方差S作μ 。不利之处在于: 均值通常被认为是最好的单一取代值 均值取代不会影响整个变量的均值,但会对整个变量 和0的估计值。若每个样本均有缺失值,则从μ=和 Σ 。也就是说,方差公式中分子部分的离 的方差产生影响 =I开始。 Σ 2 軍X差平方和((X- ))不变,但分母部分的样本数变 Σ赞 在E- 步,计算 E(y| y;μ,),cov(y| y; mss obsmss obsiiiiiiΣ 大,这就降低了数据的真实方差;其次,变量的分布也 赞 赞 μ)i= 1, 2??,?, N并以这些值替代M- 步的μ和 ,,。Σ 会受到影响,如果填入的均值太多,将会使变量的峰度 赞 赞 Σ , 值。重复M-步和E- 步,直至(μ)与(μ, ) ΣK+1KΣk 增加;最后,此法会改变变量之间的真实相关,因为所 k+1 根据实践,对于Likert5 。小于预设的迭代收敛条件。 有缺失值是被一个常数所取代级调查量表,缺失值比例不太大时,这种方法效果还是 4、马尔科夫链蒙特卡罗法(MCMC) 。不错的 比如本研究中问卷问题均按五级量表得分:完全 在LISREL中用EM算法的μ 和估计值,做为 Σ =1,不太同意=2,说不清=3,比较同意=4,完全同 不同意 =5,如果有个别缺失值,用“3”来填补,就是说对该项 MCMC的初值,并在P- 步用多元正态和反向Wshart分 i意 “说不清”。实际应用中可以根据不同的情况用均值、中 。 布去估计μ和,它们分别是μ和的估计值;在I-位数、众数来进行填补 kΣ k Σ (2)Cold Deck填补,使用外在的或先前的研究所获 。是一种外在取值法,而 得的一个常数值来填补缺失值步,用μ和从条件正态分布 (conditional normal k Σ k 。 相应的均值填补是一种来自数据内部的内在取值法distribution)去模拟,y| y, i= 1, 2??,?, N用模拟所 。起码应该有理由相信外在的数据更有效很明显,该种 。imiss iobs 。 方法具有均值填补一样的优缺点得数值去替代缺失数据,并计算μ=y和=S,y和S (3)个例取值填补,寻找样本以外很相似的观察样 k+1Σ k+1 例如本研 。本,将样本以外的观察样本之值取代缺失值 分别是样本内不含缺失数据的样本均值和协方差。重究中,收入有一个缺失值,这个缺失值来自于高级管理 复P- 和I- 步,第行的缺失值用m次模拟的均值替代i。 。 层人员,可以根据相似层次的人员的收入,来填补五、结论与讨论 在常见缺失数据模式、不同缺失4pae acng()形态匹配填补法,形态匹配(ttrn-mthi) 机制基础之上,针A在某变量在缺失,用个体B中同一个 填补,是指某个体对结构方程建模时,缺失值的常用填补方法进行了研 A与B在数据集中的其他变量非 变量的值来取代,要求究,下一步拟对不同填补方法的参数估计结果,结合拟 。常相似 。合优度等指标进行比较评价2、常用的算法填补方法有: (作者单位,河南财经政法大学统计学系 洛阳理 (1)多元取代填补,用两种以上的方法分别得到缺 工学院数理部) 。也可以 失值的估计值,用它们的平均值来填补缺失值 取这些估计值的加权平均进行填补,但权重的设定要 。有相应的依据(2)回归估计填补,用回归分析来预测缺失值,将 预测结果取代缺失值。该方法中一个变量的缺失值的 39 2 0 1 1, 1
本文档为【结构方程建模缺失数据填补方法研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_079973
暂无简介~
格式:doc
大小:33KB
软件:Word
页数:6
分类:生活休闲
上传时间:2017-10-16
浏览量:50