带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析（可编辑）

带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析（可编辑）带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析（可编辑）带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 . . . 第卷第期数学进展,年月带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析付英姿 ,陈雪东 .昆明理工大学理学院数学系,昆明,云南, ; .湖州师范学院理学院,湖州,浙江, 摘要:广义部分线性模型是广义线性模型和部分线性模型的推广,是一种应用广泛的半参数模型.本文讨论的是该模型在线性协变量和响应变量均存在非随机缺失数据情形下参数的估计和基于因子的模型选...

带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析（可编辑）带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 . . . 第卷第期数学进展,年月带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析付英姿 ,陈雪东 .昆明理工大学理学院数学系,昆明,云南, ; .湖州师范学院理学院,湖州,浙江, 摘要:广义部分线性模型是广义线性模型和部分线性模型的推广,是一种应用广泛的半参数模型.本文讨论的是该模型在线性协变量和响应变量均存在非随机缺失数据情形下参数的估计和基于因子的模型选择问题 ,在分析过程中,采用了惩罚样条来估计模型中的非参数成分, 并建立了层次模型;为了解决抽样过程中因参数高度相关带来的混合性差以及因维数增加导致出现不稳定性的问题,引入了潜变量做为添加数据并应用了压缩抽样方法 ,改进了收敛性;同时,为了避免计算多重积分,利用了 ? 算法估计边缘密度函数后计算因子, 为模型的选择比较提供了一种准则.最后,通过模拟和实例验证了所给方法的有效性. 关键词:不可忽略缺失数据;广义部分线性模型;惩罚样条;压缩抽样; ? 算法主题分类: ;;/中图分类号:. 文献标识码: 文章编号: ? ? ? 引言缺失数据是近年来在统计学和许多相关学科研究中的热门课题之一,其在生物医学、经济学、社会学、教育心理学、农业等领域是普遍存在的,对这个问题的研究,已取得了大量的成果.首先, 和系统地研究了缺失数据的模式和机制,并重点讨论了基于算法的极大似然估计和多重赋值方法;其次,在参数模型方面, 】研究了广义线性模型的缺失数据问题,给出了随机缺失机制下的加权算法; ,和】用方法研究了带有非随机缺失协变量的广义线性模型的参数极大似然估计; ,和】讨论了响应变量具有不可忽略缺失数据的广义线生昆合模型的参数极大似然估计;,和】研究了具有不可忽略的缺失协变量『青况下,广义线性模型的分析;再者,在结构方程模型方面, 和应用模型比较方法在可忽略缺失数据机制下,研究了混合结构方程模型的模型选择和模型参数的极大似然估计; 和研究了带有不可忽略缺失数据的非线『生结构方程模型, 提出了同时获得模型参数和潜变量的估计的方法.同时,, 和在纵向数据的研究中,利用抽样给出了具有非随机缺失数据情形下的多重赋值方法;郑术蓉,史宁中和郭建华在具有不等式约束条件下,研究了含缺失数据的线性模型的算法等等.在上述研究成果中,涉及的缺失数据机制有完全随机缺失 ,随机缺失和非随机缺失 ,采用的方法主要是 , 算法,多重赋值方法和完全分析方法等. 另一方面,对含有缺失数据的非参数、半参数回归模型以及部分线性模型的研究,也有许多收稿日期: .修改稿收到日期: ?? . 基金项目:国家社科基金 . ,云南省自然科学基金 .: . . 数学进展作者做出了卓有成效的工作.例如,和通过插补方法,研究了响应变量具有缺失情形的经验似然推断; , 和 , 和分别研究了响应变量含有随机缺失数据的半参数回归模型与部分线性模型; , ,和 , , 和分别研究了协变量与响应变量存在随机缺失数据的部分线性模型的参数估计和渐近性质;通过结合局部拟似然方法与加权估计方程的方法,研究了具有随机缺失协变量的广义部分线性模型; 和利用加权估计方程方法研究了非随机缺失数据的广义可加性模型;李志强和薛留根 .研究了带有随机缺失数据的广义半参数模型的均值借补估计.综上可见,对于具有缺失数据的半参数回归模型,主要是在非参数光滑技术的基础上应用经验似然、多重赋值和估计方程等方法,而讨论的缺失数据大多是随机缺失的.所以,相比之下,对于半参数模型在带有非随机缺失数据时的其他分析方法以及模型选择比较等问题还有待进一步的研究. ,,和】通过分析比较后指出,在方法的适用性和灵活性的意义下,完全分析也许是处理缺失数据问题最为有效和一般的方法,而且利用 , 和的研究结论,在适当选择缺失数据模型中参数的先验分布之后,就可以计算后验分布的标准化因子,这也就为因子的计算提供了理论依据. 本文主要讨论带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析问题,这主要是因为广义部分线性模型具有较广的代表性和灵活性,同时,存在于实际问题中的非随机缺失数据又需要与之相应的分析方法.在分析过程中,我们建立了指示协变量和响应变量均可能存在非随机缺失的模型,为了避免上述模型参数的高度相关性导致的在抽样中混合性差的现象,分别根据和】的思想,引入两种不同联系函数下的潜变量作为添加数据;然后,对于模型中的非参数成分,选择 ?做为光滑工具,而对相应于经典统计方法中的光滑参数, 则采用方法来建立随机参数的层次模型.为了解决这样的参数化和层次模型带来的未知参数的维数过大,从而导致抽样不稳定的问题,应用了压缩抽样技术 ,通过模拟和实际例子的分析看出,改进了收敛性,是非常有效的.最后,应用和提出的 ? 抽样估计边缘似然函数的方法,通过计算因子来比较和进行模型选择,为确定正确的缺失数据机制提供了一种方法. 本文的其余部分安排如下,第节,引入广义部分线性模型,处理非参数成分的 ?和层次模型以及可能存在的缺失数据的缺失机制.第节,设定了做为添加数据的潜变量,引入了压缩抽样与算法,并给出了该算法的完整实现过程.第节,给出了应用边缘似然函数计算因子的方法.第节,通过模拟研究和一个市场调查的实际例子来展示所给的方法. 模型与假设首先给出广义部分线性模型和关于缺失数据机制的假设,并引入惩罚样条及相应的层次模型.为简单起见,文中用记号表示给定之下的条件分布. . 假设黝, ,, ,,?, 是独立样本 , , 的个观察值,其中 ? 是响应变量,,?, ? 是维协变量, ? 是已知的非随机设计点列.一般地, 部分线性模型假设响应变量与之间呈线性关系, 与之间呈非线性关系,其模型形式为 , , ,.一, 其中,?, 是感兴趣未知参数向量,.? 为一元未知光滑函数, 是期望为零的随期付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析机误差.类似 ,考虑如下推广形式: , 五其中 . 为已知的方差函数,丁为离差参数.进一步,假设在给定条件下服从指数族分布, 且与上述变量间的关系可以表示为 , 仇.,,,?,几,、若当时,则称叼? 为典则联系函数.同其中是典则参数,叩为已知的联系函数, 上,夕. 为具有非线性效应的未知光滑函数, 为 × 的感兴趣未知参数, 式定义的这类模型称为广义部分线性模型 . 模型中含有的未知函数夕可视为非参数成分,在经典统计学中处理的方法很多,通常有局部多项式、核估计、小波、样条等等.在考虑分析时,借鉴和】的方法,选择惩罚样条 ? 方法,并通过建立层次模型来推断未知光滑函数夕?.为此,引入如下内容. . ?及层次模型如前所述,为了处理未知光滑函数夕.,选用了比较常用的样条方法来进行近似或参数化. 与其他的光滑工具相比,样条方法不需要以逐点的方式来估计非参数成分,即考虑的不是函数的局部特性,因此在计算量和计算复杂度上有较大的优势.具体来说,样条方法又可以分为光滑样条、回归样条、惩罚样条等,而 ?与光滑和回归样条相比,样条的节点数量和位置可以事先确定,或者通过样本数据来确定.于是,类似于和引,我们假设 ... 。’ 一... 一.叮 , 这里 ? , ?, ,. ?,.%是针对所选定的个节点.令 ?, ?,?,, 。 ; ,?, , ,,显然就是待定的参数, ,,?, , 一 ,?, 一为选定的惩罚样条的基.进一步,若记一, , ,?, ,则可表示为 , ,卵一叼,, 卵叩 ,式可视为式的参数化的模型,对这类模型经典统计学在估计感兴趣参数 , 时,是通过对如下的惩罚似然函数的极大化来得到的 , , , , 一其中 , , ? ,仇,丁为似然函数, 是与节点有关的正定矩阵, 为光滑参数,其取值对于非参数成分的拟合非常重要,通常可以由或 , 等准则来确定, 也可以将。当成随机效应,通过限制极大似然估计来得到. 对于分析而言,处理的方法完全不同,可以视光滑参数为刻画散度的随机变量,并通过建立如下的层次模型来设定参数的分布, / . 、 ,?,?.,数学进展 ?, 一 , , 其中? 为给定的正定矩阵,是超参数, 为样条节点的数目, 为相应的单位阵, 表示倒分布, , 亦为超参数.根据文献的研究,可以认为。。. . 缺失数据机制对数据 ,, ,,?,礼而言,设非随机设计点列他是完全观测的,而数据 , 可能存在缺失的情况,为此,引入缺失指示变量和?, 分别为当被观测到时当差缺失时到时, , 当缺失时. 进一步,假设缺失数据机制是不可忽略的,即非随机的缺失.由于和均是二元变量,可以选用和为两种联系函数来设定其分布. 首先,对于响应变量的缺失数据,考虑分布, , ,, 】一 ,, 一 ,若对应联系函数,令,,, 其中, ,鲤 , ,?,? , . 为标准正态分布的分布函数若对应联系函数,则令 ,,咖咖 ,而是参数为 , 的分布的分布函数. 其次,假设协变量的密度函数为 ,根据文献的分析,对的缺失数据的指示变量,联合分布可以通过如下的一系列条件分布来表示,,‘厂,,?, ,, .厂 ,, ,, , 而其中的每个条件分布也可类似于式进行设定.同样,若对应联系函数,令 ,, ’ 西 ’ ?, 其中 ?, ’ ,以,?, ,以及,,, 砂。’ 十 , 而 , ,’ , ,?, .类似地,有印: ?,,一, ,, 。以及其他的概率函数. 若对联系函数,类似于,只须将上述设定中的函数 . 改为分布的分布函数即可. 由于样本点之间是相互独立的,所以从给出的缺失数据机制假设中可以看出,对于响应变量的缺失指示变量,厂,若向量咖中的元素咖 ?,则缺失是的,若, ?,则缺失期付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析是的,若? ,?,则缺失是的;对于协变量的缺失指示变量,也可以得到类似的缺失机制分类,此处略去具体过程. 模型的分析为了简单起见,记, ,, 为完整数据,而。 ,,, 为观察数据, ,为缺失的数据.对于参数而言, ,为未知的感兴趣参数,而 , , , ,丁为未知的多余参数.现记参数, , , , ,丁,根据参数的意义,在后面的分析中选择如下的独立先验分布,即不 , ?, , 而其中 ,一 :,咖, . 根据模型假设,由于在数据中可能存在响应变量和协变量的缺失,只能基于观察数据。进行直接的推断,于是有。 // , 显然,上述后验分布涉及到高维积分,一般很难直接进行推断.为了解决该困难,类似于和。。,首先考虑, 。, 的基于观测数据的联合后验分布,即 , 。,。不 ,,“,?,矽, , ,, 。 ,丁, ,西, ,, 不, 与式相比,上式不涉及多重积分,所以可以尝试对该后验分布采用标准抽样,即考虑从联合后验分布 , , %, 。, 中产生 , , 的随机观测序列,然后再基于该随机观测序列对模型参数中的感兴趣参数进行推断. 类似于和 ,从联合后验分布 , , , 。,, 中产生, , 的随机观测序列的抽样的步骤为:选取参数的初始点叭,并令; 从条件分布。, 中抽观测值譬 ; 从条件分布。 , 中抽观测值 ; 从条件分布 , 老?, 中抽观测值抖 ;令 ,重复一步直至收敛. 根据文献】和。】等的研究,以及我们的实际分析可知,上述抽样存在很多问题.首先,对于缺失数据模型中参数的抽样,因为抽样过程中存在较高的相关性,所得的随机序列混合性差;其次,由于与非参数部分对应的未知参数带来的维数增加和其他多余参数带来的数据添加,使后验分布相应的满条件分布太复杂,进而导致抽样过程不稳定、更新缓慢、难以收敛.鉴于这些困难,我们将分别采用添加潜变量、采用压缩抽样以及选择合适的、有针对性的 ? 算法来实现所需的随机抽样. . 关于潜变量的数据添加方法首先讨论缺失数据的机制为联系函数时潜变量的设定与抽取.对响应变量,根据前面的讨论,此时的分布为式.根据和提出的方法,现引入潜变量使得 ,, 一?妒咖,数学进展并且满足如果已如果故有 ,,,, . 于是,对应于缺失指示变量 ,?, 的潜变量? ,?, 的分布表示如下: 不? ,,不已,,, ?: 其中 ’ 为不性函数, , ,羔哪 , 而。为正态分布? , 的密度函数. 同理,对于协变量缺失值的指示变量 ,定义潜变量服从分布对于协变量缺失值的指示变量 ,, 】一? ? ...一 ,一, 其中 ,,.一,,砂 ;而?,,?, ?,,’,.一, ,且同时满足一 ’一,如果 , ,如果白. 为简单起见,设 ’ ? ’一 ,则可以表示 ,?, 的分布为. 不删,不 ,?,,一垂? ,已? 其中×? × , 藁 : 其次,对于缺失数据的机制为联系函数时潜变量的设定与抽取,只须在上述设定中将正态分布? , 。和相应的密度函数 ,盯。,分别改为参数为 , 的分布和相应的密度函数 , 即可. 通过引入潜变量已和 ,未知参数 , , 的基于观测数据。的联合后验分布中的 .厂 ,, 和 ,玑, 可以分别由上述的函数 ,/, 与 ,, 来代替.相比之下,基于包含%, 为观测数据的抽样,后验分布的条件分布中包含的, ,, 和, , , 为多维两点分布,这会导致在抽样过程中抽出的与和。与的随机样本波动较大,从而使得收敛过程加长,而添加了潜变量 , 后的观测数据,后验分布包含的条件分布不已 ,, 与不 , , 为截断正态分布,使得抽出的随机样本的波动性变小,大大改善未知参数与 , 与的混合生,从而加快抽样的收敛速度.期付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 . 压缩抽样与 . 算法通过引入上述的潜变量,我们进一步借鉴。】的研究成果,采用压缩抽样技术, 将前面给出的抽样过程改进为依次从下列的满条件分布来抽取所需的样本,具体为 , ;。 ,; , 。,以及 , 。, ; , , 。以及【 , , 。; 畦 , 。,以及妒, 。, ;。, 。, 】以及 , . 现分别给出每一步抽样的后验分布和所需的 ? 抽样过程. 首先,对于第步的后验分布,由于, 。。。 , 。 , 主要涉及和先验分布不的确定,通常在指数族中选取, 的先验分布有两种选择,即为较大方差的多元正态分布或是无先验信息的均匀分布,此时后验分布密度是对数凸函数,可以采用适应拒绝算法来得到所需的样本. 对于第步的后验分布,根据不。, 。,叩,丁不,“ 不不丁, 司知该后验分布是非标准的,在采用 ? 算法米实现抽样时,考虑到参数维数增加司能带来的不稳定性,选择建议分布为, , , 表示多维分布, 为位置向量, ?为刻度矩阵, 为分布的自由度.一般的, 可以选择为函数, 的顶点 ,?可以选为 ?一吲 , 而 ,?砬可以通过单步的算法来得到.上述 ? 算法具体的实现过程为: 假设当前值为“ ,先抽取让 ?, ?, ,其中 :五。, 【:? 五五 ’, 而,??, ,叼一 , ,,?,礼,雪扎,“,.,,?卵一以及 ,。,? 卢 . 计算上述的接受概率五 , / , 其中 , 。, 。为多元分布的密度函数在的值,对应的均值为 ?,协方差为? ,而 , 。,则为均值为 ,协方差为的多元分布的密度函数在的数学进展值,此时和可用代替后分别由和的表达式得出,其中的自由度均为设定好的值 . 考虑第步的后验分布,此时不。.,?,?不。垂,?,,不根据,和的讨论,先验分布不选为? , ,其中。和为给定的超参数, 是调节参数,通过分析可知,推断结果关于的选取是不敏感的.然后,可以分别讨论两种关于?的联系函数的情况: 当缺失机制为时,经过简单计算,可以得到上述后验分布为正态分布? ,? , 而且有 /、 /、 ? 《 ?砰 , ? ’ ?砰 , 其中 ,, , , ,?, .当缺失机制为时,后验分布不再为正态分布,此时可以采用 ? 方法进行抽样, 可以选择上面的? ,?西作为建议分布,抽取候选的 ,然后计算基于当前的的接受概室五 , , . 而此时,对应与 ?, 。 ,中的, , 为分布的密度函数. 类似的,当的分布为. 中设定的一维条件分布的乘积形式时,可以得到后验分布不。,的抽样方法,具体过程从略. 考虑第步的后验分布,首先应该讨论的是后验分布 ?, 。, 。,丁不?,, 不,其中参数的先验分布同上,所以当不? , ,咖取联系函数时,上式可以将积分掉,得到新的后验分布不。?, 。。,丁,? , 而.厂 ,?, , , 日 %咖。日 ?,日,?,日 .于是,可以用通常的 ? 算法来对进行整块抽样,提高抽样的混合性,加快收敛速度. 当 ,, 取联系函数时,考虑如下 ? 算法:选正态分布 , ;【为建议分布,其中【 ,而。一,’玑 : ? 一期付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析其中? 且已对应于 .于是在当前值。时,从正态分布 / ,盯; 中产生潜在转移点 ,其接受概率为一, 同理,可以实现从后验分布不。 , 的抽样考虑第步的后验分布,根据前面的记号有不? , ,咖。不 , , 按照潜变量的引入过程可知,当缺失机制为时, ,已凰咖, ? 扛其中, 表示正态分布? , 。的密度函数, 同前.上式说明,该后验分布的样本可以通过截断的正态分布抽取. 而当缺失机制为时, 不已凰,? ,??而此时 ‘ 则表不参数为 , 的分布的徭度函数, 说明该样本司以通过截断的分布抽取. 最后,考虑第步的后验分布,此时参数与丁均是尺度参数,其中,“,丁不。 . 不不? : \/ 根据前面的设定,对上式简单计算后可以得到抽取的后验分布为仳。, 一一。, , 其中 , 为先验分布中的超参数,尼为样条节点个数. 对于参数丁,后验分布不丁。:,.“,丁不丁为非标准分布,但类似于第一步的情形,可以选丁为先验分布或者倒分布, 然后再利用适应拒绝算法来得到所需的样本. 综上,可以完成全部后验分布的抽样,得到所需的压缩抽样的样本,进而进行推断.数学进展为了适应不同情况的模型选择的需要,人们提出了许多不同的方法,如模型选择的准则、准则、准则和因子等等.本文在处理相关的模型选择问题时,主要通过因子来完成,我们采用。】定义的因子来比较两个或多个模型.假设现在需要分析的模型为与 ,其中为设定的所有参数, 则是的所有参数,根据文献,模型相对于模型的因子定义为 , , 不『. , , ’ 其中 ,表示在所设定的参数下的似然函数.该定义表明, 因子是根据观测数据来决定选择模型还是放弃模型的证据的概括,它度量了模型相对于模型预测数据的优劣程度.一般情况下, 因子的分子和分母都涉及难以处理的高维积分, 因此,直接计算因子几乎是不可能的.为此,人们提出了许多计算因子的方法, 如近似因子的对数准则、准则、路径抽样方法、渐近近似方法等等,具体可参见和. 在得到因子 . 的估计之后,根据。。】的研究,选择模型或模型的准则为:当时,强烈支持选择模型 ;当时,支持选择模型 ; 当,时,勉强支持选择模型 ;当,时,勉强支持选择模型 ;当 . 时,支持选择模型 ;当 . 时,强烈支持选择模型 . 本文为了避免计算涉及到的多重积分,借鉴和】利用 ? 抽样计算边缘似然函数的方法来计算因子.首先,由公式有 : 此处, 为后验密度,且上式在参数空间里的任意点都成立.在实际计算中,往往选择各个分量的边缘密度或条件密度的极值点对应的来进行估计.由因子的定义和上述公式,因子的计算关键就是关于的边缘密度的估计问题,而厂的估计就转变成分别估计密度函数, ,先验分布和后验分布, 三个子问题.又由于密度函数, 和先验分布的估计值可以直接得到,所以接下来主要就讨论后验分布, 的估计问题. 对于所讨论的模型,需要估计。在的函数值,参考文献提出的利用 ? 抽样计算边缘似然函数的方法,具体考虑如下。。不乱, , ,, , 。。。 / 。。 , 。, 。咖, , ,, , 。. 对于不 ,根据前面的第步抽样,可以从参数后验分布得到收敛的样本后来估计,即为嘶而互五其中 , , ,?, 来自上节的抽样收敛后得到的样本.期付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析对于不。,类似地,可以通过下式估计而互厕互而对不 ,则用上节第步抽样的 ? 方法,先设 , 为在处计值的建议分布,以及 ,一为接受概率,又设 ,,, , 经过计算后可知 , .,, 于是有, 故不可以估计如下: , .、、 ?了百? : , 口扪, , 其中?,?, 为上节第步 . 抽样收敛后得到的样本,而 ?,?,则为从建议分布, 中抽取的简单随机样本. 同理,可以分别用上面的两种方法得到函数不丁 ,不 , ,不 , 以及不 , , ,丁,的估计值,从而得到边缘似然函数的估计值,并最终得到因子的估计.基于 , 因子,类似于和 ,可讨论如下的模型选择问题: 对于响应变量,缺失数据的机制对 : 硪: .日 : ?. 对于协变量,缺失数据的机制对 : 砩 : .研 : ?. 模拟研究与实例本节,我们将通过一个模拟研究和一个市场调查实例来说明前面提出的方法. . 模拟研究考虑二元回归模型在四种情况下的随机模拟.设协变量, ?,?,. 。, 非线性效应协变量 ~ ,,响应变量服从的分布为 ?, / ,其中 ,.,一.,而 . .参考 ,、? 和的方法,在确定惩罚样条节点时选取的是等距节点,节点数.进一步,设响应变量与协变量均可能具有可忽略或不可忽略的缺失数据,对应的的缺失数据指示变量为 , 对应的为,其分布分别选择下列四种情况:数学进展卷机制:选择联系函数,假设模型为 , , ,????,、??? ’玑。,????,、???机制:选择联系函数,假设模型为, ; , 、 : ’ ; 。’ 。斗在, 两种情形,选取参数值为一, .,一 .,一 .,一,.,一.,. ? , ,对应的缺失比例分别为 . %和 . %. 玑砂斗玑砂机制 :选择联系函数,假设模型为五? 九。汜伲机制:选择联系函数,假设模型为砂、 / & 、 /砂砂、 , 在, 两种情形,选取一 , . , . ,一 . , 一 . , . , , . , 一 . , . ,一 , ,一 . ,对应的缺失比例分别为 . %和 . %. 在上述模型假设下,取佗的数据样本,对每一种情况产生的数据分别用与模型进行拟合,基于参数的个不同初始值产生的条平行链计算参数的值, 当所有参数的值都小于.,说明算法已经收敛,此时,再从抽样中收集个样本,得到未知参数的估计.为了说明模拟效果,我们进行了次重复抽样来研究参数的估计和模型的比较选择问题,模拟结果由表和表给出,其中“ ”表示参数真值与次重复样本均值间的差, “ ”表示次重复样本的标准差, “”表示真值与重复样本估计值之差的平方的平均值的算术平方根. 表随机模拟结果一期付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析表随机模拟结果二由表可以看出,与用机制拟合时的参数估计的偏差比机制时总体上偏小,而与则无太大差别; 与的情形正好相反,即用机制拟合时的偏差比机制时总体上偏大, 与也无太大差别.表则给出了机制相对于机制时的因子,参考文献『的标准,与时应选择机制, 勉强选择机制, 应选择机制,这与模型假设吻合. . 实际例子现以“减肥品女性消费者生活方式研究问卷”的调查数据为实例数据来源:北京大学光华管理学院营销分析数据, :// . . . . / / ,研究影响女性减肥者减肥品购买量的重要影响因素.由于问卷调查中存在缺失数据,我们将重点研究处理这些缺失数据的方法并通过因子对不同的数据缺失机制进行比较. 该数据是年对中国六个大中城市陛生活方式研究所收集的数据,共有样本个, 包含描述生活方式的变量个,描述关键购买因素的变量个,以及“教育程度、婚姻状况、家庭收入”等背景资料和 “平均每次购买量元”等使用者购买行为等变量.经过分析挑选, 选择了个生活方式的变量和个关键购买因素的变量,对应的有效样本为个.并从中选定“平均每次购买量”为研究的响应变量,然后分析重要生活方式因素和关键购买因素对其的影响,但由于该响应变量存在较大的缺失,在上述有效样本中,完全回答的为例,有例缺失,比率为 . %,其中响应变量的缺失比例为 . %,由于问卷涉及的缺失数据可能是不可忽略机制的,所以必须对这些缺失数据的处理认真比较. 由于问卷涉及的变量很多,我们首先对个生活方式变量和个关键购买因素变量做相关陛分析和因子分析,结果发现有较强的相关性, 检验结果都呈现高度的显著性,且值分别为 .和 .都大于 . ,表明进行因子分析是合适的.经过因子分析,分别找到三个和两个新的解释变量来分析“生活方式变量”和“关键购买因素变量”,它们分别解释了 . %和 .%的总变差,我们将新的“生活方式变量”因子分别命名为: ,品位消费; ,明智消费;,时尚休闲.新的“关键购买变量”因子分别命名为: ,方便因子; ,效果因子,同时纳入“家庭收入”作为非线性效应的协变量.同时,根据调查数据的情况和的完全数据的分布特征,建立如下的广义部分线性模型 , 。, ? / 其中假设为未知的光滑函数.类似于随机模拟的情况,分别考虑缺失数据为与机制下的参数估计和模型选择,得到的结果如表和表. 表实际例子的模型比较数学进展卷表实际例子的参数估计结果从表可以发现,无论是还是联系函数,根据因子均可以判断为选择机制;表给出的结果反映出不同缺失机制间的估计值差别较大,而相同机制下不同联系函数时的估计则差别不大. 同时, 机制下两种联系函数时对应的非参数部分的估计展示在图中,可以发现它们是非常相似的. 口图实例在机制下两种联系函数时的估计值致谢衷心感谢唐年胜教授在本文研究过程中所给予的宝贵意见、建议和鼓励. 参考文献『, . . ., , . .,.,: . 『, . .,,, , :?. 『, . .,. .,, . ., , , , :?. , . .,. ., , . ., , , , :?. 『 .,. ., , . ., , , , :?. 『 , . .,. ., , 圻 , , :?,, . .,. ., , , , :?.

                    本文档为【带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析（可编辑）】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析（可编辑）

你可能还喜欢