首页 带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析(可编辑)

带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析(可编辑)

举报
开通vip

带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析(可编辑)带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析(可编辑) 带有不可忽略缺失数据的广义部分线性模型的贝叶斯 分析 . . . 第 卷第期 数 学 进 展,年月 带有不可忽略缺失数据的 广义部分线性模型的贝叶斯分析 付英姿 ,陈雪东 .昆明理工大学理学院数学系,昆明,云南, ; .湖州师范学院理学院,湖州,浙江, 摘要:广义部分线性模型是广义线性模型和部分线性模型的推广,是一种应用广泛的半参数模 型.本文讨论的是该模型在线性协变量和响应变量均存在非随机缺失数据情形下参数的估计 和基于因子的模型选...

带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析(可编辑)
带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析(可编辑) 带有不可忽略缺失数据的广义部分线性模型的贝叶斯 分析 . . . 第 卷第期 数 学 进 展,年月 带有不可忽略缺失数据的 广义部分线性模型的贝叶斯分析 付英姿 ,陈雪东 .昆明理工大学理学院数学系,昆明,云南, ; .湖州师范学院理学院,湖州,浙江, 摘要:广义部分线性模型是广义线性模型和部分线性模型的推广,是一种应用广泛的半参数模 型.本文讨论的是该模型在线性协变量和响应变量均存在非随机缺失数据情形下参数的估计 和基于因子的模型选择问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 ,在分析过程中,采用了惩罚样条来估计模型中的非参数成分, 并建立了 层次模型;为了解决 抽样过程中因参数高度相关带来的混合性差以及因维数 增加导致出现不稳定性的问题,引入了潜变量做为添加数据并应用了压缩 抽样 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 ,改进了 收敛性;同时,为了避免计算多重积分,利用了 ? 算法估计边缘密度函数后 计算因子, 为模型的选择比较提供了一种准则.最后,通过模拟和实例验证了所给方法的有效性. 关键词:不可忽略缺失数据;广义部分线性模型;惩罚样条;压缩 抽样; ? 算法 主题分类: ;;/中图分类号:. 文献标识码: 文章编号: ? ? ? 引言 缺失数据是近年来在统计学和许多相关学科研究中的热门课题之一,其在生物医学、经济 学、社会学、教育心理学、农业等领域是普遍存在的,对这个问题的研究,已取得了大量的成 果.首先, 和 系统地研究了缺失数据的模式和机制,并重点讨论了基于 算 法的极大似然估计和多重赋值方法;其次,在参数模型方面, 】 研究了广义线性模型的缺失数据问题,给出了随机缺失机制下的加权 算法; ,和 】用方法研究了带有非随机缺失协变量的广义线性模型的 参数极大似然估计; ,和 】讨论了响应变量具有不可忽略缺失数据的广义 线生昆合模型的参数极大似然估计;,和 】研究了具有不可忽略的缺失协 变量『青况下,广义线性模型的分析;再者,在结构方程模型方面, 和应用 模型比较方法在可忽略缺失数据机制下,研究了混合结构方程模型的模型选择和模型参数的极 大似然估计; 和研究了带有不可忽略缺失数据的非线『生结构方程模型, 提出了同 时获得模型参数和潜变量的 估计的方法.同时,, 和在纵向数据的 研究中,利用 抽样给出了具有非随机缺失数据情形下的多重赋值方法;郑术蓉,史宁中 和郭建华 在具有不等式约束条件下,研究了含缺失数据的线性模型的 算法等等.在上 述研究成果中,涉及的缺失数据机制有完全随机缺失 ,随机缺失 和非随机缺失 ,采用的方法主要是 , 算法,多重赋值方法 和完全 分析方法等. 另一方面,对含有缺失数据的非参数、半参数回归模型以及部分线性模型的研究,也有许多 收稿日期: .修改稿收到日期: ?? . 基金项目:国家社科基金 . ,云南省自然科学基金 .: . . 数 学 进 展 作者做出了卓有成效的工作.例如,和通过插补方法,研究了响应变量具有缺失 情形的经验似然推断; , 和 , 和 分别研究了响应变量含有 随机缺失数据的半参数回归模型与部分线性模型; , ,和 , , 和 分别研究了协变量与响应变量存在随机缺失数据的部分线性模型的参数估 计和渐近性质;通过结合局部拟似然方法与加权估计方程的方法,研究了具有随机缺 失协变量的广义部分线性模型; 和 利用加权估计方程 方法研究 了非随机缺失数据的广义可加性模型;李志强和薛留根 .研究了带有随机缺失数据的广义半 参数模型的均值借补估计.综上可见,对于具有缺失数据的半参数回归模型,主要是在非参数光 滑技术的基础上应用经验似然、多重赋值和估计方程等方法,而讨论的缺失数据大多是随机缺失 的.所以,相比之下,对于半参数模型在带有非随机缺失数据时的其他分析方法以及模型选择比 较等问题还有待进一步的研究. ,,和 】通过分析比较后指出,在 方法的适用性和灵活性的意义下,完全 分析也许是处理缺失数据问题最为有效和一般的 方法,而且利用 , 和的研究结论,在适当选择缺失数据模型中参数的先 验分布之后,就可以计算后验分布的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化因子,这也就为 因子的计算提供了理论依据. 本文主要讨论带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析问题,这主要是因为 广义部分线性模型具有较广的代表性和灵活性,同时,存在于实际问题中的非随机缺失数据又需 要与之相应的分析方法.在分析过程中,我们建立了指示协变量和响应变量均可能存在非随机缺 失的模型,为了避免上述模型参数的高度相关性导致的在 抽样中混合性差的现象,分别 根据 和】的思想,引入两种不同联系函数下的潜变量作为添加数据;然后,对于 模型中的非参数成分,选择 ?做为光滑工具,而对相应于经典统计方法中的光滑参数, 则采用方法来建立随机参数的层次模型.为了解决这样的参数化和层次模型带来的未知 参数的维数过大,从而导致 抽样不稳定的问题,应用了压缩 抽样技术 ,通过模 拟和实际例子的分析看出,改进了收敛性,是非常有效的.最后,应用和 提 出的 ? 抽样估计边缘似然函数的方法,通过计算 因子来比较和进行模型选择,为确定 正确的缺失数据机制提供了一种方法. 本文的其余部分安排如下,第 节,引入广义部分线性模型,处理非参数成分的 ?和层次模型以及可能存在的缺失数据的缺失机制.第 节,设定了做为添加数据的潜变量,引 入了压缩抽样与 算法,并给出了该算法的完整实现过程.第 节,给出了应用边缘 似然函数计算 因子的方法.第 节,通过模拟研究和一个市场调查的实际例子来展示所 给的方法. 模型与假设 首先给出广义部分线性模型和关于缺失数据机制的假设,并引入惩罚样条及相应 的 层次模型.为简单起见,文中用记号表示给定 之下 的条件分布. . 假设 黝, ,, ,,?, 是独立样本 , , 的 个观察值,其中 ? 是响 应变量,,?, ? 是 维协变量, ? 是已知的非随机 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 点列.一般地, 部分线性模型假设响应变量 与 之间呈线性关系, 与 之间呈非线性关系,其模型形式为 , , ,.一, 其中,?, 是感兴趣未知参数向量,.? 为一元未知光滑函数, 是期望为零的随期 付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 机误差.类似 ,考虑如下推广形式: , 五 其中 . 为已知的方差函数,丁为离差参数.进一步,假设 在给定条件下服从指数族分布, 且 与上述变量间的关系可以表示为 , 仇.,,,?,几,、 若当时,则称叼? 为典则联系函数.同 其中 是典则参数,叩 为已知的联系函数, 上,夕. 为具有非线性效应的未知光滑函数, 为 × 的感兴趣未知参数, 式定义的这 类模型称为广义部分线性模型 . 模型中含有的未知函数夕 可视为非参数成分,在经典统计学中处理的方法很多,通常有 局部多项式、核估计、小波、样条等等.在考虑 分析时,借鉴 和 】的方 法,选择惩罚样条 ? 方法,并通过建立层次 模型来推断未知光滑函数夕?.为 此,引入如下内容. . ?及层次 模型 如前所述,为了处理未知光滑函数夕.,选用了比较常用的样条方法来进行近似或参数化. 与其他的光滑工具相比,样条方法不需要以逐点的方式来估计非参数成分,即考虑的不是函数的 局部特性,因此在计算量和计算复杂度上有较大的优势.具体来说,样条方法又可以分为光滑样 条、回归样条、惩罚样条等,而 ?与光滑和回归样条相比,样条的节点数量和位置可以事 先确定,或者通过样本数据来确定.于是,类似于 和 引,我们假设 ... 。’ 一... 一.叮 , 这里 ? , ?, ,. ?,.%是针对 所选定的 个节点.令 ?, ?,?,, 。 ; ,?, , ,,显然 就是待定的参 数, ,,?, , 一 ,?, 一为选定的惩罚样条的基.进一步,若记 一, , ,?, ,则可表示 为 , ,卵一叼,, 卵 叩 ,式可视为 式的参数化的模型,对这类模型经典统计学在估计感兴趣参数 , 时,是通 过对如下的惩罚似然函数 的极大化来得到的 , , , , 一 其中 , , ? ,仇,丁 为似然函数, 是与节点有关的正定矩阵, 为光滑 参数,其取值对于非参数成分的拟合非常重要,通常可以由或 , 等准则来确定, 也可以将 。 当成随机效应,通过限制极大似然估计 来得到. 对于 分析而言,处理的方法完全不同,可以视光滑参数为刻画散度的随机变量,并 通过建立如下的层次模型来设定参数 的分布, / . 、 ,?,?.,数 学 进 展 ?, 一 , , 其中? 为给定的正定矩阵,是超参数, 为样条节点的数目, 为相应的单位阵, 表示 倒 分布, , 亦为超参数.根据文献 的研究,可以认为 。 。. . 缺失数据机制 对数据 ,, ,,?,礼 而言,设非随机设计点列他 是完全观测的,而数据 , 可能存在缺失的情况,为此,引入缺失指示变量 和?, 分别为 当 被观测到时 当差缺失时到时, , 当 缺失时. 进一步,假设缺失数据机制是不可忽略的,即非随机的缺失.由于 和 均是二元变量,可以 选用和 为两种联系函数来设定其分布. 首先,对于响应变量 的缺失数据,考虑分布, , ,, 】 一 ,, 一 ,若对应 联系函数,令,,, 其中, ,鲤 , ,?,? , . 为标准正态分布的分布函数 若对应 联系函数,则令 ,,咖咖 ,而 是参数为 , 的 分布的分布函数. 其次,假设协变量 的密度函数为 ,根据文献 的分析,对 的缺失数据的指示 变量,联合分布可以通过如下的一系列条件分布来表示,,‘厂,,?, ,, .厂 ,, ,, , 而其中的每个条件分布也可类似于式进行设定.同样,若对应 联系函数,令 ,, ’ 西 ’ ?, 其中 ?, ’ ,以,?, ,以及,,, 砂。’ 十 , 而 , ,’ , ,?, .类似地,有 印: ?,,一, ,, 。 以及其他的概率函数. 若对联系函数,类似于,只须将上述设定中的函数 . 改为分布的分布 函数即可. 由于样本点之间是相互独立的,所以从给出的缺失数据机制假设中可以看出,对于响应变量 的缺失指示变量,厂,若向量咖中的元素咖 ?,则缺失是 的,若, ?,则缺失 期 付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 是的,若? ,?,则缺失是 的;对于协变量的缺失指示变量,也可以得 到类似的缺失机制分类,此处略去具体过程. 模型的 分析 为了简单起见,记, ,, 为完整数据,而 。 ,,, 为观察数据, ,为缺失的数据.对于参数而言, ,为未知的感兴趣参数,而 , , , ,丁 为未知的多余参数.现记参数, , , , ,丁,根据参数的意义,在后面的 分析 中选 择如下的独立先验分布,即不 , ?, , 而其中 ,一 :,咖, . 根据模型假设,由于在数据 中可能存在响应变量和协变量的缺失,只能基于观察数据 。 进行直接的 推断,于是有 。 // , 显然,上述后验分布涉及到高维积分,一般很难直接进行推断.为了解决该困难,类似于 和 。。,首先考虑, 。, 的基于观测数据 的联合后验分布,即 , 。,。 不 ,,“,?,矽, , ,, 。 ,丁, ,西, ,, 不, 与 式相比,上式不涉及多重积分,所以可以尝试对该后验分布采用标准 抽样,即考 虑从联合后验分布 , , %, 。, 中产生 , , 的随机观测序列,然后再 基于该随机观测序列对模型参数 中的感兴趣参数进行 推断. 类似于和 ,从联合后验分布 , , , 。,, 中产生, , 的随机观测序列的 抽样的步骤为:选取参数 的初始点 叭,并令; 从条件 分布 。, 中抽观测值 譬 ; 从条件分布 。 , 中抽观测值 ; 从条件分布 , 老?, 中抽观测值 抖 ;令 ,重复一步直至 收敛. 根据文献】和 。】等的研究,以及我们的实际分析可知,上述 抽样存在很多 问 题.首先,对于缺失数据模型中参数的抽样,因为抽样过程中存在较高的相关性,所得的随机序 列混合性差;其次,由于与非参数部分对应的未知参数带来的维数增加和其他多余参数带来的 数据添加,使后验分布相应的满条件分布太复杂,进而导致抽样过程不稳定、更新缓慢、难以收 敛.鉴于这些困难,我们将分别采用添加潜变量、采用压缩抽样以及选择合适的、有针 对性的 ? 算法来实现所需的随机抽样. . 关于潜变量的数据添加方法 首先讨论缺失数据的机制为联系函数时潜变量的设定与抽取.对响应变量,根据前 面的讨论,此时的分布为 式.根据和提出的方法,现引入潜变量 使得 ,, 一?妒 咖,数 学 进 展 并且满足 如果已 如果 故有 ,,,, . 于是,对应于缺失指示变量 ,?, 的潜变量? ,?, 的分布表示如下: 不? ,,不已,,, ?: 其中 ’ 为不性函数, , ,羔哪 , 而 。 为正态分布? , 的密度函数. 同理,对于协变量缺失值的指示变量 ,定义潜变量 服从分布对于协变量缺失值的指 示变量 ,, 】一? ? ...一 ,一, 其中 ,,.一,,砂 ;而?,,?, ?,,’,.一, ,且同时满足 一 ’一,如果 , ,如果白. 为简单起见,设 ’ ? ’一 ,则可以表示 ,?, 的分布为. 不 删,不 ,?,,一垂? ,已? 其中×? × , 藁 : 其次,对于缺失数据的机制为联系函数时潜变量的设定与抽取,只须在上述设定中将 正态分布? , 。 和相应的密度函数 ,盯。,分别改为参数为 , 的 分布和相 应的密度函数 , 即可. 通过引入潜变量已和 ,未知参数 , , 的基于观测数据 。 的联合后验分布中的 .厂 ,, 和 ,玑, 可以分别由上述的函数 ,/, 与 ,, 来代替.相 比之下,基于包含%, 为观测数据的抽样,后验分布的条件分布中包含的, ,, 和, , , 为多维两点分布,这会导致在抽样过程中抽出的 与 和 。与 的随 机样本波动较大,从而使得收敛过程加长,而添加了潜变量 , 后的观测数据,后验分布包 含的条件分布不已 ,, 与不 , , 为截断正态分布,使得抽出的随机样本的波动性变 小,大大改善未知参数 与 , 与 的混合生,从而加快抽样的收敛速度.期 付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 . 压缩 抽样与 . 算法 通过引入上述的潜变量,我们进一步借鉴 。】的研究成果,采用压缩抽样技术, 将前面给出的抽样过程改进为依次从下列的满条件分布来抽取所需的样本,具体为 , ;。 ,; , 。,以及 , 。, ; , , 。 以及【 , , 。; 畦 , 。,以及 妒, 。, ;。, 。, 】以及 , . 现分别给出每一步抽样的后验分布和所需的 ? 抽样过程. 首先,对于第 步的后验分布,由于, 。。 。 , 。 , 主要涉及 和先验分布不 的确定,通常 在指数族中选取, 的先验分布有两种 选择,即为较大方差的多元正态分布或是无先验信息的均匀分布,此时后验分布密度是对数凸函 数,可以采用适应拒绝算法 来得到所需的样本. 对于第 步的后验分布,根据不 。, 。,叩,丁不,“ 不不丁, 司知该后验分布是非标准的,在采用 ? 算法米实现抽样时,考虑到参数维数增加司能带来的 不稳定性,选择建议分布为, , , 表示多维 分布, 为位置向量, ?为刻度矩 阵, 为分布的自由度.一般的, 可以选择为函数, 的顶点 ,?可以选为 ?一 吲 , 而 ,?砬 可以通过单步的算法来得到.上述 ? 算法具体的实现过程为: 假设当前值为“ ,先抽取让 ?, ?, ,其中 :五 。, 【:? 五五 ’, 而,??, ,叼一 , ,,?,礼,雪扎,“,.,,?卵一以及 ,。,? 卢 . 计算上述 的接受概率 五 , / , 其中 , 。, 。 为多元 分布的密度函数在 的值,对应的均值为 ?,协方差为? ,而 , 。,则为均值为 ,协方差为 的多元 分布的密度函数在 的数 学 进 展 值,此时 和 可用 代替 后分别由 和 的表达式得出,其中的自由度均 为 设定好的值 . 考虑第 步的后验分布,此时 不。.,?,?不。垂,?,,不 根据,和的讨论,先验分布不 选为? , ,其中 。 和 为 给定的超参数, 是调节参数,通过分析可知,推断结果关于 的选取是不敏感的.然后,可 以分别讨论两种关于?的联系函数的情况: 当缺失机制为 时,经过简单计算,可以得到上述后验分布为正态分布? ,? , 而且有 /、 /、 ? 《 ?砰 , ? ’ ?砰 , 其中 ,, , , ,?, .当缺失机制为 时,后验分布不再为正态分布,此时可以采用 ? 方法进行抽样, 可以选择上面的? ,?西 作为建议分布,抽取候选的 ,然后计算基于当前的 的接受概 室 五 , , . 而此时,对应与 ?, 。 ,中的, , 为 分布的密度函数. 类似的,当 的分布为. 中设定的一维条件分布的乘积形式时,可以得到后验分布不 。,的抽样方法,具体过程从略. 考虑第 步的后验分布,首先应该讨论的是后验分布 ?, 。, 。,丁不?,, 不,其中参数 的先验分布同上,所以当不? , ,咖 取 联系函数时,上式可以将 积分 掉,得到新的后验分布 不 。?, 。。,丁,? , 而.厂 ,?, , , 日 %咖。 日 ?,日,?,日 .于是,可以用通常的 ? 算法来对 进行整块抽样,提高抽样的 混合性,加快收敛速度. 当 ,, 取 联系函数时,考虑如下 ? 算法:选正态分布 , ;【为建议 分布,其中【 ,而 。一,’玑 : ? 一 期 付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 其中? 且已对应于 .于是在当前值 。时,从正态分布 / ,盯; 中产生潜在 转移点 ,其接受概率为 一, 同理,可以实现从后验分布不。 , 的抽样 考虑第 步的后验分布,根据前面的记号有不? , ,咖。 不 , , 按照潜变量的引入过程可知,当缺失机制为 时, ,已凰咖, ? 扛 其中, 表示正态分布? , 。 的密度函数, 同前.上式说明,该后验分布的 样本可 以通过截断的正态分布抽取. 而当缺失机制为 时, 不已凰,? ,??而此时 ‘ 则表不参数为 , 的 分布的徭度函数, 说 明该样本司以通过截 断的 分布抽取. 最后,考虑第 步的后验分布,此时参数 与丁均是尺度参数,其中,“,丁 不。 . 不不? : \/ 根据前面的设定,对上式简单计算后可以得到抽取 的后验分布为 仳 。, 一一 。, , 其中 , 为 先验分布中的超参数,尼为样条节点个数. 对于参数丁,后验分布 不丁。:,.“,丁不丁 为非标准分布,但类似于第一步的情形,可以选丁为 先验分布或者倒 分布, 然后再利 用适应拒绝算法来得到所需的样本. 综上,可以完成全部后验分布的抽样,得到所需的压缩抽样的样本,进而进行 推断.数 学 进 展 为了适应不同情况的模型选择的需要,人们提出了许多不同的方法,如模型选择的 准 则、 准则、 准则和 因子等等.本文在处理相关的模型选择问题时,主要通过 因子来完成,我们采用。】定义的因子来比较两个或多个模型.假设现在需 要分析的模型为 与 ,其中 为设定 的所有参数, 则是 的所有参数,根据 文献,模型 相对于模型 的 因子定义为 , , 不 『. , , ’ 其中 ,表示在 所设定的参数 下的似然函数.该定义表明, 因子是根据观 测数据来决定选择模型还是放弃模型 的证据的概括,它度量了模型相对于模型预测数据的优劣程度.一般情况下, 因子的分子和分母都涉及难以处理的高维积分, 因此,直接计算 因子几乎是不可能的.为此,人们提出了许多计算 因子的方法, 如近似 因子的对数准则、准则、路径抽样方法、渐近近似方法等等,具 体可参见 和. 在得到 因子 . 的估计之后,根据。。】的研究,选择模型 或模型 的准则为:当 时,强烈支持选择模型 ;当时,支持选择模型 ; 当,时,勉强支持选择模型 ;当,时,勉强支持选择模型 ;当 . 时,支持选择模型 ;当 . 时,强烈支持选择模型 . 本文为了避免计算涉及到的多重积分,借鉴和】利用 ? 抽样计算边缘 似然函数的方法来计算 因子.首先,由 公式有 : 此处, 为后验密度,且上式在参数空间里的任意 点都成立.在实际计算中,往往选择 各个分量的边缘密度或条件密度的极值点对应的 来进行估计.由 因子的定义和上述 公式,因子的计算关键就是关于 的边缘密度的估计问题,而厂的估计就转变成 分别估计密度函数, ,先验分布和后验分布, 三个子问题.又由于密 度函数, 和先验分布的估计值可以直接得到,所以接下来主要就讨论后验分 布, 的估计问题. 对于所讨论的模型,需要估计。 在 的函数值,参考文献 提出的利用 ? 抽样计算边缘似然函数的方法,具体考虑如下。。 不乱, , ,, , 。 。 。 / 。。 , 。, 。 咖, , ,, , 。. 对于不 ,根据前面的第 步抽样,可以从参数 后验分布得到收敛的样本后来估 计,即为 嘶 而 互 五 其中 , , ,?, 来自上节的 抽样收敛后得到的样本.期 付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 对于不 。,类似地,可以通过下式估计 而 互 厕 互 而对不 ,则用上节第 步抽样的 ? 方法,先设 , 为在 处计值的建议分 布,以及 ,一 为接受概率,又设 ,,, , 经过计算后可知 , .,, 于是有, 故不可以估计如下: , .、、 ?了 百? : , 口 扪, , 其中?,?, 为上节第 步 . 抽样收敛后得到的样本,而 ?,?,则为从 建议分布, 中抽取的简单随机样本. 同理,可以分别用上面的两种方法得到函数不丁 ,不 , ,不 , 以及 不 , , ,丁,的估计值,从而得到边缘似然函数的估计值,并最终得到 因子的估 计.基于 , 因子,类似于 和 ,可讨论如下的模型选择问题: 对于响应变量,缺失数据的机制对 : 硪: .日 : ?. 对于协变量,缺失数据的机制对 : 砩 : .研 : ?. 模拟研究与实例 本节,我们将通过一个模拟研究和一个市场调查实例来说明前面提出的方法. . 模拟研究 考虑二元回归模型在四种情况下的随机模拟.设协变量, ?,?,. 。, 非线性效应协变量 ~ ,,响应变量服从的分布为 ?, / ,其中 ,.,一.,而 . .参考 ,、? 和的 方法,在确定惩罚样条节点时选取的是等距节点,节点数.进一步,设响应变量与协变量 均可能具有可忽略或不可忽略的缺失数据,对应的 的缺失数据指示变量为 , 对应的为,其分布分别选择下列四种情况:数 学 进 展 卷 机制:选择联系函数,假设模型为 , , ,????,、??? ’玑 。,????,、???机制:选择 联系函数,假设模型为, ; , 、 : ’ ; 。’ 。 斗 在, 两种情形,选取参数值为 一, .,一 .,一 .,一,.,一.,. ? , ,对应的缺失比例分别为 . %和 . %. 玑 砂 斗 玑 砂 机制 :选择 联系函数,假设模型为 五? 九。 汜 伲 机制:选择 联系函数,假设模型为 砂 、 / & 、 /砂砂 、 , 在, 两种情形,选取 一 , . , . ,一 . , 一 . , . , , . , 一 . , . ,一 , ,一 . ,对应的缺失比例分别为 . %和 . %. 在上述模型假设下,取 佗 的数据样本,对每一种情况产生的数据分别用与 模型进行拟合,基于参数的 个不同初始值产生的 条平行链计算参数的值, 当所有参数的值都小于.,说明算法已经收敛,此时,再从抽样中收集 个 样本,得到未知参数的 估计.为了说明模拟效果,我们进行了 次重复抽样来研究参 数的估计和模型的比较选择问题,模拟结果由表 和表 给出,其中“ ”表示参数真值与 次重复样本均值间的差, “ ”表示次重复样本的标准差, “”表示真值与重 复样本估计值之差的平方的平均值的算术平方根. 表 随机模拟结果一 期 付英姿,陈雪东:带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析 表 随机模拟结果二 由表 可以看出,与 用机制拟合时的参数估计的偏差比 机制时总 体上偏小,而 与则无太大差别; 与 的情形正好相反,即用机制拟 合时的偏差比 机制时总体上偏大, 与也无太大差别.表 则给出了机 制相对于 机制时的 因子,参考文献『的标准,与 时应选择机 制, 勉强选择 机制, 应选择 机制,这与模型假设吻合. . 实际例子 现以“减肥品女性消费者生活方式研究问卷”的调查数据为实例数据来源:北京大学光华 管理学院营销分析数据, :// . . . . / / ,研究影响女性减肥者 减肥品购买量的重要影响因素.由于问卷调查中存在缺失数据,我们将重点研究处理这些缺失数 据的方法并通过 因子对不同的数据缺失机制进行比较. 该数据是 年对中国六个大中城市 陛生活方式研究所收集的数据,共有样本 个, 包含描述生活方式的变量 个,描述关键购买因素的变量 个,以及“教育程度、婚姻状况、 家庭收入”等背景 资料 新概念英语资料下载李居明饿命改运学pdf成本会计期末资料社会工作导论资料工程结算所需资料清单 和 “平均每次购买量元”等使用者购买行为等变量.经过分析挑选, 选择了 个生活方式的变量和 个关键购买因素的变量,对应的有效样本为 个.并从中 选定“平均每次购买量”为研究的响应变量,然后分析重要生活方式因素和关键购买因素对其 的影响,但由于该响应变量存在较大的缺失,在上述有效样本中,完全回答的为 例,有 例缺失,比率为 . %,其中响应变量的缺失比例为 . %,由于问卷涉及的缺失数据可能是不 可忽略机制的,所以必须对这些缺失数据的处理认真比较. 由于问卷涉及的变量很多,我们首先对 个生活方式变量和 个关键购买因素变量做相 关陛分析和因子分析,结果发现有较强的相关性, 检验结果都呈现高度的显著性,且 值分别为 .和 .都大于 . ,表明进行因子分析是合适的.经过因子分析,分别找 到三个和两个新的解释变量来分析“生活方式变量”和“关键购买因素变量”,它们分别解释了 . %和 .%的总变差,我们将新的“生活方式变量”因子分别命名为: ,品位消费; ,明智消费;,时尚休闲.新的“关键购买变量”因子分别命名为: ,方便因子; ,效 果因子,同时纳入“家庭收入”作为非线性效应的协变量.同时,根据调查数据的情况和 的 完全数据的分布特征,建立如下的广义部分线性模型 , 。, ? / 其中假设为未知的光滑函数.类似于随机模拟的情况,分别考虑缺失数据为与 机制下的参数估计和模型选择,得到的结果如表 和表. 表 实际例子的模型比较数 学 进 展 卷 表 实际例子的参数估计结果 从表 可以发现,无论是 还是 联系函数,根据因子均可以判断为选择 机制;表 给出的结果反映出不同缺失机制间的估计值差别较大,而相同机制下不同联 系函数时的估计则差别不大. 同时, 机制下两种联系函数时对应的非参数部分的估计展示在图 中,可以发现它 们是非常相似的. 口 图 实例在 机制下两种联系函数时的估计值 致谢 衷心感谢唐年胜教授在本文研究过程中所给予的宝贵意见、建议和鼓励. 参考文献 『, . . ., , . .,.,: . 『, . .,,, , :?. 『, . .,. .,, . ., , , , :?. , . .,. ., , . ., , , , :?. 『 .,. ., , . ., , , , :?. 『 , . .,. ., , 圻 , , :?,, . .,. ., , , , :?.
本文档为【带有不可忽略缺失数据的广义部分线性模型的贝叶斯分析(可编辑)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_180829
暂无简介~
格式:doc
大小:47KB
软件:Word
页数:23
分类:企业经营
上传时间:2017-11-28
浏览量:22