关闭

关闭

封号提示

内容

首页 HLM模型在消费者研究中的应用.doc

HLM模型在消费者研究中的应用.doc

HLM模型在消费者研究中的应用.doc

上传者: hebikun1968 2012-06-15 评分 3 0 11 2 51 暂无简介 简介 举报

简介:本文档为《HLM模型在消费者研究中的应用doc》,可适用于市场营销领域,主题内容包含HLM模型在消费者研究中的应用内容提要:HLM即分层线性回归模型可以将数据分成不同层次进行回归并在估计高层回归方程的参数时将低层回归方程的协方差纳入符等。

HLM模型在消费者研究中的应用内容提要:HLM即分层线性回归模型可以将数据分成不同层次进行回归并在估计高层回归方程的参数时将低层回归方程的协方差纳入考虑。该模型在样本的“齐方差”假设被破坏情况下尤其有效常被用于处理有着分组结构的数据。本文简要介绍了分层模型的思想并使用某消费者数据以对一个交互变量系数的估计问题为例将经典回归的最小二乘法估计(OLS)与分层模型进行了比较证明了分层模型在估计交互变量系数上的有效性。        关键词:消费者研究分层模型交互变量        中图分类号:O   文献标识码:A                    TheApplicationofHierarchicalLinearModelsinConsumerResearch                Abstract:HierarchicalLinearModelshavebeenwidelyusedtoanalyzemultileveldatawith“nested”structureInHierarchicalLinearModels,wetakethe“lowlevel”covarianceintoaccountinestimatingthe“highlevel”parametersThatisthereasonwhyHierarchicalLinearModelscanbeusedtodealwiththe“nested”dataset,inwhichthe“identityofvariance”assumptionhasbeendestroyedInthethesis,toexplainwhytheHierarchicalLinearModeldoesbetterthanOLSestimationinestimatingthecoefficientofinteractionvariables,aconsumerdatawasused        KeyWords:ConsumerResearchHierarchicalLinearModelsInteractionVariables                一、引言        年美国社会学家Robinson发表了一篇文章提出了“生态学谬误”(ecologicalfallacy)的问题。它指的是在社会科学研究中使用高层次分析单位的信息直接推测低层次分析单位的性质造成的错误。例如在社会调查获得的多层次数据中我们既有群体层次的数据也有个体层次的数据。如果我们的研究对象是群体可以用个体层间的数据来汇总再通过汇总后的数据判断群体的性质但如果我们的研究对象是个体却不能用组层次的数据来汇总推测个体的性质。用组层次的数据来汇总生成个体层次的信息就会造成“生态学谬误”。那在研究个体的时候干脆不考虑群体层次的信息能是否就能解决“生态学谬误”的问题?答案是否定的。从理论上说这样等于忽视个体所处的背景环境对个体的影响不符合社会实际从统计上来说对“群效应”(clustereffect)的忽略会导致对个体变量参数估计的偏差。因此如何正确地用群体层次的数据来为个体变量的参数估计服务成为一个具有挑战性的统计问题。        西方国家的社会科学界从发现这个问题到提出有效的解决方法经历了大约二三十年。以美国为例世纪年代美国的许多官方数据都是汇总的数据是以地区为单位的而学者们用的几乎所有数据都是政府提供的汇总数据因此这个问题提出造成了社会科学的一个危机。按照密歇根大学社会学系和统计系OtisDudleyDuncan讲座教授谢宇的说法美国在年代后开展的调查革命就是为了回应Robinson的挑战。学者们开始展开调查大量搜集个体层面的数据但如何结合个体层面和群体层面的数据仍然是个问题。但直到分层回归模型(HierarchicalLinearModels)提出并且计算机的发展使得原有的参数估计理论在实践上成为可能这个问题才得到解决。        分层回归模型最早的应用主要是在教育学领域。例如年Burstein指出分层模型在分析教育学数据时有着广泛的应用。和传统的回归模型比起来它在分析具有群组层级结构数据方面有很大的优越性因此在许多学科领域都得到应用。在不同领域里分层模型有着不同的称呼。社会学研究中常称之为多层线性模型(multilevellinearmodels,参见Goldstein,Masonetal,)在生物统计学研究里称为混合效应模型(mixedeffectsmodels)或者随机效应模型(randomeffectsmodels,参见ElstonandGrizzle,LairdandWare,Singer,)统计学文献则称之为协方差成分模型(covariancecomponentsmodels,参见Dempster,Rubin,andTsutakawa,Longford,)计量经济学文献称之为随机系数回归模型(randomcoefficientregressionmodels,参见Rosenberg,Longford,)。        分层模型的思想不难理解但发展出能够有效执行这种思想的估计算法却花了很多年。从Lindly和Smith提出“hierarchicallinearmodel”并对线性模型的贝叶斯估计做出重要贡献以来许多学者在各自的领域里面为分层模型的形成和发展做出了许多努力。DempsterLaird和Rubin在年发展了“EM算法”年左右DempsterRubin和Tsutakawa将“EM算法”应用于分层模型年StiratelliLaird和Ware将“EM算法”用于使方程结果收敛年Goldstein将迭代最小二乘法(IterativeGeneralizedLeastSquares)用于分层模型的参数估计这一方法也只有出现了计算机后人们能在短时间内进行大量的运算直到方程收敛时才能得到有效应用年Longford引入了费雪方程(FisherScoring)年Randenbush将“EM算法”用于计算交互分类的随机效应模型(crossclassifiedmodels)并与AnthonySBryk一起发明了专门用于处理分层模型的软件HLM。虽然目前的以上的SPSS还有其他一些软件都能处理分层模型但HLM由于运算快(它直接将所有数据读在计算机内存里)、界面友好(能够直接在界面上显示和修改方程)而得到广泛使用。        二、分层模型的理论架构        Robinson在年提出的问题是一个牵涉广泛的理论问题但是在统计学家看来生态学谬误本质上是“忽略变量偏误”(omittedvariablebias)问题的一类即在估计低层次方程的参数时不切实际地假设该层次的样本之间是相互独立不发生关联的而没有看到这些样本被“嵌套”(nest)在更高层次的单位之中受到这些单位属性的影响。这里被忽略的变量就是刻画这些单位层次属性的变量。        在使用普通最小二乘法估计(OLS)的经典回归统计分析模型中我们常常假设样本之间独立并且方差相等简称“iid假设”(independentandidentity)。但实际调查中我们发现样本个体之间的相互影响几乎是难以避免的。例如在教育学研究中同一所学校中的不同学生之间是相互影响的并且他们都受到该学校的各种特征的影响。如果抽取五十所学校每个学校抽取一百人认为这样得到的五千个样本是符合“iid假设”的显然是不合适的又比如在心理学中对实验组中的某个实验对象可能要进行多次检测如果认为在A身上进行的十次实验和在B身上进行的十次实验也符合“iid假设”同样是显然不合适的。如果“iid假设”受到破坏OLS仍然是无偏估计但标准差加大如果不对模型进行改进估计就要发生偏差。        因此在估计样本个体的性质时考虑到其所属的组之间的差异是十分重要的。那么怎么处理上述问题中的组间差异呢?在组间差异的问题上不同的模型表现着对组间差异的不同的态度。常见的有三种模型:随机效应模型、固定效应模型和多层次分析模型。随机效应模型将组和组之间的差异视为随机的量不去考虑它固定效应模型把组间差异看作一个固定不变的量不在统计上进行分析用一个给定系数来概括总体异质性产生的共同特征多层次模型则将固定系数和随机效应思想结合起来建立两层回归模型。第一层回归模型用样本个体层面的属性估计组层面方程的时在存量(截距)和增量(斜率)上都允许随机效应的存在第二层回归模型则试图用不同组的在某些维度上属性的差异来解释组间的总体差异因而可以得到一系列变量的系数的估计。第三种方法就是分层模型的方法。从估计方式来说我们常常说在“iid假设”被破坏的情况下要使用WLS或是GLS等“权重配给”式估计实际上分层模型也是一种“权重配给”式估计。        在StephenWRaudenbush和AnthonySBryk合著郭志刚等译的《分层线性模型:应用与数据分析方法》一书中作者提出从“naivemodel”到最完整的模型一共有四种主要的模型即单因素方差分析模型、以均值为结果的回归模型、随机系数模型以截距和斜率作为结果的模型。在这里列出第一种和最后一种作为例子:        (一)一元方差分析模型(OneWayANOVAModel)        因为在建模中方差模型是最原始的模型可以提供最大能解释差异在组内和组间的分配情况为更“完整”模型的各项解释力参数提供基本参照因此也有人称之为“naive”模型:               在该模型中第一层的截距和斜率不仅被认为是随机的(允许,的存在)而且还可以通过一系列层二的变量来估计这就大大提高了多层数据的回归方程参数估计的准确性。从理论上讲这说明两个不同组别的个体之间的存量(截距)和增量(斜率)差异不仅是由于这两个个体自身的属性造成的而且还是由他们所在的单位在一系列属性上的差异造成的。        如果我们令两个个体在各种属性上基本一致就能测量出组作为单位对个体的作用。这就是分层模型最重要的贡献之一:观察组织影响作用(contextualeffect)。上世纪年代末在美国教育学研究领域的SociologyofEducation、EducationResearcher和AmericanEducationResearch在这些研究中“天主学校”和“公立学校”的分类常常被用来解释学生成绩的差异:在控制了学生差异后在以社会经济因素(SES)为X轴某项成绩为Y轴的图表中学校之间的差异就表现为两条直线的截距和斜率不同。一般认为截距高代表更有效率、斜率低则更公平。当然这还要考虑到这两类学校的学生素质本来就可能存在区别(pretreatment(((Journal等重要刊物上许多学者发表了使用分层模型的观点探讨学校教育机制的文章。effects)。        三、实际的消费者研究中OLS估计的缺陷举例        我们引用一份年进行的某次针对北京报纸《精品购物指南》的读者群进行调查所得到的数据。该调查总样本为人其中男性占越女性占已婚未婚其他对被调查人群的受教育水平收入和年龄段的描述见图、图和图:                      假设需要分析的因变量为被调查人群每天阅读《精品购物指南》的时间(单位为分钟)我们希望通过回归分析找出影响这个因变量的自变量。出于文章篇幅的考虑建立回归方程的前期步骤(逐步添加测试自变量检查显著性等)在此略去。最后确定回归方程为(读报时间作为因变量经过ln函数处理):               根据消费者数据分析的经验回归方程中一些自变量之间常常存在着交互作用。在该回归方程中我们先假设“体制内外”与“年龄段”没有交互作用希望得到显著性的结果来否定这个原假设。我们在方程中设立了两个交互变量“体制内*年龄段”和“体制内*年龄段的平方”以便考察这种交互作用:(((        使用STATA软件在删除缺失值之后使用回归命令得到表中结果:               从表一中可以看到虽然变量“年龄段”和“年龄段的平方”是显著的但变量“体制内”本身以及交互变量“体制内*年龄段”和“体制内*年龄段的平方”系数的P值都大于。这意味着我们无法否定原假设因此交互作用是不显著的。我们是否可以由此判断读报时间与被访者的年龄有关但与被访者工作是否属于“体制内”无关?        让我们重新反思一下在模型建构过程中有没有什么地方被忽略了。“体制内”一类的变量与“性别”、“年龄”等变量是不同的。后者是人口统计学的基本变量直接描述被访者基本的生理特征但前者却是用于描述被访者的职业特征的变量。“体制内”变量直接表达的是职业的特征而不是人的特征它的意义是将各种职业(该消费者数据中是十四种职业)划分为两大类。如果我们直接使用这个变量来估计被访者的个人行为等于把所有的被访者分成了两大类将所有具有体制内(或体制外)的职业的被访者样本看作是符合“iid假设”的忽略了不同职业者之间的区别。因此用“体制内”变量直接估计个人信息等于用“职业群体”层次的信息估计“个人”层次的信息这就使我们对变量的参数估计产生偏差。在上文的回归方程中原本可能显著的交互变量表现得不显著了。“城乡”、“学历”等有可能成为群组属性的变量也会产生类似的问题。        四、应用分层回归模型重建回归方程的分析           让我们引入分层模型来看一下能否使我们得到不同的结论。在这里作者使用了StephenWRaudenbush和AnthonySBryk共同开发的HLM软件。        原数据被访者划分为十四种职业。我们认为个人数据是第一层数据个人嵌套在(nestedin)职业中描述职业特点的数据是第二层数据。因为这个消费者数据在实施调查的时候并没有按照分层的方式搜集资料我们无法取得关于第二层数据的信息。但我们可以在原有的数据的基础上人为生成一个变量:“职业是否属于体制内”(虚拟变量)。我们认为个人嵌套在职业中的模型假设在理论上是有意义的。在本次调查中被访者对方差独立性假设的破坏不像上文举的学校的案例中那样是由于样本在地理空间内相互影响产生的协方差造成的而是由于同一职业的被访者常常生活在类似的工作环境下受到相同的政策影响也通过种种渠道进行互动有着独特的群体心理从而形成协方差所造成的。因此基于职业的分层模型从理论上是可行的。下面我们将看到这个模型的统计指标表现如何:        首先看看各个职业被访者的阅读《精品购物指南》的平均时间:               可以从表和表中看出不同职业的被访者阅读时间是有较明显区别的。这再次证明我们不能使用个体层次的模型分组是必要的。接着使用HLM软件纳入两层模型。两层模型使用到的诸变量基本描述如表所示:               出于文章篇幅的考虑省略ONEWAYANAVA等“naive”模型以及中间检验过程最终模型为(经过对中处理):               为了方便与OLS估计比较我们通过检测我们不但在第二层没有生成和引入其他刻画职业群体属性的变量(例如职业平均月收入)还去掉了所有斜率的随机效应只保留了截距的随机效应。该效应是显著的。这意味着在不同职业者之间读报时间在存量上确实是有区别的(其实这一点已经在前面由ONEWAYANOVA的表三证实了)。        分析结果见表:                      从表五可以看出交互作用是显著的。这意味着随着年龄的增长体制内和体制外的不同职业者阅读《精品》的时间增量是有区别的。该模型如图所示可以看到虽然在年轻的时候体制外被访者的阅读“精品购物”的时间少于体制内被访者但随着年龄的增长前者的读报时间远远比后者增长得快在某个交叉点上前者的阅读时间超过了后者。也就是说被访者的读报时间不仅与年龄相关而且与被访者的职业是否属于体制内是相关的。不仅相关而且我们可以从表中看到回归系数的绝对值和其他因素相比是较高的也就是说被访者的职业是否属于体制内对于被访者的读报时间有着十分重要的影响只不过这种影响是与被访者年龄共同发生作用的。               实际上我们还可以用“解释方差的统计量”这个标准来考察分层模型与OLS估计比较起来的精确之处:        分层分析与层分析(OLS估计)相比相对的解释方差是:                是“组内相关系数”又称为群效应(clustereffect)它测量的是结果方差中组间部分所占的比例即理论上因变量中的总方差中所有职业因素能解释的最大数量。也就是说有的方差是可以也应当用第二层的职业区别解释的但在原有的回归方程中将方差全部归因于第一层也就是个体层面的差异因此个体的方差估计值被夸大了。分层模型则避免了这个问题。        五、结语        综上所述使用分层模型从统计上看确实能有效地解决参数的估计偏误的问题。特别是当数据存在分组或者“嵌套”结构的时候更是如此。另外从理论上看分层模型还能使我们的假设和模型变得更准确。例如本文中正是使用了分层模型才使得我们能发现年龄和职业特性的交互变量对因变量的影响使得我们准确把握数据中潜藏的关系。        本文的不足之处在于原数据在调查时并不是按照分层的假设去采集的因此只能通过在原有数据基础上人为生成新变量的方法来建立分层模型。要充分展示分层模型的优越性就需要更多在调查时以明显的分层的方式采集的原始数据。        相信在不久的将来在市场研究、经济调查、管理学等领域分层模型会得到越来越多的应用。                参考文献        Chi,ChiaFen,ChinLungChenReanalyzingOccupationalFatalityInjuriesinTaiwanwithaModelFreeApproachJSafetyScience,():        McBride,SandraJ,RonWWilliams,JohnCreasonBayesianHierarchicalmodelingofPersonalExposuretoParticulateMatterJ AtmosphericEnvironment,():        Ren,Dianxu,RoslynAstoneABayesianApproachforAnalyzingAClusterrandomizedTrialWithAdjustmentforRiskMisclassificationJComputationalStatisticsDataAnalysis,():        Ruijiter,JudithMPde,MattLHuffmanGenderCompositionEffectsintheNetherlands:AMultilevelAnalysisofOccupationalWageInequalityJSocialScienceResearch,():        Venkatesan,Raj,KunmarMehta,RaviBapnaUnderstandingtheConfluenceofRetailerCharacteristics,MarketCharacteristicsandOnlinePricingStrategiesJDecisionSupportSystem,():        葛建军当代中国妇女生育间隔研究基于分层线性模型的分析D:博士学位论文北京:北京大学社会学系        黄纪,张佑宗样本代表性检定与最小差异加权J选举研究,()        黄信豪多层模型于选民投票行为研究的应用J东吴政治学报,()        李剑钊中国农村妇女二孩生育间隔研究分层线性模型的应用D:硕士学位论文北京:北京大学社会学系        刘德寰现代市场研究M北京:高等教育出版社        林奇狱,黄泰惠适用于语者年龄层分类之特征参数探讨J计算机与通讯,()        卢淑华社会统计学M北京:北京大学出版社        Raudenbush,StephenW,AnthonySBryk著郭志刚等译分层线性模型:应用数据分析方法M北京:社会科学文献出版社        邵亚楠锁超级市场销售数据分析分层模型应用实例D:硕士学位论文北京:北京大学光华管理学院        谢宇社会学方法与定量研究M北京:社会科学文献出版社        杨菊华中国生育政策的地区差异与青少年教育机会关系研究J人口学刊,()

类似资料

该用户的其他资料

挽发技巧图解.pdf

女士服饰四季色彩搭配手册(一).pdf

商务女士着装礼仪.ppt

完全素食手册.pdf

女性必修时尚课.pdf

职业精品

精彩专题

上传我的资料

精选资料

热门资料排行换一换

  • 百度竞价排名绝密操作秘籍.pdf

  • 两希文明哲学经典译丛 哲学谈话录…

  • 两希文明哲学经典译丛 论至善和至…

  • 两希文明哲学经典译丛 论自然、凝…

  • 两希文明哲学经典译丛 强者的温柔…

  • 两希文明哲学经典译丛 论摩西的生…

  • 两希文明哲学经典译丛 论律法.p…

  • 秦伦诗编着. 中国易学博览 新编…

  • 抗日战争在总参谋部——一位作战参…

  • 资料评价:

    / 10
    所需积分:5 立即下载

    意见
    反馈

    返回
    顶部