下载

2下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 利用SPSS进行线性回归分析的一个实例

利用SPSS进行线性回归分析的一个实例.pdf

利用SPSS进行线性回归分析的一个实例

soloist
2011-05-25 0人阅读 举报 0 0 暂无简介

简介:本文档为《利用SPSS进行线性回归分析的一个实例pdf》,可适用于高等教育领域

第卷 第期重庆工学院学报年月Vol NoJournalofChongqingInstituteofTechnologyApr  文章编号:()利用SPSS进行线性回归分析的一个实例Ξ喻 开 志(重庆师范学院数学与计算机系,重庆 )摘要:通过建立一个使用工资、工作经验、受教育年限等为自变量的回归方程来预测当前工资,说明CPSS在建立回归方程中的巨大作用。关键词:SPSS线性回归相关方差显著性水平中图分类号:O               文献标识码:A  回归被用于研究可以测量的变量之间的关系。线性回归则被用于研究一类特殊的关系,即可用直线或多维的直线描述的关系。这一技术被用于几乎是所有的研究领域,包括社会科学、物理、生物、科技、经济和人文科学。但是回归分析对数据的处理是一大难题,且一般的社会工作者不可能也不必要对数理统计有深入的了解。SPSS针对这个问题应运而生,它只要社会工作者掌握一定的Windows操作技能,粗通统计学原理,就可以使用该软件进行回归分析。下面,我们用~年美国某银行职员情况调查的数据,建立了一个使用工资、工作经验、受教育年限等为自变量的回归方程来预测当前工资。从中我们将看到SPSS在建立回归方程中的巨大作用。 选变量变量的选取是很重要的,如果自变量和被预测的变量根本没有关系,则不能线性回归来预测,所以我们必须看一下变量相关性和偏相关性。因为一般认为初始工作与当前工资存在较大的相关性,我们通过图散点图来观察一下,是否存在这种关系。否则,将不能继续我们讨论的问题。图 初始工资与当前工资散点图收稿日期:作者简介:喻开志(),男(汉族),四川新都人,在读硕士研究生,主要从事随机经济系统分析与模糊数学研究  从图明显可以看出存在线性关系,因此同样可判定建立线性回归方程。从图中明显可以看出,,,,,,是奇异点或影响点。对此我们可以在以后的线性回归时,注意一下这些点。看是把这些点剔出,还是保留。我们还想了解工作经验、工作种类、受教育年限对当前工资是否存在影响。即我们试图建立一个使用初始工资、工作经验、工作种类、受教育年限作自变量的回归方程来预测当前工资。这就需要我们看一下当前工资是否与工作经验、工作种类受教育年限存在相关关系。那么,我们就得检验一下它们的偏相关关系(控制了初始工资),表至表是它们的检验结果。表 工作经验与当前工资偏相关关系检验表PARTIAL CORRELATION COEFFICIENTSControllingforSALBEGINSALARYPREVEXPSALARY( )P=( )P=PREVEXP( )P=( )P=(Coefficient(DF)tailedSignificance)“”isprintedifacoefficientcannotbecomputed表 工作种类与当前工资偏相关关系检验表PARTIAL CORRELATION COEFFICIENTSControllingforSALBEGINSALARYJOBCATSALARY( )P=( )P=JOBCAT( )P=( )P=(Coefficient(DF)tailedSignificance)“”isprintedifacoefficientcannotbecomputed表 受教育年限与当前工资偏相关关系检验表PARTIAL CORRELATION COEFFICIENTSControllingforSALBEGINSALARYEDUCSALARY( )P=( )P=EDUC( )P=( )P=(Coefficient(DF)tailedSignificance)“”isprintedifacoefficientcannotbecomputed  从中我们看出工作经验、工作种类、受教育年限与当前工资的偏相关系数分别为:,,都与当前工资有相关关系,所以可以建立一个使用工作经验、工作种类、受教育年限作自变量的回归方程来预测当前工资。图 Scatterplot散点图图 PP概率图图 残差直方图 选数据经过步骤以后,马上进行回归分析就错了。我们进行回归分析是在若干假定之下,即对数据是有要求的。这就需要我们需要考虑:()是否满足方差齐性的要求。从图的Scatterplot散点图(以回归预测值为X轴,以标准化重庆工学院学报残差为Y轴)看,如果它的大部分都落在(,)范围之内,就可以认为它满足这个条件()是否满足正态性的要求。从图的PP概率图,和图残差直方图都可以明显看出它满足这个假设。此外还可以用描述统计分析过程(Summarize中的Descriptives来检验它是否满足正态性的要求,利用峰度和偏度,本文没有。对于不满足的情形只有进行数据变换,目前还没有有效的方法)接下来我们就需要考虑奇异值和影响点的问题:从表的奇异值数据表中明显可以看出我们的判断是正确的,,,,,,,的确可能是令人生疑的。此外,可以从Mahal·Distance,Cook’s,Distance,CenteredValue的值中判断它们是否为奇异值。例如第个观测值,它的Mahal·Distance(与一般的距离的区别在于它主要从概率意义上来讲)值为适中,与中心值适中,故第个观测值不是影响点Cook’sDistance,值为,故这个值被删除以后以其他观测量进行回归,回归方程的残差变化不大,所以可以认为这个值不为影响点CenteredValue值为,故第这个观测值和所有次值的平均数之间的距离为,即中心很近,故可以认为它不是影响点。以上种系数都说明第个观测值不是影响点。这的确让我们大吃一惊,与我们直观不符。所以我没有把第个观测值排除在回归方程之外。从输出的数据Mahal·Distance,Cook’s,Distance,CenteredValue值,我认为没有影响点(若有,则可以剔除它或者用响应变量均值漂移的方法或者方差漂移的方法,)。故我让全部数据参与了回归分析。表 奇异值数据表CaseNumberStdResidualCurrentSalaryPredictedValueResidual ÃÃÃ ÃÃÃ ÃÃÃ ÃÃÃÃÃÃ ÃÃÃ ÃÃÃ ÃÃÃ ÃÃÃaDependentVariable:CurrentSalary 进行回归回归分析中如果只注重模型的一些描述性的统计量或只注重结果,那就错了。其实SPSS是怎样在回归的过程中剔除变量的,回归方程中系数的含义倒底是什么这些问题很容易让人忽略但却是相当重要的。下面我们着重通过表、表、表、表来说明问题。表 回归分析基本情况表ModelSummdryfModelRRSquareAdjustedRSquareSedErroroftheEstimateabcdeÃÃÃÃÃaPredictors:(Constant),BeginningSalarybPredictors:(Constant),BeginningSalary, EmploymentCategorycPredictors:(Constant),BeginningSalary, EmploymentCategory,PreviousExperience(months)dPredictors:(Constant),BeginningSalary, EmploymentCategory,PreviousExperience(months), MonthssinceHireePredictors:(Constant),BeginningSalary, EmploymentCategory,PreviousExperience(months), MonthssinceHire,EducationalLevel(years)fDependentVariable:CurrentSalary()回归方程编号(第列)()复相关系数(第列)都较大,即自变量或自变量的线性组合能多大程度上解释因变量。看来它们都大于,所以比较令人满意。()复相关系数平方值(第列)。说明回归模型自变量的变异在因变量中所占比率,接近最好。()修正的复相关系数平方值(第列)第二列给人一喻开志:利用SPSS进行线性回归分析的一个实例个印象是引入的变量越多,复相关系数越大。为了消除这种影响,给出修正的复相关系数平方值。从中可以看出:引入EducationalLevel后,该值增长不大。即该变量对方程的贡献不大,可以不引入方程。()估计的标准误(第列)说明了因变量还有好多不能被回归方程所解释。它也是只有相对意义,没有绝对意义。还是与所带单位有关。从个模型中比较,它的值变化不大。表 相关检验验表CurrentSalaryEducationalLevel(years)EmploymentCategoryBeginningSalaryMonthssinceHirePreviousExperience(months)PearsonCorrelationCurrentSalary    EducationalLevel(years)    EmploymentCategory     BeginningSalary    MonthssinceHire    PreviousExperience(months)   Sig(tailed)CurrentSalaryEducationalLevel(years)EmploymentCategoryBeginningSalaryMonthssinceHirePreviousExperience(months)NCurrentSalaryEducationalLevel(years)EmploymentCategoryBeginningSalaryMonthssinceHirePreviousExperience(months)  (检验CurrentSalary,BeginningSalary,PreviousExperience,MonthssinceHireEducationalLevel(years),EmploymentCategory之间的相关性)Beginning Salary,Previous Experience显著性水平为Beginning Salary Months since Hire,显著性水平为Previous Experience Months since Hire,显著性水平为Months since Hire Educational Level(years)显著性水平为Months since Hire Employment Category显著性水平为。以上的显著性水平均大于,故它们是相关的。(所以在分析下面的回归方程时要消除它们影响的话,不妨考虑因子分析和聚类分析,或考虑变换数据,这里没有这样做,因为它的影响不是太严重)重庆工学院学报表 变量剔除或进入过程表ExcludedVariablesModelBetaIntSigPartialCorrelationCollinearityStatisticsToleranceVIFMinimumToleranceEducatinalLevel(years) a  MonthsSinceHire a  EmploymentCatege a  PreviousExperier(months)aEducatinalLevel(years) b  MonthssinceHire b  PreviousExperier(months)bEducatinalLevel(years) c  MonthssinceHire c  EducatinalLevel(years) d  aPredictorsintheModel:(Constant),BeginningSalarybPredictorsintheMadel:(Constant),BeginningSalary, EmploymentCategorycPredictorsintheMadel:(Constant),BeginningSalary, EmploymentCategory,PreviousExperience(months)dPredictorsintheMadel:(Constant),BeginningSalary, EmploymentCategory,PreviousExperience(months), MonthssinceHireeDependentVariable:CurrentSalary表 回归系数表CoefficientsaModel  Unstandardized  CoefficientsBStdErrorStandardizedCoefficientsBetatSigCollinearityStatisticsToleranceVIF(Constant)BeginningSalary(Constant)BeginningSalaryEmploymentCategory(Constant)BeginningSalaryEmploymentCategoryPreviousExperience(months)(Constant)BeginningSalaryEmploymentCategoryPreviousExperience(months)MonthssinceHire(Constant)BeginningSalaryEmploymentCategoryPreviousExperience(months)MonthssinceHireEducationalLevel(years)aDependentVariable:CurrentSalary  表给出了逐步回归过程中,每一步被剔除的变量,并给出了各种值,以判断下一步进入回归方程的变量的依据。我举第行为例,作出详细解释。第列说明被排除在回归方程外的变量。同时也就说明首先进入回归方程的为BeginningSalary这个变量(这也可以从表下面的注释中看出)。第列说明所有自变量进行回归分析时的Beta值,一般认为该值越大,该变量对因变量的贡献越大。这里是EmployCategory对应的值最大,故第个进入回归方程的变量为EmployCategory。第列是针对每一个变量前面的系数是否为零的假设和t检验值,第四列给出了这个检验结果。从中可以看喻开志:利用SPSS进行线性回归分析的一个实例出,每一个变量的显著水平都为零。故拒绝系数为零的假设,即每一个变量都对因变量有贡献。第列给出了偏相关系数(即排除其它变量的影响后,该变量与因变量的相关性)相关性越高,说明该变量对因变量的解释能力越强。EmployCategory对应的值最大。故第个进入回归方程的变量为EmployCategory。第列为容忍度(Tolerance)值,第列为方差膨胀因子(VIF)的值,第列为最小的容忍度(Tolerance)值。这些标准含义具体可以参见表中的解释。表中的编号得出逐步回归过程中的每一步结果。为了简化分析,仅举第行为例:)第列说明了模型及模型中存在的变量与常量。如第个模型为Currentsalary=XBeginningSalary    (常 量)   (变  量)第二个模型为Currentsalary=XBeginningSalary    (常 量)   (变  量)XEmploymentCategory         (变  量)如果(随便举的例子)有一个回归方程为Currentsalary=XBeginningSalary    (常量)   (变  量)XEmploymentCategory        (变  量)从第个方程,我们很容易误认为变量BeginningSalary没有变量EmploymentCategory重要。这主要是受它们的回归系数(,)的影响。所以我们就需要看看后面的B(偏回归系数)和Beta系数。)B(偏回归系数)(第列)是控制了其他变量后得到的。如第个模型的中的常量值()是控制了变量BeginningSalary的影响后得出的,变量系数值()是控制了Constant影响后得到的。这类似于偏相关检验。但B(偏回归系数),有一个缺点就是单位数量级不一致时,对它的比较毫无意义。如BeginningSalary的单位为,而EmploymentCategory的单位为,显然这时EmploymentCategory前面的回归系数可能很小。故对它需要进行改进,这就是Beta系数。)Beta系数(第列),它是把所有变量都事先进行标准化(Z分数)。但它还是有一个不足之处,就是没有考虑到所带单位类型(如一辆车和一个人比,可能毫无意义)。故从绝对意义上讲,使用Beta系数也不能比较哪一个自变量更为重要。)第列为t检验值,就是假设回归系数为零的检验。第列(显著性水平)给出了这个检验的结果。如第个模型中常数项的显著水平为,自变量BeginningSalary的显著性水平为,它们都小于,故属于小概率事件,即拒绝回归系数为零的假设,即第个回归方程有意义。)第列为容忍度(Tolerance)值,第列为方差膨胀因子(VIF)的值。它们都为诊断方程的变量之间是否存在共线性的两个指标。因为若方程存在共线性的话,最小二乘法变得毫无意义。Tolerance值的范围为,,若其值为,说明方程的诸变量之间存在共线性若接近或等于,说明方程的诸变量之间完全不存在共线性。VIF为Tolerance的倒数,所以完全可以只看容忍度的值或方差膨胀因子的值中的一种就可以了。因为第个方程中只有一个变量,所以它Tolerance值为。第个方程EmploymentCategory和BeginningSalary的Tolerance值都为,这个值大小适中,所以可以拒绝它们之间共线的假设。参考文献: SWeisbery应用线性回归M北京:中国统计出版社, 阮桂海SPSS实用教程M北京:电子工业出版社,ACaseStudyonCarryingoutRegressionAnalysisbyMeansofSPSSYU Kaizhi(DepartmentofMathematicsandComputer,ChongqingTeacher’sUniversity,Chongqing,China)Abstract:ThispaperdiscussesthegreateffectsofSPSSonestablishingaregressiveequationbyestablishingaregressiveequationwithsalary,workingexperience,yearsofeducation,etcascontravariablestoestimatethepresentsalariesKeywords:SPSSlinearregressioncorrelationvariancelevelofsignificance(责任编辑 欧理平)重庆工学院学报

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/6

利用SPSS进行线性回归分析的一个实例

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利