首页 利用SPSS进行线性回归分析的一个实例

利用SPSS进行线性回归分析的一个实例

举报
开通vip

利用SPSS进行线性回归分析的一个实例 第 16 卷  第 2 期 重 庆 工 学 院 学 报 2002 年 4 月 Vol. 16  No. 2 Journal of Chongqing Institute of Technology Apr. 2002   文章编号 :1671 —0924 (2002) 02 —0029 —06 利用 SPSS 进行线性回归分析的一个实例Ξ 喻 开 志 (重庆师范学院 数学与计算机系 ,重庆 400047) 摘要 : 通过建立一个使用工资、工作经验、受教育年限等为自变量的回归方程来预测当前工资 ,说 明 C...

利用SPSS进行线性回归分析的一个实例
第 16 卷  第 2 期 重 庆 工 学 院 学 报 2002 年 4 月 Vol. 16  No. 2 Journal of Chongqing Institute of Technology Apr. 2002   文章编号 :1671 —0924 (2002) 02 —0029 —06 利用 SPSS 进行线性回归 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 的一个实例Ξ 喻 开 志 (重庆师范学院 数学与计算机系 ,重庆 400047) 摘要 : 通过建立一个使用工资、工作经验、受教育年限等为自变量的回归方程来预测当前工资 ,说 明 CPSS在建立回归方程中的巨大作用。 关 键 词 : SPSS;线性回归 ;相关 ;方差 ;显著性水平 中图分类号 : O151. 2                文献标识码 : A   回归被用于研究可以测量的变量之间的关系。线性 回归则被用于研究一类特殊的关系 ,即可用直线或多维的 直线描述的关系。这一技术被用于几乎是所有的研究领 域 ,包括社会科学、物理、生物、科技、经济和人文科学。但 是回归分析对数据的处理是一大难MATCH_ word word文档格式规范word作业纸小票打印word模板word简历模板免费word简历 _1713483428118_1 ,且一般的社会工作 者不可能也不必要对数理统计有深入的了解。SPSS 针对 这个问题应运而生 ,它只要社会工作者掌握一定的 Win2 dows 操作技能 ,粗通统计学原理 ,就可以使用该软件进行 回归分析。下面 ,我们用 1969~1971 年美国某银行职员情 况调查的数据 ,建立了一个使用工资、工作经验、受教育年 限等为自变量的回归方程来预测当前工资。从中我们将 看到 SPSS在建立回归方程中的巨大作用。 1  选变量 变量的选取是很重要的 ,如果自变量和被预测的变量 根本没有关系 ,则不能线性回归来预测 ,所以我们必须看 一下变量相关性和偏相关性。因为一般认为初始工作与 当前工资存在较大的相关性 ,我们通过图 1 散点图来观察 一下 ,是否存在这种关系。否则 ,将不能继续我们讨论的 问题。 图 1  初始工资与当前工资散点图 收稿日期 :2001 - 10 - 23 作者简介 :喻开志 (1977 - ) ,男 (汉族) ,四川新都人 ,在读硕士研究生 ,主要从事随机经济系统分析与模糊数学研究.   从图 1 明显可以看出存在线性关系 ,因此同样可判定 建立线性回归方程。从图中明显可以看出 18 ,29 ,205 ,218 , 274 ,343 ,449 是奇异点或影响点。对此我们可以在以后的 线性回归时 ,注意一下这些点。看是把这些点剔出 ,还是 保留。 我们还想了解工作经验、工作种类、受教育年限对当 前工资是否存在影响。即我们试图建立一个使用初始工 资、工作经验、工作种类、受教育年限作自变量的回归方程 来预测当前工资。这就需要我们看一下当前工资是否与 工作经验、工作种类受教育年限存在相关关系。那么 ,我 们就得检验一下它们的偏相关关系 (控制了初始工资) , 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 1 至表 3 是它们的检验结果。 表 1  工作经验与当前工资偏相关关系检验表 PARTIAL  CORRELATION  COEFFICIENTS Controlling for. . SALBEGIN SALARY PREVEXP SALARY 1. 0000 (  0) P = . - 0. 2893 (  471) P = 0. 000 PREVEXP - 0. 2893 (  471) P = 0. 000 1. 000 (  0) P = . (Coefficient/ (D. F. ) / 2 - tailed Significance) “. ”is printed if a coefficient cannot be computed 表 2  工作种类与当前工资偏相关关系检验表 PARTIAL  CORRELATION  COEFFICIENTS Controlling for. . SALBEGIN SALARY JOBCAT SALARY 1. 0000 (  0) P = . - 0. 3722 (  471) P = 0. 000 JOBCAT - 0. 3722 (  471) P = 0. 000 1. 000 (  0) P = . (Coefficient/ (D. F. ) / 2 - tailed Significance) “. ”is printed if a coefficient cannot be computed 表 3  受教育年限与当前工资偏相关关系检验表 PARTIAL  CORRELATION  COEFFICIENTS Controlling for. . SALBEGIN SALARY EDUC SALARY 1. 0000 (  0) P = . - 0. 2810 (  471) P = 0. 000 EDUC - 0. 2810 (  471) P = 0. 000 1. 000 (  0) P = . (Coefficient/ (D. F. ) / 2 - tailed Significance) “. ”is printed if a coefficient cannot be computed   从中我们看出工作经验、工作种类、受教育年限与当 前工资的偏相关系数分别为 : - 0. 2893 , - 0. 3722 ,0. 281 都 与当前工资有相关关系 ,所以可以建立一个使用工作经 验、工作种类、受教育年限作自变量的回归方程来预测当 前工资。 图 2  Scatterplot 散点图 图 3  P - P概率图 图 4  残差直方图 2  选数据 经过步骤 1 以后 ,马上进行回归分析就错了。我们进 行回归分析是在若干假定之下 ,即对数据是有要求的。这 就需要我们需要考虑 : (1) 是否满足方差齐性的要求。从 图 2 的 Scatterplot 散点图 (以回归预测值为 X轴 ,以 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化 03 重 庆 工 学 院 学 报 残差为 Y轴) 看 ,如果它的大部分都落在 ( - 3 ,3) 范围之 内 ,就可以认为它满足这个条件 ; (2) 是否满足正态性的 要求。从图 3 的 P - P 概率图 ,和图 4 残差直方图都可以 明显看出它满足这个假设。此外还可以用描述统计分析 过程 (Summarize 中的 Descriptives 来检验它是否满足正态 性的要求 ,利用峰度和偏度 ,本文没有。对于不满足的情 形只有进行数据变换 ,目前还没有有效的方法) 接下来我们就需要考虑奇异值和影响点的问题 :从表 4 的奇异值数据表中明显可以看出我们的判断是正确的 , 18 ,32 ,205 ,218 ,274 ,343 ,449 的确可能是令人生疑的。此 外 ,可以从 Mahal·Distance ,Cook’s ,Distance ,Centered Value 的值中判断它们是否为奇异值。 例如第 18 个观测值 ,它的 Mahal·Distance ( 与一般的 距离的区别在于它主要从概率意义上来讲) 值为7. 033606 适中 ,与中心值适中 ,故第 18 个观测值不是影响点 ;Cook’s Distance ,值为 0. 10667 ,故这个值被删除以后以其他观测量 进行回归 ,回归方程的残差变化不大 ,所以可以认为这个 值不为影响点 ;Centered Value 值为 0. 01488 ,故第 18 这个 观测值和所有 474 次值的平均数之间的距离为 0. 01488 , 即中心很近 ,故可以认为它不是影响点。以上 3 种系数都 说明第 18 个观测值不是影响点。这的确让我们大吃一 惊 ,与我们直观不符。所以我没有把第 18 个观测值排除 在回归方程之外。从输出的数据 Mahal·Distance ,Cook’s , Distance ,Centered Value 值 ,我认为没有影响点 (若有 ,则可 以剔除它 ;或者用响应变量均值漂移的方法或者方差漂移 的方法[2 ,3 ]) 。故我让全部数据参与了回归分析。 表 4  奇异值数据表 Case Number Std. Residual Current Salary Predicted Value Residual 18  6. 034 Ã103 750 Ã62 374. 33 Ã41 375. 67 32  3. 483 Ã110 625 Ã86 742. 22 Ã23 882. 78 103  3. 450 Ã97 000 Ã73 344. 88 Ã23 655. 12 106  3. 582 Ã91 250 Ã66 687. 60 Ã24 562. 40 205 - 3. 486 Ã66 750 Ã90 654. 61 - Ã23 904. 61 218  6. 936 Ã80 000 Ã32 441. 54 Ã47 558. 46 274  4. 505 Ã83 750 Ã52 858. 98 Ã30 891. 02 446  3. 049 Ã10 000 Ã79 097. 06 Ã20 902. 94 454  3. 713 Ã90 625 Ã65 166. 38 Ã25 458. 62 a Dependent Variable : Current Salary 3  进行回归 回归分析中如果只注重模型的一些描述性的统计量 或只注重结果 ,那就错了。其实 SPSS 是怎样在回归的过 程中剔除变量的 ,回归方程中系数的含义倒底是什么 ? 这 些问题很容易让人忽略但却是相当重要的。下面我们着 重通过表 5、表 6、表 7、表 8 来说明问题。 表 6  回归分析基本情况表 Model Summdryf Model R R Square Adjusted R Square Sed. Error of the Estimate 1 2 3 4 5 0. 880a 0. 898b 0. 909c 0. 914d 0. 917e 0. 775 0. 806 0. 827 0. 836 0. 840 0. 774 0. 805 0. 826 0. 835 0. 839 Ã8 115. 36Ã7 540. 43Ã7 127. 04Ã6 940. 23Ã6 856. 79 a. Predictors : (Constant) ,Beginning Salary b. Predictors : (Constant) ,Beginning Salary ,  Employment Category c. Predictors : (Constant) ,Beginning Salary ,  Employment Category ,Previous Experience(months) d. Predictors : (Constant) ,Beginning Salary ,  Employment Category ,Previous Experience(months) ,  Months since Hire e. Predictors : (Constant) ,Beginning Salary ,  Employment Category ,Previous Experience(months) ,  Months since Hire ,Educational Level(years) f . Dependent Variable :Current Salary (1) 回归方程编号 (第 1 列) (2) 复相关系数 (第 2 列) 都较大 ,即自变量或自变量 的线性组合能多大程度上解释因变量。看来它们都大于 75 % ,所以比较令人满意。 (3) 复相关系数平方值 (第 3 列) 。说明回归模型自变 量的变异在因变量中所占比率 ,接近 100 %最好。 (4) 修正的复相关系数平方值 (第 4 列)第二列给人一 13喻开志 :利用 SPSS进行线性回归分析的一个实例 个印象是引入的变量越多 ,复相关系数越大。为了消除这 种影响 ,给出修正的复相关系数平方值。 从中可以看出 :引入 Educational Level 后 ,该值增长不 大。即该变量对方程的贡献不大 ,可以不引入方程。 (5) 估计的标准误 (第 5 列)说明了因变量还有好多不 能被回归方程所解释。它也是只有相对意义 ,没有绝对意 义。还是与所带单位有关。从 5 个模型中比较 ,它的值变 化不大。 表 5  相关检验验表 Current Salary Educational Level (years) Employment Category Beginning Salary Months since Hire Previous Experience (months) Pearson Correla2 tion Current Salary  1. 000  0. 661 0. 780  0. 880  0. 084 - 0. 097 Educational Level (years)  0. 661  1. 000 0. 514  0. 633  0. 047 - 0. 252 Employment Category  0. 780  0. 514 1. 000  0. 755  0. 005  0. 063 Beginning Salary  0. 880  0. 633 0. 755  1. 000 - 0. 020  0. 045 Months since Hire  0. 084  0. 047 0. 005 - 0. 020  1. 000  0. 003 Previous Experience (months) - 0. 097 - 0. 252 0. 063  0. 045  0. 003  1. 000 Sig. (1 - tailed) Current Salary . 0. 000 0. 000 0. 000 0. 034 0. 017 Educational Level (years) 0. 000 . 0. 000 0. 000 0. 152 0. 000 Employment Category 0. 000 0. 000 0. 0. 000 0. 454 0. 087 Beginning Salary 0. 000 0. 000 0. 000 . 0. 334 0. 163 Months since Hire 0. 034 0. 152 0. 454 0. 334 . 0. 474 Previous Experience (months) 0. 017 0. 000 0. 087 0. 163 0. 474 . N Current Salary 474 474 474 474 474 474 Educational Level (years) 474 474 474 474 474 474 Employment Category 474 474 474 474 474 474 Beginning Salary 474 474 474 474 474 474 Months since Hire 474 474 474 474 474 474 Previous Experience (months) 474 474 474 474 474 474 1   (检验 Current Salary ,Beginning Salary , Previous Experi2 ence , Months since HireEducational Level ( years) , Employment Category 之间的相关性) Beginning  Salary , Previous  Experience 显著性水平为 0. 163 ;Beginning Salary  Months  since  Hire ,显著性水平 为 0. 334 ; Previous  Experience  Months  since  Hire ,显著 性水平为 0. 474 ;Months  since  Hire  Educational  Level (years) 显著性水平为 0. 152 ;Months  since  Hire  Em2 ployment  Category 显著性水平为 0. 454。 以上的显著性水平均大于 0. 05 ,故它们是相关的。 (所以在分析下面的回归方程时要消除它们影响的话 ,不 妨考虑因子分析和聚类分析 ,或考虑变换数据 ,这里没有 这样做 ,因为它的影响不是太严重) 23 重 庆 工 学 院 学 报 表 7  变量剔除或进入过程表 Excluded Variables Model Beta In t Sig. Partial Correlation Collinearity Statistics Tolerance VIF Minimum Tolerance 1 Educatinal Level (years)  0. 172a  6. 356 0. 000  0. 281 0. 599 1. 669 0. 599 Months Since Hire  0. 102a  4. 750 0. 000  0. 214 1. 000 1. 000 1. 000 Employment Catege  0. 269a  8. 702 0. 000  0. 372 0. 430 2. 323 0. 430 Previous Experier (months) - 0. 137a - 6. 558 0. 000 - 0. 289 0. 998 1. 002 0. 998 2 Educatinal Level (years)  0. 157b  6. 202 0. 000  0. 275 0. 596 1. 678 0. 349 Months since Hire  0. 096b  4. 844 0. 000  0. 218 0. 999 1. 001 0. 430 Previous Experier (months) - 0. 145b - 7. 565 0. 000 - 0. 329 0. 996 1. 004 0. 430 3 Educatinal Level (years)  0. 102c  3. 856 0. 000  0. 175 0. 515 1. 940 0. 339 Months since Hire  0. 097c  5. 162 0. 000  0. 232 0. 999 1. 001 0. 429 4 Educatinal Level (years)  0. 091d  3. 533 0. 000  0. 161 0. 512 1. 953 0. 337 a. Predictors in the Model : (Constant) ,Beginning Salary b. Predictors in the Madel : (Constant) ,Beginning Salary ,  Employment Category c. Predictors in the Madel : (Constant) ,Beginning Salary ,  Employment Category ,Previous Experience(months) d. Predictors in the Madel : (Constant) ,Beginning Salary ,  Employment Category ,Previous Experience(months) ,  Months since Hire e. Dependent Variable :Current Salary 表 8  回归系数表 Coefficients a Model   Unstandardized   Coefficients B Std. Error Standardized Coefficients Beta t Sig. Collinearity Statistics Tolerance VIF 1 (Constant) 1 928. 206 888. 680 2. 170 0. 031 Beginning Salary 1. 909 0. 047 0. 880 40. 276 0. 000 1. 000 1. 000 2 (Constant) 1 036. 931 832. 051 1. 246 0. 213 Beginning Salary 1. 469 0. 067 0. 677 21. 873 0. 000 0. 430 2. 323 Employment Category 5947. 000 683. 430 0. 269 8. 702 0. 000 0. 430 2. 323 3 (Constant) 3 039. 205 829. 783 3. 663 0. 000 Beginning Salary 1. 467 0. 063 0. 676 23. 117 0. 000 0. 430 2. 323 Employment Category 6160. 294 646. 577 0. 279 9. 528 0. 000 0. 430 2. 327 Previous Experience (months) - 23. 749 3. 139 - 0. 145 - 7. 565 0. 000 0. 996 1. 004 4 (Constant) 103 000. 67 2 707. 813 3. 804 0. 000 Beginning Salary 1. 479 0. 062 0. 682 23. 911 0. 000 0. 430 2. 326 Employment Category 6 060. 446 629. 927 0. 274 9. 621 0. 000 0. 429 2. 330 Previous Experience (months) - 23. 789 3. 057 - 0. 146 - 7. 781 0. 000 0. 996 1. 004 Months since Hire 163. 826 31. 739 0. 097 5. 162 0. 000 0. 999 1. 001 5 (Constant) 15 038. 57 2 992. 525 - 5. 025 0. 000 Beginning Salary 1. 365 0. 069 0. 629 19. 796 0. 000 0. 337 2. 965 Employment Category 5 859. 585 624. 945 0. 265 9. 376 0. 000 0. 426 2. 349 Previous Experience (months) - 19. 553 3. 250 - 0. 120 - 6. 017 0. 000 0. 860 1. 162 Months since Hire 154. 698 31. 464 0. 091 4. 917 0. 000 0. 992 1. 008 Educational Level (years) 539. 642 152. 735 0. 091 3. 533 0. 000 0. 512 1. 953 a. Dependent Variable :Current Salary   表 7 给出了逐步回归过程中 ,每一步被剔除的变量 , 并给出了各种值 ,以判断下一步进入回归方程的变量的依 据。我举第 1 行为例 ,作出详细解释。 第 1 列说明被排除在回归方程外的变量。同时也就 说明首先进入回归方程的为 Beginning Salary 这个变量 (这 也可以从表下面的注释中看出) 。 第 2 列说明所有自变量进行回归分析时的 Beta 值 ,一 般认为该值越大 ,该变量对因变量的贡献越大。这里是 Employ Category对应的值 0. 269 最大 ,故第 2 个进入回归方 程的变量为 Employ Category。 第 3 列是针对每一个变量前面的系数是否为零的假 设和 t 检验值 ,第四列给出了这个检验结果。从中可以看 33喻开志 :利用 SPSS进行线性回归分析的一个实例 出 ,每一个变量的显著水平都为零。故拒绝系数为零的假 设 ,即每一个变量都对因变量有贡献。 第 5 列给出了偏相关系数 (即排除其它变量的影响 后 ,该变量与因变量的相关性)相关性越高 ,说明该变量对 因变量的解释能力越强。Employ Category 对应的值 0. 372 最大。故第 2 个进入回归方程的变量为 Employ Category。 第 6 列为容忍度 (Tolerance) 值 ,第 7 列为方差膨胀因 子 (VIF)的值 ,第 8 列为最小的容忍度 (Tolerance) 值。这些 标准含义具体可以参见表 8 中的解释。 表 8 中的编号得出逐步回归过程中的每一步结果。 为了简化分析 ,仅举第 1 行为例 : 1) 第 1 列说明了模型及模型中存在的变量与常量。 如第 1 个模型为 Current salary = 1 928. 206 + 1. 909XBeginning Salary      (常  量)    (变   量) 第二个模型为 Current salary = 1036. 931 + 1. 469XBeginning Salary     (常  量)    (变   量) + 5947. 00XEmployment Category          (变   量) 如果 (随便举的例子)有一个回归方程为 Current salary = 10 000 + 0. 000 8XBeginning Salary     (常量)    (变   量) + 80 000XEmployment Category         (变   量) 从第 3 个方程 ,我们很容易误认为变量 Beginning Salary 没有变量 Employment Category 重要。这主要是受它 们的回归系数 (0. 0008 ,80000)的影响。所以我们就需要看 看后面的 B (偏回归系数)和 Beta 系数。 2) B (偏回归系数) (第 2 列) 是控制了其他变量后得 到的。如第 1 个模型的中的常量值 (1928. 206)是控制了变 量 Beginning Salary的影响后得出的 ,变量系数值 (1. 909) 是 控制了 Constant 影响后得到的。这类似于偏相关检验。但 B (偏回归系数) ,有一个缺点就是单位数量级不一致时 ,对 它的比较毫无意义。如Beginning Salary的单位为 1 ,而 Em2 ployment Category的单位为 1 000 000 ,显然这时 Employment Category前面的回归系数可能很小。故对它需要进行改 进 ,这就是 Beta 系数。 3) Beta 系数 (第 4 列) ,它是把所有变量都事先进行标 准化 (Z分数) 。但它还是有一个不足之处 ,就是没有考虑 到所带单位类型 (如一辆车和一个人比 ,可能毫无意义) 。 故从绝对意义上讲 ,使用 Beta 系数也不能比较哪一个自变 量更为重要。 4) 第 5 列为 t 检验值 ,就是假设回归系数为零的检 验。第 6 列 (显著性水平)给出了这个检验的结果。如第 1 个模型中常数项的显著水平为 0. 031 ,自变量 Beginning Salary的显著性水平为 0. 000 ,它们都小于 0. 05 ,故属于小 概率事件 ,即拒绝回归系数为零的假设 ,即第 1 个回归方 程有意义。 5) 第 7 列为容忍度 (Tolerance) 值 ,第 8 列为方差膨胀 因子 (VIF)的值。它们都为诊断方程的变量之间是否存在 共线性的两个指标。因为若方程存在共线性的话 ,最小二 乘法变得毫无意义。Tolerance 值的范围为[0 ,1 ] ,若其值为 0 ,说明方程的诸变量之间存在共线性 ;若接近或等于 1 ,说 明方程的诸变量之间完全不存在共线性。VIF 为 Tolerance 的倒数 ,所以完全可以只看容忍度的值或方差膨胀因子的 值中的一种就可以了。因为第 1 个方程中只有一个变量 , 所以它 Tolerance 值为 1。第 2 个方程 Employment Category 和Beginning Salary 的 Tolerance 值都为 0. 430 ,这个值大小适 中 ,所以可以拒绝它们之间共线的假设。 参考文献 : [1 ]  S Weisbery. 应用线性回归[M] . 北京 :中国统计出版社 ,1998. [2 ]  阮桂海. SPSS实用教程[M] . 北京 :电子工业出版社 ,2000. A Case Study on Carrying out Regression Analysis by Means of SPSS YU  Kai - zhi (Department of Mathematics and Computer , Chongqing Teacher’s University , Chongqing 400047 ,China) Abstract : This paper discusses the great effects of SPSS on establishing a regressive equation by establishing a regressive e2 quation with salary , working experience , years of education , etc. as contra - variables to estimate the present salaries. Key words : SPSS; linear regression ; correlation ; variance ; level of significance (责任编辑  欧理平) 43 重 庆 工 学 院 学 报
本文档为【利用SPSS进行线性回归分析的一个实例】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_229251
暂无简介~
格式:pdf
大小:310KB
软件:PDF阅读器
页数:6
分类:文学
上传时间:2011-05-25
浏览量:163