第6讲回归分析

第6讲回归分析第六讲回归分析第一节回归分析概述X与Y1,X与Y2相关系数相等此时仅仅用相关系数描述它们的关系显然不够一、回归分析的概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程。按照经验公式的函数类型：线性回归和非线性回归。按自变量个数：一元回归和多元回归。按自变量和因变量的类型：一般的回归分析、含有哑变量的回归分析、Logistic回归分析。二、回归分析分类注：按自变量和因变量的类型要求1、对数据进行预处理，选择合适的变量进行回归分析。2、做散点图，观察变量间的趋势，初步选取回归分析方法。3、进...

第六讲回归分析第一节回归分析概述X与Y1,X与Y2相关系数相等此时仅仅用相关系数描述它们的关系显然不够一、回归分析的概念回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程。按照经验公式的函数类型：线性回归和非线性回归。按自变量个数：一元回归和多元回归。按自变量和因变量的类型：一般的回归分析、含有哑变量的回归分析、Logistic回归分析。二、回归分析分类注：按自变量和因变量的类型要求1、对数据进行预处理，选择合适的变量进行回归分析。2、做散点图，观察变量间的趋势，初步选取回归分析方法。3、进行回归分析，拟合自变量与因变量之间的经验公式。4、拟合完毕之后进行残差分析，检验模型是否恰当。5、利用拟合结果进行预测控制。三、回归分析的一般步骤第二节线性回归——Linear过程1、一元线性回归一、线性回归模型简介2、多元线性回归注意：模型是否恰当，也需要进行假设检验。◆注意：变量的选择不是单纯的数学问题，一定要结合实际问题的背景来处理。一定要认识到统计和传统数学的不同。传统数学是一门要求严密逻辑推理的学科。统计学作为一门从应用中发展起来的学科，一定不能脱离实际问题。否则，统计学也丧失了其存在的意义。例1在十九世纪四、五十年代，苏格兰物理学家JamesD.Forbes，试图通过水的沸点来估计海拔高度。由于可以通过气压来估计海拔，他在阿尔卑斯山以及苏格兰收集了沸点及海拔的数据如表所示。现在通过线形回归拟合气压与沸点的关系。（数据文件Forbes.sav）二、引例（练习一）——一元线性回归模型1、首先作沸点与气压之间的散点图判断两者之间的关系。两个变量有明显的线性关系。2、执行【Analyze】/【Regression】/【Linear】回归分析的因变量（一个）回归分析的自变量定义多元回归分析中自变量进入模型的方式筛选变量给定变量的筛选条件选择变量作为每条记录的标签，常选记录号选择权重变量进行加权最小二乘法回归分析Statistics：选择需要计算的统计量定义回归分析的输出情况输出回归系数的估计值及其标准误差、检验统计量、标准化的回归系数输出每个回归系数95%置信区间输出每个自变量的相关矩阵、方差与协方差矩阵输出回归模型因变量列表和模型是否恰当的统计量，以及负相关系数R、决定系数R2和调整的R2、方差分析表输出模型拟合过程中的R2、F值和P值的改变情况输出描述性统计量输出自变量间的相关系数、部分相关系数和偏相关系数输出多元回归分析中用于共线性诊断的统计量定义残差分析的结果输出Durbin-Watson残差序列相关性检验结果输出超过规定n倍标准差的残差序列或全部残差序列表Plot：绘制各类图形列举可以用来绘制图形的中间统计量因变量标准化预测值标准化残差剔除残差修正后预测值学生化残差学生化剔除残差定义需要绘制的回归分析诊断图或预测图选择是否绘制每一个自变量与因变量残差的散点图选择绘制标准化残差的类型，包括直方图和正态P-P图Save：存储各个分析的中间结果保存模型对因变量的原始预测值保存标准化后的预测值，此时均值为0，标准差为1保存去掉当前记录时，当前模型对该记录因变量的预测值保存预测值的标准差保存预测值回归诊断时的各种残差保存模型预测值对因变量观测值的原始残差保存U变换进行标准化后的残差，此时均值为0，标准差为1保存学生化残差，即用T变换进行标准化后的残差保存删除当前记录后的残差保存删除当前记录后T变换进行标准化后的残差保存用于测量数据点离拟合模型距离的指标，通常用于诊断离群点或强影响点马氏距离，保存记录值离样本均值的距离保存删除当前记录后，模型残差会发生的变化量杠杆值，测量该数据点的影响强度判断强影响点的统计量保存去掉该观察值后回归系数的变化值保存标准化后的DfBeta值保存去掉该观察值后预测值的变化值保存标准化后的DfFit值保存去掉该观测点后协方差阵与含全部观察值的协方差阵的比率选择是否给出均值和个体参考值的置信区间保存上述中间变量将结果保存在一个新生成的“*.sav”数据文件中将结果直接保存到其他文件中将模型信息存入XML文件中Option：设置回归分析的一些选项将变量纳入和排除标准决定模型中是否包括常数项定义缺失值的处理方式只要数据中有变量值缺失就剔除该数据仅当数据要分析的变量值缺失时才剔除该数据用变量均值代替变量缺失值结果解读：1、回归分析过程中变量进入、推出模型的基本情况。（主要用于多元线性回归）2、回归模型拟合度检验复相关系数复相关系数平方注：（1）复相关系数反映自变量与因变量之间的密切程度，其值在0到1之间，越大越好；（2）复相关系数的平方又称为决定系数；（3）复相关系数随着自变量个数的增加，其值不断增加，对于多元线性回归模型复相关系数不可靠，又引入调整的复相关系数调整后的决定系数标准误3、方差分析表<0.05，该模型有显著的统计意义4、回归分析结果给出了拟合未标准化和标准化后的回归系数值（含常数项），并通过T检验方法拟合结果进行检验5、残差统计量预测值残差标准化预测值标准化残差说明：这些数据无离群值，且数据的标准差较小，可认为模型是健康的。6、残差统计量检验做出标准化残差的直方图和正态P-P图来观察其是否服从正态分布。说明：残差具有正态分布的趋势，可认为这里的回归模型时恰当的。例2雇员对其主管满意度的调查。某大型金融机构中做了一项关于雇员对其主管满意度的调查，其中一个问题设计为对主管的工作业绩的综合评价，另外若干个问题涉及主管与其雇员间相互关系的具体方面。试研究试图解释主管性格与雇员对其整体满意度之间的关系。起初选取了6个调查项目作为可能的解释变量（见下表）。（数据文件surpervisor.sav）——多元线性回归模型上述解释变量有两种主要类型：（1）X1、X2、X5反映雇员与主管人员之间直接的人际关系；（2）X3、X4主要与工作相关；另外，X6不是对主管的直接评价，是雇员对自己把握晋升机会的一般评价。执行【Analyze】/【Regression】/【Linear】Statistics：选择需要计算的统计量定义回归分析的输出情况输出回归系数的估计值及其标准误差、检验统计量、标准化的回归系数输出每个回归系数95%置信区间输出每个自变量的相关矩阵、方差与协方差矩阵输出回归模型因变量列表和模型是否恰当的统计量，以及负相关系数R、决定系数R2和调整的R2、方差分析表输出模型拟合过程中的R2、F值和P值的改变情况输出描述性统计量输出自变量间的相关系数、部分相关系数和偏相关系数输出多元回归分析中用于共线性诊断的统计量定义残差分析的结果输出Durbin-Watson残差序列相关性检验结果输出超过规定n倍标准差的残差序列或全部残差序列表结果解读：1、变量进入模型的基本情况说明：变量X1、X2、X5作为一组强行纳入模型；X3、X4作为一组采用逐步法进入模型。模型结果是将X1、X2、X5全部纳入模型，而X3、X4全部剔除。2、模型拟合度检验结果对于多元回归分析模型，一般应采用其调整的决定系数(AdjustRsquare)来判断说明：决定系数为0.647，其拟合程度可以接受。3、方差分析表<0.05，该模型有显著的统计意义共线性检验4、回归分析结果容忍度方差膨胀率说明：仅X1的系数有统计意义。注：（1）对于多元线性模型，通常还应检验其自变量之间是否存在共线性的问题。（2）这里自变量的容忍度大于0.1，不存在共线性的问题。如果存在共线性的问题，应当通过增大样本量建立模型来解决此问题。补充：共线性检验指标指标名称检验标准容忍度(Tolerance)若某自变量容忍度小于0.1，则存在共线性问题方差膨胀率(VIF)容忍度的倒数越大共线性问题越严重特征根(Eigenvalue)若多个维度的特征根等于0，则可能存在共线性问题条件指数(ConditionIndex)若某个维度的条件指数大于30，则可能存在共线性问题5、共线性检验结果特征根条件指数说明：按照上述的检验标准，该模型不存在共线性的问题6、剔除变量列表>0.05，该模型中无需再对变量X3、X4进行分析第三节曲线拟合拟线性，是指变量之间的关系是非线性关系，但是可以通过一些特殊的变化使之线性化。譬如非线性方程线性化一、曲线拟合简介曲线拟合就是研究两变量间拟线性关系的一种方法。曲线拟合的基本步骤是首先选择一种常见的曲线模型及其数学表达式。然后对变量做变换使得曲线模型线性化，再利用已知数据，用最小二乘的方法来估计模型中的参数。◆注意：利用曲线拟合的方法来估计两变量间的关系，必须选取恰当的曲线模型。模型的选取首先依赖于实际问题，同时也依赖于数据的特征。这一点可以通过作变量间的散点图来对两变量间的关系做一个预估计。在根据预估计结果选择恰当的统计模型。例3已知有某次泥石流的各阵观测数据保存在如图所示的数据文件“nishiliu.sav”中，试拟合各阵泥石流泥面宽与泥深之间的关系。二、引例（练习二）1、作散点图，分析两者之间的关系说明：通过观察散点可发现，有一个明显异常点，结合实践判断可能是录入错误，要剔除该数据。2、剔除异常值3、【Analyze】/【Regression】/【CurveEstimation】曲线拟合的因变量（Y轴），可多个曲线拟合的自变量（X轴），只能一个时间作为自变量，因变量需为时间序列数据定义图形中的标识变量选择图形中是否含常数项是否绘制拟合曲线的图形定义拟合的曲线模型是否输出曲线拟合模型检验的方差分析表补充：曲线拟合的可选模型Save：用于定义需要保存的统计量定义预测观测值组定义需要保存的中间统计量选择是否保存预测值选择是否保存残差选择是否保存预测值的置信区间对估计周期内的所有观测量估计其预测值定义时间序列中最后一个观测值之后的n个值显示当前估计周期结果解读：1、模型基本信息描述2、直线模型（Linear）等同于对两个变量进行线性回归分析（1）直线模型拟合度检验（2）直线模型方差分析表说明：决定系数为0.606，模型的拟合效果一般。说明：Sig.=0<0.05，模型具有显著的统计学意义。（3）直线模型系数说明：从各系数的Sig.可看出，各项系数具有显著意义。可得：其中：y表示泥深，x表示泥面宽3、二次曲线模型（Quadratic）（1）二次曲线模型拟合度检验（2）二次曲线模型方差分析表说明：决定系数为0.733，模型的拟合效果不错。说明：Sig.=0<0.05，模型具有显著的统计学意义。（3）二次曲线模型系数说明：从各系数的Sig.可看出，各项系数具有显著意义。可得：其中：y表示泥深，x表示泥面宽4、三次曲线模型（Cubic）（1）三次曲线模型拟合度检验（2）三次曲线模型方差分析表说明：决定系数为0.737，模型的拟合效果不错。说明：Sig.=0<0.05，模型具有显著的统计学意义。（3）三次曲线模型系数说明：从各系数的Sig.可看出，各项系数具有显著意义。可得：其中：y表示泥深，x表示泥面宽5、三类模型的拟合曲线与原始观测值图形说明：从图形上看，3个模型的拟合效果是比较近似的。第四节二分类变量Logistic回归在Logistic回归模型中，因变量是定性变量。特别地，因变量是二分类变量的情况十分普遍。譬如：（1）致癌因素的研究中，收集了若干人的健康记录，包括年龄、性别、抽烟史、日常饮食及家庭病史等变量的数据。因变量为一个人得了癌症（Y=1），还是没有得癌症（Y=0）。（2）在金融界，最关心的是企业的“健康”状况。自变量是公司的各项财务指标。而因变量即是公司的偿付能力（破产＝0，有偿付能力＝1）。一、Logistic回归简介区别：线性回归与曲线拟合都要求因变量是定量变量。二分类变量Logistic回归简介◆注意二分类变量Logistic回归其核心思想是对因变量二值取一的概率建模而不是直接预测其取值。拟合二分类变量的Logistic回归模型的参数问题可通过Logistic变换转换为拟合线性模型的参数。Logistic回归分析中自变量进入模型的方法选择SPSS表示说明Enter强行进入法Forward:Conditonal/LR/Ward依据条件参数似然比检验结果/偏似然比检验结果/Ward检验结果剔除变量的向前剔除法Backward:Conditonal/LR/Ward依据条件参数似然比检验结果/偏似然比检验结果/Ward检验结果剔除变量的向后剔除法例4诊断发现运营不良的金融商业机构诊断发现运营不良的金融商业机构是审计核查的一项重要功能。审计核查的分类失败会导致灾难性的后果。比如，美国1980年的储蓄-贷款的惨败事件。下表部分列出了66家公司的一些运营的财务比率，其中33家在2年后破产，另外33家在同期保持偿付能力。用变量X1、X2、X3拟合一个Logistic回归模型。（数据文件：gongsi.sav）二、引例（练习三）【Analyze】/【Regression】/【BinaryLogistic】Logistic回归的因变量，只可一个二值变量Logistic回归的自变量将选中的多个变量的交互作用纳入选择变量进入模型的方法选择筛选变量给定变量的筛选条件Categorical：将某些数值型自变量定义为分类变量选择将其定义为分类变量的变量用于设置每个变量哑变量组中的具体取值和对照组Save：用于定义需要保存的中间统计量保存每个观测值的预测概率值定义需要保存的预测值保存根据预测概率值判断观测值所属的类别保存删除当前记录后，模型残差会发生的变化量定义用于判断影像点的统计量保存杠杆值，即测量该数据点的影响强度保存去掉该观察值后回归系数的变化值保存各类残差保存模型预测值对因变量观测值的原始残差保存Logit残差保存学生化残差，即用T变换进行标准化后的残差保存U变换进行标准化后的残差，此时均值为0，标准差为1保存Deviance残差选择是否将模型信息保存到XML文件中选择是否保存变量间的相关矩阵Option：Logit分析的一些选项绘制因变量实际分类和预测分类关系的图形定义一些重要的统计量和统计图形计算Hosmer-Lemeshow拟合优度指标定义是否输出模型迭代过程每一步的统计结果对于记录逐条列出或满足一定条件列出其残差和概率预测值、预测分类和实际分类计算参数估计值的相关系数矩阵列出极大似然估计每一步的迭代估计值计算参数值95%的置信区间详细输出每一步的统计分析结果只输出最后一步的统计分析结果定义模型中变量进入或移出的概率值标准定义预测观测值分类的概率值大小定义最大迭代数定义模型中是否包含常数项结果解读：1、数据的基本信息：给出数据进入模型的个数2、因变量赋值表3、模型初始分类预测值实际观测值模型预测值正确的预测率4、模型参数检验结果说明：此时模型只有常数项，Sig.值=1，模型没有任何统计意义。5、未纳入模型的变量（预分析过程）即假设将未纳入模型的变量分别或一起纳入模型之后，模型是否有统计学意义。说明：从Sig.值看出，除单独纳入变量X3的模型没有统计学意义外，其余模型都显著有统计学意义。6、模型的全局检验结果步与步间的相对似然比检验Block间的相对似然比检验模型间的相对似然比检验说明：由于只有一个变量组且采取强行进入法将所有变量纳入模型，得到的3种检验方法的结果一致，模型有显著的统计学意义。7、模型摘要-2倍的似然比对数值（两类决定系数）说明：从数据看，拟合程度不错。8、模型的分类预测值说明：此时模型的准确度达到97%。9、Logit模型的拟合结果代入Logistic函数，即得到Y=1的概率值表达式说明：各变量及常数项的系数都没有显著的统计学意义。其它分类变量回归简介因变量是多分类无序变量——【Multinomial】过程因变量是多分类有序变量——【Ordinal】过程自变量是分类变量，因变量是数值变量——定义哑元变量注：对于自变量x是分类变量的回归分析，首先利用【Transform】菜单下的【ComputeVariable】过程或【RecodeintodifferentVariables】将其设置为哑元变量，再用一般的回归分析方法处理。在研究一个因变量的时候，解释变量中除了定量变量，有时候会有一些定性变量，例如性别、年龄、宗教、民族、婚姻状况、教育程度等。这些定性变量也可以成为指标变量、二元变量或分类变量。此时需要使用虚拟变量。引入哑元变量可使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到俩个方程的作用，而且接近现实。如果某个因素有n种选择，则将其用哑变量引入模型时，要设置n-1个哑变量，以避免完全的多重共线性。如性别的选择有两种，则引入一个哑变量，是男则数值为1，否则为0，当然也可以设置为女为1，否则为0。季节的选择有4个，则引入3个哑变量，哑变量1：春为1，否则为0.哑变量2：夏为1，否则为0.哑变量3：秋为1，否则为0哑元变量，又称虚拟变量（DummyVariable）定义：第五节非线性回归——Nonlinear过程线性回归模型：回归参数是线性的，【Linear】过程。内蕴线性（拟线性）回归模型：其回归参数不是线性的，但是可以通过转换变为线性的参数，【CurveEstimation】过程。非线性回归模型：其回归参数不是线性的，也不能通过转换的方法将其变为线性的参数，【Nonlinear】过程。一、非线性回归简介例5棉花单株在不同时期的成铃数（Y）与初花后天数（X）存在非线性的关系，假设这一非线性关系可用Gompertz模型表示：某一棉花品种7月5日至9月3日每隔5天的单株成铃数观测值如表所示试根据观测值拟合模型中的参数。（数据文件：mianhua.sav）二、引例（练习四）【Analyze】/【Regression】/【Nonlinear】回归模型的因变量定义回归模型的表达式所有函数类型指定迭代初始值Parameters：指定迭代初始值选择模型中的参数定义参数迭代初始值添加、改变与移出定义的参数迭代初始值在连续使用非线性回归模型时，是否以上次模型的参数拟合值作为本次模型的迭代初始值Loss：定义回归模型的损失函数以均方误差和作为损失函数自定义损失函数损失函数定义框（候选变量列表框）变量的预测值变量的残差（候选参数列表框）（软件盘）（可选函数列表框）Constrain：定义模型中迭代参数的限制条件对参数不作任何限制自定义参数的限制条件Save：定义需要保存的中间统计量预测值残差各参数的导数损失函数值（当自定义损失函数时，才被激活）Options：设置参数拟合过程中的一些选项是否利用Bootstrap法估计参数的标准误差Levenberg-Marquardt法，只适用于无限制的模型定义参数的估计方法序列二次规划法，对有无限制的模型都适用进一步定义序列二次规划法的迭代过程进一步定义Levenberg-Marquardt法的迭代过程定义最大迭代次数定义迭代过程中步长允许的最大变化值最优容忍度，即定义模型中损失函数的精度方程精度，即定义拟合的非线性回归模型精度定义迭代过程中所有参数允许的最大变化值定义最大迭代次数定义迭代停止条件模型损失函数的改变值小于此值时停止迭代模型所有参数的改变值小于此值时停止迭代结果解读：1、模型参数拟合具体的迭代过程说明：共迭代了22次，损失函数的差值小于1E-0.08时停止迭代。对应非线性模型的参数2、模型中参数的估计值得到3、各参数的相关系数矩阵说明：各参数之间的相关系数比较大。4、模型的显著性检验结果（采用方差分析法）说明：决定系数为0.977，模型的拟合效果很好。◆注意：如何定义恰当的模型是解决问题的关键。这既依赖于模型中的数据特征，更依赖于模型中问题的实际背景。所以在用SPSS软件解决问题的时候一定不能脱离问题的实际背景及其统计意义。要求：掌握（1）线性回归分析（Linear）（2）曲线拟合（CurveEstimation）（3）因变量是二分类变量的Logistic回归分析（BinaryLogistic）（4）非线性回归分析（Nonlinear）

                    本文档为【第6讲 回归分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第6讲 回归分析

你可能还喜欢

第6讲回归分析