null多元线性回归多元线性回归临床流行病学应用研究室
欧爱华概念:
多元线性回归是研究多个自变量与一个因变量间是否存在线性关系(相互依存关系),并用多元线性回归方程来表达这种关系(或用回归方程定量地刻画一个因变量与多个自变量间的线性依存关系)。
概念:
多元线性回归是研究多个自变量与一个因变量间是否存在线性关系(相互依存关系),并用多元线性回归方程来表达这种关系(或用回归方程定量地刻画一个因变量与多个自变量间的线性依存关系)。
要求:
·自变量的数值可以是随机变量也可以是人为设定的。
·因变量是随机变量。
要求:
·自变量的数值可以是随机变量也可以是人为设定的。
·因变量是随机变量。
多元线性回归方程:
总体回归方程:
β0常数项,β1 , … ,βP 称为总体偏回归系数。
多元线性回归方程:
总体回归方程:
β0常数项,β1 , … ,βP 称为总体偏回归系数。
样本回归方程:
样本回归方程:
偏回归系数:
B0为常数项,B1,B2,…,BP为样本偏回归系数,或称为Y对应于X1 ,X2 ,……XP 的偏回归系数,偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起因变量Y变化的比率。 偏回归系数:
B0为常数项,B1,B2,…,BP为样本偏回归系数,或称为Y对应于X1 ,X2 ,……XP 的偏回归系数,偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起因变量Y变化的比率。例:
(血红蛋白)=β0 +β1 X1(钙Ca) +…+βP XP + e(铜Cu)
例:
(血红蛋白)=β0 +β1 X1(钙Ca) +…+βP XP + e(铜Cu)
用途:
1、用多元线性回归方程来描述多个自变量与因变量间的相互依存的数量关系。
2、分析某些自变量对因变量的发生、发展及预后的影响程度。
用途:
1、用多元线性回归方程来描述多个自变量与因变量间的相互依存的数量关系。
2、分析某些自变量对因变量的发生、发展及预后的影响程度。
3、利用多元线性回归方程进行疾病的预测、预报,以及疾病诊断提高其诊断效果等。3、利用多元线性回归方程进行疾病的预测、预报,以及疾病诊断提高其诊断效果等。多元回归分析所要求的条件:
1、因变量Y一定是服从正态分布的相互独立的随机变量。
2、自变量X可以是服从正态分布的随机变量,也可以是人为设定的。
多元回归分析所要求的条件:
1、因变量Y一定是服从正态分布的相互独立的随机变量。
2、自变量X可以是服从正态分布的随机变量,也可以是人为设定的。
3、当给定自变量的数值后,相应的Y值服从正态分布,其中心位置由决定:
E=( | X1 ,X2 ,……XP)
= β0 +β1 X1 +…+βP XP + e
4、一般样本含量要求是参与分析的变量(自变量+因变量)个数的5~10倍,对多元线性回归甚至要求20倍。
3、当给定自变量的数值后,相应的Y值服从正态分布,其中心位置由决定:
E=( | X1 ,X2 ,……XP)
= β0 +β1 X1 +…+βP XP + e
4、一般样本含量要求是参与分析的变量(自变量+因变量)个数的5~10倍,对多元线性回归甚至要求20倍。数据准备:
数据经校对无误后录入建立数据库,数据库备份;数据是否需要进行量刚的转换,特别是定性资料数量化,分析前可进行数据转化的探索性分析等。数据准备:
数据经校对无误后录入建立数据库,数据库备份;数据是否需要进行量刚的转换,特别是定性资料数量化,分析前可进行数据转化的探索性分析等。 回归模型的建立
主要是求解参数β0 ,β1, … ,βP的估计值的即常数项B0和偏回归系数B1,B2,…..,BP。 回归模型的建立
主要是求解参数β0 ,β1, … ,βP的估计值的即常数项B0和偏回归系数B1,B2,…..,BP。回归方程:
回归方程:
参数估计原理:
根据最小二乘法原理,通过对微分方程组求偏导数,解出常数项B0 (或待定系数)和偏回归系数B1,B2…..BP。参数估计原理:
根据最小二乘法原理,通过对微分方程组求偏导数,解出常数项B0 (或待定系数)和偏回归系数B1,B2…..BP。使得实际观察值Yi与回归方程
的估计值 之间的残差平方和最小。使得实际观察值Yi与回归方程
的估计值 之间的残差平方和最小。
过程如下:
过程如下:
根据最小二乘法原理,建立微分方程,对微分方程求解偏导数,即 B0 , B1,B2…..BP必须满足以下联立方程组:
根据最小二乘法原理,建立微分方程,对微分方程求解偏导数,即 B0 , B1,B2…..BP必须满足以下联立方程组:正规方程组正规方程组即正规方程的解β0 ,β1, … ,βP的最小二乘估计,正规方程如下:即正规方程的解β0 ,β1, … ,βP的最小二乘估计,正规方程如下:可用正规方程的矩阵简洁形式可用正规方程的矩阵简洁形式
进行矩阵的运算,正规方程组左边的系数可用下面的矩阵形式表示, 对自变量矩阵(X)进行转置(即矩阵的行列互换),形式为X′
进行矩阵的运算,正规方程组左边的系数可用下面的矩阵形式表示, 对自变量矩阵(X)进行转置(即矩阵的行列互换),形式为X′
正规方程矩阵形式与解的矩阵形式正规方程矩阵形式与解的矩阵形式B为方程的解建立回归方程建立回归方程SPSS11.0软件包操作
(1)选择分析窗口(Analyze)
(2)选择回归分析(Regression)
(3)选择线性回归(Linear)
SPSS11.0软件包操作
(1)选择分析窗口(Analyze)
(2)选择回归分析(Regression)
(3)选择线性回归(Linear)
SPSS数据库格式SPSS数据库格式操作(一)操作(一)12操作(二)操作(二)因变量Y多个自变量系统默认操作(三)操作(三)回归系数估计回归系数可信区间模型拟合统计图形存储其他操作(四)操作(四)正态概率图直方图因变量自变量操作(五)(设定界值)操作(五)(设定界值)系统默认(一)描述性统计分析结果(一)描述性统计分析结果(二)相关系数矩阵(二)相关系数矩阵(三)模型效果检验(复相关系数R的检验)(三)模型效果检验(复相关系数R的检验)F=19.553,F检验结果概率P=0.000,差异有统计学意义,可以认为回归模型的拟合是有效的(四)模型效果检验 (残差分析)(四)模型效果检验 (残差分析)F=19.553,P=0.000,结论同上。(五)回归系数的检验及结果(五)回归系数的检验及结果建立回归方程建立回归方程(六)残差直方图(六)残差直方图(七)残差正态累计概率图(七)残差正态累计概率图(八)散点图(八)散点图(九)绘制个体值及估计值与实测值回归线的可信区间(九)绘制个体值及估计值与实测值回归线的可信区间结果讨论:
统计分析结果应结合专业知识进行分析,分析统计结果是否符合专业实际解释。
结果讨论:
统计分析结果应结合专业知识进行分析,分析统计结果是否符合专业实际解释。
回归方程效果的检验:
回归方程效果的检验:
回归效果的检验:
建立了回归方程后,需要进行显著性检验,以确认建立的回归模型是否很好的拟合了原始数据,即回归方程是否有效,利用残差分析,确定回归方程是否违反了假设理论,对方程中的各自变量进行检验,首先假设总体的各自变量的系数或常数项为均0,通过检验以便在回归方程中保留对因变量Y估计更有效的自变量,来确定回归模型是否有效。 回归效果的检验:
建立了回归方程后,需要进行显著性检验,以确认建立的回归模型是否很好的拟合了原始数据,即回归方程是否有效,利用残差分析,确定回归方程是否违反了假设理论,对方程中的各自变量进行检验,首先假设总体的各自变量的系数或常数项为均0,通过检验以便在回归方程中保留对因变量Y估计更有效的自变量,来确定回归模型是否有效。 由于有等方差为前提条件,利用残差均方σ2的估计S2进行回归效果的检验。这里假设p+1个系数是从总体回归系数β0 ,β1,…,βP全为0的总体中作随机抽样来的,由于是样本,必然存在抽样误差,因此需要对回归系数进行检验。
由于有等方差为前提条件,利用残差均方σ2的估计S2进行回归效果的检验。这里假设p+1个系数是从总体回归系数β0 ,β1,…,βP全为0的总体中作随机抽样来的,由于是样本,必然存在抽样误差,因此需要对回归系数进行检验。
建立检验假设和备择假设
H0 : β0=β1=…βP =0 ,
H1 : β0 ,β1 ,…,βP 不全为0
建立检验假设和备择假设
H0 : β0=β1=…βP =0 ,
H1 : β0 ,β1 ,…,βP 不全为0
计算总的离均差平方和、回归平方和(回归的贡献就在于使估计值与观察值间的差距缩小,缩小的这一部分叫回归平方和)及残差平方和,首先计算回归均方及残差均方(回归均方及残差均方分别除以他们的相应的自由度)得到均方,再求F值,最后进行判断。 计算总的离均差平方和、回归平方和(回归的贡献就在于使估计值与观察值间的差距缩小,缩小的这一部分叫回归平方和)及残差平方和,首先计算回归均方及残差均方(回归均方及残差均方分别除以他们的相应的自由度)得到均方,再求F值,最后进行判断。null判断结果
根据检验水平a,查F值表,Fa,若F≥Fa ,P < a,则拒绝H0 ,可认为回归效果具有统计学意义,否则,接受H0 。判断结果
根据检验水平a,查F值表,Fa,若F≥Fa ,P < a,则拒绝H0 ,可认为回归效果具有统计学意义,否则,接受H0 。 复相关系数R
R表示因变量与自变量之间线性相关密切程度的指标,R的值在0 — 1之间,R越接近1,表示其线性关系越强,R越接近0,表示线性关系越差。 复相关系数R
R表示因变量与自变量之间线性相关密切程度的指标,R的值在0 — 1之间,R越接近1,表示其线性关系越强,R越接近0,表示线性关系越差。 决定系数R2
在多元线性回归中用R2来解释回归模型中自变量的变异在因变量变异中所占的比率。 决定系数R2
在多元线性回归中用R2来解释回归模型中自变量的变异在因变量变异中所占的比率。 决定系数表示回归平方和在总离均差平方和中所占的比例, 决定系数常用于反映回归方程拟合数据的优劣程度,可以看出决定系数越大回归效果越好。但也不能单靠增加自变量的数目来提高决定系数。应从全面考虑既要决定系数大,又要自变量的数目少,这时可采用校正的决定系数。 决定系数表示回归平方和在总离均差平方和中所占的比例, 决定系数常用于反映回归方程拟合数据的优劣程度,可以看出决定系数越大回归效果越好。但也不能单靠增加自变量的数目来提高决定系数。应从全面考虑既要决定系数大,又要自变量的数目少,这时可采用校正的决定系数。校正决定系数:为了消除自变量的个数以及样本量的大小对决定系数的影响
校正决定系数:为了消除自变量的个数以及样本量的大小对决定系数的影响
逐步回归分析逐步回归分析 多元线性回归建立的回归方程包含了所有的自变量,但在实际问题中,可能有这样的情况:参加回归方程的P个自变量中,有些自变量单独看对因变量Y有作用(相关程度密切),但P个自变量又可能是相互影响的,在作回归时,它们对因变量所起的作用有可能被其他自变量代替,而使得这些自变量在回归方程中变得无足轻重。这时把这些自变量留在回归方程中,不但增加计算上的麻烦,而且不能保证有好的回归效果。为了克服这些缺点,提出了多元逐步回。 多元线性回归建立的回归方程包含了所有的自变量,但在实际问题中,可能有这样的情况:参加回归方程的P个自变量中,有些自变量单独看对因变量Y有作用(相关程度密切),但P个自变量又可能是相互影响的,在作回归时,它们对因变量所起的作用有可能被其他自变量代替,而使得这些自变量在回归方程中变得无足轻重。这时把这些自变量留在回归方程中,不但增加计算上的麻烦,而且不能保证有好的回归效果。为了克服这些缺点,提出了多元逐步回。 多元逐步回归要求回归方程中包含所有对因变量作用显著的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。
多元逐步回归要求回归方程中包含所有对因变量作用显著的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。
逐步筛选变量的方法:逐步筛选变量的方法:1、强行进入法(Enter):
预先选定的自变量全部进入回归模型,这是系统默认方式。
2、消去法(Remove):
根据设定的条件剔除部分自变量。
1、强行进入法(Enter):
预先选定的自变量全部进入回归模型,这是系统默认方式。
2、消去法(Remove):
根据设定的条件剔除部分自变量。
3、向前引入法(Forward):
自变量由少到多一个一个引入回归方程,将与因变量的相关系数最大的第一个自变量选入方程并进行检验,如果F值>Fa ,拒绝H0 ;将其余的变量中与因变量的相关系数最大的第二个自变量选入方程,当F值>Fa ,拒绝H0 ;如此下去,不断引入新的自变量,直到不能拒绝H0,再没有变量被引入为止。3、向前引入法(Forward):
自变量由少到多一个一个引入回归方程,将与因变量的相关系数最大的第一个自变量选入方程并进行检验,如果F值>Fa ,拒绝H0 ;将其余的变量中与因变量的相关系数最大的第二个自变量选入方程,当F值>Fa ,拒绝H0 ;如此下去,不断引入新的自变量,直到不能拒绝H0,再没有变量被引入为止。4、向后剔除法(Backward):
自变量由多到少一个一个从回归方程中剔除,首先,对预先选定自变量全部进行回归,然后把对因变量影响不显著的自变量从方程中剔除并进行检验,如果F值
本文档为【多元线性回归SPSS】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。