nullnull多元统计
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
方法 The Methods of Multivariate Statistical Analysisnull多元Logistic 回归分析Multiple Logistic Regression Analysis第七章null主要内容 Logistic 回归分析的基本概念
Logistic 回归分析的数学模型
Logistic 回归模型的建立和检验
Logistic 回归系数的解释
配对病例-对照数据的logistic回归分析null回归分析的分类连续型因变量 (y) --- 线性回归分析多个因变量
(y1,y2…yk)分类型因变量 (y) ---Logistic 回归分析时间序列因变量 (t) ---时间序列分析生存时间因变量 (t) ---生存风险回归分析路径分析
结构方程模型分析一个因变量 y回忆:医学研究中经常遇到分类型变量医学研究中经常遇到分类型变量二分类变量:
生存与死亡
有病与无病
有效与无效
感染与未感染
多分类有序变量:
疾病程度(轻度、中度、重度)
治愈效果(治愈、显效、好转、无效)
多分类无序变量:
手术方法(A、B、C)
就诊医院(甲、乙、丙、丁)医学研究者经常关心的问题医学研究者经常关心的问题哪些因素导致了人群中有的人患胃癌而有的人不患胃癌?
哪些因素导致了手术后有的人感染,而有的人不感染?
哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果? 是回归分析问题:
Y=f(x) 如何解决这样的问题?如何解决这样的问题?不存在null1、什么是Logistic 回归分析?研究因变量y取某个值的概率变量p与自变量x的依存关系。p=p(y=1|x)=f(x)第一节 Logistic 回归分析的概念2、Logistic回归分析的分类2、Logistic回归分析的分类按数据的类型:
非条件logistic回归分析(成组数据)
条件logistic回归分析(配对病例-对照数据)
按因变量取值个数:
二值logistic回归分析
多值logistic回归分析
按自变量个数:
一元logistic回归分析
多元logistic回归分析Logistic回归分析第二节 Logistic 回归分析的数学模型第二节 Logistic 回归分析的数学模型 令y是1,0变量,x是任意变量,p=p(y=1|x)
,那么,二值变量y关于变量x的一元logistic 回归模型是:其中,α和β是未知参数或待估计的回归系数。该模型描述了y取某个值(这里y=1)的概率p与自变量x之间的关系。(1) 二值一元logistic回归模型: 令y是1,0变量,x1,x2,…,xk是任意k个变量;
p=p(y=1|x1,x2,…,xk),那么,变量y关于变量x1,x2,…,xk
的k元logistic回归模型是: 令y是1,0变量,x1,x2,…,xk是任意k个变量;
p=p(y=1|x1,x2,…,xk),那么,变量y关于变量x1,x2,…,xk
的k元logistic回归模型是:(2) 二值多元logistic回归模型:注意:对于二值Logistic回归模型,Y=0的模型是:p = p(y=0|x1,…,xk ) = 1 - p(y=1|x1,…,xk)null Logistic 回归模型的另外一种形式它给出变量z=logit(p)关于x 的线性函数。null(3) 多值logistic回归模型:例如,当y取值1,2,3时,logistic回归模型是:P1 = p(y=1) = P1
P2 = p(y=2) =P2-P1
P3 = p(y=3) =1-P2累积概率模型独立概率模型null1、估计参数 ---- 最大似然法
2、检验参数的显著性
H0: βj=0 vs H1: βj≠0
3、检验模型的显著性
H0: β1=…=βk=0 vs H1: βj≠0
4、解释参数的实际意义
第三节 Logistic回归分析方法步骤例1、自变量是二值分类型变量
某医院为了研究导致手术切口感染的原因,收集了295例手术者情况,其中,手术时间小于或等于5小时的有242例,感染者13例;手术时间大于5小时的有53例,感染者7例。试建立手术切口感染(y)关于手术时间(x)的logistic回归模型。例1、自变量是二值分类型变量
某医院为了研究导致手术切口感染的原因,收集了295例手术者情况,其中,手术时间小于或等于5小时的有242例,感染者13例;手术时间大于5小时的有53例,感染者7例。试建立手术切口感染(y)关于手术时间(x)的logistic回归模型。4653nulldata eg7_1a;
input y x wt @@;
cards;
1 1 7
1 0 13
0 1 46
0 0 229
;
run;
proc logistic descending ;
model y=x ;
weight wt;
run;SAS程序nullThe LOGISTIC Procedure
Data Set: WORK.EG7_1A
Response Variable: Y
Response Levels: 2
Number of Observations: 4
Weight Variable: WT
Sum of Weights: 295
Link Function: Logit
Response Profile
Ordered Total
Value Y Count Weight
1 1 2 20.00000
2 0 2 275.00000null Model Fitting Information and Testing Global Null Hypothesis BETA=0
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 148.262 146.686 .
SC 147.648 145.458 .
-2 LOG L 146.262 142.686 3.576 with 1 DF (p=0.0586)
Score . . 4.224 with 1 DF (p=0.0399)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 -2.8688 0.2851 101.2408 0.0001 . .
X 1 0.9860 0.4959 3.9542 0.0468 2.069569 2.681null结果:第四节 Logistic回归模型系数的解释第四节 Logistic回归模型系数的解释 回忆流行病学研究中两个重要概念:在logistic回归模型令x=0和x=1,得到null一元logistic回归模型系数β的意义解释:
(1) x =1,0 变量如果x=1,0,则 e b=OR 近似
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
示在x=1条件下的发病率与在x=0 条件下发病率之比 (相对危险度),或者说, x=1条件下的发病可能性比x=1条件下多或少(OR-1)*100%。nullLogistic 回归模型:从b=0.986, 得到 RR ≈OR= eb=2.681。
所以,手术时间大于5小时的感染率是手术时间小于或等于5小时的感染率的2.681倍,即感染的可能性增加了186.1% 。例如,手术感染问题null一元logistic回归模型系数β的意义解释:
(2) 如果x是连续变量
对于任意x1 和x2, 如果x 是连续变量,则OR=eb 近似表示在x 的相邻两个单位上的相对危险度。即x 每增加一个单位,相对危险增加 或减少(OR-1)*100%。例2、自变量是连续型数值变量
为了分析新生儿出生时体重(birthwt)与支气管肺的发育不良病(BPD)的关系,调查了223名新生儿。调查的数据列在下表中。例2、自变量是连续型数值变量
为了分析新生儿出生时体重(birthwt)与支气管肺的发育不良病(BPD)的关系,调查了223名新生儿。调查的数据列在下表中。nulldata eg7_2;
do birthwt=750, 1150, 1550;
do bpd=1, 0;
input wt @@ ;output;
end;
end;
cards;
49 19 18 62 9 66
run;
proc logistic data=eg2 descending;
model bpd=birthwt ;
weight wt ;
run;SAS程序null Response Profile
Ordered
Value BPD Count
1 1 76
2 0 147
Model Fitting Information and Testing Global Null Hypothesis BETA=0
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 288.140 229.166 .
SC 291.547 235.980 .
-2 LOG L 286.140 225.166 60.974 with 1 DF (p=0.0001)
Score . . 56.008 with 1 DF (p=0.0001)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 3.7180 0.6387 33.8853 0.0001 . .
BIRTHWT 1 -0.00397 0.000588 45.6092 0.0001 -0.702480 0.996SAS输出结果null1、因变量bpd对自变量birthwt 的logistic回归模型是:
2、自变量birthwt 的回归系数在统计意义上不等于0
(p=0.0001),因此,OR=0.996在统计意义上不等于1。
OR=0.996 说明新生儿出生体重每增加一个单位(g),患
BPD病的机会就会减少大约0.4% 。即患bpd病的概率
随新生儿出生体重的增加而下降。
3、根据上述回归模型可以预测新生儿出生时可能患BPD病 的 概率。null一元logistic回归模型系数β的意义解释:
(3) 如果x 是分类变量
如果x 是分类型变量,特别是名义型变量,则需要将x 转化为哑变量,再进行Logistic回归分析。 如果x是g个分类的分类型变量,则要将x 的g-1个哑变量放入模型,每一个哑变量的OR 值表示该组与参照组的相对危险度。null什么是哑变量?一个含有g个类的分类型变量可以构造g个哑变量。null如何用SAS程序构造哑变量?data d2; set d1;
array a{3} student teacher worker;
do i=1 to 3; a{i}=( x 1= i ) ; end;
run;data d2; set d1;
array a{3} student teacher worker;
do i=1 to 3;
if x1=i then a{i}= 1; else a{i}=0 ;
end;
run;null如何对哑变量进行分析?
(1)将g -1个哑变量放入模型进行分析,留一个哑变 量作为参照变量;
(2)每一个哑变量的OR值表示该哑变量组与参照变量组的相对危险度。例3、自变量是分类型变量
为了了解冠心病与种族的关系,某研究所调查了100个样本,数据列在下表中。试估计各种族间患冠心病的相对危险度。例3、自变量是分类型变量
为了了解冠心病与种族的关系,某研究所调查了100个样本,数据列在下表中。试估计各种族间患冠心病的相对危险度。设y=1表示患冠心病,y=0表示未患冠心病。令x=1表示黑人,x=2表示白人,x=3表示其它种族。将变量x转化为哑变量,变量名是:black、white和other。nulldata eg7_3; do y=1 , 0; do x=1 to 3;
input wt @@ ; output; end; end; cards;
20 5 25 10 20 20
run;
data eg7_3; set eg7_3;
array a{3} black white other;
do i=1 to 3; a{i}=( x = i ) ; end;
run;
proc logistic descending ;
model y= black other ;
weight wt ;
run;White作为参照组nullThe LOGISTIC Procedure
Response Profile
Ordered Total
Value Y Count Weight
1 1 3 50.000000
2 0 3 50.000000
Model Fitting Information and Testing Global Null Hypothesis BETA=0
Without With
Criterion Covariates Covariates Chi-Square for Covariates
AIC 138.629 131.038 .
SC 138.629 130.413 .
-2 LOG L 138.629 125.038 13.592 with 3 DF (p=0.0035)
Score . . 12.889 with 3 DF (p=0.0049)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 -1.3863 0.5000 7.6874 0.0056 . .
BLACK 1 2.0794 0.6325 10.8103 0.0010 2.349536 8.000
OTHER 1 1.6094 0.5831 7.6186 0.0058 1.974184 5.000null模型总体检验结果说明该模型具有统计意义(p=0.0035)。
参数检验说明,黑人与白人患冠心病的相对危险度是:OR=8(p=0.0010),说明黑人患冠心病的几率大约是白人的8倍。
参数检验说明,其他种族人与白人患冠心病的相对危险度是:OR=5(p=0.0058),说明其他种族人患冠心病的几率大约是白人的5倍。
结论null一元logistic回归模型系数β的意义解释: 如果x是分类型变量(g个分类),则要将x 的g-1个哑变量放入模型,每一个哑变量的OR 值表示该组与参照组的相对危险度。如果x=1,0,则 e b=OR 近似表示在x=1条件下的发病率与在x=0 条件下发病率之比 (相对危险度),或者说, x=1条件下的发病可能性比x=1条件下多或少(OR-1)*100%。 如果x 是连续型变量,则OR=eb 近似表示在x 的相邻两个单位上的相对危险度。即x 每增加一个单位,相对危险增加 或减少(OR-1)*100%。b) 多元logistic回归模型系数的解释b) 多元logistic回归模型系数的解释假设 y 在二值变量 x 1和 x 2上的二元 logistic回归模型是:可以证明:eβ1 表示消去了x 2 的影响后或在x 2 不变的情况下,x 1 相邻两个单位患病率之比(相对危险度);
eβ2 表示消去了x 1 的影响后或在x 1 不变的情况下,x 2 相邻两个单位患病率之比(相对危险度)。例4、无交互影响的多元logistic回归模型
某市调查饮酒对食道癌的影响,共收集了200例食道癌患者作为病例组(y=1),774例非食道癌患者作为对照组(y=0)。询问了他们的年龄和饮酒情况。数据列在下表中。试分析饮酒对食道癌的影响,将年龄作为混杂因素。例4、无交互影响的多元logistic回归模型
某市调查饮酒对食道癌的影响,共收集了200例食道癌患者作为病例组(y=1),774例非食道癌患者作为对照组(y=0)。询问了他们的年龄和饮酒情况。数据列在下表中。试分析饮酒对食道癌的影响,将年龄作为混杂因素。nulldata eg4;
do y=1,0;do age=1 to 3; do drink=1,0;
input wt @@ ;output;
end; end; end;
cards;
5 5 67 55 24 44
35 270 56 276 18 119
run ;
proc logistic descending ;
model y=drink age ;
weight wt ;
run ;nullSAS输出结果The LOGISTIC Procedure
Response Profile
Ordered Total
Value Y Count Weight
1 1 6 200.00000
2 0 6 774.00000
Model Fitting Information and Testing Global Null Hypothesis BETA=0
-2 LOG L 989.029 816.466 172.563 with 2 DF (p=0.0001)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 -4.1249 0.3226 163.4795 0.0001 . .
DRINK 1 1.7788 0.1865 91.0078 0.0001 3.761888 5.923
AGE 1 1.0971 0.1338 67.2705 0.0001 4.108738 2.995null结论模型的总体检验说明模型具有统计意义(p=0.0001)。
参数检验结果显示所有回归系数都具有显著性意义(p=0.0001)。
OR(drink)=5.923说明除去年龄这个混杂因子的影响后,饮酒者比不饮酒者大约多492.3%的可能性患食道癌(p=0.0001),或者说饮酒者患食道癌的可能性大约是不饮酒者的5.923倍(p=0.0001)null例5、有交互影响的多元logistic回归模型 在回顾性研究中,随机抽查了某地区818个人的吸烟饮酒等生活方式以及各种慢性疾病的患病情况。表7-5中列出的是一部分调查结果。试分析吸烟、饮酒危险因素对患胃病的影响程度以及它们的交互影响程度。
表7-5 生活方式与胃病的调查数据nully =1和0,分别表示患胃病和未患胃病;
x 1=1和 0,分别表示吸烟和不吸烟;
x 2=1和 0,分别表示饮酒和不饮酒。
建立四个哑变量分别代表四种不同的生活方式,即
x 11=1表示既吸烟又饮酒,0 表示其他;
x 10=1表示吸烟但不饮酒, 0 表示其他;
x 01=1表示不吸烟但饮酒, 0 表示其他;
x 00=1表示既不吸烟又不饮酒, 0 表示其他 。
将前三个哑变量放进模型,则可以得前三种生活方式相对于最后一种生活方式患胃病的相对危险度。nulldata eg7_5; do y=1,0; do x1=1,0; do x2=1,0;
input wt @@ ; output ; end ; end ; end ; cards ;
39 25 35 16 101 126 253 223
run;
data eg7_5 ; set eg7_5 ;
if x1=1 & x2=1 then x11=1; else x11=0;
if x1=1 & x2=0 then x10=1; else x10=0;
if x1=0 & x2=1 then x01=1; else x01=0;
if x1=0 & x2=0 then x00=1; else x00=0;
run;
proc logistic descending ;
model y= x11 x10 x01;
weight wt;
run;nullThe LOGISTIC Procedure
Model Fitting Information and Testing Global Null Hypothesis BETA=0
-2 LOG L 664.261 631.703 32.557 with 3 DF (p=0.0001)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 -2.6346 0.2588 103.6217 0.0001 . .
X11 1 1.6830 0.3202 27.6277 0.0001 3.777933 5.382
X10 1 1.0172 0.3390 9.0031 0.0027 2.351977 2.765
X01 1 0.6565 0.3154 4.3318 0.0374 1.868880 1.928null结论:
1)模型具有统计意义(p=0.0001);三个参数均有显著性意义(p=0.0027、p=0.0374和p=0.0374)。
2)因为四个哑变量中x00作为参照变量,因此,OR(x11)=5.382表示既吸烟又饮酒者患胃病的几率是不吸烟又不饮酒者的5.382倍;
OR(x10)=2.765表示吸烟但不饮酒者患胃病的几率是不吸烟又不饮酒者的2.765倍;OR(x01)=1.928表示不吸烟但饮酒者患胃病的几率是不吸烟又不饮酒者的1.928倍。null6、多值变量的logistic回归模型系数的解释:
某大学医院外科采用两种不同的绷带和两种不同的包扎方式进行腿溃疡的治疗处理。治疗的结果分三种:不愈、有效和痊愈。治疗方式和治疗效果列在表7-6中。试分析治疗方法对治疗效果的影响。
设因变量 y 表示治疗效果,0=不愈、1=有效、2=痊愈。设因变量 x 1表示绷带种类,自变量 x 2 表示包扎方式。null 腿溃疡治疗方式与效果数据资料null【SAS程序】
data eg7_6; input y x1 x2 wt @@ ; cards;
0 0 0 19 …… 2 1 1 5
run;
proc logistic descending;
model y=x1 x2;
weight wt;
run;
null【SAS输出结果】
The LOGISTIC Procedure
① Response Profile
Ordered Total
Value Y Count Weight
1 2 4 15.000000
2 1 4 25.000000
3 0 4 59.000000
② Score Test for the Proportional Odds Assumption
Chi-Square = 0.7505 with 2 DF (p=0.6871)
③ Model Fitting Information and Testing Global Null Hypothesis BETA=0
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 190.499 178.977 .
SC 191.469 180.916 .
-2 LOG L 186.499 170.977 15.522 with 2 DF (p=0.0004)
Score . . 14.849 with 2 DF (p=0.0006)平行性检验null④ Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCP1 1 -2.6680 0.4657 32.8270 0.0001 . .
INTERCP2 1 -1.1711 0.3930 8.8820 0.0029 . .
X1 1 1.6433 0.4380 14.0736 0.0002 1.358335 5.172
X2 1 -0.1903 0.4189 0.2063 0.6496 -0.157280 0.827null对于多值因变量模型,平行性假设决定了每个自变量的OR值对于前g-1个模型是相同的。例如,变量x1的OR=5.172,它表示使用第一种绷带治愈腿溃疡的可能性是使用第二种绷带的5.172倍;它也表示使用第一种绷带至少有效的可能性是使用第二种绷带的5.172倍。第五节 条件logistic回归分析第五节 条件logistic回归分析医学中经常需要作配对病例-对照研究。所谓的配对病例-对照研究指的是在病例-对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个(1:1)或几个(1:M)对照,然后分析比较病例组与对照组以往暴露于致病因素的经历。
分析配对病例-对照研究资料的统计分析方法一般采用条件logistic回归分析。
条件logistic回归分析的数学模型以及分析原理方法均和 非条件logistic回归分析类似。因为参数的估计公式涉及到条件概率理论,所以称为条件logistic回归分析。null配对数据:对按一定条件配成对的n对研究对象分别使用两种不同的处理方法,或者对n个研究对象在两个时间点上使用两种不同的处理方法所得到的观察数据。例如,两个医生分别检查n个病人,检验的结果如下:例7、配对病例-对照数据:
某医院为了研究孕期照过X射线对儿童患白血病的影响,收集了配对病例-对照资料如下表所示,其中D和D' 分别表示儿童患和未患白血病,E和E' 分别表示母亲孕期照和未照过X线照射。例7、配对病例-对照数据:
某医院为了研究孕期照过X射线对儿童患白血病的影响,收集了配对病例-对照资料如下表所示,其中D和D' 分别表示儿童患和未患白血病,E和E' 分别表示母亲孕期照和未照过X线照射。nulldata eg7_7;
input id y x wt @@; censor=1-y; cards;
1 1 1 3 1 0 1 3
2 1 0 14 2 0 1 14
3 1 1 5 3 0 0 5
4 1 0 62 4 0 0 62
run;
proc phreg ;
model y*censor(0)=x ;
freq wt;
strata id ;
run;nullStepwise regression analysis: excluding X6
The PHREG Procedure
Data Set: WORK.EG7_7
Dependent Variable: Y
Censoring Variable: CENSOR
Censoring Value(s): 0
Frequency Variable: WT
Ties Handling: BRESLOW
Testing Global Null Hypothesis: BETA=0
Without With
Criterion Covariates Covariates Model Chi-Square
-2 LOG L 724.793 720.354 4.439 with 1 DF (p=0.0351)
Score . . 4.263 with 1 DF (p=0.0389)
Wald . . 3.906 with 1 DF (p=0.0481)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Risk
Variable DF Estimate Error Chi-Square Chi-Square Ratio
X 1 1.029619 0.52099 3.90569 0.0481 2.800null结论:
OR(x)=2.8≈RR=p(y=1|x=1) / p(y=1|x=0),结果说明母亲孕期有过X线照射的儿童患白血病的几率大约是母亲孕期未有过X线照射的儿童的2.8倍(p=0.0481)。例8、1:1 配对病例-对照数据
为了研究生活方式和胃癌的关系,某研究所按1:1比例配对收集了一批病人和对照组的有关资料(本例仅用10对样本和3个危险因子进行分析,用以说明分析方法)。数据列在下表中。其中,x1 表示蛋白质摄入量,取值为0,1,2,3;x2 表示不良饮食习惯,取值为0,1,2,3;x3 表示精神状态,取值为0,1,2。例8、1:1 配对病例-对照数据
为了研究生活方式和胃癌的关系,某研究所按1:1比例配对收集了一批病人和对照组的有关资料(本例仅用10对样本和3个危险因子进行分析,用以说明分析方法)。数据列在下表中。其中,x1 表示蛋白质摄入量,取值为0,1,2,3;x2 表示不良饮食习惯,取值为0,1,2,3;x3 表示精神状态,取值为0,1,2。nulldata eg7_8;
input id y x1 x2 x3 @@ ;
y=1-y;
cards;
1 1 1 3 0 1 0 1 0 1
2 1 0 3 1 2 0 1 3 0
……
9 1 3 3 2 9 0 2 2 0
10 1 2 2 2 10 0 0 0 0
run;
proc phreg;
model y=x1-x3;
strata id;
run;SAS
程序nullThe PHREG Procedure
Testing Global Null Hypothesis: BETA=0
Without With
Criterion Covariates Covariates Model Chi-Square
-2 LOG L 13.863 3.886 9.977 with 3 DF (p=0.0188)
Score . . 6.913 with 3 DF (p=0.0747)
Wald . . 2.590 with 3 DF (p=0.4592)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Risk
Variable DF Estimate Error Chi-Square Chi-Square Ratio
X1 1 -0.479042 2.95483 0.02628 0.8712 0.619
X2 1 1.231790 0.83476 2.17748 0.1400 3.427
X3 1 2.289851 1.76807 1.67731 0.1953 9.873null例9、1:2 配对病例-对照数据 为了研究生活方式和胃癌的关系,某研究所按1:2比例配对收集了一批病人和对照组的有关资料(本例仅用10对样本和3个危险因子进行分析,用以说明分析方法)。数据列在下表中。其中,x1 表示蛋白质摄入量,取值为0,1,2,3;x2 表示不良饮食习惯,取值为0,1,2,3;x3 表示精神状态,取值为0,1,2。nulldata eg7_9;
do id=1 to 0;do y=1,0,0;
input x1 x2 x3 @@ ;output; end; end; y=1-y; cards;
1 1 3 0 1 0 1 0 0 1
2 0 3 1 1 3 0 1 2 1
……
9 3 3 2 2 2 0 1 2 0
10 2 2 2 0 0 0 0 0 1
run;
proc phreg;
model y=x1-x3;
strata id;
run;nullThe PHREG Procedure
Testing Global Null Hypothesis: BETA=0
-2 LOG L 49.698 36.143 13.555 with 3 DF (p=0.0036)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Risk
Variable DF Estimate Error Chi-Square Chi-Square Ratio
X1 1 0.177149 0.62839 0.07947 0.7780 1.194
X2 1 1.120438 0.50148 4.99191 0.0255 3.066
X3 1 1.348371 0.65593 4.22570 0.0398 3.851null【结果解释】
添加一个对照组后,蛋白质摄入量(x1)对发生胃癌仍没有显著性影响,不良生活习惯(x2)对胃癌发生有显著性影响(p=0.0255),精神状态(x3)对胃癌发生也有显著性影响(p=0.0398)。Logistic回归分析和线性回归分析的异同点Logistic回归分析和线性回归分析的异同点相同点:
都可以利用模型来筛选危险因子;
都可以校正混杂因子的影响;
都可以用来做预测。
不同点:
前者对因变量无分布要求,后者要求因变量是正态分布变量;
前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。
前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系;
前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。nullLogistic回归分析和线性回归分析的异同点是什么?
Logistic回归分析的数学模型是什么?
如何解释一元logistic回归模型的系数的意义?
如何解释无交互影响多元Logistic回归模型的系数?
条件logistic回归分析和非条件logistic回归分析的模型各适合用来处理何种数据?总 结结 束结 束