nullLogistic 回归模型Logistic 回归模型陶庄
2009-5教学内容教学内容Logistic 回归模型的由来与形式
Logistic 回归模型参数的估计
Logistic 回归模型的评价
Logistic 回归模型系数的解释
Logistic 回归模型的假设检验
Logistic 回归模型的建立和变量的选择
Logistic 回归模型的回归诊断
Logistic 回归模型的替代与扩展一、Logistic 回归模型的由来与形式一、Logistic 回归模型的由来与形式掌握:Logistic回归模型的形式;
熟悉:二分因变量带来的影响;
了解:Logistic分布应用的理论依据。二分因变量与最小二乘法二分因变量与最小二乘法标准的线性回归假定标准的线性回归假定关于因变量的假定:连续型变量;
关于自变量的假定:非随机;精确测量(无误差);线性无关;
关于模型形式的假定:线性假定;
关于观测的假定:可靠;
关于误差的假定:Gauss-Markov假设。Gauss-Markov假设Gauss-Markov假设误差项均值为0,即E(εi)=0,i=1, …,n
误差项具有等方差,即Var (ε i)=σ2, i=1, …,n
误差是彼此不相关的,即Cov (ε i, ε j)=0, i≠j, i,j=1, …,n
(正态假定)最小二乘法(LS)的性质最小二乘法(LS)的性质二分因变量与线性概率模型(LPM)1二分因变量与线性概率模型(LPM)1期望E(X)的计算期望E(X)的计算二分因变量与线性概率模型(LPM)2二分因变量与线性概率模型(LPM)2线性概率模型残差的方差线性概率模型残差的方差二分因变量的线性概率模型的问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
二分因变量的线性概率模型的问题由于此时线性概率模型中残差的非齐性,参数估计的估计方差将是有偏的,因此任何假设检验都无效。——最小二乘法不适宜
此时线性概率模型中的概率值有可能会落在〔0,1〕之外。——函数值只能接近但不能超过0和1
线性概率模型是线性的,常数项和回归系数都应该是常数,可是此时不是。——非线性模型二分因变量时的线性概率模型二分因变量时的线性概率模型我们的任务我们的任务寻找一个非线性的函数,而且应该是单调的;
寻找一个函数,它的一侧可以随自变量无限接近0,而另一侧则可以无限接近1;
我们要可以使用普通最小二乘法以外的方法来估计参数。成长曲线S形与累积分布函数(CDF)成长曲线S形与累积分布函数(CDF)Logistic函数用于二分因变量分析的理论依据Logistic函数用于二分因变量分析的理论依据理论依据1理论依据1假设有一个理论上存在的连续反应变量 yi*代表事件发生的可能性,其值域从负无穷到正无穷;
存在一理论界值 c (比如为0), yi* 一旦超过 0 ,则事件发生,即 yi*>0 ,则 yi=1,其它情况, yi=0 ;
存在一个自变量 xi ,并且存在如下线性关系: yi*=α+β xi +εi ;理论依据2理论依据2理论依据3理论依据3理论依据4理论依据4Logistic 回归模型1Logistic 回归模型1Logistic 回归模型2Logistic 回归模型2事件不发生时的模型事件不发生时的模型Odds Odds Logit变换 Logit变换 多元(重)Logistic 回归模型多元(重)Logistic 回归模型Logit 变换的意义
Logit 变换的意义
——可利用线性回归的许多性质但是……但是……Logistic 回归与线性回归完全不同!
线性回归的因变量与自变量的关系是线性的; Logistic 回归不是。
线性回归的因变量是连续的; Logistic 回归是离散的。
Logistic 回归模型中不存在线性回归模型中的残差项。二、Logistic 回归模型参数的估计二、Logistic 回归模型参数的估计掌握:模型参数的估计方法的名称和SAS实现;
熟悉:模型参数估计的假设条件和样本规模;
了解:最大似然估计的原理和性质Carl Friedrich Gauss
(1777-1855 )Carl Friedrich Gauss
(1777-1855 )最小二乘估计的发明者之一;
最大似然估计的最早提出者;
Gauss-Markov定理;
1809误差理论:误差符合正态分布等。Ronald Aylmer Fisher
(1890-1962 )Ronald Aylmer Fisher
(1890-1962 )最大似然估计的积极倡导者;
新统计学(小样本,基础学科建设)的先驱;
试验设计;
相关系数的分布;
F分布与方差分析;
充分统计量等。似然函数(likelihood function)似然函数(likelihood function)似然函数是各个变量,观测的联合分布函数;
这一函数将观测数据的概率表述为未知参数的函数。最大似然估计(Maximum Likelihood Estimation,MLE)最大似然估计(Maximum Likelihood Estimation,MLE)似然(likelihood)可以理解为某些参数再现样本观测的概率。
最大似然估计是通过使似然函数的值达到最大以估计参数的方法;也就是说,这套参数可以使模型以最大的概率再现样本观测数据。Logistic 回归的似然函数Logistic 回归的似然函数Logistic 回归的最大似然估计Logistic 回归的最大似然估计最大似然估计的性质最大似然估计的性质一致性(consistency):随样本规模增大,模型参数估计逐渐向真值收敛,估计将近似无偏;
渐进有效性(asymptotically efficiency):当样本规模增大,标准误缩小;
渐进正态性(asymptotically normal):当样本规模增大,参数估计值的分布趋近于正态分布。模型估计的样本规模模型估计的样本规模对样本多大时就可以使用最大似然估计这个问题,没有明确
答案
八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案
。
在中等规模(100)MLE性质较好;小于100则风险较大,达到500即很充分。
一般每个参数至少需要5-10个观测;
如果存在共线性或自变量取值变化太小,则需要较大样本;
如果因变量分类增多,也需要增大样本。Logistic 回归模型估计的假设条件Logistic 回归模型估计的假设条件数据必须来自随机样本;
因变量 y 是二分变量,且 y 是k个自变量的函数,但是它们的关系是非线性的;
对自变量没有分布方面的假设,但如果自变量间存在多元正态分布,则会增加模型的效力;
没有等方差之类的假设;
对共线性依然敏感。示例:前列腺癌研究示例:前列腺癌研究Logistic 回归的SAS实现1Logistic 回归的SAS实现1PROC LOGISTIC < options >;
BY variables ;
CLASS variable <(v-options)>
... > < / v-options >;
CONTRAST 'label' effect values <,... effect values>< /options >;
EXACT < 'label' >< Intercept >< effects >< / options > ;
FREQ variable ;
MODEL events/trials = < effects > < / options >;
MODEL variable < (variable_options) > = < effects > < / options >;
OUTPUT < OUT=SAS-data-set > < keyword=name...keyword=name > / < option >;
SCORE < options >;
STRATA effects < / options >;
< label: > TEST equation1 < , ... , < equationk >> < /option >;
UNITS independent1 = list1 < ... independentk = listk > < /option > ;
WEIGHT variable option >;
Logistic 回归的SAS实现2Logistic 回归的SAS实现2PROC LOGISTIC < 选项 >;
CLASS 变量 <(选项)> <变量 <(选项)>... > < / 选项 >;
MODEL 因变量 < (选项) > = < 自变量 > < / 选项 >;
OUTPUT < OUT=数据集名 > <关键字=名称... > / < 选项>;
RUN ; 示例的最简单实现示例的最简单实现
proc logistic data=edu.logistic desc;
model capsule(event=‘1’)=age race psa dpros dcaps vol gleason;
run; 三、Logistic 回归模型的评价三、Logistic 回归模型的评价掌握:模型评估的种类,每一类中的方法及SAS的实现;
熟悉:每一种方法的优劣;
了解:每一种方法的公式及理论。Logistic 回归模型的评价Logistic 回归模型的评价拟合优度(Goodness of fit)
回归模型的预测准确度
模型χ2统计(Model Chi-square Statistic)预备知识——χ2检验预备知识——χ2检验Karl Pearson
(1857-1936 )Karl Pearson
(1857-1936 )现代统计学的奠基人;
相关与回归;
矩法的发明人;
1900,假设检验的开创者;
1893-1895,皮尔逊分布族等。χ2分布χ2分布χ2分布的图形χ2分布的图形假设检验的开山之作假设检验的开山之作On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling ——1900,《哲学杂志》
建立一个准则,以判定一组相关变量与其或然值的偏差,可否被合理地解释为是由于随机抽样所致。χ2检验χ2检验其中A为实际频数(或记为O),T为理论频数(或记为E),其值在例数较大的情况下符合χ2分布。其检验目的在于判断实际频数与理论频数的相符程度。拟合优度拟合优度拟合优度(Goodness of fit)拟合优度(Goodness of fit)我们需要评价模型如何有效地描述反应变量及模型匹配观测数据的能力,如果有较高的一致性,说明拟合较好;否则,要对模型进行重新设置。
在实际中,我们测量的是模型预测值与实际观测值的差别,即“拟合劣度”。预备知识——协变类型预备知识——协变类型协变类型(covariate pattern)又称子总体(subpopulations),它描述的是模型中协变量(covariate)不同取值的组合;
其数值是所有自变量各自取值数目的乘积,如模型中只有种族(race)和直肠数检(dpros)两个自变量,它们分别是二分和四分变量,则此时的协变类型为2×4=8;
所有380个观测都落入且只落入其中之一。Pearson χ2检验Pearson χ2检验Pearson χ2检验的是在协变类型基础上,模型预测的观测频数与实际的观测频数的差别,此时的自由度为所设模型的协变类型个数与系数个数的差。预备知识——似然比检验预备知识——似然比检验当两个模型之间有嵌套关系时,那么两个模型之间的对数似然值乘以-2的结果(-2LL)之差近似服从χ2分布;这一检验统计量称为似然比(likelihood ratio,L.R.)。
设定模型,饱和模型(full model),零假设模型(null model)。null偏差(Deviance)D统计量偏差(Deviance)D统计量Pearson χ2与D的SAS实现Pearson χ2与D的SAS实现
proc logistic data=edu.logistic desc;
model capsule=race dpros/scale=none aggregate;
/*scale与aggregate必需同时使用*/
run;Pearson χ2与D的异同Pearson χ2与D的异同两者有同样的渐进χ2分布;
两者都是基于协变类型的;
使用MLE拟合Logistic模型时,D更好;
两者差别很大时说明此时两者作为评价拟合优度的指标都不够好;
在协变类型很多,特别是存在连续型自变量的情况下,两者都不适合。Pearson χ2与D的样本要求Pearson χ2与D的样本要求每一协变类型至少有10个观测;
80%的协变类型要有5个以上的预测(阳性)事件数;
在余下的协变类型中,至少要有2个预测(阳性)事件数。Hosmer-Lemeshow拟合优度指标Hosmer-Lemeshow拟合优度指标根据预测概率将数据分成规模大致相同的G(通常G为10)个组,而不管模型的协变类型;
将观测数据按预测概率从大到小排序;
按G计算χ2值,此时的自由度为G-2。HL统计量的SAS实现HL统计量的SAS实现
proc logistic data=edu.logistic desc;
model capsule=age race dpros / lackfit scale=none aggregate;
/*scale与aggregate必需同时使用*/
run;HL统计量的缺点HL统计量的缺点在揭示拟合不好的具体类型方面功效很低;
高度依赖于观测数据是如何分组的;
当根据预测概率只能将观测分成很少几个组,如少于5个时,HL总会显示模型拟合良好。信息测量指标(Information Messures)信息测量指标(Information Messures)包括赤池信息准则(Akaike’s information criterion, AIC),雪旺准则(Schwarts criterion, SC)和贝叶斯信息准则(Bayesian information criterion, BIC)。
都是利用所设模型的对数似然值。
其值都是越小说明拟合越好。AIC,SC与BICAIC,SC与BIC预测准确性预测准确性类R2(Analogous R2 )类R2(Analogous R2 )类R2的SAS实现类R2的SAS实现
proc logistic data=edu.logistic desc;
model capsule=age race dpros / rsq;
run;预备知识——观测数据对(pair of observations)预备知识——观测数据对(pair of observations)把观测按因变量取值配对,每一对有1个1,1个0,共2(1的数量)×3(0的数量)=6对;
观察每一对中1与0的概率的关系,如果1的概率>0的概率,则称为和谐(concordant),否则为不和谐(discordant),相同为结(tie)。次序相关指标(rank correlation index)次序相关指标(rank correlation index)描述反应变量与模型预测概率之间的关系,取值为〔-1,1〕,其绝对值越大说明两者关联越紧密。模型χ2统计模型χ2统计模型χ2统计(Model Chi-square Statistic)模型χ2统计(Model Chi-square Statistic)又叫全变量的零假设检验( Testing the Global Null Hypothesis ),用来说明自变量解释因变量变异的总体水平。四、Logistic 回归模型系数的解释四、Logistic 回归模型系数的解释全面掌握Logistic 回归的几种表达Logistic 回归的几种表达比数(odds)和比数比(OR)比数(odds)和比数比(OR)比数(odds)是事件发生的概率与不发生的概率的比;
比值比(OR)是两个比数的比,表示两个比数的相差大小;
两个比值比(OR)如果互为倒数,则表明其实质一致,如OR1=2,OR2=0.5,说明两个比值比所代表的比数差距是一样的;
两者的值域都是〔0,∞〕。OR与回归系数的关系OR与回归系数的关系一个自变量多取值时的OR一个自变量多取值时的OR多个自变量的联合OR多个自变量的联合OR使用OR时的一些注意使用OR时的一些注意在二分自变量的情况下,只要两个取值相差1,则系数与OR都与自变量取(0,1)的情况下相同,但是解释起来不如后者直观;
在多分类自变量的情况下,应该使用哑(虚拟)变量;
在等级自变量的情况下,可以直接使用,但是各等级间的OR变化可能不一致;
在连续变量的情况下,可以直接使用,但是每单位间的OR变化可能不一致,且每单位的变化较小而不足以说明问题。对分类变量虚拟化的SAS实现对分类变量虚拟化的SAS实现proc logistic data=edu.logistic desc;
class race dpros ;
model capsule=age race dpros ;
run;
OR与相对危险度(RR)OR与相对危险度(RR)Logistic 回归的预测概率及SAS实现Logistic 回归的预测概率及SAS实现proc logistic data=edu.logistic desc;
model capsule=age race dpros;
output out=aa p=p;
run;标准偏回归系数及其SAS实现标准偏回归系数及其SAS实现proc logistic data=edu.logistic desc;
model capsule=age race dpros/ stb ;
run;
五、Logistic 回归模型的假设检验五、Logistic 回归模型的假设检验全面掌握对系数的检验——Wald χ2检验对系数的检验——Wald χ2检验对系数的检验—似然比(LR)检验对系数的检验—似然比(LR)检验两者的使用两者的使用在作单个系数的假设检验时我们通常使用Wald检验,而应用LR于模型检验。
当回归系数很大,则该系数的标准误就会膨胀,致使Wald统计量变得很小,增加了第II类错误。此时应使用LR。置信区间
(Confidence Interval, C.I.)置信区间
(Confidence Interval, C.I.)C.I.的SAS实现C.I.的SAS实现proc logistic data=edu.logistic desc;
model capsule=age race dpros / rl cl ;
output out=aa p=p l=l u=u xbeta=logit stdxbeta=selogit;
run;六、Logistic 回归模型的建立和变量的选择六、Logistic 回归模型的建立和变量的选择掌握:自变量选择的方法与SAS实现;
了解:其它问题。最优子集最优子集相对的概念,没有绝对的最优子集;
尽可能多的解释变异;
吝啬原则;
最直接的方法;
运算量很大;
通用于非共线性和共线性数据。最优子集法的SAS实现最优子集法的SAS实现proc logistic data=edu.logistic desc ;
*class race dpros dcaps ; /*在使用最优子集法时,不能同时使用class语句。*/
model capsule=age race dpros psa dcaps vol gleason / selection=score best=3 ;
run;逐步回归方法逐步回归方法包括前进法(forward|F),后退法(backward|B)和混合法(stepwise|S);
选择变量时使用score统计量,删除变量时使用Wald统计量;
前进法和混合法适合于主因素分析;
后退法适合于发现交互作用;
都不适合对共线性数据进行分析,但后退法稍好;
在混合法中,选入的标准应当较大,以遍历所有自变量。逐步回归方法的SAS实现逐步回归方法的SAS实现proc logistic data=edu.logistic desc ;
class race dpros dcaps ;
model capsule=age race dpros psa dcaps vol gleason / selection=f sle=0.05 details ;
model capsule=age race dpros psa dcaps vol gleason / selection=b sls=0.05 details ;
model capsule=age race dpros psa dcaps vol gleason / selection=s sls=0.05 sle=0.10 details ;
run;
(model语句只能有一个)对自变量选择的进一步思考对自变量选择的进一步思考非线性与非加性
(Nonlinearity & Nonadditivity)非线性与非加性
(Nonlinearity & Nonadditivity)七、Logistic 回归模型的回归诊断七、Logistic 回归模型的回归诊断掌握:回归诊断的分类和概念;
熟悉:有关的SAS实现,熟悉主要的指标。
了解:各诊断的理论,公式,指标。离散、空单元与完全分离离散、空单元与完全分离离散(Dispersion)离散(Dispersion)对于第j个协变类型中的事件观测数yj而言,有均值为njpj和方差为njpj(1-pj)的二项分布,因变量的实际测量方差为σ2njpj(1-pj), 其中σ2称离散参数,当σ2>1,也就是说其超过理论方差时就称为过离散(over-dispersion),而 σ2<1时,则称为欠离散(under-dispersion)。
过离散将导致回归系数的标准误偏低,而欠离散则相反。对离散调整的SAS实现对离散调整的SAS实现proc logistic data=edu.logistic desc ;
model capsule=dcaps race dpros / aggregate scale=d;
model capsule=dcaps race dpros / aggregate scale=p;
model capsule=dcaps race dpros / aggregate scale=none;
run;空单元(Zero Cell Count)空单元(Zero Cell Count)某个交叉表单元格中没有观测,将导致模型错误,显示不能收敛,很大的估计系数和很大的系数标准误。
指的是分类变量,连续变量模型将自动修补。
通过单变量分析来排除这种情况。完全分离(Complete Separation)完全分离(Complete Separation)如当自变量x值中存在某一临界值C,只要x取值大于C,事件就发生,否则就不发生,也就是说只要知道x的取值,就能知道事件的发生与否,此时称为数据完全分离,此时不存在MLE。
它的表现与空单元相同,也会有非常大的系数和估计误差出现。
其检查比空单元更复杂。Hosmer & Lemeshow的例子1Hosmer & Lemeshow的例子1Hosmer & Lemeshow的例子2Hosmer & Lemeshow的例子2多重共线性多重共线性多重(元)共线性(Multicollinearity)多重(元)共线性(Multicollinearity)自变量间的线性相关导致多重共线性的产生,在调查实践中几乎无法避免。
只有较强的共线性才会明显地影响分析,一般情况下相关程度小于0.5尚不会造成很大影响。
当两个自变量完全相关时,称为奇异(singularity),此时不能对模型进行估计。多重共线性的征兆多重共线性的征兆增、删某个变量时,系数的估计有大的改变;
系数估计的符号与事先预期的不符;
预计比较重要的自变量系数不显著;
甚至,整个模型检验显著,但所有自变量均不显著。多重共线性的检测多重共线性的检测均方误差
(Mean Squared Errors,MSE)均方误差
(Mean Squared Errors,MSE)条件数条件数条件数指的是,最大特征根与最小特征根之比,即:
k=λmax/λmin
k<100, (10)共线性较小;
1001000,(30)严重的共线性。
(sas中Condition index是条件数的平方根)方差膨胀因子方差膨胀因子容许值容许值多重共线性检测的SAS实现多重共线性检测的SAS实现
proc reg data=edu.logistic;
model capsule=age race dpros psa dcaps vol gleason / tol vif collin collinoint;
run;
对多重共线性的处理对多重共线性的处理发现容易解决难!!
简单的删除某个自变量,可能导致模型的误设,则会导致比共线性更严重的后果。
增大样本量,有时并不实际,况且不能解决根本的问题。
对预测的精度有时影响不大。
特异值与特殊影响观测特异值与特殊影响观测异常,影响和杠杆异常,影响和杠杆异常点:对因变量来说,标准化残差的绝对值大于2或3的点。
强影响点:对观测而言,单独地删除它或者将它与其它俩三个点一起删除会导致拟合的模型发生本质的变化。
高杠杆点:对自变量来说,杠杆值大于均值2倍的点,即大于2(p+1)/n。帽子矩阵和杠杆值帽子矩阵和杠杆值异常点1异常点1异常点2异常点2影响点1影响点1影响点2影响点2影响点3影响点3DFBETA统计量:其含义为回归系数β的变化(difference in beta),它所测量的是当某个观测被删除后回归系数引起的变化,包括截距,每个系数都有一套该统计量。对异常和影响检验的SAS实现对异常和影响检验的SAS实现proc logistic data=edu.logistic desc ;
class race dpros;
model capsule=age race dpros psa / iplots influence ;
output out=aa reschi=pearson resdev=dev difdev=student difchisq=pchi h=h c=d cbar=dd dfbetas=df0 df1 df2 df3 df4;
run;八、Logistic 回归模型的替代与扩展八、Logistic 回归模型的替代与扩展掌握:替代和扩展模型的概念;
熟悉:各模型使用的场合;
了解:其它问题。Logistic 回归模型的替代Logistic 回归模型的替代Probit 回归模型正态分布的概率密度(PDF)和
分布函数图形(CDF)正态分布的概率密度(PDF)和
分布函数图形(CDF)正态分布与Logistic函数的CDF正态分布与Logistic函数的CDFProbit 回归模型的对数似然函数Probit 回归模型的对数似然函数Probit 回归模型的SAS实现1Probit 回归模型的SAS实现1
proc logistic data=edu.logistic desc ;
class race dpros;
model capsule=age race dpros psa / link=probit;
run;Probit 回归模型的SAS实现2Probit 回归模型的SAS实现2data a;
set edu.logistic;
c=1-capsule;
run;
proc probit data=a;
class race dpros c;
model c=age race dpros psa ;
run;Probit 回归模型的系数解释Probit 回归模型的系数解释自变量对累积标准正态分布函数的逆,或概率单位z的作用。
其解释并不直观,限制了Probit回归模型在现实中的应用。
Probit回归模型的系数×п/√3=1.814即为Logistic回归模型的相应系数。(实际中乘1.6效果更好)Logistic回归模型的扩展Logistic回归模型的扩展条件Logistic回归模型条件Logistic回归模型对混杂的调整对混杂的调整混杂(confounding):混杂是暴露与疾病之间一种非因果联系,它在本质上是由于引起混杂的因素在暴露组与非暴露组或是在病例组与对照组种的分布不均匀引起的。
最直观的调整方法——配对。
1:1配对,1:m配对,n:m配对。
成组设计——一般(非条件)Logistic回归,配对设计——条件Logistic回归。条件Logistic回归的似然函数1条件Logistic回归的似然函数1每一对内的病例和对照是可比的,对子间的病例和对照是不可比的;因此需要按每对对象的暴露与发病情况建立Logistic回归模型。
在1:1配对的情况下,每个对子中有且只有1人得病,记病例为A,对照为B。
条件Logistic回归的似然函数2条件Logistic回归的似然函数2条件Logistic回归的似然函数3条件Logistic回归的似然函数3条件Logistic回归的似然函数4条件Logistic回归的似然函数4条件Logistic回归的似然函数5条件Logistic回归的似然函数5条件Logistic回归模型的SAS实现条件Logistic回归模型的SAS实现
proc phreg data=aa ;
model capsule=age race dpros psa / ties=discrete;
strata age ;
run;
多分类因变量多分类因变量因变量的分类数多于2类;
分类有次序性,分类数多于5个,可作为连续变量处理;
分类有次序性,分类数少于等于5个,使用累积Logistic回归模型;
分类无次序,或使用累积Logistic回归模型条件不满足,可使用判别分析,也可使用多项Logit模型。累积Logistic回归模型(Cumulative Logistic Regression Model)累积Logistic回归模型(Cumulative Logistic Regression Model)Logistic 回归模型的扩展理论依据1理论依据1假设有一个理论上存在的连续反应变量 yi*代表观测现象的内在趋势,其值域从负无穷到正无穷;
实际观测因变量有 J 种类别,使 y=1,2,…,J;
因此存在 J-1 个未知的域值(threshold)或称分界点(cutpoint)将 yi* 分开,记作 uj ;
当 yi* 为(0,u1]时,y=1; yi* 为(u1,u2]时,y=2;…; yi* 为(uj-1, ∞)时,y=J ;
存在一个自变量 xi ,并且存在如下线性关系: yi*=α+β xi +εi ;理论依据2理论依据2累积Logistic 回归模型1累积Logistic 回归模型1累积Logistic 回归模型2累积Logistic 回归模型2累积Logistic 回归模型3累积Logistic 回归模型3比例比数比模型(proportional odds model)比例比数比模型(proportional odds model)在 J-1 个模型中,每个模型估计一个截距,但是对于同一个自变量 x 只有唯一的一个系数估计;也就是说,对于某个自变量来说,所有的回归线是相互平行的,只是截距不同,这被称为比例比数比。
运用累积Logistic 回归模型时,需先进行比例比数比的检验。累积Logistic 回归模型的SAS实现累积Logistic 回归模型的SAS实现
proc logistic data=edu.logistic desc ;
class race ;
model dpros=age race psa ;
run;多项Logit模型(Multinomial Logit Model)多项Logit模型(Multinomial Logit Model)多项Logit模型1多项Logit模型1多项Logit模型2多项Logit模型2多项Logit模型3多项Logit模型3多项Logit模型的缺陷多项Logit模型的缺陷模型假设:即对因变量的任意两个类别作选择时,要假设这两个类别与其它的类别无关。但此假设不容易成立。
合并相近的类别。
无法合并则需要使用别的模型。多项Logit模型的SAS实现多项Logit模型的SAS实现data a;
set edu.logistic;
d=4-dpros;
r=2-race;
run;
proc catmod data=a ;
direct age psa ;
model d=age r psa ;
run;Logistic 回归模型的正确应用Logistic 回归模型的正确应用什么时候可以使用Logistic 回归模型
如何评价建立的Logistic 回归模型
如何修正建立的Logistic 回归模型
能不能解释实际现象谢谢收看!谢谢收看!chijingba@vip.sina.com