首页 十多元线性回归与logistic回归

十多元线性回归与logistic回归

举报
开通vip

十多元线性回归与logistic回归PAGE\*MERGEFORMAT#/9第十一章多元线性回归与logistic回归一、教学大纲要求(一)掌握内容1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。4.logistic回归模型结构:模型结构、发病概率比数、比数比。5.logistic回归参数估计方法。6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量...

十多元线性回归与logistic回归
PAGE\*MERGEFORMAT#/9第十一章多元线性回归与logistic回归一、教学大纲要求(一)掌握 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 1.多元线性回归 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 的概念:多元线性回归、偏回归系数、残差。2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。4.logistic回归模型结构:模型结构、发病概率比数、比数比。5.logistic回归参数估计方法。6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。(二)熟悉内容常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。(三)了解内容 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化偏回归系数的解释意义。二、教学内容精要(一)多元线性回归分析的概念将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiplelinearregression),简称多元回归(multipleregression)基本形式:Y=b+bX+bX+•••+bX01122kk式中y为各自变量取某定值条件下应变量均数的估计值,x,x,…,x为自变量,k为12kTOC\o"1-5"\h\z自变量个数,b为回归方程常数项,也称为截距,其意义同直线回归,b,b,…,b称为012k偏回归系数(partialregressioncoefficient),b表示在除X以外的自变量固定条件下,X每改变一个单位后Y的平均改变量。‘‘‘(二)多元线性回归的分析步骤Y是与一组自变量X,X,…,X相对应的变量Y的平均估计值。12k多元回归方程中的回归系数b,b,…,b可用最小二乘法求得,也就是求出能使估计12k值丫和实际观察值Y的残差平方和乙e2二乙(Y-Y)2为最小值的一组回归系数b,b,…,i12b值。根据以上要求,用数学方法可以得出求回归系数b,b,…,b的下列正规方程组k12k(normalequation):bl+bl+…+bl=l111212k1k1ybl+bl+…+bl=l<121222k2k2ybl+bl+…+bl=l1k12k2kkkky式中lijliy=l=工(X-X)(X-X)=工jiiijj=工(X-X)(Y-Y)=工XY-iiiXX(工X)(工X)i(工X)(工Y)i常数项b可用下式求出:0____b二Y-bX-bXbX01122kk(三)多元线性回归分析中的假设检验在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X,X,…,X是否与Y真有线性依存关系,也就是检验无效假设12k=B=0),备选假设H为各0值不全等于o或全不等于o。123k1j检验时常用统计量f…MSF二回归MS、口Air误差式中n为个体数,k为自变量的个数。l、口Air误差l回归式中l二bl+bl+•••+bl回归11y22ykkyl二l—l误差总回归l=工&-Y1二l总yy(四)logistic回归模型结构设X「X…,X为一组自变量,Y为应变量。当Y是阳性反应时,记为Y=1;当Y是12k阴性反应时,记为Y=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。Logistic回归模型为:P_e00+01X1+02X2+…+0kXk1+e00+01X1+02X2+…+0kXk同时可以写成:Q_[11+e00+01X1+02X2+…+0kXk式中00是常数项;0/(j=1,2,,k)是与研究因素xj有关的参数,称为偏回归系数。事件发生的概率P与0x之间呈曲线关系,当0x在(-8,之间变化时,P或Q在(0,1)之间变化。…若有n例观察对象,第i名观察对象在自变量X,X,…,X作用下的应变量为Y,阳性i1i2iki反应记为Y=1,否则Y=0。相应地用P表示其发生阳性反应的概率;用Q表示其发生阴性反ii应的概率,仍然有P+Q=1。iiiP和Q的计算如下:iie卩°+卩內1+卩2Xi2++卩kXkP二i1+e卩0+卩1Xii+卩2Xi2++卩kXikQ-i1+e卩0邛1Xi1+卩2Xi2+...+卩kXik这样,第i个观察对象的发病概率比数(odds)为PQ,第i个观察对象的发病概率比数•r•ii为P/Q,而这两个观察对象的发病概率比数之比值便称为比数比OR(oddsratio)。对比数比取自然对数得到关系式:(PQ]I乍Ql丿ln二卩(X-X)+卩(X-X)+•••+卩(X-X)1i1l12i2l2kiklk等式左边是比数比的自然对数,等式右边的G..-Xijlji1暴露水平X与X之差。卩的流行病学意义是在其它自变量固定不变的情况下,自变量X的ijljjj暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量X的水平每增加一个测量单位时所引起的比数比为增加前的e卩jj倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。(五)logist回归参数估计由于logistic回归是一种概率模型,通常用最大似然估计法(maximumlikelihoodestimate)求解模型中参数卩的估计值b(j=1,2,,k)。jjY为在XX…,X作用下的阳性事件(或疾病)发生的指示变量。其赋值为:12kY_J1,第i个观察对象出现阳性反应厂[o,第i个观察对象出现阴性反应第i个观察对象对似然函数的贡献量为:l=Py-Q1-Yiii当各事件是独立发生时,贝归个观察对象所构成的似然函数L是每个观察对象的似然函数贡献量的乘积,即L二打l二打PY.Q1-Y.iii=1i=1式中n为-从1到n的连乘积。依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求1O1/9解参数估计值b(j二1,2,,k)。j(六)logistic回归筛选自变量在logistic回归中,筛选自变量的方法有似然比检验(likelihoodratiotest)、计分检验(scoretest)、Wald检验(Waldtest)三种。其中似然比检验较为常用,用八表示似然比检验统计量,计算公式为:A二21nG/L丿二2(lnL-InL)式中ln为自然对数的符号,L为方程中包含m(m 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 分析单项选择题多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是()。A.复相关系数B.偏相关系数C.偏回归系数D.确定系数答案:D[评析]本题考点:多元线性回归中的几个概念的理解。多元线性回归中的偏回归系数(multiplelinearregression)表示在其它自变量固定不变的情况下,自变量X每改变一个单位时,单独引起应变量Y的平均改变量。确定系数(coefficientjofdetermination)表示回归平方和SS[占总离均差平方和SS的比例,简记为R2。即回归总R2—SS口归;;SS为。确定系数的平方根即R称为复相关系数(multiplecorrelationcoefficient),它表示p个自变量共同对应变量线性相关的密切程度,它不取负值,即OWRW1。Logistic回归分析适用于应变量为()。分类值的资料B.连续型的计量资料C.正态分布资料D.—般资料答案:A[评析]本题考点:logistic回归的概念。logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。计算题根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分PAGE\*MERGEFORMAT#/9析步骤及其简要结果。表11-1某学校20名 一年级 小学一年级数学20以内加减练习题小学一年级数学20以内练习题小学一年级上册语文教学计划人教版一年级上册语文教学计划新人教版一年级上册语文教学计划 女大学生肺活量及有关变量测量结果编号体重X1/kg胸围X/cm2肩宽X3/cm肺活量Y/L150.873.236.32.96249.084.134.53.13342.878.331.01.91455.077.131.02.63545.381.730.02.86645.374.832.01.91751.473.736.52.98853.879.437.03.28949.072.630.12.521053.979.537.13.271148.883.833.93.101252.688.438.03.281342.778.230.91.921452.588.338.13.271555.177.231.12.641645.281.630.22.851751.478.336.53.161848.772.530.02.511951.378.236.43.152045.875.032.51.94答案:SPSS:数据文件:“EXAP11—2.sav”。数据格式:4列20行。过程:StatisticRegressionLinear...Dependent:YIndependent(s):X1,X2,X3Method:Enter结果:VariablesEntered/RemovedModelVariablesEnteredVariablesRemovedMethod1X3(肩宽),X2(胸围),X(体重)EnteraAllrequestedvariablesentered.bDependentVariable:Y(肺活量)ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.846.715.662.2893aPredictors:(Constant),X3,X2,X1ANOVAModelSumofSquaresdfMeanSquareFSig.1Regression3.36731.12213.413.000Residual1.339168.368E-02Total4.70619aPredictors:(Constant),X3,X2,X1bDependentVariable:YCoefficientsModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-4.6761.321-3.541.003X6.036E-02.021.4742.899.01033.508E-02.015.3332.272.037X25.010E-02.029.3071.735.102X1aDependentVariable:YSAS:数据步DATAEXAP11—2;INPUTx1x2x3y@@;CARDS;50.873.236.32.96-45.875.032.51.94;过程步PROCREG;MODELy=x1x2x3RUN;结果:AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel33.367321.1224413.410.0001Error161.338930.08368CorrectedTotal194.70626ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-4.675531.32051-3.540.0027X110.060360.020822.900.0105X210.035080.015442.270.0372X310.050100.028881.730.1020[评析]本题考点:统计软件关于多元线性回归的分析方法及主要输出结果。根据SPSS或SAS的输出结果,可进行以下分析:检验H:B=B二0的方差分析表。F=13.413,P=0.0001,拒绝H0,肺活量01230至少与一个自变量存在线性关系。估计偏回归系数b1,b2,b3,给出多元线性回归方程Y=4.68+0.06X+0.04X+0.05X,R2=0.715,R”2=0.662。123a偏回归系数检验,见表11-2。表11-2偏回归系数估计值及其检验偏回归系数估计值SEtPb0-4.6751.321-3.540.00b10.0600.0212.900.01b220.0350.0152.270.04b0.0500.0291.730.10四、习题(一)单项选择题可用来进行多元线性回归方程的配合适度检验是:X2检验B.F检验C.U检验D.Ridit检验在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数不变增加相同的常数减少相同的常数增加但数值不定在多元回归中,若对某个自变量的值都乘以一个相同的常数k贝y:该偏回归系数不变该偏回归系数变为原来的1/k倍所有偏回归系数均发生改变该偏回归系数改变,但数值不定作多元回归分析时,若降低进入的F界值,则进入方程的变量一般会:A.增多B.减少C.不变D.可增多也可减少二)名词解释1.多元线性回归2.偏回归系数3.复相关系数4.确定系数5.比数6.比数比简答题logistic回归模型中,偏回归系数0的解释意义是什么?i计算题某学者研究在某种营养缺乏状态下儿童的体重(Y,kg)与身高(X1,cm)、年龄(X2岁)的关系获得了12名观察对象的观测资料,计算得到如下基本数据:ZX=1611,ZX2=219631,ZX=106,工X2=976,ZY=3411122ZY2=9883,ZXX=14454,ZXY=46439,ZXY=3079。1212八请写出求解丫=b+bX+bX二元线性回归方程的正规方程组。01122设方程组的解为b=2.114,b=0.135,b=0.923,请写出回归方程。0123)完成下列方差分析表。表11-312名儿童体重与身高、年龄回归分析方差分析表变异来源vSSMSF回归残差总和五、习题答案要点(一)单项选择题1.B2.A3.B4.A(二)名词解释用回归方程定量地刻画一个应变量Y与多个自变量X间的线性依存关系,称为多元线性回归(multiplelinearregression),简称多元回归(multipleregression)。多元线性回归的基本形式为:Y=b+bX+bXHbXb,b,…,b称01122kk12k为偏回归系数(partialregressioncoefficient),b表示在除X以外的自变量固定条件下,X每改变一个单位后Y的平均改变量。‘‘‘复相关系数R(coefficientofmultiplecorrelation),R的大小表示所有自变量与应变量之间线性关系的密切程度。确定系数(coefficientofdetermination)简记为R2,表示回归平方和SS回归占总离均差平方和SS的比例,即R2=SS/SS。用R2可定量评价在y的总变异中,由x变量组总回归总建立的线性回归方程所能解释的比例。e00+卩1X1+卩2X2+…+0kXP=logistic回归模型为:1+e00+01X1+02X2+…+0kXk同时可以写成:Q=1+e卩°+久x1+卩2x2++PkXk第i个观察对象的发病概率比数(odds)为PQ,即同一暴露水平下,阳性概率与阴性ii概率之比值称为比数(odds)。6.logistic回归模型中,两个观察对象的发病概率比数之比值称为比数比OR(oddsratio)o其大小反映了不同暴露水平下,个体发病的相对危险程度。三)简答题答:J的流行病学意义是在其它自变量固定不变的情况下,自变量X/的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量x.的水平每增加一个测量单位时所引起的比数比为增加前的e为倍。(四)计算题1•求解Y=b+bX+bX二元线性回归方程的正规方程组为:01122bl+bl=l<1112121ybl+bl二l1212222y2•当方程组的解为b=2.114,b=0.135,b=0.923,回归方程为:012Y=2.114+0.135X+0.923X123.列方差分析表。表11-412名儿童体重与身高、年龄回归分析方差分析表变异来源vSSMSF回归2151.3575.67516.380残差941.574.62总和11192.92尹平白玉祥)
本文档为【十多元线性回归与logistic回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
霞光万丈
暂无简介~
格式:doc
大小:49KB
软件:Word
页数:12
分类:
上传时间:2023-03-20
浏览量:1