下载
加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 多元统计分析方法

多元统计分析方法.doc

多元统计分析方法

何必太在乎这世界
2017-10-10 0人阅读 举报 0 0 暂无简介

简介:本文档为《多元统计分析方法doc》,可适用于项目管理领域

多元统计分析方法多元统计分析方法TheMethodsofMultivariateStatisticalAnalysis在医学研究中常常用追踪followup的方式来研究事物发展的规律。例如:了解某药物的疗效了解手术后的存活时间了解某医疗仪器设备的使用寿命这种研究的特点是追踪研究的现象都要经过一段时间统计学上将这段时间称为生存时间。二、生存分析的基本概念生存时间生存时间数据的类型生存时间数据的特点生存分析资料的收集方法描述生存时间分布规律的函数生存分析的主要研究内容B生存时间数据的类型完全数据completedata:它准确地度量了观察对象实际生存的时间。截尾数据censoreddata:它没有准确地度量观察对象实际生存的时间。例如在随访过程中某些观察对象失访或死于其它原因或在规定的研究过程结束时观察对象的终止事件还未发生。C生存时间数据的特点:)所有观察值取值非负)存在截尾数据生存分析资料的收集方法:)确定随访内容(指标变量))确定随访人数(样本数))确定随访的起始和终止时间同时开始同时结束不同时间开始同时结束不同时间开始不同时间结束生存函数St:观察对象的生存时间T大于某时刻t的概率称为生存函数survivalfunction。St满足条件:SS且St。、描述法:根据样本观察值提供的信息直接用公式计算出每一时间点或每一个时间区间上的生存函数、死亡函数、风险函数等并采用列表或绘图的形式来显示生存时间的分布规律。优点:方法简单且对数据的分布无要求。缺点:不能比较两组或多组生存时间分布函数的区别不能分析危险因素对生存时间的影响不能建立生存时间与危险因素之间的关系模型。、非参数法:估计生存函数时对生存时间的分布没有要求并且检验危险因素对生存时间的影响时采用的是非参数检验方法。例如乘积极限法和寿命表法。优点:可以估计生存函数可以比较两组或多组生存布函数可以分析危险因素对生存时间的影响对生存时间的分布没有要求。缺点:不能建立生存时间与危险因素之间依存关系的数学模型。Cox比例风险回归模型()数学模型:设xx,x,…,xk是影响生存时间t的k个危险因素。设ht,x表示受危险因素x的影响下在时刻t的风险率又设ht表示在不受危险因素x的影响下在时刻t的风险率。显然htht,并称ht为基准风险率或基准函数。Cox比例风险回归模型是:因为对于任意一时刻t都有:所以个体在任何时刻的风险率都正比于基准风险率比例因子为:()Cox比例风险模型参数和模型的检验参数的估计方法最大似然法参数的显著性检验方法:似然比检验法Wald检验法和比分检验法等。H:βjvsH:βj模型的显著性检验:似然比卡方检验法H:β…βkvsH:βj()Cox比例风险模型参数的解释对于一元Cox模型如果因素x的取值为和分别表示暴露与非暴露于危险因素之下那么例:为研究某种药物是否会改进急性白血病人的预后延长其缓解时间。将确诊病人随机给予不同的治疗。一组为用药组传统治疗加某药另一组为对照组传统治疗。治疗前检测病人白细胞计数wbc经一定时间随访白血病病人的缓解时间列在下表中其中带号的是截尾数据。试作Cox模型回归分析。本例以缓解时间长短来衡量治疗效果。缓解时间越长效果越好。这里的缓解时间是生存分析中的生存时间t其起点是接受某治疗开始其终点是缓解结束。令treat表示治疗组treat表示对照组wbc表示白细胞计数是连续变量。为了减少内部变异的影响将白细胞计数取自然对数。不同疗法treat和白细胞数lgwbc均对病人的缓解时间产生影响。从RRtreat得知采用新疗法的危险度仅是传统疗法的倍减少。从RRlgwbc得知白细胞数增加相对危险度上升白血病人的生存时间缩短。四、应用Cox模型的注意事项因素变量不能随时间变化而变化样本死亡相对数不能过小样本含量要足够大因素各水平组的例数要适当模型拟合要注意因素之间的交互作用分类型因素变量要建立哑变量生存曲线不能随意延长也不能轻易用来作预报。线性回归、logistic回归和Cox回归分析的区别线性回归Logistic回归Cox回归因变量:连续型变量y分类型变量y生存时间t服从正态分布无分布要求无分布要求模型:y与x的y取某个值的概率t的风险函数线性关系p与x的关系h与x的关系系数:b表示x增加一expbOR,近似表示expbRH,表示个单位y的在xx*时的发病率在xx*时的改变量与xx*时的发病率之风险度与xx*比RR时的风险度之比(在发病率较低时)总结什么是生存时间,什么是完全数据和截尾数据,什么是生存分析,什么是生存函数、死亡函数和风险函数,Cox比例风险回归分析的优点是什么,Cox回归模型与Logistic回归模型系数的解释意义有何不同,Cox回归、Logistic回归以及线性回归分析的主要区别是什么,结束TheLIFETESTProcedureLifeTableSurvivalEstimatesConditionalEffectiveConditionalProbabilityIntervalNumberNumberSampleProbabilityStandardLower,UpperFailedCensoredSizeofFailureErrorForwardStepwiseSequenceofChiSquaresfortheLOGRANKTestPrChiSquarePrVariableDFChiSquareChiSquareIncrementIncrementXXXXXXXXX危险因素参数法:根据样本观察值来估计假定的分布模型中的参数获得生存时间的概率分布模型。生存时间经常服从的基线分布有指数分布、Weibull分布、对数正态分布、对数Logistic分布和Gamma分布。优点:可以估计生存函数可以比较两组或多组生存布函数可以分析危险因素对生存时间的影响可以建立生存时间与危险因素之间依存关系的模型。缺点:需要事先知道生存时间的分布。()指数分布:Stexpλt()Weibull分布:Stexpλtγ()对数正态分布:半参数法:不需要对生存时间的分布作出假定但却可以通过一个模型来分析生存时间的分布规律以及危险因素对生存时间的影响。例如:Cox比例风险回归模型。优点:可以估计生存函数可以比较两组或多组生存布函数可以分析危险因素对生存时间的影响可以建立生存时间与危险因素之间依存关系模型。不需要事先知道生存时间的分布。其中β,β…,βk是待估未知参数ht是未知表达式。可见RHx不随生存时间t的变化而变化。所以这个模型又称为比例风险模型。而且RHx表示个体在因素x影响下的风险率相对于基准风险率之比。eβ表示受x影响与不受x影响的相对风险。对于一元Cox模型如果因素x为连续变量eβ表示相邻两个水平的风险率之比相对风险率。对于多元Cox模型eβj表示在其它因素不变的情况下因素xj的相邻两个水平的风险率之比。dataddoitodotreat,inputtimewbciftimethencensorelsecensortimeabstimelgwbclogwbcoutputendendcards……runprocphregmodeltime*censortreatlgwbcrisklimitsrunSAS程序ThePHREGProcedureTestingGlobalHypothesis:BETAWithoutWithCriterionCovariatesCovariatesModelChiSquareLOGLwithDFpScorewithDFpWaldwithDFpAnalysisofimumLikelihoodEstimatesConditionalRiskRatioandConfidenceLimitsParameterStandardWaldPrRiskVariableDFEstimateErrorChiSquareChiSquareRatioLowerUpperTREATLGWBCSAS输出结果专业结论*生存分析SurvivalAnalysis第十章主要内容什么是生存分析,生存分析的基本概念生存分析的基本方法非参数分析方法Cox比例风险回归分析方法生存分析的注意事项数据的收集方式:横断面数据(crosssectionaldata)在同一个时间点上收集的数据纵断面数据(longitudinaldata)在连续的若干个时间点上收集的数据。随防数据:个人的术后存活时间时间序列数据:近年每年的肺癌死亡率生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法。一、什么是生存分析,A生存时间survivaltime:从某起始事件起到某终止事件止所经历的时间跨度称为生存时间。例如在临床研究中急性白血病患者从骨髓移植治疗开始到复发为止之间的时间间隔。冠心病患者在两次发作之间的时间间隔。在流行病学研究中从开始接触某危险因素到发病所经历的时间。在动物实验研究中从开始给药到发生死亡所经历的时间。E描述生存时间分布规律的函数:、生存函数、死亡函数、死亡密度函数、风险函数死亡函数Ft:观察对象的生存时间T不大于某时刻t的概率称为死亡函数failurefunction。Ft满足条件:FF且Ft。死亡密度函数ft:观察对象在某时刻t的瞬时死亡率称为死亡密度函数failuredensityfunction。风险函数ht:生存到时刻t的观察对象在时刻t的瞬时死亡率称为风险函数hazardfunction。F生存分析的主要研究内容:、描述生存过程、比较生存过程、分析危险因素、建立数学模型、描述法、非参数分析法、参数分析法、半参数分析法三、生存分析的基本方法例、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料其中有淋巴结浸润组LA人无淋巴结浸润组NLA人。生存时间T月的数据如下。协变量为淋巴结状态SLN负数代表截尾数据。LA组:NLA组:StandardNumberNumberTSurvivalFailureErrorFailedLeft***LA组生存时间分布规律StandardNumberNumberTSurvivalFailureErrorFailedLeftNLA组生存时间分布规律StandardNumberNumberTSurvivalFailureErrorFailedLeft**NLA组生存时间分布规律(续)SurvivalFunctionEstimates**|**SDF|**N|L*N|L*NNLLNNN|LLNNNN|LLLNNN|LLNNN||NNNLNTime无淋巴结浸润患者N比有淋巴结浸润患者L的平均生存时间长。两组急性淋巴细胞性白血病患者治疗后的生存时间比较两种非参数生存分析方法乘积极限法(PL法):适用于离散数据它用于建立时刻t上的生存函数。PL法是根据t时刻及其之前各时间点上的条件生存率的乘积来估计时刻t的生存函数St和它的标准误SESt。累积生存率:标准误:例如:P,表寿命表法(LT)法:LT法适用于区间数据它用于建立时间区间t,tΔt上的生存函数。LT法是根据时间区间t,tΔt左端点的生存率及其之前各区间左端点生存率之积来估计区间t,tΔt的生存函数St和它的标准误SESt。累积生存率:标准误:例如:P,表例、某研究者收集了两组急性淋巴细胞性白血病患者治疗后的随访资料其中有淋巴结浸润组LA人无淋巴结浸润组NLA人数据如下。设因变量T为生存时间月协变量为淋巴结状态SLN截尾指标用censor表示负数代表截尾数据。试用非参数的PL法进行生存分析检验患者有无淋巴结浸润对其生存时间长短的影响。LA组:NLA组:【SAS程序】datadinputsln$ndoitoninputtiftthencensorelsecensortabstoutputendcardsLANLArunproclifetestplotss,ls,llsmethodpltimet*censorstrataslnrunTheLIFETESTProcedureProductLimitSurvivalEstimatesSLNLASurvivalStandardNumberNumberTSurvivalFailureErrorFailedLeft***SurvivalFunctionEstimates**|**SDF|**N|L*N|L*NNLLNNN|LLNNNN|LLLNNN|LLNNN||NNNLNTime无淋巴结浸润患者N比有淋巴结浸润患者L的平均生存时间长。两组急性淋巴细胞性白血病患者治疗后的随访资料TestofEqualityoverStrataPrTestChiSquareDFChiSquareLogRankWilcoxonLogLR生存曲线的比较:H:k个组的生存函数曲线一致H:至少两组生存函数曲线不一致。结论:两组患者的生存时间没有显著性差异。例、医学研究人员用烷烃化剂对名多骨髓瘤患者进行治疗名患者在研究过程中死亡名仍存活。在数据集eg中变量T表示从诊断开始所生存的月数status由和两个值组成分别表示患者在研究结束时的存活情况若status则表示相应的T是截尾数据。与生存有关的变量有:x诊断时的logbun值、x诊断时的血红蛋白含量、x诊断时的血小板含量:不正常正常、x诊断时的年龄年、x诊断时的logWBC值、x诊断时是否骨折否是、xlog骨髓中原生质细胞的含量、x诊断时的尿蛋白含量、x诊断时的血清钙含量。试用非参数的LT法进行生存分析并从这个说明变量中找出重要的危险因素变量。因为数据多此处数据表省略。【SAS程序】dataeginputtstatusxxcards……runproclifetestplotss,ls,llsmethodltwidthtimet*statustestxxrun

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/11

多元统计分析方法

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利