下载
加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 多元统计分析方法 第十一章 生存分析

多元统计分析方法 第十一章 生存分析.doc

多元统计分析方法 第十一章 生存分析

乔大先生的家
2017-09-25 0人阅读 举报 0 0 暂无简介

简介:本文档为《多元统计分析方法 第十一章 生存分析doc》,可适用于综合领域

多元统计分析方法第十一章生存分析第十一章生存分析在医学研究中有时候需要对病人的生存情况加以评价例如:肺癌病人术后生存情况或者是两种不同方案对肺癌病人治疗后的比较。从理论上说在完全收集到所有病人因肺癌死亡的确切时间后可以用术后生存时间这个指标来描述病人的生存状况并对不同的组别间加以比较。但在实际随访过程中由于失访、意外死亡等原因部分研究对象不能随访到确切的存活时间。所以无法以生存时间直接进行统计分析而需要采取一些特殊的统计方法接下来将对此进行详细介绍。第一节基本概念(生存时间、截尾例:某医师从年月日起对,名肺癌患者进行跟踪观察记录其结局随访记录见表:表例肺癌患者随访记录研究号姓名术后开始随访时间终止随访时间结局生存天数()()()()()()赵××失去联系钱××局部复发死亡孙××车祸死亡李××研究终止王××局部复发死亡刘××远处转移死亡生存时间(survivaltime)是指从某起点事件(startpointevent)开始到被观测对象出现终点事件(endpointevent)所经历的时间。如从疾病“确诊”到“死亡”从“治疗结束”到“复发”某电子设备从“开始使用”到“出现故障”等。由此可见此处的“生存”是一个广义的概念。根据研究目的不同可以有不同的“起点时间”和“终点时间”。生存时间的单位可以用年月周日甚至时分秒等表示。上表中的()即为生存时间有种类型:()(完全数据(completedata):是指被观测对象从观察起点至出现终点事件所经历、为完全数据。的时间。在例中如果终点事件被设为死于肺癌那么、()(截尾数据(censoreddata):是指在出现终点事件前被观测对象的观测过程终止了。由于被观测对象所提供的信息是“不完全的”只知道他们的生存时间超过了截尾时间。例中、、为截尾数据。起点事件(startpointevent):指研究者根据研究目的开始关心某一事件的起点如上面所说的“确诊”、“治疗结束”、“开始使用”等等。终点事件(endpointevent):指研究者根据研究目的所关心的某一事件如上面所说的“死亡”、“复发”、“出现故障”等等。需要注意一点不同的研究目的有不同的终点事件如果研究的是肿瘤的局部复发情况那么死于肿瘤远处转移只能算做截尾而不是终点事件。截尾(censor)又称终检、删失主要有种情况:失访:指失去联系如信访未回信上门不见人电话采访不答理或搬迁未留新地址等原因退出:指退出研究如因其他非此次研究疾病死亡临时改变治疗方案而中途退出研究终止:指研究时限已到而终止观察。(死亡概率、生存概率死亡概率(mortalityprobability):记为q是指在某段时间开始时存活的个体在该段时间内死亡的可能性大小。若无截尾数据死亡概率的估计公式为:某人群某时段总死亡例数()q,该人群同时段期初观察例数生存概率(survivalprobability):记为p是指在某段时间开始时存活的个体至该时间结束时仍存活的可能性大小。生存概率的公式为:某人群活过某时段例数()p,,q,该人群同时段期初观察例数由于生存分析中常存在截尾值假定失访等截尾事件在观察时段的各个时间点等机会发生的故分母改用校正观察例数校正观察例数,期初观察数,截尾例数(生存率及标准误、生存曲线生存率(survivalrate):用S(t)表示是指病人经历t个单位时间后仍存活的概率。kk若无截尾数据则过了时刻仍存活的例数tk()S(t),P(T,t),kk观察开始时的总例数其中t为病人的存活时间但如果资料中含有截尾数据分母必须按时段进行校正此公式则不再适用此时生存率的计算公式应为S(t),P(T,t),p,p?p()kkkppp其中、、…、表示不同时间段的生存概率可以看出生存率是多个时段生存概k率的累积故生存率又称为累积生存概率(cumulativeprobabilityofsurvival)。生存率标准误的计算公式为kqi()SEStSt(()),(),kkpn,iii例:某医院对名恶性肿瘤术后病人进行随访所获得的资料如表:表某恶性肿瘤例术后随访资料术后期初观期内死期内截校正期初死亡生存t年生存率年数察例数亡例数尾例数例数概率概率生存率标准误t,ndcn=ncq=dnp=qS(t)SE(S(t))c()()()()()()()()(),,,,,,()为组段()为各组段期初观察例数()、()分别为各组段内的死于该恶性肿瘤例数和截尾例数()为校正期初例数()、()分别为各组段的死亡概率和生存概率计算公式分别为()=()()、()=,()()为t年生存率()为t年生存率的标准误。在本例中q=p=q=q=p=q=。由式()求得年生存率为S()=pp=()×()==由式()求得年生存率为S()=(,,),,=两式求得结果相同但在继续计算S()、S()„时由于式()不能对截尾数据进行处理故不再适用只能以()进行计算。生存曲线(survivalcurve):以时间为横轴生存率为纵轴将各个时点的生存率连接在一起的曲线图。(中位生存期中位生存期(MedianSurvivalTime):又称为半数生存期即当累积生存率为时所对应的生存时间表示有且只有的个体可以活过这个时间。要注意中位生存期通常不等于生存时间的中位数(除非在这个时间点之前没有删失值存在)。第二节生存曲线估计对于生存曲线的估计我们介绍常用的种方法:(Kaplanmeier法又称乘积极限法(ProductLimitMethod简称PL法)由KaplanMeier在年提出适用于样本量较小难以将生存时间按组段划分此时是利用t时刻之前各时点上生存概率的乘积来估计在时刻t的生存率不需要对被估计的资料kk分布作任何假设。例:一组病人的生存时间(日)如下用KaplanMeier法估计其生存曲线(代表截尾)。为便于说明将计算过程和结果列在表其步骤为:()(将所有生存时间按从小到大排列(t)包括完全和截尾生存时间。()(列出各期初暴露病例数(n)它是指在t时刻前仍存活的病例数。()(将各期内死亡例数(d)和截尾例数(c)分别写在第()、()列。()(计算各期的死亡概率q,q=dn截尾数不参加计算结果见第()列。例如生存时间为天时q==。()(计算各期的生存概率p,p=q例如生存时间为天时p==计算结果见第()列。()(计算各t时刻的生存率S(t)。计算t时刻生存率时可以用小于和等于t时刻的各时kkk点生存概率的乘积得到计算结果见第()列。表KaplanMeier法估计生存率计算表存活时期初暴露期内死期内截死亡生存生存生存率间(天)病例数亡例数尾例数概率概率率标准误tndcq=dnp=qS(t)SE(S(t))kk()()()()()()()()用Stata软件计算时数据库结构如下:timedeadStata命令如下:stsettime,failure(dead=)将该数据库定义为生存资料数据库stslist输出各时点生存率输出结果:BegNetSurvivorStdTimeTotalFailLostFunctionErrorConfInt输出结果依次为时点、各时点的期初例数、死亡例数、截尾例数、生存函数(生存率)及其标准误、生存率的可信区间。如果需要输出生存函数曲线图接着输入命令:stsgraph,title(KaplanMeier法对名病人的生存率估计)输出生存曲线输出结果:KaplanMeiersurvivalestimateanalysistime图KaplanMeier法对名病人的生存率估计其中title()选项要求输出图像的标注。(寿命表法(LifeTableMethod简称LT法)是通过计数落入时间区间,t,t)内的失kk效和截尾的观察例数来估计该区间上的死亡概率然后用该区间及其之前各区间上的生存概率之积来估计S(t)。当样本量较大或者无法准确得知研究结果出现的时间时可以将各研k究对象的生存时间按某个时间段(年、月等)进行分组计算其生存率。对例用寿命表法计算生存率具体计算步骤前面已有叙述这里主要介绍stata的用法。数据库结构如下:timenumdead此时的数据库中有个变量time为生存时间(年)time=n表示该组患者在第n年初随访到了但是在n年初没有随访到。dead是观察结局dead=表示死亡dead=表示截尾。num为各组频数。Stata程序如下:used:dataltable打开ltable数据文件ltabletimedeadweight=num制作寿命表输出结果:BegStdIntervalTotalDeathsLostSurvivalErrorConfInt输出结果依次为各段生存时间起点与终点、期初人数、期内死亡人数、截尾值人数、生存率、标准误及其相应的可信区间。要输出生存函数曲线图只须在ltable命令后加入graph选项:ltabletimedeadweight=num,graphnotabnoconftitle(例恶性肿瘤患者术后生存率情况)ProportionSurvivingtime图例恶性肿瘤患者术后生存曲线本命令中graph要求输出生存函数曲线notab要求不输出寿命表noconf要求在生存函数曲线中不显示可信区间title()则是给图形加上标注。如果获得资料中每一例患者都有自己的生存时间和随访结局并且样本量较大时也可以用寿命表法进行计算此时的stata数据库结构为:timedeadstata命令为:ltabletimedead,interval()以天(年)为组段制作寿命表得到结果是一致的。(两种方法的比较:(寿命表法适用于大样本或无法准确得知研究结果出现时间的资料KaplanMeier法主要用于小样本也可以用于大样本。(寿命表法是按照指定的时段来分段估计的是时间区间右端点上的生存率KaplanMeier法是根据死亡时点分段逐个估计死亡时点的生存率。(寿命表法不能确切得知死亡时间假定每个时间段中的“死亡”是呈均匀分布生存率为线性变化故简单化以直线相连接KaplanMeier法其生存曲线是左连续的阶梯型曲线间断点的纵坐标在下一阶处当样本量较大及死亡时点较多时阶梯形就不明显了。(中位生存期的估计寿命表法由于默认组段内生存率的变化是均匀的因此可以直接在生存曲线上进行内插(图a)如例年生存率为年生存率为当生存率为,时中位生存时间(年)为=。(,),而在KaplanMeier法中由于估计的是时点生存率生存曲线是阶梯形的对中位生存期的估计有两种观点:一种观点认为中位生存期为生存率降到或以下的首个生存时间另一观点认为需要先将生存率为两侧左端点连线再进行内插。例在两种观点下中位生存期分别为天和天(图b)。stata软件默认的中位生存期估计为前一种观点可通过stsum命令得到实现。图a寿命表法中位生存期估计图bKaplanMeier法中位生存期估计第三节生存曲线的比较这一节将介绍两组生存资料比较最常用的时序检验(logranktest)无效假设H为两条总体生存曲线相同。如果H成立两组生存资料来自同一总体用两组合并的资料估计一条生存函数曲线该生存函数在各时段中所计算的理论死亡人数与实际死亡人数相差不会太大否则拒绝无效假设接受备择假设认为各组总体生存曲线不同或不全相同。例:某医生收集例晚期肺癌患者在接受化疗后的生存时间t(月)按接受治疗方案的不同划分为组(为常规方案为新方案)问不同的治疗方案对其生存时间长短的影响有无显著性差异。常规方案组:新方案组:计算步骤:()建立假设H:两总体生存函数曲线相同H:两总体生存函数曲线不同,,()按时间排序将两组未截尾的完全生存时间从小到大混合排序见表第()列表两组肺癌患者资料分析表序号生存时间死亡数期初观察数理论死亡数实际数,死亡数jtddnneededejjjjjjjjjjj()()()()()()()()()()合计()将不同生存时间的死亡数按组别归入()、()期初观察数按组别归入()、()计算时先将两组每一生存时间t的资料列成一个×表的形式见表()j表×表形式死亡生存合计常规方案组dndnjjjj新方案组dndnjjjj合计DSNjjj然后按照四格表χ检验的方法计算理论死亡数。即nDijje=,i=,()ijNj将不同生存时间的理论死亡数计算结果列在()()。常规方案组的理论死亡数合计是新方案组的理论死亡数合计是。全部实际死亡数与理论死亡数之差为:OE=OE=由结果可看出两组的实际数与理论数之差值是一样的只是符号相反。因此计算时选择任一组计算的结果就可以。对于两组生存率进行LogRank检验其统计量服从χ分布计算公式为:(O,E)x,ii,,()Var(O,E)ii其中nnDSjjjjVar(O,E)=i=,()ii,N(N,)jjjVar(O,E)本例中=故ii()(O,E)iiχ===Var(O,E)ii式()的近似公式为mOE(,)ii()x,,E,ii(,)(,)本例中结果略有不同。x,,下面用Stata软件进行计算:数据库结构:timetreatdead常规方案组常规方案组常规方案组新方案组新方案组新方案组Stata命令:used:datakm打开km数据库stsettime,failure(dead)定义为生存数据库stslist,by(treat)按组别输出不同时点生存率ststesttreat,logrank对两总体生存率曲线进行logrank检验stsgraph,by(treat)按组别输出生存曲线输出结果:failured:deadanalysistimet:timeBegNetSurvivorStdTimeTotalFailLostFunctionErrorConfInt常规方案组新方案组failured:deadanalysistimet:timeLogranktestforequalityofsurvivorfunctions|EventsEventstreat|observedexpected常规方案组|新方案组|Total|chi()=Pr>chi=KaplanMeiersurvivalestimates,bytreat新方案组常规方案组analysistime图两组肺癌患者的生存曲线比较,从输出结果可以看出logrank检验结果为==P=按水x,,平没有理由拒绝H假设认为两组的总体生存曲线相同在本例中即在晚期肺癌中没有理由认为新化疗方案和常规化疗方案的疗效不同。需要注意的是在做LogRank检验的时候除了生存资料的基本要求之外还要求各组生存曲线不能交叉。因为这种交叉提示可能有混杂因素应该采用分段分析或者采用多因素方法来分析。第四节指数模型和Weibull模型设生存时间T如果生存率S(t)满足下列模型:,,X,teStPTte()(),,,,,,,,(,,,)XXX,(,,,)协变量其中回归系数mm,,,,,,Xxxx,因此mm,,X,,X,te,称生存时间T服从指数分布模型显然越大也越大因此生存率,XeSte(),,,,X,X就越小。故称为指数回归模型的风险函数。称te为指数回归模型的累积风险函数。e如果生存率S(t)满足下列模型:,X,,,teStPTte()(),,,,,则称生存时间T服从Weibull回归模型显然当,,时Weibull回归模型就是指数回归模型因此指数回归模型是Weibull回归模型的特例。Weibull回归模型的累积风险函,,,,X,,X,数为te,te相应的风险函数为。以上可以归纳为累积风险函数为,ln(S(t))并且Weibull模型的累积风险函数为,,,,Xteln(S(t)),表示累积风险以t的幂函数增长。特别指数分布模型的累积风险以t直线增长。以下举一个例子说明这类模型的应用。例:某医生在研究种治疗方案对肝癌术后患者的疗效收集了名患者的生存资料随机分为两组分别采用种不同的治疗方案同时收集了患者的年龄情况生存时间的单位为年死亡的结局定义为生存的结局定义为资料如下:方案A(drug=)方案B(drug=)年龄结局生存时间年龄结局生存时间Stata数据格式如下drugagedt操作如下:定义生存分析数据集stsett,f(d)指数回归分析命令stregdrugage,d(e)nohrNoofsubjects=Numberofobs=Nooffailures=Timeatrisk=LRchi()=Loglikelihood=Prob>chi=t|CoefStdErrzP>|z|ConfIntervaldrug|age|cons|A方案drug=与B方案drug=的风险函数比(hazardratio)drug,的风险函数,HRe,==edrug,的风险函数ˆ,HRee,,同理年龄增加一岁的风险函数比也可以利用Stata直接计算得到:stregdrugage,d(e)Noofsubjects=Numberofobs=Nooffailures=Timeatrisk=LRchi()=Loglikelihood=Prob>chi=t|HazRatioStdErrzP>|z|ConfIntervaldrug|age|由于指数回归模型是Weibull回归模型的特例所以通常用Weibull回归模型要优于指数回归模型。Stata命令如下stregdrugage,d(w)nohr相应的结果如下WeibullregressionlogrelativehazardformNoofsubjects=Numberofobs=Nooffailures=Timeatrisk=LRchi()=Loglikelihood=Prob>chi=t|CoefStdErrzP>|z|ConfIntervaldrug|age|cons|lnp|p|p|本例资料用Weibull回归模型进行参数估计与指数模型的参数估计非常接近说明本例资料服从指数分布的回归模型。指数分布的回归模型与Weibull分布的回归模型均属于生存分析中的比例风险参数模型即:协变量的参数表达式与生存时间呈比例更一般的比例风险模型为,htXhtX(,)()exp(),,XXX,(,,),,,,(,,)其中回归系数协变量mm,,,,,Xxxx,因此mmhtXht(,)(),当X的各个分量全为时故称h(t)为基准风险函数(BaselineHazardfunction)。生存分析的模型可以分为参数模型和半参数模型指数分布的回归模型和Weibull分布的回归模型都属于参数模型这些模型可以直接估计生存率但是要求资料服从对应的分布。这对实际研究的要求很高往往难以确认。对于研究生存问题的危险因素而言可以考虑下列的半参数模型:Cox模型。这种模型对资料的要求大大降低了。第五节Cox回归由于logrank仅能分析一个因素因此在同时分析个或个以上因素对生存时间影响的时候就显得无能为力了这时我们就需要通过Cox比例风险模型来解决这些问题。以例加以说明:例:某医生在研究种治疗方案对晚期肺癌的影响收集了名患者的生存资料同时收集了患者的年龄因素资料如下:方案治疗组(N=)方案治疗组(N=)生存月数年龄生存月数年龄希望回答以下问题:在同样的年龄情况下不同的治疗方案对生存时间有无影响,在同一治疗方案的情况下年龄对生存时间有无影响,治疗方案和年龄有无交互作用,即在不同的年龄段中不同的治疗方案对生存期的影响是否不同,模型的结构h(t)x在Cox比例风险模型中假定有一个基准风险率在时点t时某个影响因素i,xiih(t)就是使该基准风险率增至e倍即比例风险模型的基本结构为:(X,),h(t,X),h(t),e()X,(x,x,?,x)其中X为协变量向量β为协变量的系数向量p,,,(,,,?,,),,是的转置向量。,p模型拟合过程数据结构如下:timedeadtreatageStata命令:used:datacox打开cox数据文件genta=treat*age生成age和treat的交互项tacoxtimetreatageta,dead(dead)拟合含有交互项的Cox模型cox命令的语句格式为:cox生存时间变量协变量dead(结局变量)输出结果如下:Iteration:loglikelihood=Iteration:loglikelihood=Iteration:loglikelihood=Iteration:loglikelihood=Iteration:loglikelihood=Refiningestimates:Iteration:loglikelihood=CoxregressionBreslowmethodfortiesEntrytimeNumberofobs=LRchi()=Prob>chi=Loglikelihood=PseudoR=time|dead|CoefStdErrzP>|z|ConfIntervaltreat|age|ta|,,,,?,,,输出结果中为迭代过程为对模型H假设:检验的结果p,,,,,而本例中x,得出相应P值为<<故拒绝H接受H假设认为不全为为伪决定系数描述了协变量的作用在总变异中所占的比例为对协变量系数的估计为协变量系数估计的标准误为对协变量的检验z近似服从标准正态分布本例中先考察交互项taP>故认为treat和age之间没有交互作用为协变量系数的可信区间估计。由于协变量之间没有交互作用将交互项从模型中除去再进行分析。coxtimetreatage,dead(dead)拟合不含有交互项的Cox模型输出结果为:Iteration:loglikelihood=Iteration:loglikelihood=Iteration:loglikelihood=Iteration:loglikelihood=Refiningestimates:Iteration:loglikelihood=CoxregressionBreslowmethodfortiesEntrytimeNumberofobs=LRchi()=Prob>chi=Loglikelihood=PseudoR=time|dead|CoefStdErrzP>|z|ConfIntervaltreat|age|可见去除交互项后treat、ageP值均<在水平均有统计学意义,,至此我们可以写出cox回归方程:(,,treat,age)h(t,X),h(t),e变量的危险比(riskratio记为RR)RR=exp(,)()表示协变量每增加一个单位危险度改变多少倍。如协变量treat的,=RR=,treat表示treat变量水平与比较treat=的危险度是treat=的倍提示治疗方案,优于治疗方案。而age的=RR=表明年龄每增加一岁死亡的可能性age增加到倍。实际上只需要在Stata命令中加入hr就可以直接给出RR值。coxtimetreatage,dead(dead)hr输出结果:time|dead|HazRatioStdErrzP>|z|ConfIntervaltreat|age|HazRatio即为所需要的RR值。至此我们已经可以回答前面提出的个问题了。在排除年龄的影响后不同的治疗方案对生存时间的影响是不同的方案优于方案在排除不同治疗方案的影响后年龄对生存时间的影响是不同的年龄越大越危险没有理由认为治疗方案和年龄存在交互作用。Cox模型分析注意事项:()(默认假设为值随着自变量的变化而等比例变化如本例中协变量age的值为,,即认为年龄每增加一岁值增加而不论年龄是从增加到还是从,增加到。()(如果协变量不符合等比例假设的要求那么就不能将连续性变量直接进入模型而需要对其按段进行分层必要时设置哑变量进行分析。()(协变量既可以是连续变量也可是是分类变量还可以同时分析交互作用这是与其他统计方法相比的重要优点。()(选入模型的变量是统计学上的有关变量有统计学意义并不一定都与生存时间有因果关系需要结合具体案例进行分析。思考题(明确生存率、生存概率、死亡率的关系。(两组淋巴瘤患者治疗后复发时间(月)如下问两种治疗方案对淋巴瘤的缓解情况是否一样,对照组处理组(名自愿者参加了一项戒烟计划来帮助他们戒烟(原先所有的都是吸烟者)随访了周另外收集了性别、年龄、教育年数等因素试分析这些因素和戒烟时间是否有关,戒烟时间是否戒烟失败性别年龄教育年数weekfail(=fail)gender(=male,=female)ageedu

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/31

多元统计分析方法 第十一章 生存分析

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利