首页 Stata教程

Stata教程

举报
开通vip

Stata教程Stata教程 第一章 Stata 概貌 ?1.1 Stata的功能、特点和背景 Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4, 1.5,„„及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许...

Stata教程
Stata教程 第一章 Stata 概貌 ?1.1 Stata的功能、特点和背景 Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4, 1.5,„„及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。 Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。 一、 Stata的数据管理能力 1. Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响。对640k内存的微机,3.1 版本的S×99个变量,并随计算机扩展内存的增加而tata可以管理2400个记录 增加;对4.0的WINDOWS版本,Stata可以管理4800个记录×99个变量;对WINDOWS 95下的5.0版本,可根据计算机的配置情况设置变量数和记录数,如32M扩展内存的计算机,可处理2千万个数据。变量数和记录数可以互相交易(trade),即减少记录数可以增加变量数,减少变量数可以增加记录数。 2. 可以将分组变量转换成指示变量(哑变量),将字符串变量映射成数字代码。 3. 可以对数据文件进行横向和纵向链接,可以将行数据转为列数据,或反之。 4. 可以恢复、修改执行过的命令。 5. 可以利用数值 函数 excel方差函数excelsd函数已知函数     2 f x m x mx m      2 1 4 2拉格朗日函数pdf函数公式下载 或字符串函数产生新变量。 6. 可以从键盘或磁盘读入数据。 二、 Stata的统计功能 Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归、负二项回归及广义负二项回归,随机效应模型等。具体说,Stata具有如下统计分析能力: 1. 数值变量 资料 新概念英语资料下载李居明饿命改运学pdf成本会计期末资料社会工作导论资料工程结算所需资料清单 的一般分析:参数估计,,检验,单因素和多因素的方差分析,协方差分析,交互 效应模型,平衡和非平衡 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 ,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验,变量变换等。 22. 分类资料的一般分析:参数估计,列联表分析( 检验,列联系数,确切概率),流行病学表格分 析等。 3. 等级资料的一般分析:秩变换,秩和检验,秩相关等。 4. 相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种的回归分析方法,如多元线性 回归,逐步回归,加权回归,稳键回归,二阶段回归,百分位数(中位数)回归,残差分析、强影响点分析,曲线拟合,随机效应的线性回归模型,等。 5. 危险度分析:条件和非条件的logistic回归,多类结果与有序结果的logistic回归,Probit回 归,及其他广义线性模型,随机效应的logistic回归,随机效应的Poisson回归,等。 6. 生存分析:基线生存曲线的估计、相对危险度的估计,Kaplan-Meier生存曲线、寿命表分析,对 数秩检验,Mantel-Haenszel检验,Wilcoxon-Gehan检验,Cox比例风险模型,正态截尾及Tobit回归,指数回归和Weibull回归,等。 7. 其它方法:质量控制,整群抽样的设计效率,诊断试验评价,kappa,等。 三、 Stata的作图功能 (histogram),条 Stata的作图模块,主要提供如下八种基本图形的制作: 直方图 形图(bar), 百分条图(oneway),百分圆图(pie),散点图(twoway),散点图矩阵(matrix),星形图(star),分位数图。这些图 1 形的巧妙应用,可以满足绝大多数用户的统计作图要求。在有些非绘图命令中,也提供了专门绘制某种图形的功能,如在生存分析中,提供了绘制生存曲线图,回归分析中提供了残差图等。详见第五章。 四、 Stata的矩阵运算功能 矩阵代数是多元统计分析的重要工具,Stata提供了多元统计分析中所需的矩阵基本运算,如矩阵的加、积、逆、Cholesky 分解、Kronecker2 Windows版本的Stata的界面上有一级菜单行,二级菜单窗口,命令窗口,结果窗口,图形窗口,变量名窗口,已执行过的命令窗口,帮助窗口等。窗口的大小、位置可根据用户需要进行调整。 ?1.3 进入和退出Stata 一、 DOS版本的Stata的进入和退出 前已述及,要将Stata程序所在的路径放入autoexec.bat中,我们可在DOS下任何目录位置进入Stata,但我们假定d:\盘上进行。 D:\>Stata 进入Stata后,屏幕显示Stata的版本号,公司所在地等信息,Dos版本下的Stata即出现圆点提示符。这时即可键入Stata的各种命令。 若已在Stata状态读入了数据,并且已将数据按Stata指令存盘,或读入的数据虽经分析,但对数据及数据结构等未作任何修改,则只须键入: . exit 即可退出Stata。 如未将数据按Stata指令存盘,或读入的数据或数据结构已被修改(Stata的有些命令会自动修改数据结构,如按某变量排序等),这时,Stata将拒绝退出Stata状态。若确实不需要存盘而退出Stata,可键入: . e,clear (e为exit的简写)即可强行退出Stata。或分两步,即先放弃所有数据, (drop _all 再退出Stata, . exit 二、 WINDOWS版本的Stata的进入和退出 3 在桌面上双击Wstata的图标: 即可进入 Stata,并出现命令窗口。 在Stata的菜单中选 File ,再选 exit ,如数据已经存盘,则可退出Stata。如数据未存盘,则Stata给出如下提示:“Data has changed without being saved. Do you really want to exit?”(数据已改变,但未存盘,是否真的要退出,)如要退出,则按 确定 ,否则按 取消 。将数据存盘后再退出。 在WINDOWS下,亦可用DOS 的命令退出Stata。 ?1.4 Stata的数据输入与储存 Stata可以从键盘输入数据,也可以从文件读入数据。WINDOWS下的Stata还可以用Stata的数据编辑器输入、修改和管理数据。这里简单介绍如何从键盘输入数据,有关更详细的数据读入方式将在第三章中讲述。 一、 从键盘输入数据 例1.1 某实验得到如下数据 x y 1 4 2 3 4 5 5.5 6.2 7.7 8.5 进入Stata后,操作过程如下,其中划线部分为操作者输入部分。 . input x y x y 1. 1 4 2. 2 5.5 3. 3 6.2 4. 4 7.7 5. 5 8.5 6. end 用list命令可以看到输入的数据。 . list x y 1. 1 4 2. 2 5.5 3. 3 6.2 4. 4 7.7 5. 5 8.5 二、 保存数据 为了方便以后应用,输入Stata的数据应存盘。如欲将上述数据存入d:\mydata\子目录中,文件名为ex1.dta,命令为: . save d:\mydata\ex1 file d:\temp\ex1replace.dta saved 该指令在d:盘的mydata子目录中建立了一个名为“ex1.dta”的Stata格式的数据文件。后缀dta是Stata内定的数据格式文件。该格式文件只能在Stata中用use 命令打开: . use d:\mydata\ex1 如目标盘及子目录中已有相同文件名的文件存在,则该命令将给出如下信息:file d:\ mydata\ex1.dta already exists,告诉用户在该目标盘及子目录中已有相同的文件名存在。如欲覆盖已有文件,则加选择项replace。命令及结果如下: . save d:\mydata\ex1 , replace 4 file d:\temp\ex1.dta saved 这样,Stata在d:盘的mydata子目录中建立了一个名为“ex1.dta”的Stata格式数据文件,并替换了原有文件。 ?1.5 Stata的结果文件 Stata在屏幕上显示的运行结果有两种,一种是纯字符型的(如方差分析结果,回归分析结果等),一种是图形。 若要将操作过程和纯字符型结果记录下来,需事先打开一个log文件: (log using 文件名 设结果文件名为result1,则Stata自动加上后缀“.log”,亦可由用户自己加上其他后缀。执行该指令后的所有操作指令和文字结果(除help下显示的结果)将记录在结果文件“result1.log”中。若执行某一指令后的结果没有必要记录下来,则可事先用指令“log off”暂停记录,需要记录时再用“log on”继续记录,最后用“log close”关闭文件。 如果结果文件“result1.log”已经存在,用“log using result1”不能打开已有文件result1. log。如要覆盖文件result1.log,则加选择项replace。即键入: . log using result1, replace 如要在其后进行添加,则键入: . log using result1, append 文件“result1.log”可在EDIT、PE2、WPS或WORD等字处理软件下编辑、打印,也可在DOS下用type或print命令通过显示器浏览或打印机输出硬拷贝。 若要将图形结果打印下来,需要在绘图指令中加上“saving”选择项。例如,画例1.1中x与y的散点图并存入文件“ex1.gph”,可用下述指令: (graph y x , c(l) saving(d:\mydata\ex1) 这时屏幕上显示y与x的散点图,并将被存入d:\mydata\子目录中,文件名为“ex1.gph”(gph是Stata内定的图形文件后缀,用户亦可自己定义后缀名)。该图形可在Stata状态用“ graph using d:\mydata\ex1”重新显示在屏幕上,可在 File 的 Print Graph 打印,也可用打印命令“gphdot”打印。 DOS版本的Stata可在DOS提示符下用“gphdot” 命令打印: D:\MYDATA>gphdot ex1.gph 更详细的内容见第五章。 ?1.6 Stata的操作方式 Stata的操作有交互式操作和非交互式操作两种形式。 一、 交互式操作 5 在Stata状态直接键入指令,每输入一个指令,Stata执行一个,这种方式称为交互式操作。 例1.2 用例1.1数据建立回归方程。 (use ex1 (reg y x 二、 非交互式操作 若分析内容很多,有时甚至涉及到多个数据库,有几十个甚至成百个分析内容,若仍采取交互式操作,不仅要将许多时间花在等待运算结果上,而且容易漏掉一些主要的分析内容或做一些无益的重复劳动。这时最好在EDIT,PE2,WORD等文字处理下将这些指令写入一个以“do”为扩展名的命令文件(文本格式,即ASCII码),并仔细核对分析内容、命令格式,直至组织数据文件的合理性等, 修改好后再在Stata状态执行该命令文件。 例1.3 用非交互式操作对例1.1数据进行相关和回归分析。 第二步,在Stata状态键入: (do d:\mydtata\ex1.do Stata将首先打开一个名为“ex1.log”的结果文件,然后打开数据文件“ex1.dta”,画散点图并将图形存入文件“ex1.gph”,进行相关分析、回归分析,最后关闭结果文件。此时,Stata执行这些命令是自动的,不间断的。 ?1.7 Stata的帮助功能 Stata具有很强的帮助功能。帮助功能的使用有两种方式。 一是在Stata状态,需要了解某个指令的格式和功能,这时只需键入help(或按功能键F1),然后空一格键入该指令即可。例如,若需了解回归分析的指令格式,则: . help regress 则可得到帮助。 二是利用菜单,在Stata的菜单上按 Help ,出现帮助窗口。 6 此时输入需要帮助的命令关键词,如regress,按 OK 即可得到帮助。 7 如需了解Stata的全部命令,可键入help contents,可得到Stata的全部命令及其简单解释;或在帮助窗口按 Contents ,则出现如下的帮助 /* 对满足group=1条件的观察值进行分析 if group>2 /* 对满足group>2条件的观察值进行分析 if group==1 | group==2 /* 对满足group=1或group=2条件的观察值进行分析 if group~=3 /* 对满足group不等于3条件的观察值进行分析 if group==1 & sex==0 /* 对满足group=1,同时sex=0条件的观察值进行分析 /* 对观察值范围为1~25号的观察 4. in range,指定观察值的范围,对在范围 值作分析 in 26/44 /* 对观察值范围为26~44号的观察值作分析 in 26/l /* 对观察值范围为26~最后(last)的观察值作分析 in 5/l /* 对最后5个观察值进行分析 这些公共选择项在很多命令中都可选用,本 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 在介绍各命令时将省去这些公共选择项。 另外一个选择项,也可用于很多命令,它就是for。例如,在作回归分析时,自变量为x1,x2,„,x22共22变量,而因变量有y1,y2,„,y10,z1,„,z5共15个变量。欲分别建立每个因变量yi和zi与x1,x2,„,x22的回归,则需要写15个命令。而用for选择项只需一个命令即可: for y1-y10 z1-z5 : regress @ x1-x22 命令中,for 后面的变量是选定的,regress是作回归分析,@是替换符,Stata自动用for语句指定的变量逐一替换作为因变量,而自变量为x1-x22。 又如, for y* : summ @,detail 表示,对以y字母开始的变量作详细的统计描述。 第一章 数据输入,存盘和调用文件命令以及数据管理命令 [ [1] ]本 节 STATA 命 令 摘 要 8 在STATA 软 件 中 数 据 输 入 通 常 有 三 种 方 式: 键 盘 直 接 输 入, 从 外 部 的 文 本 文 件(ASC 码 文 件) 读 入 数 据 和 在DOS 环 境 下 应 用Transfer 软 件 直 接 把 Fox 或 其 他 格 式 存 盘 的 文 件 转 换 成 Stata 软 件 格 式 的 文 件。 盘 输 入 方 式: 1、 键 命 令 格 式: input 变量1 变量2 „ 变量m 例: 应 用 克 矽 平 治 疗 矽 肺 患 者 10 名, 治 疗 前 后 血 红 蛋 白 的 含 量 如 下( 数 据 摘 自 金 丕 焕 主 编 <医 用 统 计 方 法>,pp 37): 蛋 白 含 量 血 红 治疗前 113 150 150 135 128 治疗后 140 138 140 135 135 治疗前 100 110 120 130 123 治疗后 120 147 114 138 120 在 下 列STATA 操 作 中 用 变 量 x1 和 x2 分 别 代 表 治 疗 前 和 治 疗 后。 STATA 数 据 输 入 操 作 命 令: 1. 键 盘 直 接 输 入 9 2. 调 用 外 部 文 本 数 据 文 件 如果数据已经用其它软件(如:Foxbase)输入,并已以文本格式生成一个文本数据文件,并且满足上述每个记录一行和两个变量之间用空格分割的格式。则用STATA命令: infile 变量1 变量2 „ 变 量m using [路径]文本数据文件名 如:上例数据已以文本方式存在C:\user子目录中的文件ex1.txt,并满足每个记录一行和两个变量之间用空格分割的格式,则: STATA命令: infile x1 x2 using c:\user\ex1.txt 以 STATA 格 式 存 盘 save ex1 以ex1.dta为文件名在当前目录中存盘。 (因为STATA格式的数据文件的缺省扩展名为.dta) 如果ex1.dta在当前目录中已存在,并且打算把当前数据所存的文件覆盖当前目录中已存在的文件ex1.dta,则: save ex1,replace 如 果 打 算 把 ex1.dta 文 件 存 入 c:\user 子 目 录 中, 则 save c:\user\ex1.dta er\ex1.dta, replace 或 save c:\us 以 文 本 方 式 存 数 据 文 件: STATA 命 令: outfile 变量1 变量2 „ 变 量m using 路径]文本数据文件名[,replace] 子 命 令[,replace] 表 示 覆 盖 现 有 同 目 录 中 与 该 文 本 数 其 中 据 文 件 相 同 的 文 件 设 上 述 资 料 已 在STATA 状 态 下 输 入 到 计 算 机 中, 准 备 生 个 文 本 数 据 文 件 ex1.txt 并 存 入 c:\user , 则: 成 一 STATA 命 令: outfile x1 x2 using c:\user\ex1.txt 若 在 c:\user 中 已 经 有 ex1.txt, 并 打 算 用 当 前STATA 环 境 中 的 数 据 覆 盖 它。 则 outfile x1 x2 using c:\user\ex1.txt,replace 调 用 现 有 数 据 文 件( 以STATA 格 式 存 盘 的 文 件, 又 称 STATA 系 统 数 据 文 件) use [ 路 径] 文 件 名[,clear] 若当前STATA状态已调入数据,则要调入新的数据时,需要用clear子命令,表示清除原先已在计算机中的数据。 如:调用在c:\user子目录下的ex1.dtaSTATA系统数据文件,则: use c:\user\ex1 若 当 前 状 态 已 有 数 据 在 计 算 机 c:\user\ex1,clear 注意:use 与 save是一对调用STATA系统数据文件和以STATA系统格式 存盘的命令;infile 和 outfile也是一对调用外部文本数据文件和以 文 数据管理命令 产 生 新 的 变 量:STATA 命 令: gen 新变量名=表达式 10 例如:当前计算机中正处于STATA状态下,并有二个配对变量x1和x2的数据,因此需要计算两个变量的差:x1-x2,则: gen x=x1-x2 修 改 数 据:STATA 命 令: replace 变量名 = 表 达 式 [if 逻辑表达式] [in 范围] 如:变量x中所有值为999的数据是缺省资料,现改为STATA缺省值的记号,所有大于100的数据将改为2;x小于或等于100且大于5的所有数据改为1;x小于或等于5的所有数据为0。 则: replace x=. if x==999 replace x =0 if x<=5 replace x=1 if x>5 & x<=100 [2] replace x=2 if x>100 [1]、方括号[]中的子命令表示可以省略,但方括号中的子命令是处理一些特殊情况的。 [2]在逻辑表达式中:“等于”用==表示;“不等于”用~=表示;“或”用|表示;“并且”用&表示。 描述性统计命令与输出结果说明 第二章 本 节STATA 命 令 摘 要 资 料 特 征 描 述( 均 数, 中 位 数, 离 散 程 度) 例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学 并假定这些数据已以STATA格式存入ex2.dta文件中,其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为 1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。 计 算 资 料 均 数, 标 准 差 命 令 summarize, 以 述 资 料 为 例: use ex2,clear summarize x1 x2 结 果: 11 即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。 计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize以及子命令detail,仍以述资料为例: use ex2,clear summarize x1 x2,detail 结 果: 且可以得到主要的非参数描述指标:?低四分位(lowerquartile),?中位数(Median)以及?高四分位(upperquartile)。对于非正态资料,一般不应用均数?标准差进行描述,而应使用中位数以及(低四分位-高四分位,称interquartilerange,IQR)进行描述。如:若本资料不正态[1],则x1的Median以及IQR为:4.73(3.73-5.78)以及x2的Median以及IQR为:3.6(2.33-4.17)。?为样本方差;?为偏度,偏度的绝对值越小,表明该数据的正态对称性越好;?峰度,峰度值越大表明该数据的正态峰越明显;?在该数据中最小的四个数据;?在该数据中最大的四个数据。 若调用ex2a.dta文件,进行描述性统计,可用下列命令: use ex2a,clear sort group ( 将 资 料 以 group 变 量 为 例 从 小 到 大 排 序) 12 by group:summarize x 结 果: 上 述 结 果 与 前 面 的 结 果 对 应 相 同。 根 据 样 本 数 据 计 算 可 信 限 [2] 95% 可 信 限 计 算: 正 态数 据:ci 变量名 0-1 数 据:ci 变量名, binomial poisson 分 布 数 据: ci 变 量 名,poisson 90% 可 信 限 计 算( 其 它 可 信 限 类 推) 正 态数 据:ci 变量名, level(90) 0-1 数 据:ci 变量名, level(90) binomial poisson 分 布 数 据: ci 变 量 名,level(90) poisson 以 ex2.dta 为 例 计 算 x1,x2 的 95, 可 信 限。 13 结 果 中:? 为 样 本 数;? 为 均 数;? 为 标 准 误;? 为 95% 以 上 的 可 信 限, 因 此 x1 的95, 可 信 限 为[3.8356,5.5863],x2 的 95, 可 信 限 为[2.5664,4.1428]。 根 据 样 本 数, 样 本 均 数 和 标 计 算 可 信 限 [3] 。 准 差 若 数 据 服 从 正 态 分 布, 并 已 知 样 本 均 数 和 标 准 差 以 及 样 本 数, 则95, 可 信 限 计 算 为: 本 数 样 本 均 数 标 准 差[,level(#)] 例: 已 知 样 本 数 cii 样 为 90 样 本 均 数 为 40 以 及 样 本 标 准 差 为 12, 则: 计 算 该 样 数 的 95% 可 信 限 为 本 均 该 样 本 均 数 的90% 可 信 限 为 [37.48665, 42.51335] 计 数 资 料 中 频 数 和 比 例 STATA 命 令: tab1 变 量 名[,g( 新 变 量 名) 因 为 该 命 令 主 要 适 用 描 述 计 数 资 料( 即: 属 性 资 料), 当 使 用 子 命 令 g( 新 变 量), 则 产 生 属 性 指 示 变 量。 在 回 归 分 析 中 经 常 需 要 这 些 指 示 变 量 作 为 亚 元 变 量 进 行 分 析。 例:50 只 小 鼠 随 机 分 配 到 5 个 不 同 饲 料 组, 每 组 10 只 小 鼠。 在 喂 养 一 定 时 间 后, 测 定 鼠 肝 中 的 铁 的 含 量(mg/g) 如 表 所 示: 试 比 较 各 组 鼠 肝 中 铁 的 含 量 是 否 有 显 著 性 差 别( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p220)。 用 x 表 示 鼠 肝 ? 为 各 属 性 资 料 的 频 数;? 为 该 属 性 占 整 个 资 料 样 本数 的 百 分 比;? 为 累 计 百 分 比。 中, 总 样 本 数 为 50, 共 有 5 组, 每 组 有 10 个 样 本 点, 本 例 各 占 总 样 本 数 的 10%。 因 为 使 用 了 子 命 令 g(a), 从 而 产 生 5 个 指 示 变 量( 又 可 称 亚 元 变 量): a1,a2,a3,a4 和 a5。 变 量 a1 用 示 第 1 组 的 资 料: 即: 当 资 料 属 于 第 1 组 的(group=1), 则 于 指 a1=1; 其 它 组 的 资 料(group?1), 则 a1=0。 变 量 a2 用 于 指 示 第 2 资 料, 变 量 a3,a4 和 a5 相 应 分 别 指 示 第 3,4,5 组 的 资 组 的 料( 详 细 见 下 表)。 x: 2.23 1.14 2.63 1 1.35 2.01 1.64 1.13 1.01 1.70 group: 1 1 1 1 1 1 1 1 1 1 a1 1 1 1 1 1 1 1 1 1 1 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 x: 5.59 0.96 6.96 1.23 1.61 2.94 1.96 3.68 1.54 2.59 group: 2 2 2 2 2 2 2 2 2 2 a1 0 0 0 0 0 0 0 0 0 0 a2 1 1 1 1 1 1 1 1 1 1 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 x: 4.5 3.92 10.33 8.23 2.07 4.9 6.84 6.42 3.72 6 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 1 1 1 1 1 1 1 1 1 1 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 group: 3 3 3 3 3 3 3 3 3 3 x: 1.35 1.06 0.74 0.96 1.16 2.08 0.69 0.68 0.84 1.34 group: 4 4 4 4 4 4 4 4 4 4 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 1 1 1 1 1 1 1 1 1 1 a5 0 0 0 0 0 0 0 0 0 0 x: 1.4 1.51 2.49 1.74 1.59 1.36 3 4.81 5.21 5.12 group: 5 5 5 5 5 5 5 5 5 5 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 15 a5 处 仅 是 举 例 而 已, 事 实 上 该 资 料 可 1 1 1 1 1 1 1 1 1 1 [1] 此 以 用 正 态 检 验 证 明 近 似 服 从 正 态 分 布。 [2] 可 信 限 是 对 总 体 均 数 的 区 间 估 计。 例:95% 可 信 限 表 示 它 所 给 出 的 区 间 能 包 含 总 体 均 数 的 概 率 为 0.95。 通 俗 地 说: 在 同 一 个 总 体 中, 独 立 地 抽 样 100 次, 每 次 抽 取 的 样 本 量 相 同 以 及 计 算 相 应 的 95% 可 信 限, 则 平 均 有 95 次 抽 样 所 得 到 的 95% 可 信 限 所 对 应 区 间 包 含 该 总 体 均 数。 [3] 直 接 出 现 在 统 计 命 令 中 的 数 据 称 为 立 即 数, 相 应 的 命 令 称 为 立 即 命 令 第三章 正态检验与作图命令 本 节STATA 命 令 摘 要 swilk 变 量 名1 变 量 名2 „ 变 量 名m graph 变量名 [, bin(#) ] graph 变量名1 变量名2[, 连接设置 曲线上符号设置] 正 态 检 验: 在 t 检 验、 方 差 分 析、 线 性 回 归、 相 关 系 数 等 检 验 中, 都 假 设 数 据 服 从 正 态 分 布, 因 此 需 要 对 数 据 作 正 态 性 检 验。 一 般 需 要 从 频 数 分 布 直 方 图 上 考 察 数 据 是 否 偏 态 以 及 用 Shapiro-Wilk 方 法 进 行 正 态 检 验。 因 为 仅 使 用 Shapiro-Wilk 方 法 进 行 正 态 性 检 验, 虽 然 能 了 解 数 据 整 体 分 布 情 况, 但 不 能 了 解 少 量 数 据 偏 态 情 况, 而 仅 从 频 数 分 布 图 情 况 进 行 数 据 正 态 性 考 察, 往 往 不 能 客 观 地 定 性 判 断。 以 下 以 ex2.dta 数 据 为 例, 进 行 正 态 检 验。 use ex2.dta,clear swilk x1 x2 ? 是H0: 数 据 服 从 正 态 的 检 验 所 对 应 的 p 值, 若 p 值<0.05, 则 可 以 认 为 该 数 据 偏 态, 即 不 能 认 为 该 数 据 服 从 正 态 分 布。 作 直 方 图: 量 名[,bin(#1)] graph 变 其 中 #1 是 图 中 的 直 方 块 的 个 数, 缺 省 值 为 5。 作 散 点 图 和 曲 线 图: 散 点 图: graph 变 量 名1 变 量 名2 曲 线 图 (?1): m 条 graph 因变量名1 因变量名2 „ 因变量名m 自变量名 [, c(c1„cm) s(s1„sm)] c(c1„cm) 为连接设置:c1„cm 为对应m条曲线连接设置为: 接( 缺 省 值,即:散点图) . 点与点之间不 连 l 点与点之间用直线连接? L 自变量单调上升的点之间用直线连接 16 s 点与点之间用三次样条函数连接 s(s1„sm)为曲线上点符号设置, s1„sm为对应m条曲线上点的符号设置: O 大 园 (缺 省 值) S 大 方 块 T 大 三 角 形 o 小 园 d 小 菱 形 p 小 加 号 . 点 i 隐 含 例:graph y1 y2 x, c(l.) s(Od) 则:y1 与 x 的 曲 线 用 直 线 连 接 且 这 些 点 用 大 园 表 示;y2 与 x 的 曲 线 图 为 散 点 图 且 用 小 菱 形 表 示 这 些 散 点。 第四章 t检验和单因素方差分析(上) 本 节 单 样 本 t 检 验 2假 定 数 据 服 从 正 态 分 布 N(m,s), 无 效 假 设 H0: m=m0, 则 用 STATA 命 令: ttest 变 量 名=# (# 为 m0 的 值)。 例: 应 用 克 矽 平 治 疗 矽 肺 患 者 10 名, 治 疗 前 后 血 红 蛋 白 的 含 量 如 下( 数 据 摘 自 金 丕 焕 主 编 <医 用 统 计 方 法>,pp 37): 血 红 蛋 白 含 量 治疗前 113 150 150 135 128 治疗后 140 138 140 135 135 治疗前 100 110 120 130 123 治疗后 120 147 114 138 120 上 述 数 据 已 存 入ex1.dta 文 件 中( 治 疗 前 的 数 据 为 x1 以 及 治 疗 后 的 数 据 为 x2 ), 问: 患 者 治 疗 前 后 的 血 红 蛋 白 是 显 著 改 变, 否 有 先 计 算 每 个 患 者 治 疗 前 后 的 血 红 蛋 白 差: gen d=x2-x1 检 验 H0:患 者 治 疗 前 后 的 血 红 蛋 白 差 的 总 体 均 数 为 0 再 进 行 单 样 本 t 检 验 ( 若 数 据 服 从 正 态 分 布) ttest d=0 ? ? Variable | Obs Mean Std. Dev. ----------+------------------------------------------- d | 10 .6799999 1.645735 Ho: mean = 0 17 ? t = 1.31 with 9 d.f. ? Pr > |t| = 0.2237 上 述 结 果 中,? 为 患 者 治 疗 前 后 血 红 蛋 白 差 的 样 本 均 数; ? 标 准 差;? 对 应 t 统 计 量 的 样 本 值;? 为 相 应 的 p 值 [1] , 本 例 统 计 结 果( 即 配 对 t 检 验) 表 明: 现 有 资 料 不 能 表 明 患 者 治 疗 前 后 血 红 蛋 白 发 生 明 显 改 变。 配 对 t 检 验 和 两 组 t 检 验 对 于 配 对 t 检 验, 要 求 配 对 数 据 的 差 服 从 正 态 分 布。 STATA 命 令 为 ttest 变 量 名1= 变 量 名2 以 上 例 的 资 料( ex1.dta )为 例, use ex1.dta,clear 上 述 结 果 与 用 单 样 本 t 检 验 两 个 变 量 的 差 的 结 果 完 全 相 同。 对 于 两 组 数 据 的 t 检 验, 要 求 两 组 数 据 均 服 从 正 态 分 布, 两 组 数 据 的 方 差 无 显 著 性 差 异 并 且 要 求 数 据 之 间 相 互 独 立( 对 于 配 对 资 料, 因 为 配 对 可 能 引 起 数 据 之 间 相 关, 所 以 配 对 资 料 一 般 不 能 应 用 两 组 数 据 的 t 检 验)。 STATA 命 令: ttest 变 量1= 变 量2, unpaired 若 两 个 变 量 的 数 据 方 差 相 差 不 太 大, 则 可 以 用 量1= 变 量2, unequal unpaired ttest 变 例:某 地 测 定 克 山 病 患 者 与 克 山 病 健 康 人 的 血 磷 测 定 值 如 下 表( 用 变 量 x1 和 x2 分 别 表 示 患 者 和 健 康 人 的 血 磷 测 定 值, 并 已 存 入 ex2.dta 文 件 中)。 该 问 题 要 检 验 H0: 患 者 和 健 康 人 的 血 磷 测 定 值 的 总 体 均 数 是 否 相 同。 use ex2.dta, clear ttest x1=x2,unpaired ( 假 定 方 差 齐 性 和 数 据 呈 正 态 分 布) 18 ? 为 Ho 的 t 检 验 所 对 应 的 p 值。 由 患 者 的血 磷 测 定 值 的 样 本 均 数 大 于 健 康 人 的血 磷 测 定 值 的 样 本 均 数 以 及 p=0.0187(<0.05),表 明 克 山 病 患 者 的 血 磷 测 定 值 显 著 地 高 于 健 康 人 [2] 。 本 例 也 可 以 使 用 ex2a.dta 方 式 的 数 据( 在 STATA 如 何 输 入 数 据 这 一 节 中 已 描 述 过 该 文 件 的 数 据 方 式): 用 x 表 示 血 磷 测 定 值 以 及 用 分 组 变 量 group 表 示 健 康 组 (group=1) 或 患 者 组 (group=0), 则: use ex2a.dta,clear ? 表 示 分 组 变 量 group=0 和 group=1 所 对 应 的 组。 该 结 果 与 ex1.dta 文 件 的 数 据 统 计 检 验 结 果 完 全 相 同。 若 两 组 数 据 的 方 差 不 满 足 齐 性 要 求 但 两 组 方 差 相 差 不 是 太 大, 则 可 以 使 用 ttest 中 的 子 命 令:unequal. 假 设 在ex2a.dta 中 的 两 组 数 据 方 差 不 满 足 齐 性 要 求( 仅 仅 是 假 设 而 已, 实 际 上 两 组 方 差 是 齐 性 的), 则 use ex2a.dta,clear ttest x, by(group) unequal 由 于 该 统 计 检 验 是 根 据 方 差 不 齐 性 的 程 度 相 应 减 少 自 由 度, 所 以 与 方 差 齐 性 的 t 检 验 结 果 相 比, 尽 管 在 t 值 相 同 (实 际 上 两 个 统 计 检 验 t 值 计 算 公 式 非 常 接 近, 但 略 有 些 差 别), 但 两 者 自 由 度 有 所 不 同, 因 此 对 应 的 p 值 也 不 同。 据 已 知 样 本 均 数、 标 准 差 和 样 本 数 进 行 t 检 根 验 对 于 单 样 本: 若 已 知 样 本 均 数、 标 准 差 和 样 本 数, 检 验 均 数 m=m0, 则 STATA 命 令 为: 19 ttesti 样 本 数 样 本 均 数 样 本 标 准 差 # 其 中 # 为 相 应 的 m0。 例: 已 知 样 本 均 数 为 1.28, 样 本 标 准 差 为 0.92 和 样 本 量 为 21, 要 检 验 总 体 均 数 是 否 为 0.2。 结 果 表 明: t 值 为 5.38, 自 由 度 为 20,相 应 的 p<0.0001, 表 明 均 数 显 著 地 大 于 0.2。 对 于 两 组 样 本 均 数 比 较: 已 知 两 组 的 样 本 数、 样 本 均 数 和 样 本 标 准 差, 检 验 两 组 均 数 是 否 相 同, 则STATA 命 令 为: ttesti 样本数1 均数1 标准差1样本数2 均数2 标准差2 [, unequal] 例: 已 知 第 一 组 的 样 本 数 为 11, 样 本 均 数 为 10, 样 本 标 准 差 为 1.9; 第 二 组 的 样 本 数 为 14, 样 本 均 数 为 12.8, 样 本 标 准 差 为 2.3, 问 若 两 组 实 际 均 服 从 正 态 分 布, 两 组 总 体 均 数 是 否 相 同, 若 两 组 假 定 方 差 齐 性, 则: 结 果 若 两 组 方 差 不 满 足 齐 性, 则 可 以 使 用 非 齐 性 的 t 检 验: ttesti 11 10 1.9 14 12.8 2.3, unequal 结 果 表 明: 第 二 组 均 数 显 著 地 大 于 第 一 组 的 均 数。 两 组 方 差 齐 性 检 验。STATA 两 组 方 差 齐 性 检 验 的 命 令 为: 量1= 变 量2 检 验 两 个 变 量 的 方 差 是 否 相 同, sdtest 变 20 sdtest 变 量, by( 分 组 变 量) 检 验 某 变 量 的 两 组 数 据 的 方 差 是 否 相 同, 例: 以 ex2.dta 为 例, 检 验 变 量 x1 和 x2 的 方 差 是 否 相 同 (即: 齐 性), 则: use ex2.dta,clear sdtest x1=x2 ( 方 差 齐 性 检 验) ? 为 Ho 检 验 所 对 应 的 p 值( 由 于 计 算 数 值 近 似 导 致 p 值 大 于 1 的 误 差, 实 际 应 视 p 值 小 于 1 并 非 常 接 近 1)。 若 p <0.05, 则 应 认 为 x1 和 x2 的 方 差 不 齐 性。 本 例 中,p 值 远 大 于 0.05, 甚 至 接 近 1, 所 以 认 为 两 个 变 量 的 方 差 是 相 同 的。 例: 以 ex2a.dta 数 据 为 例, 检 验 变 量 x 的 两 组 方 差( 分 组 变 量 为 group) 是 否 齐 性, 则: use ex2a.dta,clear 由 于 ex2.dta 和 ex2a.dta 的 数 据 为 同 一 资 料, 仅 是 不 同 格 式 输 入 而 已, 因 此 采 用 相 应 不 同 形 式 的 方 差 齐 性 检 验 命 令, 所 以 结 果 完 全 相 同。 [1] 在 统 计 无 效 假 设 检 验 (Ho) 检 验 中, 无 论 什 么 样 的 统 计 检 验 方 法 和 什 么 样 的 无 效 假 设, 其 结 果 中 均 有 一 个 p 值。 该 p 值 表 示 假 如Ho 假 设 是 正 确 的, 而 被 错 误 地 拒 绝 该 无 效 假 设 的 概 率, 因 此 p 值 越 小, 表 明 拒 绝 Ho 而 发 生 的 机 会 越 小。 失 误 [2] 虽 然 t 检 验 本 身 仅 检 验 两 个 变 量 的 均 数 是 否 相 同 而 未 直 接 检 验 这 个 变 量 总 体 均 数 是 否 大 于 另 一 个 变 量 的 总 体 均 数, 但 是 t 检 验 统 计 量 结 果 与 这 两 个 均 数 的 差 的 95% 可 信 限 一 一 对 应: t 检 验 的 p 值<0.05, 则 对 应 个 均 数 的 差 的 95%可 信 限 不 包 含 0 点, 反 之 95% 可 信 的 两 限 不 包 含 0, 对 应 t 检 验 的 p 值 必 定 < 0.05; 若 它 们 的 样 本 均 数 的 差 < 0 以 及 t 检 验 的 p 值< 0.05, 则 95% 可 信 限 的 两 个 区 间 边 界 均 为 负 数。 由 于 95%可 信 限 是 总 体 均 数 的 区 间 估 计, 因 此 两 个 总 体 均 数 的 差 <0 的 概 率 不 小 ; 反 之 若 样 本 均 数 21 于 0.95 的 差 > 0 以 及 t 检 验 的 p 值<0.05, 则 95% 可 信 限 的 两 个 区 间 边 界 均 为 正 数,因 此 两 个 总 体 均 数 的 差 > 0 的 概 率 不 小 于 0.95。 由 两 个 总 体 均 数 之 差 大 于 0 或 小 于 0, 便 可 得 知 哪 一 个 变 量 的 总 体 均 数 更 大 一 些。 第 四 章 t 检 验 和 单 因 素 方 差 分 析 命 令 与 输 出 结 果 说 明 ?单 因 素 方 差 分 析 单 因 素 方 差 分 析 又 称 为 Oneway ANOVA, 用 于 比 较 多 组 样 本 的 均 数 是 否 相 同, 并 假 定: 每 组 的 数 据 服 从 正 态 分 布,具 有 相 同 的 方 差, 且 相 互 独 立, 则 无 效 假 设 Ho: 各 组 总 体 均 数 相 同。 在 STATA 中 可 用 命 令: oneway 观察变量 分组变量[, means bonferroni] 其 中 子 命 令 bonferroni 是 用 于 多 组 样 本 均 数 的 两 两 比 较 检 验。 例: 测 定 健 康 男 子 各 年 龄 组 的 淋 巴 细 胞 转 化 率 (%),结 果 见 表, 问: 各 组 的 淋 巴 细 胞 转 化 率 的 均 数 之 间 的 差 别 有 无 显 著 性,( 资 料 摘 自 卫 生 统 计 学, 四 川 医 学 院 主 编,p30) 健 康 男 子 各 年 龄 组 淋 巴 细 胞 转 化 率(%) 的 测 定 结 果 11-20 岁 组:58 61 61 62 63 68 70 70 74 78 41-50 岁 组:54 57 57 58 60 60 63 64 66 61-75 岁 组:43 52 55 56 60 用 变 量 x 表 示 这 些 淋 巴 细 胞 转 化 率 以 及 用 分 组 变 量 group=1,2,3 分 别 表 示 11-20 岁 组,41-50 岁 组 和 61-75 岁 组, 即: 数 据 表 示 为: 则 用 STATA 命 令: oneway x group, mean bonferroni | Summary of x group | Mean ? -------------+------------ 1 | 66.5 2 | 59.888889 3 | 53.2 -------------+------------ Total | 61.25 ? Analysis of Variance Source SS df MS F Prob > F ----------------------------------------------------------------------------------------- ? ? ? ? ? Between groups 616.311111 2 308.155556 9.77 0.0010 ? ? 22 Within groups 662.188889 21 31.5328042 ------------------------------------------------------------------------------------------ Total 1278.50 23 55.5869565 Bartlett’s test for equal variances: chi2(2) = 2.1977 Prob>chi2 = 0.333 Comparison of x by group (Bonferroni) Row Mean- | Col Mean | 1 2 -------------- --|-------------------------------------- 2 | -6.61111 | 0.054 | 3 | -13.3 -6.68889 | 0.001 0.134 ? 为 对 应 三 个 年 龄 组 的 淋 巴 细 胞 转 化 率 的 均 数;? 三 组 合 并 在 一 起 的 总 的 样 本 均 数;? 组 间 离 均 差 平 方 和; ? 组 间 离 均 差 平 方 和 的 自 由 度;? 组 间 均 方 和( 即:?=?/ ?);?组 和;? 组 值; 第 三 组 的 淋 巴 细 胞 转 化 率 样 本 均 数 - 第 一 组 的 淋 巴 细 胞 转 化 率 的 样 本 均 数 的 差; 第 三 和 第 一 组 均 数 差 的 显 著 性 检 验 所 对 应 的 p 值; 第 三 组 的 淋 巴 细 胞 转 化 率 样 本 均 数- 第 二 组 的 淋 巴 细 胞 转 化 率 的 样 本 均 数 的 差; 第 三 和 第 二 组 均 数 差 的 显 著 性 检 验 所 对 应 的 p 值。 由 上 述 结 果 可 知: 三 组 方 差 无 显 著 地 齐 性, 因 此 若 三 组 数 据 近 似 服 从 正 态 分 布, 无 效 假 设 Ho 检 验 所 对 应 的 p 值<0.01, 可 以 认 为 这 三 组 均 数 有 显 著 差 异。 由 Bonferroni 统 计 检 验 结 果 表 明: 第 一 组 淋 巴 细 胞 转 化 率 显 著 地 高 于 第 三 组 淋 巴 细 胞 转 化 率(p<0.005), 其 它 各 组 之 间 均 数 无 显 著 性 差 异。 第五章 多组计量资料比较的非参数检验命令与输出结果说明 摘 要 本 节STATA 命 令 秩 和 检 验 ( Mann,Whitney and Wilcoxon 非 参 数 检 验) 对 于 计 量 资 料 不 满 足 正 态 分 布 要 求 或 方 差 不 齐 性, 但 资 料 之 间 是 独 立 抽 取 的, 则 可 以 应 用 秩 和 检 验 方 法 样 本 进 行 比 较 两 组 资 料 的 中 位 数 是 否 有 差 异。STATA 命 令 为: 察 变 量, by( 分 组 变 量) ranksum 观 例: 研 究 不 同 饲 料 对 雌 鼠 体 重 增 加 的 关 系( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p218)。 表 中 用 x 表 示 雌 鼠 体 重 增 加( 克), 用 group=1 表 示 高 蛋 白 饲 料 组 以 及 用 group=2 表 示 低 蛋 白 饲 料 组。 23 x 134 146 104 119 124 161 group 1 1 1 1 1 1 x 97 123 70 118 101 85 group 1 1 2 2 2 2 无 效 假 设 Ho: 两 组 增 加 体 重 的 中 位 数 相 同。 ranksum x, by(group) 107 1 107 2 83 1 132 2 113 129 1 1 94 2 ? 为 第 二 组( 低 饲 料 组) 的 秩 的 和;? 若 无 效 假 设 成 立, 则 第 二 组 的 秩 的 和 期 望 值 为70;? 秩 和 统 计 检 验 量 z;? 对 于 无 效 假 设 Ho 对 应 的 p 值。 在 本 例 中, 虽 然 第 二 组 的 秩 和 为 49.5 而 期 望 值 估 计 为 70, 但 p 值 为 0.0832, 所 以 根 据 该 资 料 和 统 计 结 果 一 般 不 能 认 为 用 高 蛋 白 饲 料 喂 养 能 明 显 增 加 雌 鼠 的 体 重。 多 组 资 料 中 位 数 比 较( 完 全 随 机 化 设 计 资 料 的 检 验) 对 于 完 全 随 机 化 设 计 资 料 的 比 较, 若 各 组 资 料 不 全 服 从 正 态 分 布( 即: 至 少 有 一 组 的 资 料 均 不 服 从 正 态 分 布) 或 各 组 的 资 料 方 差 不 齐 性, 则 可 以 用 Kruskal and Wallis 方 法 进 行 检 验(Ho: 各 组 的 中 位 数 相 同)。STATA 命 令 为: kwallis 观察变量 , by(分组变量) 例:50 只 小 鼠 随 机 分 配 到 5 个 不 同 饲 料 组, 每 组 10 只 小 鼠。 在 喂 养 一 定 时 间 后, 测 定 鼠 肝 中 的 铁 的 含 量(mg/g) 如 示: 试 比 较 各 组 鼠 肝 中 铁 的 含 量 是 否 有 显 著 性 差 别表 所 ( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p220)。 用 x 表 示 鼠 肝 中 铁 的 含 量 以 及 用 group=1,2,3,4,5 分 别 表 示 对 应 的 5 个 组。 x: 2.23 1.14 2.63 1 1.35 2.01 1.64 1.13 1.01 1.70 group: 1 1 1 1 1 1 1 1 1 1 x: 5.59 0.96 6.96 1.23 1.61 2.94 1.96 3.68 1.54 2.59 group: 2 2 2 2 2 2 2 2 2 2 x: 4.5 3.92 10.33 8.23 2.07 4.9 6.84 6.42 3.72 6 group: 3 3 3 3 3 3 3 3 3 3 x: 1.35 1.06 0.74 0.96 1.16 2.08 0.69 0.68 0.84 1.34 group: 4 4 4 4 4 4 4 4 4 4 x: 1.4 1.51 2.49 1.74 1.59 1.36 3 4.81 5.21 5.12 group: 5 5 5 5 5 5 5 5 5 5 24 ? 为 各 组 的 秩 和 值;? 为 该 统 计 量 的c 检 验 值;? 为 无 效 假 设 检 验 所 对 应 的 p 值。 本 例 结 果 表 明:5 组 的 中 位 数 有 显 著 的 差 异。 即:5 个 不 同 饲 料 组 的 小 鼠 肝 脏 中 铁 的 含 量 有 显 著 差 异, 说 明 小 鼠 肝 脏 中 铁 的 含 量 与 喂 养 的 饲 料 有 关。 第 六 章 卡 方 检 验 作者:赵耐青 授权刊登:医学统计之星 本 节STATA 命 令 摘 要 [by 分层变量名:] tab2 变量1 变量2 [, all chi2 exact cell column row ] tabi #11 #12 [...] \ [#21 #22 [...] [\ ...] [, all chi2 exact cell column row] ? 列 联 表 分 析 STATA 命 令: [by 分层变量:] tab2 变量1 变量2 [,all chi2 lichi2 exact cell column row] 上述命令中,变 量 1 为 行 计 数 变 量;变 量2 为 列 计 数 变 量;all 表 示 卡 方(c2 ) 检 验, 似 然 比(likelihood ratio) 检 验 以 及 一 些 统 计 描 述 指 标 和 检 验, 但 不 包 括 Fisher 精 确 检 验; exact 表 示 Fisher 精 确 检 验;chi2 表 示 c2 检 验;lichi2 表 示 likelihood ratio 检 示 输 出 的 列 联 表 中 显 示 每 个 观 察 计 数 值 占 该 列 验;cell 表 联 表 总 观 察 计 数 值 的 比 例;row 表 示 输 出 的 列 联 表 中 显 示 每 个 观 察 计 数 值 占 该 观 察 计 数 值 所 在 行 的 各 观 察 计 数 值 总 数 的 比 例; coloumn 表 示 输 出 的 列 联 表 中 显 示 每 个 观 察 计 数 值 占 该 观 察 计 数 值 所 在 的 列 各 观 察 计 数 值 总 数 例。 的 比 例: 某 地 调 查 肝 癌 病 人 与 健 康 人 饮 用“ 醋 冷 水”( 一 种 以 冷 水 和 醋 为 主 要 成 分 的 饮 料) 的 习 惯。 用 group=1 表 示 肝 癌 组 患 者 和group=2 表 示 健 康 人; 用 custom=1 表 示 经 常 饮 用 醋 custom=2 表 示 偶 尔 饮 用 醋 冷 水 和custom=3 表 示 从 不 饮 冷 水; 用 醋 冷 水。 具 体 资 料 为:( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p163)。 组 别 经 常 偶 尔 从不饮用 合计 肝 癌 组 26 44 28 98 健 康 组 28 49 17 94 合 计 54 93 45 192 显 然 这 是 一 个 病 例 对 照 研 究, 所 以 每 组 人 数 是 人 为 确 定 的, 因 此 只 需 计 算 各 组 "经 常"," 偶 而" 和 "从 不 饮 用" 占 本 组 的 频 数 以 及 检 验 患 肝 癌 是 否 与 饮 水 习 惯 有 关。 tab2 group custom, row chi2 25 -> tabulation of group by custom | custom group | 1 2 3 | Total -----------+--------------------------------------------+---------- 1 | ? 26 44 28 | 98 | ? 26.53 44.90 28.57 | 100.00 -----------+--------------------------------------------+---------- 28 49 17 | 94 2 | ? | ? 29.79 52.13 18.09 | 100.00 -----------+--------------------------------------------+---------- Total | ? 54 93 45 | 192 | ? 28.12 48.44 23.44 | 100.00 Pearson chi2(2) = 2.9497 Pr = 0.229 ? 该 行 表 示 第 一 组( 肝 癌 组) 的 3 个 观 察 数;? 该 行 表 示 第 一 组 的 各 个 观 察 数 的 占 第 一 组 观 察 总 数 的 百 分 比;? 表 示 第 二 组( 健 康 组) 的 3 个 观 察 数;? 该 行 表 示 第 二 该 行 组 的 各 个 观 察 数 的 占 第 二 组 观 察 总 数 的 百 分 比;? 该 行 表 示 关 于 饮 用 醋 冷 水 习 惯 的 三 个 分 类:“ 经 常”, “偶 尔” 和 “ 从 不” 的 合 计 数;? 该 行 表 示 上 述 三 个 合 计 数 分 别 占 总 样 本 数 的 百 分 比。 从 上 述 结 果 可 知: 卡 方 值 为2.9497 以 及 自 由 度 为 2,p 为 0.229, 所 以 根 据 当 前 资 料 和 结 果 显 示: 患 肝 癌 病 与 是 否 饮 用 醋 冷 水 无 关。 ? 列 联 表 分 析 也 可 以 用 立 即 命 令 执 行: tabi #11 #12 [...] \ [#21 #22 [...] [\ ...] [, all chi2 exact cell column row] #11 表 示 列 联 表 中 第 一 行 第 一 列 的 观 察 数;#12 表 示 列 联 表 中 第 一 行 第 二 列 的 观 察 数;\ 表 示 换 一 行;#21 表 示 列 联 表 中 第 二 行 第 一 列 的 观 察 数, 其 它 以 此 类 推。 子 命 令: all chi2 exact cell column row 与 上 述 命 令 完 全 相 同。 以 上 例 的 资 料 为 例: 相 应 的STATA 命 令 为: tabi 26 44 28 \ 28 49 17, chi2 lichi2 | col row | 1 2 3 | Total ----------- +----------------------------------+---------- 1 | 26 44 28 | 98 | 26.53 44.90 28.57 | 100.00 -----------+----------------------------------+---------- 2 | 28 49 17 | 94 | 29.79 52.13 18.09 | 100.00 -----------+----------------------------------+---------- 26 Total | 54 93 45 | 192 | 28.12 48.44 23.44 | 100.00 Pearson chi2(2) = 2.9497 Pr = 0.229 likelihood-ratio chi2(2) = 2.9760 Pr = 0.226 两 种 方 法 结 果 对 应 相 同。 另 外 数 学 上 可 以 证 明: 当 大 样 本 是,卡 方 检 验(Pearson chi2 test) 与 似 然 比 检 验(likelihood ratio chi2 test) 趋 向 一 致。 ? Fisher 精 确 检 验 例: 用 新 旧 两 种 药 治 疗 某 种 疾 病( 资 料 如 下 表 所 示), 试 问: 两 药 对 该 病 的 治 愈 率 是 否 不 同,( 资 料 摘 自 医 学 卫 生 金 丕 焕 主 编,p165) 统 计, 表 中 括 号 中 的 数 为 理 论 数 ( 即:两 种 药 的 疗 效 无 差 异 的 无 效 假 设Ho 成 立 时 的 期 望 频 数)。 由 于 理 论 数 均 小 于 5, 故 必 须 用 Fisher 精 确 检 验 法。 相 应 的STATA 命 令 为: tabi 4 2\0 5,exact col row | col row | 1 2 | Total ------------+--------------------------+---------- 1 | 4 2 | 6 | 66.67 33.33 | 100.00 | 100.00 28.57 | 54.55 -----------+---------------------------+---------- 2 | 0 5 | 5 | 0.00 100.00 | 100.00 | 0.00 71.43 | 45.45 -----------+----------------------------+---------- Total | 4 7 | 11 | 36.36 63.64 | 100.00 | 100.00 100.00 | 100.00 ? Fisher’s exact = 0.061 ? 1-sided Fisher’s exact = 0.045 ? 为 双 侧 Fisher 检 验;? 单 侧 Fisher 检 验 在 Fisher 精 确 检 验 中, 假 定 每 列 和 每 行 的 合 计 数 都 是 常 数 情 况 下, 计 算 相 应 概 率。 在 本 例 中, 单 侧 Fisher 检 验 要 计 算 下 表 的 概 率: 27 4 4 2 5 7 6 5 11 双 侧 Fisher 检 验 是 考 虑 可 能 新 药 优 于 旧 药, 也 可 能 旧 药 新 药 的 情 况。 以 新 药 治 愈 人 数 为 例: 观 察 数- 理 论 数优 于 = 5-3.2=1.8,因 此 要 考 虑 观 察 数 大 于 理 论 数 的 差 是 考 虑 抽 样 误 差 引 起 的, 所 以 不 仅 要 计 算 所 有 观 察 数- 理 论 数(3.2) 大 于1.8 的 p 值 [1] , 还 要 计 算 所 有 理 论 数(3.2)- 观 察 数 大 于 1.8 的 p 值。即: 计 算 所 有 | 理 论 数- 观 察 数 | >1.8 的 p 值 的 和, 因 此 在 每 列 和 每 行 的 合 计 数 都 是 常 数 情 况 的 假 定 下, 还 有 一 种 情 况 满 足 理 论 数(3.2)- 观 察 数 大 于 1.8 : 0 6 6 4 1 5 4 7 11 所 以 本 例 Fisher 双 侧 检 验 的 p 值 为 0.04545+0.01515?0.061。 ? 由 于 Fisher 检 验 是 在 每 列 和 每 行 的 合 计 数 都 是 常 数 的假 定 下 的 精 确 检 验, 而 对 于 一 般 的 研 究: 如 病 例 对 照( 仅 病 例 组 和 对 照 组 的 人 数 是 常 数, 即:仅 每 行 的 合 计 数 是 常 数), 横 断 面 抽 样 调 查( 样 本 总 数 是 常 数), 所 以 对 于 不 满 足 每 列 和 每 行 的 合 计 数 都 是 常 数 假 定 的 资 料 而 言, Fisher 检 验 也 是 一 种 近 似 检 验。 -------------------------------------------------------------------------------- [1] 本例中只有上述的这张表的情况,所以单侧 Fisher 检验仅计算该表的 p 值:观察数-理论数>1.8的 p值, 类似 t 检验:单侧检验的 p 值为 t分布曲线下大于 t 样本计算值的面积,双侧检验的 p 值为 t 分布曲线下大于 t 样 本计数值的面积和小于 -t 样本计数值的面积之和,而 Fisher 双侧检验:计算 |观察剩-理论数|>1.8 的 p 值的和。 即:在本例中,观察数-理论数=1.8相应 t 检验中的 t 样本计算值。 章 相 关 分 析 第 七 本 节 28 线 性 关 系 的 相 关 分 析 若 计 量 资 料 变 量1,„, 变 量m 服 从 正 态 分 布, 对 于 它 们 之 间 是 否 存 在 线 性 相 关 关 系 可 以 通 过 相 关 分 析 方 法, 相 应 的 STATA 命 令 为: pwcorr 变量名1 变量名2 „ 变量名m, sig 例: 上 海 医 科 大 学 儿 科 医 院 研 究 某 种 代 乳 粉 的 营 养 价 值 时, 用 大 白 鼠 作 试 验, 得 大 白 鼠 进 食 量( 克) 和 增 加 体 重( 克) 之 间 的 关 系 的 原 始 数 据 如 下 表, 用 x 表 示 大 白 鼠 进 食 量 和 用 y 表 示 大 白 鼠 增 加 体 重,试 作 相 关 分 析( 资 料 摘 自 医 学 统 计 分 析, 金 丕 焕 主 编,p101)。 作 关 于 x 和 y 相 关 分 析 pwcorr x y,sig | x y ---------------+----------------------------- x | 1.0000 | | y | ? 0.9395 1.0000 | ? 0.0001 | ? 为 x 和 y 的 相 关 系 数 r。 ? 为 相 关 系 数 显 著 性 检 验(Ho:r=0) 所 对 应 的 p 值。 因 此 根 据 本 例 资 料 和 上 述 结 果 可 以 认 为 大 白 鼠 进 食 量 与 大 白 鼠 体 重 增 加 呈 线 性 正 相 关( 若 数 据 x 和 y 服 从 正 态 分 布)。 秩 和 相 关 分 析 由 于 以 上 的 相 关 分 析 中, 要 求 数 据 x 和 y 均 服 从 正 态 分 布,但 是 对 于 那 些 不 能 满 足 正 态 分 布 的 数 据 之 间 的 相 析 应 采 用 非 参 数 相 关 分 析, 通 关 分 常 采 用 秩 和 相 关 分 析, 即: Spearman 相 关 分 析 方 法。STATA 命 令 为: spearman 变 量1 变 量2 例 资 料 为 例, 作 秩 和 相 关 分 析: ? 为关 显 著 性 检 验 以 上 所 对 应 的 p 值。 由 上 述 结 果 表 明:Spearman 相 关 系 数 为 应 的 p 值 为 0.0004, 因 此 由 本 例 资 料 和 检 验 结 果 0.8994, 相 可 以 认 为 大 白 鼠 进 食 量 与 大 白 鼠 体 重 增 加 呈 正 相 关。 第 八 章 单 因 素 生 存 分 析 本 节单 因 素 生 存 分 析 29 在 医 学 研 究 中, 除 了 计 量 资 料 和 计 数 资 料 外, 还 经 常 遇 到 生 存 分 析 的 资 料, 这 种 资 料 不 仅 描 述 所 观 察 对 象 是 否 有 结 果( 死 亡 或 没 死 亡 以 及 失 访) 而 且 还 记 录 了 从 观 察 开 始 起 至 观 察 结 束 的 时 间 长 度。 这 种 资 料 容 许 失 访 资 料 参 加 分 析。 因 此 这 类 资 料 至 少 需 要 用 两 个 变 量: 观 察 时 间 的 长 短 以 及 结 束 观 察 时 的 结 果 变 量( 死 亡 或 未 死 亡), 失 访 资 料 记 录 了 从 开 始 观 察 至 到 失 访 时 的 观 察 时 间 长 短 以 及 失 访 结 果 作 为 未 死 亡 的 情 况( 因 为 在 失 访 前, 还 未 死 亡)。 这 类 资 料 的 两 组 的 单 因 素 生 存 分 析 应 采 用 时 序 检 验 的 方 法, 一 般 采 用 log rank 检 验 方 法( 无 效 假 设:两 组 死 亡 人 数 的 期 望 值 相 同)。 STATA 命 令 为: logrank 生存时间变量 结果变量[,by(分组变量)] 例:25 例 某 种 癌 症 患 者 在 不 同 日 期 经 随 机 化 分 配 到 A、B 两 治 疗 组, 并 继 续 进 行 随 访 至 1974 年5 月31 日 结 束, 资 料 如 下 表 所 示, 并 用 group=0 表 示 A 组 和 group=1 表 示 B 组;t 表 示 参 加 试 验 的日 数( 观 察 时 间 的 长 短);outcome=0 表 示 未 死 亡 或 失 访 以 及 outcome=1 表 示 患 者 死 亡, 并 存 入 ex7.dta 文 件。试 比 较 两 组 的 疗 效。 group 0 0 0 0 0 0 0 t 8 852 52 220 63 8 1976 outcome 1 0 1 1 1 1 0 group 0 0 0 0 0 1 1 t 1296 1460 63 1328 365 180 632 outcome 0 0 1 0 0 1 1 group 1 1 1 1 1 1 1 t 2240 195 76 70 13 1990 18 outcome 0 1 1 1 1 0 1 group 1 1 1 1 t 700 210 1296 23 outcome 1 1 1 1 logrank t outcome, by(group) 计 量 的 卡 方 值;? 无 效 假 设Ho 的 logrank 检 验 所 ?logrank 统 对 应 的 p 值。 由 上 述 统 计 结 果 表 明: 两 组 死 亡 人 数 期 望 值 无 显 著 性 差 异, 因 此 根 据 本 例 的 资 料 和 检 验 结 果 表 明: 可 以 认 为 两 组 疗 效 无 显 著 性 差 异。 第 九 章 多因素方差分析命令与输出结果说明 本 节 30 在 anova 命 令 中 分 组 变 量 可 以 是 其 它 分 组 变 量 的 乘 积 表 达 式, 如: 分 组 变 量1* 分 组 变 量2。 例: 治 疗 缺 铁 性 贫 血 病 人 12 例, 分 为 4 组,采 用 4 种 不 同 治 疗 方 法, 一 个 月 3后 观 察 红 细 胞 增 加 数 (百 万/mm)。 第 一 组 为 一 般 疗 法( 称 一 般 疗 法 组);第 二 组 为 一 般 疗 法+A 药( 称 +A 药 组);第 三 组 为 一 般 疗 法+B 药( 称 +B 药 组); 第 四 组 为 一 般 疗 法+A 药+B 药( 称+A+B 药 组)。 观 察 指 标 为 红 细 胞 增 加 数( 用 y 表 示)。 用 X1=2 表 示 加 用 A 药 以 及 用 X1=1 表 示 未 加 用 A 药; 用 X2=2 表 示 加 用 B 药 以 及 用 X2=1 表 示 未 加 用 B 药;研 究 问 题 为“ 哪 一 种 治 疗 方 案 疗 效 最 佳,"( 资 料 如 下 表 所 示, 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p71)。 首 先 计 算 各 组 的 均 数 和 相 应 的 标 准 差: tabulate x1 x2 ,summarize(y) ? 为 该 组 的 红 细 胞 增 加 数 的 平 均 数;? 为 该 组 的 红 细 胞 增 加 数 的 标 准 差;? 为 该 组 的 样 本 数; 其 它 各 组 的 结 果 应 相 同。 也 对 以 上 结 果 显 示: 仅 加 A 药, 红 细 胞 增 加 数 平 均 值 比 一 般 多 0.4(百万/mm3); 仅 加 B 药, 红 细 胞 增 加 数 平 均 值 比 一 疗 法 般 疗 法 多 0.2(百万/mm3);加 A 药 且 加 B 药, 红 细 胞 增 加 数 平 均 值 比 一 般 疗 法 多 1.3(百万/mm3), 超 过 了 单 独 加 A 药与 一 般 疗 法 的 红 细 胞 增 加 数 均 数 差 值(0.4百万/mm3) 与 单 独 加 B 药与 一 般 疗 法 的 红 细 胞 增 加 数 均 数 差 值(0.2百万/mm3)之 和(0.6百万/mm3), 因 此 需 要 用 二 因 素 方 差 分 析 的 方 法 检 验 这 些 不 同 的 治 疗 方 法 所 对 应 不 同 的 红 细 胞 增 加 数 是 否 有 显 著 性 差 异, 31 ? 离 ? 加 A 药;? 加 B 药;? 加 A 药 且 加 B 药( 交 互 项); ?误 差 项; 所 有 因 素 的 变 异 度 之 和 以 及 对 应 的 统 计 量 和 检 验 值。 由 上 述 结 果 显 示 交 互 项 有 显 著 性(p=0.0003), 说 明: 加 A 药 且 加 B 药 具 有 协 同 作 用, 即: 其 疗 效 显 著 地 超 过 了 分 别 加 A 药 和 加 B 药 疗 效 之 和。 回第八章 回教程首页 到第十章 第十章 线性回归和逐步回归命令和输出结果说明 作者:赵耐青 授权刊登:医学统计之星 本 节STATA 命 令 摘 要: regress 命 令 表 示 作 线 性 回 归, 其 子 命 令 beta 表 示 得 到 的 回 归 系 数 为 标 化 的 回 归 系 数( 即: 无 量 纲)。stepwise 命 令 表 示 作 逐 步 线 性 回 归, 其 子 命 令:ba 表 示 后 退 法 筛 选 自 变 量;form 表 示 向 前 法 筛 选 自 变 量;st 表 示 前 进 后 退 法 筛 选 示 在 筛 选 变 量 中, 变 量 选 入 模 型 的 F 统 计 量 变 量;fe(#) 表 的 临 界 值(#), 在STATA 中, 其 缺 省 值 为 0.5, 最 大 设 置 值 不 要 大 于 4;fs(#) 表 示 在 筛 选 变 量 中, 变 量 从 模 型 中 剔 除 的 F 统 计 量 的 临 界 值(#), 在STATA 中, 其 缺 省 值 为 0.1,最 大 设 置 值 不 要 大 于 4。test 用 于 检 验 回 归 系 数 的 表 达 式, 如: 某 两 个 回 归 系 数 是 否 相 等。 predict 新 变 量 是 根 据 线 性 回 归 方 程 计 算 每 个 自 变 量 记 录 所 对 应 的 y 值( 一 些 文 献 上 称 预 测 值 和 期 望 估 计 值)。predict 新 变 量,resi 计 算 残 差 值。 变 量,stdp predict 新 是 计 算 因 变 量 y 的 总 体 均 数 估 计 的 标 准 误( 不 同 的 自 误 也 不 同)。predict 新 变 量,stdr 是 计 算 因 变 量 值, 该 标 准 变 量 y 的 预 测 值 的 标 准 误。 例: 对 15 名 对 象 的 血 浆 粘 度(Y) 及 其 3 个 血 浆 成 分: 白 蛋 白(x1), 球 蛋 白(x2) 和 纤 维 蛋 白 原(x3) 进 行 测 定, 试 建 立 多 元 线 性 回 归 方 程。 其 数 据 如 下 表( 数 据 摘 自 医 用 多 元 统 计 分 析, 曹 素 华 主 编): 编 号 y x1 x2 x3 1 1.73 4500 1500 1000 2 1.47 4200 1400 360 3 1.50 2700 1900 280 4 1.47 5200 1000 156 32 5 6 7 8 9 10 11 12 13 14 15 1.46 1.56 1.49 1.40 1.46 1.38 1.66 1.57 1.90 1.20 2.20 3700 4200 1700 4650 5900 3840 3800 5300 4090 3500 3000 2300 1770 2100 950 1550 1410 2650 1900 1820 1700 1790 207 355 578 231 416 391 515 435 357 300 820 ? 离 均 差 平 方 和;? 自 由 度;? 均 方 差; ? 模 型 回 归 系 数 全 为 0 的 无 效 假 设 检 验 对 应 的 F 值;? 为 F 检 验 相 应 的 p 为 回 归 项: 对 应 为 回 归 平 方 和 和 回 归 均 方 差;? 残 值; ? 差 项, 对 应 为 残 差 平 方 和、 残 差 自 由 度 和 残 差 均 方 和;? 为 决 定 系 数;? 为 调 整 自 由 度 后 的 决 定 系 数; 为 残 差 均 方 和 的 根 号; 回 归 系 数; 回 归 系 数 的 标 准 误; 回 归 系 数 检 验 的 t 值; 回 归 系 数 检 验 相 应 的 p 值; 回 归 系 数 信 限。 的 95% 可 线 性 回 归 模 型 假 定 残 差 呈 正 态 分 布 其 齐 性, 独 立 于 所 有 回 归 自 变 量, 因 此 应 对 残 差 作 正 态 性 检 验 和 残 差 分 析, 由 于 这 部 分 以 本 例 数 据 介 绍 逐 步 线 性 回 归 分 析, 设 筛 选 变 量 进 入 模 型 的 F 值 等 于 变 量 从 模 型 中 剔 除 的 F 值, 并 均 为 1.5, 其 输 出 y x1 x2 x3, fe(1.5) fs(1.5) 33 ? 为 在 筛 选 变 量 中 剔 除 x1 的 F 检 验 值。 predict yhat 计 算 因 变 量 预 测 值 yhat predict e, resi 计 算 残 差 e predict ymuse, stdp 计 算 因 变 量 总 体 估 计 的 标 准 误 predict yhatse, stdr 计 算 因 变 量 预 测 值 的 标 准 误 非 条 件 logistic 回 归 命 令 为 logistic,logistic 回 归 模 型 要 求 因 变 量 为 0-1 变 量。 即: 要 求 结 果 为 两 种 情 况: 发 生( 因 变 量=1) 或 未 发 生( 因 变 量=0)。 结 果 为 发 生 的 模 型 表 达 式 为: 以 及 其 中 参 数 , 由 上 式 可 得: P(Y=0)=1-P(Y=1) 所 以 对 因 变 量 而 言,logistic 模 型 本 质 上 是 一 个 带 参 数 的 分 布 的 模 型, x1,x2,„,xm 为 协 变 量, 用 这 些 协 变 量 刻 二 项 划 研 究 问 题 中 的 各 种 情 况, 再 由 这 些 协 变 量 构 成 的 线 性 表 达 式 作 为 模 型 的 参 数 对 应 这 些 相 应 的 发 生 概 率 P(Y=1)。lfit 是 模 型 适 定 性 诊 断 命 令;clogit 是 条 件 logistic 回 归 命 令。 了 分 析 研 究 一 组 病 患 者, 经 治 疗 后 的 病 情 恢 复 情 例: 为 况。 设 变 量 Y 为 恢 复 状 况 (Y=0 表 示 未 恢 复,Y=1 表 示 恢 复), 变 量 x1 为 病 情 严 重 程 度 (x1=0 表 示 不 严 重,x1=1 表 示 严 重), 变 量 x2 为 年 龄( 岁), 变 量 x3 为 疗 法 (x3=0 表 示 新 疗 法,x3=1 表 示 传 统 疗 法)。 现 测 得 40 名 病 人 有 关 的 数 据 资 料 如 下, 试 作 非 条 件 logistic 回 归 分 析( 资 料 摘 自 医 用 多 元 统 计 分 析 教 材, 曹 素 华 主 编)。 34 编 号 Y x1 x2 x3 编 号 Y x1 x2 x3 1 1 0 20 1 21 0 0 34 1 2 1 0 23 1 22 0 0 30 1 3 1 0 32 1 23 0 0 38 1 4 1 0 38 1 24 0 0 37 1 5 1 1 25 1 25 0 1 24 1 6 1 0 20 0 26 0 1 25 1 7 1 0 24 0 27 0 1 29 1 8 1 0 28 0 28 0 1 32 1 9 1 0 30 0 29 0 1 34 1 10 1 0 32 0 30 0 1 37 1 11 1 0 38 0 31 0 1 40 1 12 1 1 26 0 32 0 1 40 1 13 1 1 29 0 33 0 0 33 0 14 1 1 34 0 34 0 0 36 0 15 1 1 33 0 35 0 1 24 0 16 1 1 38 0 36 0 1 34 0 17 1 1 40 0 37 0 1 32 0 18 0 0 22 1 38 0 1 36 0 19 0 0 26 1 39 0 1 38 0 20 0 0 29 1 40 0 0 39 0 例 中, 结 果 本 例 虽 然 不 是 死 亡 或 生 存 变 量, 当 与 此 在 本 对 应:Y=1 恢 复 对 应 死 亡;Y=0 未 恢 复 对 应 生 存( 即: 结 果 为 没 有 发 生 变 化)。 logistic y x1 x2 x3 ( 其 自 由 度 为 协 变 量 个 数 的卡 方); ? 模 型 无 效 假 设 检 验 对 应 的 p 值;? 对 数 似 然 比;? 伪 决 定 系 数;? 比 数 比;? 比 数 比 的 标 准 误;? 单 个 比 数 比 检 验 的Z 统 计 量;? 单 个 比 数 比 检 验 的 p 值;? 比 数 比 的 95% 可 信 限。 本 例 结 果 表 明: 通 过 平 衡 病 情 严 重 程 度 x1 和 年 龄 x2 的 混 杂 因 素 影 响, 传 统 疗 法(x3=1) 对 于 恢 复 和 未 恢 复 的 比 数(Odds) 显 著 地 小 于 新 疗 法(x3=0) 的 恢 复 和 未 恢 复 的 比 数(Odds) ( 比 数 比 OR=0.14127,p=0.015)。 条 件 logistic 回 归 模 型( 即: 配 对 logistic 模 型) STATA 命 令: clogit 因 变 量 变量1 变量2„ 变量m,strata( 配对编号变量) [or] 35 因 变 量 为 二 值 变 量 Y (一 般 为 发 病 Y=1 和 不 发 病 Y=0, 也 可 以 其 它 类 似 情 况 与 其 对 应),变量1 变量2„ 变量m 为 协 变 量。 在 配 对 1:1 的 条 件 下, 发 病 的 概 率 为: 其 中 为 患 者 的 协 变 量, 为 对 照 的 协 变 量, 为 模 型 参 数,即:要 有 数 据 对 模 型 拟 合 才 能 得 到 的 这 些 的 参 数 估 计 值。 例: 为 了 研 究 胃 癌 的 危 险 因 素, 某 医 学 院 用 103 对 1:1 配 对 的 病 例 对 照 资 料, 对 胃 癌 发 病 概 率 和 七 个 因 素 的 关 系 进 行 条 件 logistic 回 归 分 析。 这 里 仅 选 其 中 10 对 三 个 因 素 资 料( 见 表), 试 作 胃 癌 发 病 概 率 和 这 三 个 因 素 的 条 件 logistic 回 归 分 析。 变 量 定 义(data coding) x1 0 2 1 0 1 0 3 2 2 0 x2 2 0 1 0 1 0 3 2 2 0 x3 2 0 1 0 2 0 2 0 2 0 数 据:( 资 料 摘 自 医 用 多 元 统 计 分 析, 曹 素 华 主 编) id y x1 x2 x3 id y 1 1 1 3 0 6 1 1 0 1 0 1 6 0 2 1 0 3 1 7 1 2 0 1 3 0 7 0 3 1 0 1 2 8 1 3 0 0 2 0 8 0 4 1 1 2 0 9 1 4 0 1 0 0 9 0 5 1 1 1 1 10 1 5 0 1 2 1 10 0 36 ? 为 模 型 无 效 假 设( 即: 所 有 协 变 量 的 回 归 系 数 为 0) 所 对 应 的 似 然 比 检 验 ( 自 由 度 为 协 变 量 个 数 的卡 方); ? 模 型 无 效 假 设 检 验 对 应 的 p 值;? 对 数 似 然 比;? 伪 决 定 系 数;? 回 归 系 数;? 回 归 系 数 的 标 准 误;? 单 个 回 归 系 数 检 验 的Z 统 计 量;? 单 个 回 归 系 数 检 验 的 p 值;? 回 归 系 数 的 95% 可 信 限。 clogit y x1 x2 x3,strata(id) or ? 为 模 型 无 效 假 设( 即:所 有 协 变 量 的 比 数 比 OR 均 为 1) 所 对 应 的 似 然 比 检 验 量( 其 自 由 度 为 协 变 量 个 数 的卡 模 型 无 效 假 设 检 验 对 应 的 p 值;? 对 数 似 然 比;? 伪 方); ? 决 定 系 数;? 协 变 量 所 对 应 的 OR;? 相 应 的 OR 标 准 误;? 单 个 OR=1 检 验 的 Z 统 计 量;? 单 个 OR=1 检 验 的 p 值;? 95% 可 信 限。 OR 的 条 件 logistic 模 型 回 归 的 参 数 意 义 与 非 条 件 logistic 模 型 回 归 的 参 数 对 应 相 同, 所 以 条 件 logistic 模 型 的 回 归 结 果 的 解 释 和 讨 论 可 参 照 非 条 件 logistic 模 型 的 方 法 进 行。由 于 本 例 样 本 太 小, 因 此 似 然 比 模 型 检 验 和 单 个 参 数 检 验 的 误 差 太 大, 难 以 对 其 结 果 加 以 评 述。 给 出 本 例 的 主 要 目 的 是 要 告 诉 读 者: 配 对 logistic 模 型 的 数 据 形 式 和 结 构, 输 出 结 果 的 各 项 指 标 的 统 计 意 义。 配 对 logistic 模 型 适 用 于 病 例 对 照 研 究 和 其 它 配 对 研 究。 配 对 比 例 可 以 是 1:1, 也 可 以 是 r:1 或 1:r。 对 于 每 对 资 料 对 应 的 模 型 为: 第十二章 Cox回归分析命令与输出结果说明 cox 生存时间变量 变量1 变量2„ 变量m,dead( 结 果 变 量) [hr] 生 存 时 间 变 量 是 指 从 随 访 或 进 入 研 究 开 始 至 死 亡 或 失 访 或 研 究 结 束 等 一 切 非 死 亡 的 终 止 观 察 的 时 间 段; 结 果 变 量 为 0-1 变 量: 死 亡 记 为1, 失 访 等 非 死 亡 终 止 为 0;hr 设 置 为 得 到 各 变 量 的 风 险 比(hazard ratio) 估 计 值。 例: 为 研 究 某 种 药 物 是 否 会 改 进 急 性 白 血 病 患 者 的 预 后( 用 y=1 表 示 因 复 发 而 结 束 该 对 象 随 访;y=0 表 示 结 束 该 对 象 随 访 时 包 括 失 访 和 其 它 原 因 而 失 去 联 系, 患 者 仍 处 缓 解 期)、 延 长 其 缓 解 时 间, 将 确 证 病 人 给 予 随 机 分 组: 一 组 为 用 药 组( 传 统 治 疗 加 某 药,group=1 表 示), 另 一 组 作 对 照 组( 传 统 治 疗, 用 group=0 表 示)。 治 疗 前 测 得 白 血 球 计 数 为(wbc), 经 一 定 的 时 间 随 访, 白 血 病 患 者 的 缓 解 时 间 如 下 表, 试 问: 哪 一 种 治 疗 方 法 可 以 使 白 血 病 患 者 37 的 缓 解 期(t, 单 位 为 周) 更 长 一 些( 摘 自 医 学 多 元 统 计 分 教 材, 曹 素 华 主 编), 析 为 了 避 免 受 过 大 值 的 影 响, 实 际 拟 合 模 型 中,wbc 数 据 取 记 为 wbc0。 即: 对 数, gen wbc0=log(wbc) cox t wbc0 group, dead(y) Cox regression Number of obs = 42 ? chi2(2) = 42.25 ? ? Prob > chi2 = 0.0000 Log Likelihood = -72.857682 ? Pseudo R2 = 0.2248 ------------------------------------------------------------------------------------------- t | ? ? ? ? ? y | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+--------------------------------------------------------------------------------- wbc0 | .7092469 .1498433 4.733 0.000 .4155595 1.002934 group | -1.158699 .4270903 -2.713 0.007 -1.995781 -.3216175 ------------------------------------------------------------------------------------------- ? 为 模 型 无 效 假 设( 即: 所 有 协 变 量 的 回 归 系 数 为 0) 所 对 应 的 似 然 比 检 验( 自 由 度 为 协 变 量 个 数 的卡 方); ? 模 型 无 效 假 设 检 验 对 应 的 p 值;? 对 数 似 然 比;? 伪 决 定 系 数;? 回 归 系 数;? 回 归 系 数 的 标 准 误;? 单 个 回 归 系 数 检 验 (Ho:该 回 归 系 数 为 0)的Z 统 计 量;? 单 个 回 归 系 数 检 验 的 p 值;? 回 归 系 数 的 95% 可 信 限。 相 对 风 险 度 形 式: cox t wbc0 group, dead(y) hr Cox regression Number of obs = 42 chi2(2) = 42.25 38 Prob > chi2 = 0.0000 Log Likelihood = -72.857682 Pseudo R2 = 0.2248 ------------------------------------------------------------------------------------------- t | ? ? ? ? ? y | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] ----------+-------------------------------------------------------------------------------- bwc0 | 2.03246 .3045504 4.733 0.000 1.515218 2.72627 group | .3138942 .1340612 -2.713 0.007 .1359075 .7249754 ------------------------------------------------------------------------------------------- ? 相 对 风 险 度;? 相 对 风 险 度 的 标 准 误;? 单 个 相 对 危 险 度 检 验 (Ho:该 相 对 危 险 度 为 1)的Z 统 计 量;? 该 相 对 危 险 度 检 验 的 p 值;? 该 相 对 危 险 度 的 95% 可 信 限。 著 地 增 加 复 发 的 本 例 结 果 表 明: 白 血 球 计 数 升 高 将 显 风 险 (p<0.001); 在 平 衡 了 个 体 白 血 球 计 数 差 异 所 产 生 的 效 应 后,该 药 物 治 疗 组 的 患 者 复 发 的 风 险 显 著 地 小 混 杂 于 对 照 组(p=0.007)。 39
本文档为【Stata教程】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_833902
暂无简介~
格式:doc
大小:113KB
软件:Word
页数:52
分类:工学
上传时间:2017-09-18
浏览量:50