7-基本统计方法复习

7-基本统计方法复习null《医学统计学》复习第一篇基本统计方法《医学统计学》复习第一篇基本统计方法暨南大学医学院医学统计学教研室林汉生《医学统计学》教学的指导思想《医学统计学》教学的指导思想强调重点：基本概念和常用统计方法注意难点：理解和应用中经常出错的地方突出应用：统计设计、方法选择、数据处理、结果表达复习内容复习内容第一章绪论第二章计量资料的统计描述第三章总体均数的估计与假设检验第四章方差分析第五章计数资料的统计描述第六章二项分布与Poisson分布第七章 2...

null《医学统计学》复习第一篇基本统计方法《医学统计学》复习第一篇基本统计方法暨南大学医学院医学统计学教研室林汉生《医学统计学》教学的指导思想《医学统计学》教学的指导思想强调重点：基本概念和常用统计方法注意难点：理解和应用中经常出错的地方突出应用：统计设计、方法选择、数据处理、结果表达复习内容复习内容第一章绪论第二章计量资料的统计描述第三章总体均数的估计与假设检验第四章方差分析第五章计数资料的统计描述第六章二项分布与Poisson分布第七章 2 检验第八章秩和检验第九章回归与相关第十章统计表与统计图第一章绪论第一章绪论 1. 《医学统计学》的定义1. 《医学统计学》的定义运用统计学的原理和方法，研究医学科研中有关数据的收集、整理和分析的应用科学。医学统计学是处理医学资料中的同质性和变异性的科学。2. 统计学的几个基本概念2. 统计学的几个基本概念同质和变异观察单位总体与样本抽样研究、随机抽样、样本含量变量、变量值、数据或资料误差频率与概率（1）同质和变异 Homogeneity & Variation（1）同质和变异 Homogeneity & Variation同质：指对研究指标影响较大、可以控制的主要因素尽可能相同。例如研究儿童身高时，要求年代、地区、民族、年龄、性别等影响身高较大且易于控制的因素相同，而不易控制的遗传和营养等影响因素可以忽略。从而使研究对象属于同一类别或具有相似的观察值。如2010年广州市汉族 7岁男孩的身高变异：在同质基础上的个体差异。（2）观察单位 Observed unit，Individual, Case（2）观察单位 Observed unit，Individual, Case 统计研究中的基本单位，如： 1个人、 1头动物 1份样品、1个器官、1个细胞 1个家庭、1所医院，1个社区，1个城市或国家，等（3）总体与样本 Population and Sample（3）总体与样本 Population and Sample总体：根据研究目的而确定的同质观察单位的全体，或同质的所有观察单位某种观察值的集合。广州2010年7岁正常男童的身高测量值（有限总体：受空间、时间和人群范围限制）研究保列治治疗慢性前列腺增生患者的疗效（无限总体：不受空间、时间和人群范围限制）样本：从总体中随机抽得的部分观察单位，其实测值的集合。（4）抽样研究、随机抽样、样本含量（4）抽样研究、随机抽样、样本含量抽样研究（Sampling research）：从总体中随机抽取样本，用样本信息推断总体特征。随机抽样（Random sampling）：总体中的每个个体都有相同的可能性被抽取到样本中。样本含量（Sample size） :样本中所包含的观察单位数。（5）变量、变量值、数据或资料（5）变量、变量值、数据或资料变量（Variable）：能表现观察单位某项特征的指标变量值（Value of variable）：变量的观察值资料（Data）：变量的观察值构成数据或资料（6）资料类型（6）资料类型数值变量计量资料（定量资料）分类变量（定性资料）无序分类变量计数资料有序分类变量等级资料计量资料 Quantitative data, Numerical data计量资料 Quantitative data, Numerical data变量值表现为数值大小，一般有度量衡单位。如身高(cm)、脉搏（次/分）。根据变量值是否连续？连续型：如身高离散型：如脉搏计数资料 Qualitative data, Nominal data计数资料 Qualitative data, Nominal data变量值表现为互不相容的类别，类别间无程度和顺序差别，也称无序分类资料。如：二分类：如性别男、女多分类：如血型A 、 B 、 AB 、 O等级资料 Ranked data, Ordinal data等级资料 Ranked data, Ordinal data变量值表现为互不相容的类别，类别间有程度和顺序差别，也称有序分类资料。如：化验结果（－、±、+、++、+++）疼痛（无，轻、中、重、剧烈）疗效（治愈、显效、好转、无效）变量的转化与编码变量的转化与编码由计量资料转化为计数和等级资料：如脉搏数正常（60次/分～100次/分）异常（<60次/分或>100次/分）缓脉（<60次/分）正常（60次/分～100次/分）速脉（100次/分）计数或等级资料的数字编码性别：男=1，女=2；或男=0，女=1；或男= 1 ，女=0 疗效：无效=0、好转=1、显效=2、治愈=3（7）误差 Error（7）误差 Error误差：实测值（Observed value）与真值（True value）之差随机误差（Random error）随机测量误差（Random error of measurement）抽样误差（Sampling error）非随机误差（Nonrandom error）系统误差（Systematic error）非系统误差（Nonsystematic error）随机误差随机误差误差值随机变化；由多种无法控制的已知或未知因素引起，但呈一定规律变化。随机测量误差：在同一条件下对同一对象反复进行测量，虽极力控制或消除系统误差，但每次测量结果仍出现随机变化。抽样误差：在排除了系统误差，控制了随机测量误差后，样本指标与总体指标之间仍可能有差异。原因：每个样本所包含的个体不一样，而个体之间存在差异。非随机误差非随机误差系统误差：误差值恒定；产生原因往往可知，如仪器未校正、医生掌握疗效的标准偏高或偏低，等；可以通过完善实验设计和技术措施来消除或减少。非系统误差：工作失误造成的误差，如抄错数字、点错小数点、写错单位，等。该类误差应通过认真检查予以清除。（8）频率与概率（ relative frequency，probability ）（8）频率与概率（ relative frequency，probability ）频率：在相同条件下独立地重复 n 次试验，随机事件A出现 f 次，则 f / n 为随机事件A出现的频率。当 n 逐渐增大时，频率 f / n 始终在一个常数左右摆动，则称该常数为随机事件A的概率，记为P（A），简记为P。如在相同条件下重复掷硬币10次，出现正面4次，频率为0.400（4/10）；重复掷硬币100次，出现正面53次，频率为0.530（53/100）；重复掷硬币10000次，出现正面5020次，频率为0.502（5020/10000）概率是描述随机事件发生可能性大小的量，是一个客观的常数。 n足够大时，可将频率作为概率的估计值。 P 的大小在0与1之间；P 越接近1，发生的可能性越大。 P≤0.05为小概率事件。表示在一次实验或观察中，该事件发生的可能性很小，可视为可能不发生。3. 医学统计工作的基本步骤3. 医学统计工作的基本步骤设计：指统计设计（如何确定总体？如何抽样？样本含量？如何分组？如何控制误差，等）收集资料：资料来源（报表、工作记录、专题研究）整理资料：关键是检查、核对原始数据分析资料：统计描述和统计推断4. 分析资料包括的内容4. 分析资料包括的内容统计描述：只对现有数据的特征进行描述，不涉及到由样本信息推断总体特征。计算统计指标：如均数与标准差；率与构成比绘制统计图表统计推断：涉及到由样本信息推断总体特征。区间估计：由样本统计指标（统计量）推断总体相应指标（参数）假设检验：由观察到的样本间差别推断相应总体间是否可能存在差异第二章计量资料的统计描述第二章计量资料的统计描述 1. 频数分布1. 频数分布如果计量资料观察例数较多，可对数据作适当分组，制作频数表或直方图，表达数据的分布规律。2. 频数分布的类型2. 频数分布的类型对称分布：以频数最多组段为中心，左右大体对称偏态分布3. 频数分布表的用途3. 频数分布表的用途描述频数分布的类型和特征发现离群值便于进一步的统计分析正态分布、正偏态分布，负偏态分布4. 平均数的种类和适用情况4. 平均数的种类和适用情况（算术）均数(arithmetic mean/mean)：对称分布，特别是正态分布。几何均数(geometric mean) ：反映一组呈倍数关系的观察值的平均水平，如抗体滴度。中位数(median)：任何分布的定量数据，特别是明显的偏态分布，频数分布的两端无确定数值（开口资料）。5. 离散程度的指标和适用情况5. 离散程度的指标和适用情况标准差：适用于正态分布资料，常与均数结合使用四分位数间距：适用于偏态分布资料，常与中位数结合使用变异系数：常用于比较度量衡单位不同的多组资料的变异度均数相差悬殊的多组资料的变异度极差：适用于任何分布的计量资料6. 正态分布6. 正态分布正态分布频数分布是中间（靠近均数）频数多，两边频数少，两边频数少，且左右对称。正态曲线呈钟型：两头低中间高，左右对称若指标X的频数分布图接近正态分布曲线，则初步判断该指标服从正态分布。7. 正态分布的两个参数7. 正态分布的两个参数位置参数：m 变异度参数：s。 s越小，曲线越瘦高，分布越集中；反之。8. 正态曲线下面积的分布规律8. 正态曲线下面积的分布规律(-1.96, +1.96)的面积占总面积的95.00% (-2.58, +2.58)的面积占总面积的99.00%9. 标准正态分布9. 标准正态分布正态分布是一个分布族，对应于不同的参数m和s会产生不同位置不同形状的正态分布。为了方便使用，令这样可将所有不同均数和标准差的资料都转换为均数为0，标准差为1的分布，即标准正态分布。10. 医学参考值范围10. 医学参考值范围指正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。计算方法有正态分布法和百分位数法。11. 参考值范围的确定11. 参考值范围的确定方法：正态近似法，百分位数法 95%参考值（正常值）范围正态近似法百分位数法双侧 ±1.96s P2.5 ~ P97.5 单侧下限 -1.64s > P5 单侧上限 +1.64s < P95例1例1由例2-1资料估计正常成年女子血清总胆固醇的参考值范围。已知均数为4.03mmol/L，标准差为0.659mmol /L 。下限：4.03 – 1.96 ×0.659=2.47(mmol/L) 上限：4.03 + 1.96 ×0.659=5.32 (mmol/L) 故正常成年女子血清总胆固醇的95%参考值范围为(2.47, 5.32 ) mmol/L 。例2例2例2-17 测得某年某地名正常人的尿汞值如表2-8，试制定正常人尿汞值的参考值范围。该地正常人的尿汞值的95％医学参考值范围为< 43.6 （g/L）。例3例3某地调查110名健康成年男性的第一秒肺通气量的均数为4.2(L)，标准差为0.7 (L)。请据此估计该地成年男子第一秒肺通气量的95%参考值范围。下限为：4.2 - 1.64 ×0.7=3.052 (L) 该地成年男性的第一秒肺通气量95%参考值范围为：不低于3.052 (L)。参考值范围 : > 3.052 （L）第三章总体均数的估计与假设检验第三章总体均数的估计与假设检验 1.均数的抽样误差与标准误1.均数的抽样误差与标准误抽样误差（sampling error）:由个体变异产生，抽样造成的样本统计量与总体参数的差异，或同一总体的若干样本统计量间的差异。标准误（standard error）：样本均数的标准差，也称均数的标准误，说明均数抽样误差的大小。2. 样本均数的抽样分布2. 样本均数的抽样分布从正态总体中随机抽样，样本均数服从正态分布。从偏态总体中随机抽样，当n足够大时，样本均数也服从正态分布。3. t 分布的概念3. t 分布的概念在以下两个公式中，如果已知总体标准差，则Z服从标准正态分布；如果用样本标准差估计总体标准差，则不再服从标准正态分布，而命名为 t 分布 t 分布与标准正态分布的联系： 逐渐增大时，t 分布逐渐趋近标准正态分布。4. t 界值表的使用4. t 界值表的使用t界值：一侧尾部面积为单侧概率；两侧尾部面积之和称为双侧概率。当=9时，查t界值表得 t 0.05, 9 = 1.833（单侧） t 0.05/2, 9 = 2.262 （双侧）附表2 t分布界值表附表2 t分布界值表5. 总体均数95%可信区间的涵义5. 总体均数95%可信区间的涵义某地12岁男孩身高均数的95%可信区间为（138.3，141.0）cm。从理论上说，做100次抽样，可计算得100个可信区间，平均有95个可信区间包括了总体均数，只有5个可信区间不包括总体均数。因此，这种方法有95%的把握认为总体均数在此区间内。6. 均数的可信区间与参考值范围的区别6. 均数的可信区间与参考值范围的区别 7. 标准差与标准误的区别7. 标准差与标准误的区别 8. t 检验的用途、适用条件和种类8. t 检验的用途、适用条件和种类用途：配对、两样本均数的比较适用条件（小样本）样本取自正态分布两总体方差相等（两样本t检验时）种类两样本t检验配对样本t检验单样本t检验9. 假设检验的基本原理9. 假设检验的基本原理例以往通过大规模调查已知某地一般新生儿出生体重均值为3.30kg。从该地难产儿中随机抽取35名新生儿作为研究样本，平均出生体重为3.42kg，标准差为0.40kg。问该地难产儿出生体重是否与一般新生儿体重不同？某地一般新生儿出生体重均值  0=3.30 kg某地难产新生儿出生体重均值 已知总体未知总体 X＝3.42kg S= 0.40kg n=35样本均数所代表的未知总体均数与已知总体均数不等，可能由两种原因所致样本均数所代表的未知总体均数与已知总体均数不等，可能由两种原因所致（1）H0:＝ 0，两总体均数相等，观察到的差别仅由抽样误差所致。（2）H1:  ≠ 0，观察到的差别由两总体均数不等所致。观察到的差别究竟是由哪种原因所致？在无效假设H0成立的情况下，如果由抽样误差所致的可能性（P值）很小，小于0.05，则拒绝H0 ，而接受备择H1 。怎样计算 P 值的大小呢？怎样计算 P 值的大小？怎样计算 P 值的大小？假设＝ 0 ，则可用公式计算t 值，由t 值求得P 值。如果样本均数与0相差较远，t 值就大，P 值就小。本例t 0.05。故不拒绝H0。t0.05/2,34=2.032 t 分布界值表 t 分布界值表10. 假设检验的基本步骤10. 假设检验的基本步骤建立检验假设，确定检验水准选定检验方法，计算统计量确定P值，作出推断结论(1) 建立检验假设，确定检验水准(1) 建立检验假设，确定检验水准H0 : 假设未知总体均数等于已知总体均数 μ =μ0 或假设两个总体均数相等 μ1 =μ2 H1：若H0被拒绝，则该假设成立。 μ ≠μ0 或 μ1≠ μ2 确定检验水准：确定H0成立，但被拒绝的最大概率。常取 =0.05。(2) 选定检验方法和计算检验统计量(2) 选定检验方法和计算检验统计量根据资料类型、设计MATCH_ word _1713968510884_0、检验方法的适用条件等，选择适当的检验方法和统计量。(3) 确定P 值，作出统计推断结论(3) 确定P 值，作出统计推断结论确定P值：将检验统计量的值，如 t 值与其检验界值 t/2, 相比较，如果t ≥ t/2, ，则P≤。t/2,- t/2,11. 统计结论与专业结论统计意义上的差值不等于临床意义上的差值11. 统计结论与专业结论统计意义上的差值不等于临床意义上的差值当P ≤ 时，拒绝H0，接受H1，认为差异有统计学意义(统计结论) ；可认为……不同或不等（专业结论）当P  时，不拒绝H0，认为差异无统计学意义(统计结论)。还不能认为……不同或不等（专业结论）如某新药确实能比常规药物平均降低血压多2mmHg，但2mmHg的差别并没有临床意义。12. P 值的含义？的含义？12. P 值的含义？的含义？P值是当H0成立时，随机抽得比观察到的结果（如 t 值）更极端情况的概率。这些极端情况通常随机出现在分布的任何一端。简单地说， P值是任何观察到的差别由机会造成的可能性。 是检验水准，一般取0.05。 是当H0成立时，预先规定拒绝H0的最大概率。t- t13. 单样本 t 检验13. 单样本 t 检验建立检验假设，确定检验水准 H0：=0 ，该地难产儿与一般新生儿平均出生体重相同 H1：≠0，该地难产儿与一般新生儿平均出生体重不同 =0.05 计算检验统计量确定P值，作出推断结论 =34， t=1.77，查附表2，t界值表，得 t0.05/2，34=2.032，因为t < t0.05/2 ， 34 ，故P > 0.05。按=0.05水准，不拒绝H0。根据现有样本信息，尚不能认为该地难产儿与一般新生儿平均出生体重不同。14. 配对样本均数 t 检验14. 配对样本均数 t 检验配对设计：两个同质受试对象分别接受两种不同的处理同一受试对象分别接受两种不同的处理同一受试对象处理前后15. 两样本 t 检验15. 两样本 t 检验分别从两个研究总体中随机抽取样本，然后比较两组的平均效应；随机抽取实验对象，将其随机分成两组，分别接受两种不同处理，然后比较两组的平均效应。16. 假设检验中两类错误16. 假设检验中两类错误I型错误（）：拒绝实际上成立的H0。 II型错误（）：不拒绝实际上不成立的 H0。检验效能（power of a test，1–）：两总体确有差异，按规定检验水准能发现该差异的能力。17. P 与的区别和联系？17. P 与的区别和联系？区别：P值是实际犯I型错误的概率， 是预先规定的允许犯I型错误的最大概率联系：P 与 都与I型错误有关， P ≤  。18. 检验效能（1–） power of test 18. 检验效能（1–） power of test 拒绝不正确H0的概率19. 影响检验效能的4个因素19. 影响检验效能的4个因素总体参数间差异（＝ - 0，或＝1-2 ）越大，检验效能越大。个体间差异（标准差）越小，检验效能越大。样本含量越大，检验效能越大。检验水准定得越大，检验效能越大。20. 假设检验应注意的问题20. 假设检验应注意的问题研究设计：组间应均衡。应用条件：如 t 检验的应用条件为：当样本含量较小时（n<60）样本随机取自正态总体，两小样本均数比较时还要求两样本所对应的两总体方差相等。正确理解 “显著性”的含义：并不指差异的大小，只反应总体参数间是否有差异。作结论不能绝对化：写出具体的P值。21. 可信区间在统计推断上提供的信息21. 可信区间在统计推断上提供的信息5mmHg 经两样本t检验，t =2.64，P = 0.015。可以认为单纯药物治疗与药物合并饮食治疗糖尿病患者的血糖值均数不同，药物合并饮食法的疗效较好，总体均值差数的95％可信区间为（0.94，7.78）mmol/L。22. 判断资料分布类型的途径22. 判断资料分布类型的途径据文献或以往经验：身高，血压，红细胞数，尿铅，潜伏期，生存时间，住院天数频数表：例数多正态性检验： P-P图：例数不限矩法若测定值（都是正值）服从正态分布，则一般来说，标准差s不会大于均值，更不会是均值的若干倍。P-P图：检验样本是否服从正态分布P-P图：检验样本是否服从正态分布P-P图对话框P-P图对话框散点没有围绕在直线周围：非正态分布散点没有围绕在直线周围：非正态分布10名健康人尿汞值（g/L）10名健康人尿汞值（g/L）2.16 - 1.96×1.74 = - 1.25第四章多个样本均数的方差分析第四章多个样本均数的方差分析 1. 方差分析用途、种类和应用条件1. 方差分析用途、种类和应用条件用途：三个及以上样本均数的比较种类完全随机设计的方差分析随机区组设计的方差分析应用条件各样本相互独立各样本来自的总体呈正态分布各样本来自的总体方差相等（完全随机区组设计）总变异 = 组间变异 + 组内变异总变异 = 组间变异 + 组内变异2. 完全随机设计资料的方差分析全部实验结果存在三种不同的变异 F= MS组间 / MS组内全部实验结果存在三种不同的变异 F= MS组间 / MS组内总变异：全部实验数据大小不等。组间变异：各处理组的样本均数也大小不等：用表示MS组间表示组内变异：各处理组内部观察值大小不等用MS组内表示F= MS组间 / MS组内F= MS组间 / MS组内如果各样本均数来自同一总体（Ｈ0: m1=m2 ==mk），即各组均数之间无差别，则组间变异与组内变异均只能反映随机误差，这时的F 值应接近1。若各样本均数不是来自同一总体，组间变异应较大， F 值将明显大于1，则不能认为组间的变异仅反映随机误差，也就是认为处理因素有作用。3. 随机区组设计的方差分析3. 随机区组设计的方差分析先将全部受试对象按某种或某些特征分为若干个区组（block），使每个区组内的观察对象随机地接受研究因素某一水平的处理。SS总=SS处理+SS区组+SS误差4.多个样本均数间的两两比较4.多个样本均数间的两两比较多个样本均数每两个均数间的两两比较常用的统计方法是：SNK（组数多少均可） Bonferroni(组数少，4组以内)，Tukey (组数多，5组以上) ,Tamhane’s T2(方差不齐，结论较保守) 。多个实验组与一个对照组均数间的两两比较常用的统计方法是Dunnett - t 。Multiple ComparisonsMultiple Comparisons5. 为什么不能用t检验进行多重比较？5. 为什么不能用t检验进行多重比较？当对比组数大于2时，为什么不能用t检验？因为会增加第一类错误的概率，使本来无无差别的两总体均数判为有差别。如有4个样本均数，可作6次t检验。每次不犯第一类错误的概率为（1-0.05）。6次比较均不犯第一类错误的概率为(1-0.05) 6=0.74，总的检验水准变为1- (1-0.05) 6 =0.26 ，明显增加了犯第一类错误的概率。6. 完全随机设计资料的方差分析6. 完全随机设计资料的方差分析总变异分几部分？ F值是与的比值？如各样本均数来自同一总体，则F值理论上等于。若各样本均数不是来自同一总体，则变异会增大，F值将明显于1 。7. 随机区组设计资料的方差分析7. 随机区组设计资料的方差分析随机区组设计资料的方差分析的总变异分为几部分？由于从总变异中多分离出区组变异，使误差更能反映随机误差的大小，因而提高了检验效率。前提：区组效应具有统计学意义第五章计数资料的统计描述第五章计数资料的统计描述 1. 相对数的概念1. 相对数的概念绝对数：实际发生的数，反映事物的实际水平，是统计分析的基础。缺点是不具有可比性。相对数：是两个有关联的数值之比，说明事物的相对关系和相对大小。使需要相比较的数值处于同一起点上，便于比较。2. 常用相对数2. 常用相对数率：强度相对数构成比：结构相对数相对比 3. 率3. 率定义：说明某现象发生的频率或强度。是两个绝对数之比，与时间有关系。公式：某时期内发生某现象的观察单位数率= ×比例基数同期可能发生某现象的观察单位总数比例基数: %、 %o 、 1/万、 1/10万比例基数的选择：习惯用法；保留1~2位整数发病率: 一般用于急性病调查例：某地2000年急性甲肝流行，1000人中有 50人发病，则：甲肝发病率=50/1000 ×100%=5% 患病率：一般用于慢性病调查例：2003年某工厂职工体检，2000名受检者中患高血压的有20人，则：高血压患病率=20/2000 ×100%=10% 同年内死亡总人数粗死亡率 = × 1000%o 某年平均人口数同年内某死因死亡人数某死因死亡率 = × 100000/10万某年平均人口数因某病死亡人数某病病死率 = × 100% 同期某病病人数非典死亡率高不高？非典死亡率高不高？《人民日报》 (2003年04月25日第十四版) “非典死亡率在5％左右，同普通肺炎的死亡率差不多。”这是本报记者日前采访北京协和医院呼吸科主任蔡柏蔷教授时，蔡教授一再强调的。分析：该结论对吗？病死率？死亡率？4. 构成比 proportion4. 构成比 proportion定义：表示事物内部某一部分的个体数与各部分个体数的总和之比。分子是分母的一部分，与时间无关系。公式：某一组成部分的观察单位数构成比 = ×100% 同一事物各部分的观察单位总数构成比的两个特点构成比的两个特点同一事物的k个构成比之和为100% 各构成部分之间相互影响某部分自身数值的变化其它部分数值的变化5. 相对比 relative ratio5. 相对比 relative ratio定义：两个有关指标之比, 常用倍数或百分数表示。两个指标的量纲可以相同，也可以不同，但互不包含。公式：甲指标相对比= (或× 100%）乙指标计算相对比的两个指标可以是绝对数、相对数、平均数。举例：性别比：男：女中国人口比例为1.06 ：1 某城区与郊区肺癌死亡率之比：城区为19.39／10万，郊区为9.99 ／10万，则 19.39／9.99=1.94 或 9.99 ／19.39 ×100%=55.52% 医院的门诊人次与床位数之比：三级甲等医院一般应达到 4~6：16. 应用相对数的注意事项 6. 应用相对数的注意事项不要把构成比与率相混淆计算相对数应有足够数量要注意资料的可比性。除了要对比的因素外，其他条件应基本相同。如观察对象、研究方法、观察时间、地区、文化、经济条件，等。观察对象内部结构是否相同：年龄、性别对比不同时期资料应注意客观条件是否相同对样本率或构成比的比较，应作假设检验表5-2 已婚育龄妇女不同情况下放环失败率的比较表5-2 已婚育龄妇女不同情况下放环失败率的比较 7.率的标准化 Standardization直接法计算标准化治愈率直接法计算标准化治愈率第六章二项分布与Poisson分布第六章二项分布与Poisson分布二项分布与Poisson分布用途二项分布与Poisson分布用途用于分类资料的统计推断2. 二项分布的概念2. 二项分布的概念在医学领域的许多实验或观察中，其结果只有相互对立的一种情况之一。如阳性或阴性，生存或死亡。这时若从阳性率为的总体中随机抽取大小为n的样本，则出现阳性数为X的概率分布即呈二项分布。某种药物治疗某种非传染性疾病的有效率为0.70，今用该药治疗该疾病患者10人，试分别计算这10人中有6人，7人，8人有效的概率。某种药物治疗某种非传染性疾病的有效率为0.70，今用该药治疗该疾病患者10人，试分别计算这10人中有6人，7人，8人有效的概率。3. 二项分布的适用条件3. 二项分布的适用条件各次实验独立，即一次实验出现什么样的结果与前面已出现的结果无关。每次实验结果，出现两种互斥的结果之一（A或非A）。每次实验的条件不变，即A发生的概率不变。已知发生某一结果（如阳性）的概率为，其对立结果的概率则为1-  。 是从大量观察中获得的比较稳定的数值。4. 率的抽样误差的计算4. 率的抽样误差的计算某镇按人口的1/20随机抽取329人，作血清登革热血凝抑制抗体反应检验，结果29人阳性。求此阳性率的抽样误差。已知： n=329, p=29/329=0.0881 5. 二项分布的图形二项分布图形取决于n和：（1） = 0.5时，分布对称。（2）  0.5时分布呈偏态，但只要不接近0或1时，当n逐渐增大，分布趋向正态。5. 二项分布的图形二项分布图形取决于n和：（1） = 0.5时，分布对称。（2）  0.5时分布呈偏态，但只要不接近0或1时，当n逐渐增大，分布趋向正态。6. 二项分布的应用6. 二项分布的应用总体率的区间估计查表法正态分布法样本率与总体率的比较两样本率比较的u检验（不讲，用2 检验）7. 样本率与总体率的比较7. 样本率与总体率的比较当n较大，p和1－p均不太小时，样本率的分布近似正态分布。例6.4 一般而言，对某疾病采用常规治疗，其治愈率为45％。现改用新的治疗方法，并随机抽取180名该病患者进行了新疗法的治疗，治愈117人。问新治疗方法是否比常规疗法的效果好。新疗法的治愈率为，而0＝0.45 新疗法治愈率的样本估计值 p=117/180=0.65 n=1808. Poisson分布概念8. Poisson分布概念POISSON是二项分布的特例，当很小(<0.01)，n很大时，二项分布逼近POISSON分布。常用于研究单位容积(面积，时间)内某罕见事件的发生数。如：每毫升水样品中大肠杆菌数一定人群中某种患病率很低的非传染性疾病患病数或死亡数的分布概率函数P(X)概率函数P(X)X为阳性数 为均数 = n，是大于0的常数。 e≈2.71829. Poisson分布的性质和图形9. Poisson分布的性质和图形Poisson分布只有一个参数： 总体均数 =总体方差，即： ＝2 Poisson分布具备可加性例设某河中，平均每毫升河水中有8个细菌，则由该河中随机抽取1毫升水中的细菌数服从以 =8为参数的Poisson分布。 P(X=X)= 8  / X! e-8 X=0,1,...Poisson分布的正态近似Poisson分布的正态近似图型取决于的大小： 越大，越趋向正态。  =20，接近正态。  =50，呈正态分布。10. Poisson分布的应用10. Poisson分布的应用总体均数的区间估计查表法：当X≤50时正态近似法：当X＞50时样本均数与总体均数的比较直接计算概率法：( <20时) 正态近似法：（  >=20时）两个样本均数的比较两样本观察单位相同两样本观察单位不相同第七章 2 检验 Chi-square test第七章 2 检验 Chi-square test 1. 2检验的主要用途 (chi-square Test)1. 2检验的主要用途 (chi-square Test)推断两个或两个以上的总体率（或构成比）之间有无差别，两个分类变量之间有无关联。（1）两个样本率比较（1）两个样本率比较例7-1 某院欲比较异梨醇口服液（试验组）和氢氯噻嗪+地塞米松（对照组）降低颅内压的疗效。将200例颅内压增高症患者随机分为两组。问两组降低颅内压的总体有效率有无差别？四格表2检验的条件与SPSS结果四格表2检验的条件与SPSS结果基本公式：专用公式：应用条件：n≥40，T≥5。 SPSS输出结果选择：Pearson’s Chi-Square。校正公式：应用条件：n≥40，1≤T<5。 SPSS 输出结果选择：Continuity Correction。如 n < 40，或 T<1，选用确切概率法。SPSS输出结果选择：Fisher’s Exact Test。（2）配对四格表资料的2检验（2）配对四格表资料的2检验例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定，结果见表7-3。问两种方法的检测结果有无差别？免疫：23/ 58= 0.397 乳胶：13 /58= 0.224（3）多个样本率比较（3）多个样本率比较例7-6 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效。问三种疗法的有效率有无差别？（3个样本）（4）样本构成比的比较（4）样本构成比的比较例7-7 某医师在研究血管紧张素I转化酶(ACE)基因I/D多态与Ⅱ型糖尿病肾病(DN)的关系时，将249例Ⅱ型糖尿病患者按有无糖尿病肾病分为两组，资料见表7-9。问两组Ⅱ型糖尿病患者的ACE基因型（无序分类）分布有无差别？（两个样本）（5）双向无序分类资料的关联性检验（5）双向无序分类资料的关联性检验例 7-8 测得某地5801人的ABO血型和MN血型结果如表7-10，问两种血型系统之间是否有关联？（1个样本）进一步分析关系的密切程度进一步分析关系的密切程度用Pearson列联系数。两种血型系统间虽然有关联，但列联系数较小，虽然有统计学意义，仍可认为关系不太密切。Pearson列联系数Pearson列联系数 2 =213.16，P=0.000 Pearson列联系数C=0.188， P=0.0002. 行×列表2检验时的注意事项2. 行×列表2检验时的注意事项当有1/5及以上格子的理论频数1≤T ＜ 5 ，或有格子T<1时，应该与相邻组合并，但要合理；删除相应的行或列；增加样本例数适合：双向无序分类资料；对于单向有序分类资料，要求有序变量为分组变量。单向有序行列表，当等级数大于3时，用秩和检验分析更适宜；双向有序分类资料可选用等级相关结论为拒绝H0,不能说明任两个总体之间皆有差别。进一步的两两比较，可用多个样本率比较的2分割法。正常人和铅作业工人尿棕色素检查结果正常人和铅作业工人尿棕色素检查结果上张片 “单向有序行列表” 但分组变量无序上张片 “单向有序行列表” 但分组变量无序适合用：“秩和检验”200例棉屑沉着可疑患者的诊断结果200例棉屑沉着可疑患者的诊断结果上张片 “双向有序行列表” 行和列的指标相同两种方法或两个检查者同时对同一批样品的测定结果上张片 “双向有序行列表” 行和列的指标相同两种方法或两个检查者同时对同一批样品的测定结果宜用一致性检验（Kappa检验）一致性检验（Kappa检验）一致性检验（Kappa检验）Kappa值=0.737，P=0.000 可认为两次检查结果存在一致性Kappa值=0.737，P=0.000 可认为两次检查结果存在一致性null上张片 “双向有序行列表” 行和列的指标不相同上张片 “双向有序行列表” 行和列的指标不相同分析两有序分类变量之间是否存在相关关系，宜用等级相关分析或线性趋势检验等级相关分析或线性趋势检验等级相关分析或线性趋势检验线性趋势检验 2=63.39，P=0.000 （参见：P117倒数第7行）线性趋势检验 2=63.39，P=0.000 （参见：P117倒数第7行）等级相关分析等级相关系数=0.488，P=0.000等级相关分析等级相关系数=0.488，P=0.0003. 多个样本率比较的2分割法3. 多个样本率比较的2分割法当多个样本率比较的行×列表检验，推断结论为拒绝H0接受H1时，只能认为各总体率之间总的来说有差别，但不能说明任两个总体率之间有差别。若要对两个总体率之间做出有无差别的推断，需进一步分析。分析方法：多个样本率比较的2分割法。多个实验组间的两两比较多个实验组间的两两比较4个处理组，两两比较有6种对比，如果直接对每种对比分别做四格表的2检验，将增大I类错误的机会，为此，在进行多个率两两比较的时候，需根据比较的次数修正检验水准。例如原来检验水准=0.05，进行4组间的两两比较，共比较6次，再加上总的行×列表资料的2检验，总共进行了7次假设检验。于是两两比较的检验水准应取=0.05/7=0.00714。A B C D各实验组与同一个对照组的比较各实验组与同一个对照组的比较例7-10 药物治疗组为对照组，物理疗法组与外用膏药组为试验组，试分析两试验组与对照组的总体有效率有无差别？第八章秩转换的非参数检验第八章秩转换的非参数检验 1. 非参数统计的优缺点1. 非参数统计的优缺点优点不受总体分布的限制适宜等级变量缺点：如果是精确测量的变量，且服从正态分布，这时如将精确测量值变成顺序的秩，将丢失部分信息，造成检验功效能轻度下降。 SPSS不能直接进行两两比较平均秩没有均值容易理解2. 秩和检验的基本思想2. 秩和检验的基本思想假设变量X有观察值1.1, 1.3, 1.7, 4.3, 21.4 mean: 5.96 显然这变量不服从正态分布，观察值间差异较大，既不对称，标准差也较大。如果将变量作转换，变成秩变量Y=1,2,3, 4,5，则分布对称了，中位数为3，观察值间的差异也缩小了。然后对这秩分布的中心位置(中位数)作检验。3. 秩和检验的适用情况3. 秩和检验的适用情况等级资料明显的偏态分布分布不明个别数据偏离过大各组方差明显不齐4. 秩和检验的种类4. 秩和检验的种类配对样本比较的符号秩和检验两个独立样本比较的秩和检验完全随机设计多个样本比较的Kruskal-Wallis H检验多个相关样本比较的Friedman M 检验例8-1 对12份血清分别用原方法（检测时间20分钟）和新方法（检测时间10分钟）测谷-丙转氨酶，结果见表8-1的第（2）、（3）栏。问两法所得结果有无差别？例8-3 对10例肺癌病人和12例矽肺（硅沉着病）0期工人用X线片测量肺门横径右侧距RD值（cm），结果见表8-5。问肺癌病人的RD值是否高于矽肺0期工人的RD值？例8-7 四种疾病患者痰液内嗜酸性粒细胞的检查结果见表8-11。问四种疾病患者痰液内的嗜酸性粒细胞有无差别？表8-11 四种疾病患者痰液内的嗜酸性粒细胞比较例8-9 8名受试对象在相同实验条件下分别接受4种不同频率声音的刺激，他们的反应率（%）资料见表8-12。问4种频率声音刺激的反应率是否有差别？第九章双变量回归与相关第九章双变量回归与相关 1. 双变量回归与相关的用途1. 双变量回归与相关的用途研究两个变量间的数量关系同时观察两个或两个以上变量一个变量依赖于另一个变量：儿子与父亲身高 —— 用回归分析两个变量互相依赖：身高和体重 —— 用相关分析2. 线性回归的基本概念2. 线性回归的基本概念当一个变量X改变时，另一个变量Y也相应改变: 称X为自变量(independent variable) 称Y为因变量(dependent variable) 当这两个变量之间存在直线关系时，可以用一个直线方程Y=a+bX表示Y与X的线性关系。寻求一个直线方程来描述两个变量间依存变化近似的线性数量关系，称线性回归关系。3. 线性回归方程的形式3. 线性回归方程的形式a为常数项（constant），是直线的截距； b为回归系数（regression coefficient），是直线的斜率。它的统计学意义是：X 每增（减）一个单位，Y平均改变b个单位。为给定X时Y的估计值 4. 线性回归方程的应用4. 线性回归方程的应用确定两变量间是否存在依存关系，利用回归方程描述X和Y之间的数量关系利用回归方程对Y进行估计：由易测变量估计难测变量，如由体重估计体表面积5. 线性回归方程的假设检验5. 线性回归方程的假设检验即使X、Y的总体回归系数β为零，但由于抽样误差，其样本回归系数b也不一定为零，因此需作β是否为零的假设检验。只有β0，所拟合的样本直线回归方程才有意义。可进行样本回归系数b和总体回归系数0比较的方差分析或t检验。 6. 线性相关的基本概念6. 线性相关的基本概念如不要求由X估计Y，而关心的是两个变量间是否确有线性相关关系，如有线性相关关系，那么相关的方向和程度如何？资料要求：X、Y均服从正态分布线性相关系数示意图线性相关系数示意图7. 相关系数的意义7. 相关系数的意义用 r表示。描述两个变量直线相关的方向和紧密程度。 r的取值范围：-1≤ r ≤1。 r>0为正相关 r<0为负相关 |r|愈接近1，说明两变量关系愈密切。总体相关系数用ρ表示 8. 线性相关系数的假设检验8. 线性相关系数的假设检验r＝0.8012是样本相关系数即使X、Y的总体相关系数ρ为零，但由于抽样误差，其样本相关系数r也不一定为零，因此需作ρ是否为零的假设检验。根据 r 做总体相关系数  是否为0的假设检验假设检验方法查r 界值表 t 检验9. 进行线性相关分析的注意事项9. 进行线性相关分析的注意事项首先绘制散点图两个变量都服从正态分布对样本相关系数要进行假设检验相关系数有统计学意义不等于两者存在因果关系。10. 线性相关与回归的区别10. 线性相关与回归的区别资料要求：回归要求因变量Y服从正态分布，自变量X可以选定，也可以服从正态分布；相关要求两个变量都服从正态分布。两个变量之间的关系：线性相关表示两个变量之间的相互关系是双向的回归则反映两个变量之间的依存关系，是单向的。 b和r意义： b表示X每增（减）一个单位，Y平均改变b个单位 r说明具有直线关系的两个变量间相关关系的密切程度与相关方向。11. 直线回归与相关的联系11. 直线回归与相关的联系b 和 r 的正负号一致，假设检验等价（t r = t b）相关回归可以互相解释确定系数(Coefficient of determination ) R2=r2=SS回/SS总例如： r=0.20,n=100时，可按检验水准0.05拒绝H0，接受H1，认为两变量有相关关系。但 r =（0.20）2 = 0.04，表示回归平方和在总平方和中仅占4%，说明两变量间的相关系数实际意义不大。12. 应用线性回归时应注意的问题12. 应用线性回归时应注意的问题不能把毫无关联的两种现象作回归分析。散点图有助于判断观察点的分布（直线趋势或曲线趋势？），还能提示资料又无可疑异常点。对样本回归系数应进行假设检验直线回归方程的实用范围一般以自变量的取值范围为限，应避免外延。要推断两变量间相关的紧密程度，样本含量必须很大，如n ＞100 。回归关系不一定是因果关系。13. 等级相关 rank correlation，其中Spearman correlation 最常用13. 等级相关 rank correlation，其中Spearman correlation 最常用应用条件：X和Y都为随机变量，但不服从双变量正态分布（如相对数、等级变量）。第十章统计表与统计图第十章统计表与统计图 1. 统计表的结构1. 统计表的结构标题：表号（1或1-1）、内容、表格上方（居中或右对齐）标目: 横标目：描述的对象,位于表的左侧,向右说明各行数字涵义。纵标目：描述的指标,位于表的右侧,向下说明各列数字涵义。线条：至少3条线，顶线和底线较粗，无竖线和斜线。数字：同指标小数位对齐,缺数据用“…”,无数据用“-”表示。备注：如有必要，在表格下方说明。2. 统计表的种类2. 统计表的种类简单表：研究对象仅按1个变量分组（分类变量的不同类别，如研究对象只按性别分组；或连续变量的不同水平，如研究对象只按年龄组分组）组合表：研究对象按2个及以上变量分组，如研究对象按病型和疗法分组。一般把其中主要的或分项较多的变量作为横标目，其余变量安排在纵标目。3. 编制统计表的基本要求3. 编制统计表的基本要求一张表只表达一个主题标题内容要明确横标目（主要或分项较多的）和纵标目的位置准确线条简洁且不能有竖线条数字准确和可靠4. 编制统计表的注意事项4. 编制统计表的注意事项统计表不一定是唯一的内容：庞杂线条：粗细不分，有竖线和斜线数字：不准确，数字位数未对齐标题：不明确，不精练标目：横标目、纵标目安排不当假设检验结果的表达：统计量与 P 值问题5. 统计表的绘制5. 统计表的绘制在Word中绘制 PowerPoint中统计表的绘制直接绘制插入Word表格6. 常用统计图的用途及绘制要点6. 常用统计图的用途及绘制要点条图（bar chart）线图（line chart ）直方图（histogram）误差条图（error bar ）箱图（boxplot ）构成图：圆图（pie chart ）散点图（scatterplot ）7. 最常用的几种统计图7. 最常用的几种统计图

                    本文档为【7-基本统计方法复习】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

7-基本统计方法复习

你可能还喜欢