首页 医学统计学符号,公式,重点

医学统计学符号,公式,重点

举报
开通vip

医学统计学符号,公式,重点医学统计学符号,公式,重点 : 计量资料:由连续变量的观察值构成的资第一章 医学统计中的基本概念 料。对每个观察对象的观察指标用定量方1、 医学统计学是研究医学数据的收集、整理、分法测定其数值大小所得的资料,一般有度析、解释和呈现其结果的一门学科。 量衡单位,例如年龄、身高、血糖。 2、 个体:研究的基本观察单位。 : 计数资料:由离散变量的观察值构成的资3、 变量:用于观察研究对象的指标。 料。先将观察对象的观测指标按性质或类4、 观察值:个体变量的数值。 别进行分组,然后计数各组的数目所得的5、 资料:又称...

医学统计学符号,公式,重点
医学统计学符号,公式,重点 : 计量资料:由连续变量的观察值构成的资第一章 医学统计中的基本概念 料。对每个观察对象的观察指标用定量方1、 医学统计学是研究医学数据的收集、整理、分法测定其数值大小所得的资料,一般有度析、解释和呈现其结果的一门学科。 量衡单位,例如年龄、身高、血糖。 2、 个体:研究的基本观察单位。 : 计数资料:由离散变量的观察值构成的资3、 变量:用于观察研究对象的指标。 料。先将观察对象的观测指标按性质或类4、 观察值:个体变量的数值。 别进行分组,然后计数各组的数目所得的5、 资料:又称为数据,由变量的观察值构成。 资料,例如性别、患病、血型。 : 变异:个体观察值之间具有的差异。 : 等级分组资料:由等级变量的观测值构成: 变异和同质是对统计学数据的要求~ 的资料。具有计数资料的特征,同时又具: 变异是统计学研究的真正对象~ 有半定量性质的资料,例如细菌培养阳性: 统计学是研究变异规律的科学~ 结果。 : 同质:个体观察值之间的变异在允许范围 内。 二、3种设计类型:完全随机设计;配对设计;配: 异质:个体观察值之间的变异超出允许范伍组设计。 围。 一、总体、抽样、样本、参数、统计量 三、 抽样误差、概率和小概率事件 总体:同质的个体所构成的全体研究对象。总体同: 抽样误差:由抽样引起的样本统计量与总时具有同质和变异两个特点。 体参数之间的差异。 , 有限总体:总体中的个体数量是有限的。 抽样误差的原因;抽样误差是不可避 , 无限总体:总体中的个体数量是无限的。 免的。 : 样本:从总体中随机抽取的部分个体。 : 概率P:表示某事件发生的可能性大小的 : 样本量:样本所包含的个体数目。 度量。 : 参数:刻画总体特征的指标。 , 小概率事件:统计学上习惯将P?0.05或 : 统计量:刻画样本特征的指标。 P?0.01的事件称为小概率事件,表示该 事件发生的可能性很小。 “小概率事件”统计意义(两面性) : 小概率事件几乎不会发生,或者说 可以认为在一次试验中不会发生? 统计推断基础(正面:应用); : 小概率事件偶然会发生,如果发生抽样:从总体中随机抽取部分个体的过程。抽样具了?统计推断发生错误(反面:警有代表性、随机性、可靠性、可比性; 惕); 原则:代表性:样本能充分反映总体特征。 随机性:保证总体中每个个体都有相同的几 率被抽样。 , 随机性是代表性的保证; , 生活中随机性的例子(思考 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 ); 计量资料计量资料 二分类资料二分类资料二分类资料计数资料计数资料资料资料((分类资料分类资料))无序多分类资料无序多分类资料无序多分类资料 等级资料等级资料((有序多分类资料有序多分类资料)) 第二章 第(n+1)/2项的观察值; 集中趋势的统计描述 2. 当观察例数n为偶数时,中位数是按顺序排列一、统计描述 在第n/2和(n/2)+1项观察值的平均值; 总体和样本具有同质和变异两个特征。 百分位数 集中趋势—同质的统计描述; 百分位数Px:指在一组数据中找到这样一个数值, 变异程度—变异的统计描述; 全部观察值的x%小于Px ,其余(100-x)%大于Px。 统计描述主要通过统计量和统计图表来刻画 算术均数几何均数中位数的 频数表和直方图 均数尺度线性对数顺序频数表:同时列出观察指标的可能取值区间及其在 各区间内出现频数的统计表。 适用对称分布对数正态分布偏态分布(指数、等比分布) 直方图:以垂直条段代表频数分布的一种图形,条 段的高度代表各组的频数,由纵轴标度;各组的组 限由横轴标度,条段的宽度表示组距。 频数表和直方图的用途 1. 作为陈述资料的形式; 2. 便于观察数据的分布类型; 3. 便于发现资料中含有的异常值; 4. 可用各组段的频率作为概率的估计值; 二、平均数 , 定量:频数表/图 平均数:描述一组观察值集中趋势或平均水平的统 集中趋势+离散程度 计指标。 是否对称 平均数类型 变异系数:两均数相差很大,或者不同变量间变异, 算数均数(均数):线性尺度上的平均水平; 程度的比较 , 几何均数:对数尺度上的平均水平; , 定性:发病率、构成比 , 中位数:顺序尺度上的平均水平; , 相对数使用注意事项 , 百分位数:顺序尺度上的平均水平。 , 率的标化 均数的意义和应用 统计图类适用条件 均数代表每组观察值的平衡点,也就是重心。 型 常用在对称分布,尤其是正态分布; 条图 适用于比较相互独立的统计指标的数值大小 在偏态分布时,易受极值影响; 圆图、百描述分类变量各类别所占构成比,后者特别算术均数 分比条图 适合多个构成比的比较 算数均数(均数):线性尺度上的平均水平 线图 描述某统计量随另一连续性数值变量变化而几何均数及应用 变化的趋势 几何均数:对数尺度上的平均水平; 直方图 描述数值变量的频数分布 1. 几何均数的对数等于各观察值对数的算术均数; 箱式图 描述数据的分布特征 2.几何均数主要应用在免疫学(抗体滴度、血清凝统计地图 描述某指标在地理区域的分布 聚效价)、微生物学(细菌计数)等领域。观察值 一般呈等比或对数正态分布。 中位数 中位数:将一组观察值从小到大按顺序排列,居中 心位置的数值,记为M。 中位数的精确计算 1. 当观察例数n为奇数时,中位数是按顺序排列在 第三章 变异程度的统计描述 (五)估计参考值范围的界限; 自由度的理解 (三)决定取单侧范围还是双侧范围值 样本方差S2是总体方差σ2的无偏估计。 E(S2)= 有些指标过高或过低均属异常(A) ,故其参考值σ2 范围需要分别确定下限和上限,称作双侧参考值范 围。有些指标仅在过高(B)或过低时为异常(C),只2(X-X)SS,2方差S,,需确定其上限或下限,称作单侧参考值范围。 n-1 是自由度n-1n,1 (四)选择适当的百分范围 df 自由度:已知 ,固定X1,X2,...,Xn-1后,Xn必然 参考值的百分范围应根据资料的性质和研X 确定;所以只有n-1个独立(自由变化)个体。 究目的选择,它与诊断阈值有确定的关系。百分范不同类型变异程度指标的比较 围的不同将导致不同的假阳性率和假阴性率。 (五)估计参考值范围的界限 特点极差四分位数间距方差和 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差变异系数 简单,粗略;不比较无量纲或多参考值范围估计主要有百分位数法和正态分相对稳定;未使使用全部信息,特点稳定,受极端值组均数相差较大用所有观察值应用广泛影响大数据布法。 适用范围所有数据所有数据对称数据对称数据 总结 衡量变异程度的指标 算术均数几何均数中位数, 极差、四分位数间距、方差和标准差、变异系数 正态分布的特征和曲线下面积分布规律 均数尺度线性对数顺序 医学参考值范围的制定 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 适用对称分布对数正态分布偏态分布(指数、等比分布) 正态分布及应用 正态分布有两个参数 和 , 分别表示均数和,, 标准差 ,,1.96,,,2.58,,,,2.58,,,1.96,,,,,,, 68.3%95.0%99.0% 主要特征: 1.以为中心的对称分布 , 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异 当μ=0,σ=1时,称为标准正态分布 正态分布曲线下面积 单侧95%=双侧90%=1.645 , μ?σ:68% , μ?1.96σ:95% , μ?2.58σ:99% 二、医学参考值范围的制定方法 (一)选择一定数量的参照样本; (二)对选定的参照样本进行准确的测定; (三)决定取单侧范围还是双侧范围值; (四)选择适当的百分范围; 第四章 抽样误差与假设检验 的,不能随便移动 。 假设检验(基本步骤) 假设检验的两类错误 1、 建立假设和确定检验水准; 1. 一般反证法能得到绝对矛盾; 建立假设(反证法的假设命题) 2. 假设检验的矛盾基于―小概率事件原理‖—―小无效假设H0: μd=0 概率事件(P<α)在一次试验中是不会发生的‖; 备择假设H1: μd?0 , 若小概率事件发生了,则我们犯了经验主义错确定检验水准α(小概率事件定义) 误; α=0.05或α=0.01 , 因为小概率事件发生可能性为α,则我们犯2. 选择检验方法和计算检验统计量; 经验主义错误的概率为α,这种错误称为?型3. 确定P值和作出统计推断结论 错误。 1)计算获得t值的概率P值,并与检验水准α比较。 , 若小概率事件没有发生,接受零假设时,还2)若P?α,小概率事件发生,矛盾,拒绝H0 ,是有可能犯错误,这时候错误是教条主义,接受H1;认为μd?0,即治疗前后血清甘油三酯称为?型错误。 差异有显著统计学意义。 3)若P> α,不能拒绝拒绝H0 ;认为μd=0,即 治疗前后血清甘油三酯差异无显著统计学意义。 假设检验(三个基本步骤) 单侧还是双侧检验—研究目的决定1. 建立假设和确定检验水准; 3. 选择检验方法和计算检验统计量; 4. 确定P值和作出统计推断结论。 假设检验的思路 1. 为了判断两组样本代表的总体之间的差异是 由抽样误差还是总体之间本质差别引起的? 2. 作假设。H0:抽样误差引起的; H1 :总体 本质差别引起的。 3. 利用反证法在H0条件下计算样本的统计量。 4. 利用抽样分布原理,根据样本统计量大小判断 抽样结果是否为小概率事件,决定是否拒绝 H0 。 假设检验的基本思想 , 反证法思想 , 小概率事件原理 关于α的说明 1. 检验水准,显著性水平,即定义小概率事件; 2. 界值是人为确定的,常用0.05,0.01;某些情 况下可取0.1,0.001; : P>0.05,―差异没有显著统计学意义‖; : P<0.05,―差异有显著统计学意义‖; : P<0.01,―差异有极其显著统计学意义‖; : 错误的说法:―有显著差异‖;―差异是否显 著‖由专业来决定,统计学只能给出―差异 是否有统计学意义‖,即是否有证据表明 存在差异。 3. 界值代表容许犯错的最大概率,是事先确定 第五章 t 检验 单样本t检验——检验步骤 t分布特征 1. 建立检验假设,确定检验水准 : 自由度ν不同,曲线形态不同,t分布是一簇H0:,,,0,该地难产儿与一般新生儿平均出生体 曲线; 重相同; : 自由度ν越大,t分布越接近于正态分布;当H1:,,,0,该地难产儿与一般新生儿平均出生体 自由度ν逼近?时,t分布趋向于标准正态分重不同; 布; ,,0.05或0.01。 : 自由度较小时,曲线峰的高度低于标准正态曲2. 计算检验统计量 线,且曲线峰的宽度也较标准正态分布曲线峰在μ=μ0成立的前提条件下,计算统计量为: 狭,尾部面积大于标准正态曲线尾部面积,而3. 确定P值,做出推断结论 且自由度越小,t分布的这种特征越明显(翘本例自由度,,n-1,35-1,34,P,0.05,表明差异无统 尾低狭峰)。 计学意义,按 ,,0.05水准不拒绝H0,根据现有样 本信息,尚不能认为该地难产儿与一般新生儿平均 ft()出生体重不同。 v,,标准正态v,5配对样本均数t检验 v,1分布 配对样本均数t检验:简称配对t检验,又称非独立 两样本均数t检验,适用于配对设计计量资料均数的 比较,其比较目的是检验两相关样本均数所代表的 未知总体均数是否有差别。 概率,、与u值关系 配对设计:是将受试对象按某些重要特征相近的原标准正态分布中u值大小与尾部面积(概率,)有则配对,每对中的两个个体随机地给予(两种处理关,以u, (单侧)和u,/2(双侧)表示; 中的)一种处理。 P、自由度,与t值关系 配对设计概述 1. 在t分布中,t值与P、,的大小有关; 1. 应用配对设计可以减少实验的误差和控制非处2. 在t分布中,当自由度一定时P越小,|t|越大; 理因素,提高统计处理的效率。 3. 在P一定时,自由度越小,|t|越大,大于u值; 2. 配对设计处理分配方式主要有三种情况: 4.在单侧时(尾部面积取单侧)t界值表示为t,,, , ?两个同质受试对象分别接受两种处理,如把双侧时表示为t,/2,, ,其意义为 同窝、同性别和体重相近的动物配成一对,或把同单样本 t检验原理 性别和年龄相近的相同病情病人配成一对; 在 H0 :, =,0的假定下,可以认为样本是从已知总?同一受试对象或同一标本的两个部分,随机体中抽取的,根据t分布的原理,单样本t检验的分配接受两种不同处理,如例5.2资料; 公式为: ?自身对比(self-contrast)。即将同一受试对象 处理(实验或治疗)前后的结果进行比较,如对高 X,,血压患者治疗前后、运动员体育运动前后的某一生t,理指标进行比较。 SX 配对样本均数t检验——检验步骤 1. 建立检验假设,确定检验水准 自由度,,n-1 , H0:,d=0,两种结核菌素的皮肤浸润反应总体平均样本来自总体的可能性越大: 直径差异为0; • 样本均数与总体均数差别越大; , H1:,d,0,两种结核菌素的皮肤浸润反应总体平均• 样本标准差越小; 直径差异不为0; • 样本量越大; ,0.05或0.01。 , ,单样t检验的应用条件: 2. 计算检验统计量 小样本资料(如n<40)且服从正态分布,或大样本资 3. 确定 P 值,作出推断结论 料。 , 自由度计算为 ν=n-1=12-1=11, 关于α的说明 , P=0.001<0.01,差别有统计学意义,拒绝H0,接受1. 检验水准,显著性水平,即定义小概率事件; H1, 2. 界值是人为确定的,常用0.05,0.01;某些情况下, 可认为两种方法皮肤浸润反应结果的差别有统计学可取0.1,0.001; 意义。 : P>0.05,―差异没有(显著)统计学意义‖; 两独立样本均数t检验 : P<0.05,―差异有(显著)统计学意义‖; 1. 两独立样本均数t 检验又称成组t检验。 : P<0.01,―差异有极其(显著)统计学意义‖; 2. 适用于完全随机设计的两样本均数的比较,其目的是检: 错误的说法:―有显著差异‖;―差异是否显著‖由专业来验两样本所来自总体的均数是否相等。 决定,统计学只能给出―差异是否有统计学意义‖,即是3. 完全随机设计是将受试对象随机地分配到两组中,每否有证据表明存在差异。 组患者分别接受不同的处理, 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 比较处理的效应。 3. 界值代表容许犯错的最大概率,是事先确定的,不两独立样本t检验原理 能随便移动 。 两独立样本t检验的检验假设是两总体均数相等,即H0:t 检验中的注意事项 μ1=μ2,也可表述为μ1,μ2=0, t统计量计算公式为 1. 假设检验结论正确的前提 |()(0)|||XXXX,,,,,,,121212 , 作假设检验用的样本资料,必须能代表相应的总体,tnn,,,,,,2,12SSXXXX,,1212 同时各对比组具有良好的组间均衡性,才能得出有意两独立样本t检验——检验步骤 义的统计结论和有价值的专业结论。 1. 建立检验假设,确定检验水准 2. 检验方法的选用及其适用条件 , H0:,1=,2,两种疗法治疗后患者血糖值的总体均, 应根据分析目的、研究设计、资料类型、样本量大 数相同; 小等选用适当的检验方法。 , H1:,1,,2,两种疗法治疗后患者血糖值的总体均3. 双侧检验与单侧检验的选择 数不同; , 需根据研究目的和专业知识予以选择。单侧检验和, ,,0.05或0.01。 双侧检验中的t值计算过程相同,只是t界值不同,2. 计算检验统计量 对同一资料作单侧检验更容易获得显著的结果。单3. 确定P值,作出推断结论 双侧检验的选择,应在统计分析工作开始之前就决 两独立样本t检验自由度为 , =n1+n2-2 定,若缺乏这方面的依据,一般应选用双侧检验。 =12+13-2=23; 4.假设检验的结论不能绝对化 P=0.001<0.01,按,,0.01的水准拒绝H0,接受H1,差, 假设检验统计结论的正确性是以概率作保证的,作异有统计学意义。 统计结论时不能绝对化。在报告结论时,最好列出t检验的应用条件 概率P的确切数值。当P 接近临界值时,下结论应: 计量资料; 慎重。 : 小样本(n<40)要求服从正态分布(正态性检验进5. 正确理解P值的统计意义 行判断),或大样本; , P是指在无效假设 H0 的总体中进行随机抽样,所观: 两组比较时,要求方差齐性(方差齐性检验进行判察到的等于或大于现有统计量值的概率。其推断的 断); 基础是小概率事件的原理,即概率很小的事件在一次: 组间均衡可比性。 抽样研究中几乎是不可能发生的,如发生则拒绝H0。关于t检验的说明 因此,只能说明统计学意义的―显著‖。 : 关于α的说明; 假设检验中两类错误 : 几何均数资料t检验,服从对数正态分布,先作对数表5–4 假设检验的两类错误 变换,再作t检验; 假设检验结论 真实情况 : 数据是否服从正态分布,通过正态性检验进行判断;,接受H 接受H 010拒绝H不服从正态分布,不能用t检验,应采用秩和检验; ?型错误(推断正确(成立 ) ) ,1,,0H: 数据是否方差齐性,通过方差齐性检验进行检验;) ) 不成立即H成立 ,1,,01 推断正确(?型错误(H若方差不齐,应采用t’检验。 ? 确定P值,作出判断 第六章 方差分析 F分布的三个抽样分布的事实上,它们都是基于正态分布。分布函数: 分子自由度=k-1=2,分母自由度=n-k=33, F:F分布在的统计学家RAFisher姓的第一个字母的名称F分布的目F=23.85,P<0.05,差别有统计学意义,按照0.05的:方差分析,协方差分析和回归分析的分析。 (A)F分布的定义的显著性水准,拒绝H0,可认为三种处理方式大为:设X,Y两个独立的随机变量X的自由度的卡方分布M,Y服从鼠的GSH值不全相同。 卡方分布的N 2 独立自由的程度的各自的自由度,在另外的购买比例均数之间的多重比较 的量的统计分布的卡方分布F =(/米)/(Y / N)(米,n)的F分布完成方差分析后,我们可以得到结论: 服从自由度在F服从程度的自由米,第二自由度的F-n的密度函数的, H0:各组总体均数相同; 分布这样的条目, (II)F的性质为1的分布,这是一种非对称的分, H1:各组总体均数不全相同; 布; 2,具有两个自由度,即相应的分布是由F(n-1个,百万-1 m-1如果接受H0 ,分析完成(F检验一次性完成多组的1)中,n表示, - 1通常被称为作为分子的自由度,m-1的通常比较,控制了?型错误); 被称为作为分母的自由度; 3 F分布是一个自由度n -1个,和m-1是如果拒绝H0 ,接受H1 ,则需要进一步做―多一个分布族的不同程度的参数,自由决定的F-分布的形状。 F分布重比较‖确定哪些组间有差异(post hoc检验); 的天然的互补性:Fα,DF1,DF2 =1/F1-α,DF2,DF1 : ―多重比较‖仍然不能采用t检验~ 多个样本均数的两两比较 多重比较的方法 两独立样本均数t检验 LSD-t检验;SNK-q检验;Dunnett-t检验; 如采用多次t检验,累积?型错误概率将大大增加。 LSD-t检验 最小显著差异(Least significant difference)t检验 方差分析思想 SNK,q检验 要说明甲组比乙组和丙组好, SNK(Student-Newman-Keuls)检验,亦称q检验。 首先 X,X,XABCDunnett-t检验 方差分析的使用条件 其次: 各组总变异SS,SS,SS比较小ABC1. 各处理组样本来自随机、独立的正态总体 , 直方图、茎叶图粗略估计; , P-P图、Q-Q图精确估计; , 偏度系数和峰度系数估计; , one-sample K-S非参数检验( D法); 2. 各处理组样本的总体方差相等 , Bartlett检验法:正态分布资料; , Levene检验法:无资料分布要求 (SPSS); 3. 正态性和方差齐性的假设检验 方差分析与方差齐性检验的比较 相同点:都在比较方差大小; 不同点: 目的 , 方差分析在比较总体均数是否相等; , 方差齐性检验在比较两总体方差是否相 方差分析步骤 同; ? 提出检验假设,确定检验水准。 : 查表 H0: 三个组GSH值的总体均数相同; , 方差分析是单侧F界值表(总体组间?组 H1: 三个组GSH值的总体均数不全相同; 内); ? 根据公式计算SS、MS及F值,列于方差分析, 方差齐性是双侧F界值表(总体分子未表内。 必>分母); 第七章 相对数及其应用 4. 要考虑抽样误差。 相对数的种类 率的标准化 率(rate) 率的标准化,是为了在比较两个不同人群的 构成比(constituent ratio) 患病率、发病率、死亡率等资料时,消除其 相对比(relative ratio) 内部构成(如年龄、性别、工龄、病程长短率(通常针对二分类计数资料) 等)的影响。如年龄会影响死亡率,年龄越概念:率是表示某种现象发生的频率和强度,常以大,死亡率可能越大;病情越重,越难治愈,百分率(%)、千分率(?)、万分率(/万)、十万治愈率就越低。 分率(,10万)等表示 。 标准化直接法的计算步骤 计算公式: 1. 选取标准构成。标准构成选取方法有三种: (1)另外选取一个包含比较各组(如各地区)某事物或现象发生的实际数率,,比例基数某事物或现象发生的所有可能数 的有代表性的、较稳定的、数量较大的构成为标准。注意:比例基数”通常依据习惯而定,治愈率、感如世界的、全国的、全省的数据为标准构成。 染率用百分率,出生率、死亡率用千分率,某些疾 (2)取比较各组的各层例数的合计为标准构成。 病的死亡率用十万分率。保持率的整数位1~2位。 (3)从比较的各组(如各地区)中任选其一的构成比(通常针对多分类计数资料或等级资料) 构成作为标准构成。 概念:又称构成指标,表示事物内部各个组成部分2. 在标准构成下,以原分层率计算各组的预期发生所占整体的比重,通常以100,为比例基数,以百数。 分比表示。 3. 计算标准化率。 计算公式: 医学中常用的相对数指标 1. 死亡统计指标 其中一组例数构成比,,100%: 死亡率:表示某地某年每1000人中的死亡人各组例数之和 注意:各组成部分的构成比之和为100%,某一部数; 分比重增大,则其它部分相应减少。 : 年龄别死亡率 相对比 : 死因别死亡率(十大死亡率) 概念:相对比是两个有关联指标之比,用以描述两: 死因构成 者的对比水平,常用R表示。 2. 疾病统计指标 计算公式: 发病率:“新发病率”,表示在某一时期内特定人群 中患某病新病例的频率。 A指标R=B指标患病率:“现患病率”,也称现患率,表示某一时点 注意:A大于B用倍数表示,A小于B时用百分数某人群中患某病的频率。 表示。 相对比的种类 1. 两类个体例数之比 : 两类同指标之比(男:女) : 两类不同指标之比(人均收入) 2. 两个率之比(相对危险度RR) 3. 两个相对比之比(比值比OR) 相对数使用应注意的问题 1. 不要把构成比与率相混淆(例7.1); 2. 使用相对数时分母不宜过小(投篮 比较); 3. 注意资料的可比性(医院治愈率比较); 第八章 卡方检验 或称R×C表资料 卡方检验统计量 2(A,T)2,,,2 AT2,,,(1),n 基本公式 RCnnA:观察值;T:理论值;四格表的自由度为1 行数列数,,,,(1)(1)是连续型分布的 列联表资料检验的应用条件: 检验统计量χ2 值反映了实际频数与理论频数的1. T?1,且5>T?1的格子数不能超过1/5,用吻合程度 基本公式; 1. 若检验假设H0:π1=π2成立,四个格子的实2. 所有情况,都可以用Fisher确切概率法; 际频数A 与理论频数T 相差不应该很大,即3. 两组或多组比较的等级分组资料 统计量χ2 不应该很大。 非参数检验 2. 如果χ2 值很大,即相对应的P 值很小,若 P实际应用中:对于行列表资料要根据其分类类型和 ?α,则反过来推断A与T相差太大,超出了研究目的选用恰当的检验方法。对于两组或多组比 抽样误差允许的范围,从而怀疑H0的正确性,较的等级分组资料不宜用卡方检验。 继而拒绝H0,接受其对立假设H1,即π1?多个样本率间的多重比较 π2 1. 用四格表资料的卡方检验进行两两比较; 卡方检验步骤 2. 检验水准α’=α/n,n为检验次数;这种多重(1) 建立检验假设,确定检验水平。 检验校正方法称为Bonferroni方法。 H0:π1=π2 即甲药与乙药的总体有效率相等 四格表专用公式 2H1:π1?π2 即甲药与乙药的总体有效率不等 ()adbcn,2,,α=0.05。 ()()()()abcdacbd,,,, (2)求检验统计量值 ,1,(3) 确定P 值,作出推断结论 因为P=0.251>0.05,按α=0.05水准,接受H0,差 异有统计学意义,可以认为甲乙两种药物治疗冠心 2病的总体有效率相等。 (.)AT,,05RCRC2,,,四格表资料检验的应用条件: TRC2n?40且所有T?5,用基本公式 (/)adbcnn,,22,, ()()()()abcdacbd,,,, :1) 这种校正称为连续性校正。 所有情况,都可以用Fisher确切概率法 2) 如检验所得P值近于检验水准,时, 好改用四格表确切概率法。 配对四格表资料,用配对专用公式; 关联性检验 Vs Kappa统计量 Kappa>0.75,一致性好;Kappa<0.4,一致性差; n<200 考虑用关联性检验;n>200,考虑用Kappa。 行×列表资料的χ2检验 行数或者列数大于2列联表资料称为行×表资料 达两事物之间的关系。 第十章 线性相关与回归 线性相关的基本概念 2 常用的等级相关计算方法是Spearman等级相关把这种Y随着X变化而变化的关系称之为相关关系数。 系,如果这种变化呈现直线关系,又称之为直线相线性回归方程的显著性检验 关(线性相关)或简单相关。 1 对线性回归方程要进行假设检验,就是要检验b线性相关系数 是否为β=0的总体中的一个随机样本。该假设检验相关系数就是说明具有直线关系的两个变量间相通常用采用方差分析或者t检验,两者的检验效果关密切程度和相关方向的统计量。 等价。 |0|b,相关系数r没有测量单位,其数值为-1?r?1 2 t检验: ,t,,=n-2sb相关系数的显著性检验 3 方差分析: SSSSSS,,,,,,=+总回归总回归剩余剩余原因:由于根据样本资料计算出来的相关系数存在进行线性回归分析的注意事项 抽样误差。 ? 只有对两个有内在联系的变量进行回归分析才举例:假设在一个X与Y无关总体中作随机抽样,是有意义的。 由于抽样误差的影响,所得的样本相关系数也常常? 作回归分析时,如果两个有内在联系的变量之不等于零。 间存在的是一种依存因果的关系,那么应该以―因‖结论:要判断两个变量X与Y在总体是否真的存在的变量为X ,以―果‖的变量为Y 。 相关关系,需要作总体相关系数ρ是否为零的假设? 在回归分析中,要求自变量与因变量都服从正检验。 态分布。 1. 建立检验假设 ? 回归方程建立后必须作假设检验,只有经假设 :ρ=0,即身高与前臂长之间不存在0检验拒绝了无效假设,回归方程才有意义。 H ? 使用回归方程计算估计值时,不可把估计的范 相关关系; :ρ?0,即身高与前臂长之间存在1围扩大到建立方程时的自变量的取值范围之外。 H相关关系; 线性相关与回归的区别与联系 1. 线性相关表示两个变量之间的相互关系是双向 α=0.05 的;回归则反映两个变量之间的依存关系,是单向 2. 计算检验统计量 的。 2. 如果对同一资料进行相关与回归分析,则得到的 ,接受H,差异有01t=4.013,ν=11-2=9 相关系数r与回归方程中的b正负号是相同的。 统计学意义,可以认为身高与前臂长之3. 确定P值,作出结论 3. 在相关分析中,求出r后要进行假设检验,同样, 在回归分析中,对b也要进行假设检验。同一样本进行线性相关分析的注意事项 间存在相关关系。 P=0.005(SPSS软件计算)<0.05,按照1. 线性相关表示两个变量之间的相互关系是双向的这两种假设检验也是等价的。 α=0.05水准拒绝H的,分析两个变量之间到底有无相关关系可首先绘4.相关和回归可以互相解释。 制散点图,散点图呈现出直线趋势时,再作分析。 直线回归:研究两个变量之间的数量依存关系 2. 依据公式计算出的相关系数仅是样本相关系直线相关:研究两变量之间相互联系的方向和密切数,它是总体相关系数的一个估计值,与总体相关程度。 系数之间存在着抽样误差,要判断两个事物之间有 r是表示两个随机变量之间呈直线相关的强度和无相关及相关的密切程度,必须作假设检验。 方向的统计量。 3. 相关分析是用相关系数来描述两个变量间相互直线回归:要求Y服从正态分布,X为人为控制或关系的密切程度和方向。而两个事物之间的关系既精确测量 可能是依存因果关系,也可能仅是相互伴随的数量直线相关:要求X和Y都服从正态分布。 关系。要证明两事物间确实存在因果关系,必须凭 r=0.85,关系密切,,只能说程正相关。 借专业知识加以阐明。 等级相关系数 1 如果观测值是等级资料,则可以用等级相关来表 总复习 统计推断 计量资料:由连续变量的观察值构成的资料。对每参数估计 个观察对象的观察指标用定量方法测定其数值大,未知,且n小 (X,tS,X,tS),/2,,,/2,,XX小所得的资料,一般有度量衡单位,例如年龄、身 高、血糖。 ,未知,但n足够大 (X,ZS,X,ZS),/2,/2XX计数资料:由离散变量的观察值构成的资料。先将 观察对象的观测指标按性质或类别进行分组,然后,已知 X,Z,X,Z,(,),/2,/2XX2(用两种方法检验已确诊的肝癌患者120名, 得到如下资料 计数各组的数目所得的资料,例如性别、患病、血 甲法 乙法 合计 型。 , , 等级分组资料:由等级变量的观测值构成的资料。 , 42 30 72 具有计数资料的特征,同时又具有半定量性质的资 , 18 30 48 料,例如细菌培养阳性结果。 合计 60 60 120 18两个数字的意义。 (1)请解释表中42、 2, (2)请通过 检验说明两种方法检查的阳性检出率有无差别。 解: (1).请解释表中42、18两个数字的意义。 ―42‖表示两种方法检验结果一致的例数,―18‖是指两者不一致的例数 (4分) 2,(2).请通过 检验说明两种方法检查的阳性检出率有无差别。 1).检验假设:H0:两法检验结果无差别或一致, 的扣1分),=0.05(2分,未给H0或, H1:两法检验结果有 差别或不一致, 2).计算统计量:因配对四格表b+c=48>40,故可不用校正法(3分, 用校正公式扣1分) 3).确定P值并作结论:自由度=1,界值 , 今 0.05,不拒绝H0,即还不能认为甲法与乙法的检验结果有差别。 (3分,未给实际结论的扣1分),,故P 总体(population)的特性:同质性、 Chapter 基本概念 大量性、差异性。 抽样的要求:代表性、随机性、可靠性、显著性检验(test of significance):计 可比性。 算P值 样本的三性:代表性、随机性、可靠性。 医学统计工作的内容: 可靠性(reliability):实验的结果要具1、实验设计:最关键最重要 有可重复性。即由科研课题的样本得出的结2、收集资料:最基础 论所推测总体的结论有较大的可信度。 原始资料:实验数据 两样本间具有:可比性。 现场调查资料 医疗卫生工作记录 报表 误差的类别: 报告卡 1、系统误差(system error):在资料质量控制——精度和偏倚 的收集过程中,由于仪器初始状态没有调3、整理资料 零、标准试剂未经矫正、标准指定偏高或偏(1) 资料的逻辑检查(坏数) 低等原因,造成的观察结果的倾向性的偏大(2) 一致性检查 或偏小。必须克服。 3) 原始数据加工:频数分布表 ( 2、随机测量误差(random 4、分析资料:统计描述(表、图、离measurement error):在避免系统误差的情散趋势、集中趋势)和统计推断 况下,由于各种偶然因素的影响造成对同一 对象多次测量值的不一致。 统计描述类型的选择: 3、抽样误差(sampling error):由于 集中趋势 离散趋势 抽样造成的的样本统计量与总体参数之间 的差别。不可避免。样本含量越大,抽样误x对称、正态 μ, |X-,|。 差越小。如均数的抽样误差: ,,SS,S 对数正态 G S lgX 概率(probability):P(A) 偏态及其他 M Q,R 小概率事件:P?0.05(有统计学意义)单位不同或均数差别大 CV 或P?0.01(有高度统计学意义)。 医学统计的资料类型:计量资料、计数 资料、等级分组资料 Chapter 集中趋势的统计描医学统计学的对象:有变异的事物 述 总体和样本: 手工整理资料频数表(frequency 抽样 总体 样本 table)的步骤: 1、求极差(全距) 2、确定组数、组距 推断 参数 统计量 参考组距=全距 / 组数 n,x%,f LP,L,(),i3、确定组段 Xxfx4、手工编制划记表 直方图(histogram): 众数:一组观察值中,出现频率最高的高度:各组的频数 纵轴 那个观察值。若为分组资料,则为频率最高 组的组中值。适用于大样本,但粗糙。宽度:组距 横轴表示组限 均数(average): Chapter 离散程度的统计描适用:对称分布或偏度不大的资料,尤 其适合正态分布。 述 X,1、算术均数(mean): X,离散的表述指标: n 1、按间距计算:极差、四分位数间距 f X,2、按平均差距:离均差平方和、方差、2、加权均数: X,标准差、变异系数 n 极差(range,R):即全距。粗略。适3、几何均数: 用于任何分布。 lg X,,1四分位数间距(quartile,Q):一组观G,lg,察值按大小排序后,分成四个数目相等的段n 落,每个段落观察值的数目占总例数的 f lg X,,125%。去掉两端含有极端数值的25%,取M, Glg中间的50%的观察值的数据范围即为~。 n 越大则数据变异越大。适用于偏态分中位数(median):观察值按照从小到 布。 大排列时,居中心位置的数值。 Q=P- P75 25 适用于1、分布明显成偏态时,2、频 数分布的一端或两端无确切数值时。不便于离均差平方和(sum of square of 统计计算。 deviation): 20.5n,f L2X(),2 M,L,(),iMSS,X-X,X,(),,fMn M:中位数;L:M所在组的上限;f:M L M所在组之前积累的频数;f:M所在组的M方差(variance): 频数;i:组距。 2SSX-X(),2百分位数(percentile):Px。在一组中S样本方差 ,,找到这样一个数值P,全部观察值的x%小,n-1于P。P、P描述资料离散程度。 7525 2μ?2.58σ(单侧μ?2.33σ) 99% SSX-X(),2总体方差 S,, ,N 标准正态分布(standard~):是μ=0,标准差(standard deviations): σ=1的正态分布。 SS对于任何参数为μ、σ的正态分布,都2,, SS可以通过变量变换转化成标准正态分布:, ,x-适用于近似正态分布。 。 u, , p.s.1、可用于合并资料的直接计算 医学参考值范围(reference value 2、与均数结合可以完整概括一个正态range)的制定方法: 分布。 1、选择足够数量的正常人作为参照样变异系数(CV):用于均属相差交大或本 单位不同的几组数据观察值的比较。 2、对选定的参照样本进行准确的测定 S3、决定取单侧范围还是双侧范围值 CV= ,100% X 4、选择适当的百分范围 正态分布(normal distribution): 5、估计参考值范围的界限 1、正偏态分布:高峰向左,长尾向右 Chapter 抽样误差与可信区负偏态分布:高峰向右,长尾向左。 2、μ和σ是正态分布总体的两个参数,间 对应样本统计量中的S和X。实际应用中μ 和σ通常未知,可以将S和X作为总体参数 中心极限 定理 三点共线定理勾股定理的证明证明勾股定理共线定理面面垂直的性质定理 :在样本含量很大的情况的估计量使用。 n?50),无论样本测量量(X)服从什下( 2X-X(),么分布,样本均数的抽样分布都近似服从X注意对比:S ,2n-1以μ为均数的正态分布N(μ,σ/n) 2X-(),,标准误(standard error):样本均数X ,, N,,之间变异的标准差。 ,X2、μ是位置参数,σ是变异参数。 n 2描述方法:N(μ,σ) 实际工作中总体标准差σ 未知,,用样3、曲线下面积的意义:X~X出现的12S概率。 S,本的标准差S代替: Xnμ?σ 68.3% 标准差与标准误的区别: μ?1.96σ (单侧μ?1.645σ) 95% 反比,说明在同一总体中随机抽样,样本含标准差 标准误 量越大,标准误越小。 含义 描述观察值的变异程描述样本均数的抽样3、标准误反映了样本均数间的离散程度的大小的指标 误差大小的指标 度,也反映了样本均数与总体均数的差异。 公式 参数估计(parameter estimation):指,SS2,,SS,,X偶那个过样本参数估计总体参数,是统计推n,断的重要内容之一。常用方法有点估计、区 2间估计。 SX-X(),S(,) ,Xn点估计(point ~):使用单一数值直接n-1 作为总体参数的估计值。适用于各种资料。 意义 标准差较小,表示观察小,表明样本均数围绕 区间估计(interval ~):按照预先给定值围绕均数波动较小, 总体均数的波动较小, 的概率计算出一个区间,使它能够包含总体说明样本均数代表性说明样本均数可靠性参数。给定的概率(1-α)称为可信度。计好 好 算得到的区间称为可信区间(confidence interval,CI) 应用 1、表示观察值变异程1、估计样本均数抽样 度 可靠程度 可信区间通常包括两个数值界定的可 信限(confidence limit),分别为上限、下2、结合样本均数描述2、估计总体均数的可 限。 正态分布资料特征,确信区间 定医学参考值范围 总体均数估计的95%可信区间表示:3、进行假设检验 该区间有95%的概率包含总体均数μ。注意3、计算标准误 不可以说“总体均数有95%的概率落在这 4、计算CV 个区间里”。 n? 趋于稳定(σ) 逐渐减小 可信区间估计效果的比较: 1、(1-α)越接近1越好,概率? 标准误(公式)的意义: 2、区间宽度越窄越好,精确度? 1、与标准差的联系:在样本含量一定但两者是矛盾的。一般选择(1-α)的情况下,标准误与标准差成正比。 =95%。 (1) 当观察值的变异(标准差)较小时,t分布(t distribution):是以0为中心 样本均数之间的抽样误差较小,抽到的时,t分布的极限的对称分布;当,,, 样本均数与总体均属可能相差较小,用分布就是标准正态分布。在正态分布的总体 x-,估计μ的可靠性较好 X中进行抽样,服从自由度 S/n(2) 当观察值的变异较大时,样本均数之 间的抽样误差较大,抽到的样本均数与,,n,1的t分布。 总体均属可能相差较大,用估计μ的Xt的大小与α、自由度有关。 可靠性较差。 可信区间的计算: 2、与样本含量的关系:与其平方根成 检验水准亦称显著性水准(significance ,(X,t,S,/2,,Xlevel),用α表示,是预先设定的拒绝域的 概率值。一般取0.05。 X,t,S),/2,,X 2、选择检验方法和计算检验统计量 若n?50,则t分布接近标准正态分布,来自正态分布(或近似)的小样本t 则简化 (n<50) ,(X,u,S1、无论何种分布的大样本(n?50u ,/2X 时) X,u,S),/2X2、σ已知的正态分布小样本 若σ已知,则可简化为 1、独立的,水平k?3 F 方差2、均来自于正态分布的总体 ,(X,u,,,/2X分析 3、方差齐 X,u,,),/2X推断2个或2个以上总体率、构成2, 比之间的差别 u,1.96u,2.58, 0.050.01非参 1、总体分布偏态或未知 2、个别数据偏大或某段不确定 Chapter 假设检验 3、等级资料 假设检验(hypothesis test): 3、确定P值、做出统计推断结论 目的:比较总体参数有无差别 P值的意义:假设检验下结论的主要依 据,指在原假设成立的条件下,观察到的样基本思想:首先对所需比较的总体提出本差别是由机遇所致的概率。 一个无差别的假设,然后通过样本数据推断 是否拒绝这一假设。 结论: 基本方法:反证法和小概率事件。 1、p<α,样本数据差异显著,有统计 学意义,拒绝H,接受H 01基本步骤: 2、P>α,样本数据差异不显著,无统1、建立假设和确定检验水准 计学意义,根据现有样本不足以拒绝H(不0 无效假设(null hypothesis):H:μ=μ等于接受H)。 000 (或μ=0),总体均数无差别。 d单样本的t检验: 备择假设(alternative ~):H:μ?μ00 (或μ?0),总体均数有差别 d条件:μ,X,S,n 假设有单侧和双侧两种。应用单侧检验1、H:μ=μ,α=0.05,双侧检验 00 一定要有过硬的专业知识。一般选用双侧检 验,因为双侧检验得出有显著差别的结论,x-,,,n,1单侧检验结论也一定是显著差别;然而反之2、t=, S/n不亦然。 P<α,„„。 t3、 ,/2,, 假设检验中的两类错误: 配对样本t检验: 为真时,拒绝1、第一类错误:当H02H接受H。又称假阳性错误(阳性指条件:n,指标1、指标2(d,?d,?d) 01 两者总体参数有差异)。检验水准α是1、H:μ=0,α=0.05 0d预先规定的犯第一类错误的概率的最 大值。 nd/,,d2、t= ,2、第二类错误:当H为假时,不拒绝0SS/nddH。又称假阴性错误。概率大小用β表0 示,只取单侧,一般未知。 t3、 ,/2,, 可证,α越大β越小,α越小β越越大。 若要同时减少第一类错误和第二类错 误,唯一方法是增大样本含量 成组设计实验的两样本均数比较 2,简单四格表的检验: 条件:n1,n2,1,2,S1,S2 XX 有效 无效 合计 1、H:μ=μ, 012 药物1 a b a+b=n1 药物2 c d c+d=n0 X,X12合计 a+c=m1 b+d=m0 N 2、u= 22S/n,S/n1122 ,,,1、H:,α=0.05 012 u,1.96u,2.583、, 0.050.01 ,,12、 当n?40,且所有T?5时,四格表专F检验: 用公式 条件:表格略 2adbcn(,)21、H:各组总体均数相同, 0,, a(,b)(c,d)(a,c)(b,d) H:各组总体均数不全相同 1 MSSS,/TRTRTR当n?40,但有11,且F>F,则α,(k-1,n-k)概率公式 2A 2, 2、,,n(,1), nnRCabdacbd(,)~(c,)~(,)~(,)~2,,(行数-1)(列数-1) ,,a~b!c!d!n! 23、 ,,,, 223、=3.84,=6.63 ,,0.05,10.01,1 Chapter 相对数及其应用 2,配对四格表检验: 相对数(relative number):是两个有病例组 关的据对数之比,也可以是两个有关的统计对照组 合计 有暴露史 无暴露史 指标之比。常用的有:率、比值比、构成比。 有暴露a b a+b=n1 史 率(rate):表示在一定的范围内某现象无暴露c d c+d=n0 的发生数与可能发生的总数之比。 史 合计 a+c=m1 b+d=m0 N 构成比(constitute ratio):表示某事物 内部组成部分在总体中的比重。 ,,,1、H:,α=0.05 012 相对比(relative ratio):A、B两有关 联的指标之比,用以描述两者的对比水平。 ,,1, 2、如RR。 ,,X 总体均数 ,,s2 总体标准差 (b-c)2,,p,,当b+c?40时, 总体率 b,cQ,Qul 四分位数间距 ,,r 总体相关系数 2(|b-c|,1),,b2 第二类错误的概率;总体回归系,,当b+c<40时, b,c数 CV 变异系数 22 β 3、=3.84,=6.63 ,,0.05,10.01,1 CI 可信区间 M中位数 P50 50% 2 SMR实际死亡数/预期死亡数 ,行*列资料的检验: 有效 无效 合计 药物1 a b n1 药物2 c d n2 药物3 e f n3 合计 m1 m2 N 1、H:各组有效率相同, 0 H:各组有效率不全相同 1
本文档为【医学统计学符号,公式,重点】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_624976
暂无简介~
格式:doc
大小:145KB
软件:Word
页数:32
分类:生活休闲
上传时间:2017-09-18
浏览量:148