null第二章*医学统计学---供研究生用第二章计量资料的
统计描述数值变量资料的统计描述数值变量资料的统计描述数值变量资料的频数分布
集中趋势的描述
离散趋势的描述
正态分布
医学参考值范围的制定第一节 频数分布 第一节 频数分布 一、频数分布表
简称频数表(frequency table)例2-1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L)的测量结果如下,试编制频数分布表。试编制频数分布表。2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41
4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91
3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91
4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84
3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96
4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71
3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28
4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25
4.15 4.36 4.95 3.00 3.26试编制频数分布表。1、频数表的编制1、频数表的编制找全距(range)
定组距(class interval): 一般分为10~15组,如组距约为全距/10
写组段:
每个组段的起点称为下限,lower limit;
每个组段的终点称为上限,upper limit;
下限≤X<上限频数表的编制--续频数表的编制--续1.计算极差 :
极大值-极小值
5.71-2.35=3.36
2.组数:10
组距 3.36/10=0.336
取0.3
3.分组段:
最小组段2.3~
最大组段5.6~5.9
4.列表划记: 二、频数分布图(graph of frequency distribution)二、频数分布图(graph of frequency distribution)以各组段总胆固醇含量为横轴,频数为纵轴。SPSS中的操作:SPSS中的操作:1.建立数据库
2.先使用Recode 命令,对变量进行重新划计分组,注意新变量取组中值。
3. 再用Frequencies命令
1、Recode —> Into Different Variables 1、Recode —> Into Different Variables 2、将“胆固醇”选入Numeric Variable栏,在Output Variable栏输入新变量“Y” ,单击Change 按钮,
单击Old and New Values按钮。2、将“胆固醇”选入Numeric Variable栏,在Output Variable栏输入新变量“Y” ,单击Change 按钮,
单击Old and New Values按钮。3、在Old and New values对话框,按对变量值重新划分要求输入相应数据后,单击Add按钮。重复进行该操作。新变量可直接取组中值。 3、在Old and New values对话框,按对变量值重新划分要求输入相应数据后,单击Add按钮。重复进行该操作。新变量可直接取组中值。 语法命令:语法命令:RECODE
胆固醇
(2.3 thru 2.599=2.45) (2.6 thru 2.899=2.75) (2.9 thru 3.199=3.05) (3.2 thru 3.499=3.35) (3.5 thru 3.799=3.65) (3.8
thru 4.099=3.95) (4.1 thru 4.399=4.25) (4.4 thru 4.699=4.55) (4.7 thru 4.999=4.85) (5.0 thru 5.299=5.15) (5.3 thru
5.599=5.45) (5.6 thru 5.89=5.75) INTO Y .
EXECUTE .频数分布的类型频数分布的类型对称分布:集中位置居中,左右两边对称
偏态分布:正偏态分布(右偏态)峰左尾右
负偏态分布(左偏态)三、频数表和频数分布图的用途三、频数表和频数分布图的用途揭示变量的分布特征和分布类型;
便于进一步计算指标和统计分析处理;
便于发现某些特大或特小的可疑值。频数分布的两个特征频数分布的两个特征集中趋势,central tendency
指变量值的中心数值或中心位置所在。
离散趋势,tendency of dispersion
指变量值围绕中心数值或中心位置的分布情况。第二节 集中趋势的描述第二节 集中趋势的描述平均数(average):用于观察一组同质变量值的平均水平/集中位置。亦称中心位置指标。它不但给人一个简明概括的印象,而且便于事物间的分析比较。
常用的平均数
算术均数 (arithmetic mean/mean)
几何均数 (geometric mean)
中位数 (median)一、算术均数,简称均数
(arithmetic mean/mean)一、算术均数,简称均数
(arithmetic mean/mean)均数是算术均数的简称。
总体均数用希腊字母μ(缪,mu)表示
样本均数 (X bar)表示。
均数反映一组观察值在数量上的平均水平。均数的应用均数的应用主要用于对称性或近似对称性分布的资料;
尤其是在正态分布或近似正态分布上的应用。计算方法 1.直接法计算方法 1.直接法Σ:希腊字母(西格马,sigma),求和符号
例9.2 有8名正常人的空腹血糖值(mmol/L):
6.2,5.4,5.7,5.3,6.1,6.0,5.8,5.9
2.频数表法(加权法)2.频数表法(加权法)频数表计算均数:频数表计算均数: Xj 为各组的组中值。
组中值等于该组的上限加下限之和除以2。
fj 为各组的频数。
101名正常成年女子的血清总胆固醇均值为:
= 409.75/101 =4.06( mmol/L )补充: 均数的两个重要特征(1)补充: 均数的两个重要特征(1)离均差之和为零均数的两个重要特征(2)均数的两个重要特征(2)离均差平方和为最小(二)几何均数 Geometric mean,G(二)几何均数 Geometric mean,G反映一组呈倍数关系的观察值的平均水平
适用:数据呈正偏态分布,经对数转换后呈正态分布。多用于观察值之间呈倍数关系,如抗体滴度
计算方法
直接法
加权法1.直接法1.直接法用直接法计算G例:有8份血清的抗体效价为为1:5,1:10,1:20,1:40,1:80, 1:160 ,1:320,1:640。求平均效价。用直接法计算G将各效价的倒数代入公式,得该8份血清的平均抗体效价为1:56.57,近似为1:57
注意:变量值不能有02.频数表法2.频数表法式中f为频数。用频数表法计算G用频数表法计算G例 30名麻疹易感儿童接种麻疹疫苗一个月后,血凝抑制抗体滴度如下表所示,试求其平均抗体滴度。30名麻疹易感儿童血凝抑制抗体滴度30名麻疹易感儿童血凝抑制抗体滴度∑flgX=50.58null30名麻疹易感儿童接种麻疹疫苗一个月后血凝抑制抗体滴度为1:48.5同一组资料求得的几何均数小于均数。SPSS求几何均数时有三种方法SPSS求几何均数时有三种方法1.是先计算对数的均数,然后求其反对数,得出几何均数;
2.直接用Report Case Summaries 命令;
3.用Compare Means 命令,但要个增加分组变量。使用频数表资料时SPSS操作中应注意的事项使用频数表资料时SPSS操作中应注意的事项频数表资料要用weight命令;
进行数据输入时要使用组中值;并且在Frequencies命令中要选择
Values are group midpoints:根据分组资料计算百分位数。
(三)中位数 Median, M(三)中位数 Median, M将一组观察值从小到大按顺序排列,位次居中的观察值,即为中位数。
一半的值比M小,一半的值比M大。
例:1,3,5,7,18 (奇数)
1,3,5,7,18,20 ( 偶数)
计算
n为奇数时
n为偶数时 M计算方法M计算方法例: 9人某病潜伏期(天)分别为3,4,4,5,6,7,7,19,19,求中位数。
例: 6名新生儿身长(cm)分别为50.1,52.0,53.0,55.0,55.0,56.0,求中位数。 中位数的应用中位数的应用中位数可用于任何分布的定量资料;
资料的分布呈明显偏态,特别是负偏态;
分布的一端或两端无确定的数值;
(如:>50, 或 <10)
资料的分布不清。
注意:在完全对称的单峰曲线分布中,同一组资料的均数与中位数相同, Mean = Median中位数的优缺点中位数的优缺点优点:
不受个别特大或特小的观察值影响;
其它平均数不宜使用时,中位数就显示出它的优越性。
缺点:
掉失了大量信息,其敏感性不够。百分位数(Percentile,Px)百分位数(Percentile,Px)百分位数
位置指标;界值;
分布数列的百等份分割值。
有x%的比Px小, 有(100-x)%的比Px大。
中位数是一个特定的百分位数P50。百分位数的计算百分位数的计算fX 为PX所在组段的频数,
i 为该组段的组距,
L 为该组段的下限,
fL 为小于L各组段的累计频数。某传染性疾病的潜伏期(天)如下表,求其
中位数和百分位数P95某传染性疾病的潜伏期(天)如下表,求其
中位数和百分位数P95百分位数的应用百分位数的应用描述一组观察值在某百分位置上的水平。
用于确定医学正常值范围。
用一组百分位数描述一组观察值的变异度,如四分位数。应用平均数时的注意事项应用平均数时的注意事项同质的变量值才能求平均数;
根据资料的分布特点,选用适应的平均数指标。第三节 离散趋势指标第三节 离散趋势指标例 有3组同龄男孩体重(kg)如下,其体重均数 都是30 (kg),试分析离散程度。
甲组 26 28 30 32 34
乙组 24 27 30 33 36
丙组 26 29 30 31 34离散程度(或变异程度)离散程度(或变异程度)指数据参差不齐的程度,反映资料的离散趋势。
将反映平均水平与离散程度的指标结合起来使用,可全面地描述数据的分布规律。(一)全距(或极差 , Range )(一)全距(或极差 , Range ) 全距 = 最大值 – 最小值
优点:简单明了
缺点:不能反映组内其他数据的变异,样本含量相差较大时,不宜用极差比较分布的离散程度。(二)四分位数间距
inter-quartile range(二)四分位数间距
inter-quartile range百分位数:指把数据从小到大排列后处于第X百分位置的数值。它将全部数据分为两部分,在不包括PX的全部数据中有X%数据小于PX,有1-X%的数据大于PX%。中位数是一个特定的百分位数P50。
四分位数:下四分位数P25;上四分位数P75
P0 —— P25 —— P50 —— P75 —— P100
四分位数间距: P75 - P25 或 QU - QL
比极差稳定,但仍未考虑每个数据的大小。
常和中位数结合使用描述数据的分布规律。(三)方差(variance)和
标准差(standard deviation)(三)方差(variance)和
标准差(standard deviation)离均差平方和:
考虑每个观察值,但受N的影响。
对离均差平方和求均数,得总体方差2 ,开根号得标准差 。一般未知,常常用 来估计之,一般未知,常常用 来估计之,数理统计证明,如用样本的变量个数n来代替N,计算出的样本方差比实际2低,需要用n-1校正,得样本方差S2。开根号得样本标准差s。 自由度,degree of freedom自由度,degree of freedom方差
计算公式
六西格玛计算公式下载结构力学静力计算公式下载重复性计算公式下载六西格玛计算公式下载年假计算公式
中的n-1被称为自由度,它描述了当 选定时,n个X中能自由变动的X(变量值)的个数。
例:某样本含有5个数据,要求∑X=15。则在自由确定了四个数据后,第5个数据只能是15-(x1+x2+x3+x4)。 即有4个数据可以自由变动,其自由度=4 。
推而广之,任何统计量的自由度=n-k,k为限制条件的个数。
自由度:是随机变量可以“自由”取值的个数。标准差 standard deviation总体标准差
样本标准差
标准差 standard deviation标准差的计算标准差的计算甲组 26 28 30 32 34 标准差 3.16
乙组 24 27 30 33 36 4.74
丙组 26 29 30 31 34 2.92
甲组:
∑X=26+28+30+32+34=150
∑X2=262+282+302+322+342=4540用频数表法计算标准差用频数表法计算标准差null标准差的用途:标准差的用途:反映一组观察值的离散程度;
计算变异系数;
计算标准误;
估计参考值范围。(四)变异系数 CV
coefficient of variation标准差与算术均数之比,
反映了相对离散程度
常用于比较
度量衡单位不同的多组资料的变异度
均数相差悬殊的多组资料的变异度(四)变异系数 CV
coefficient of variation例:度量衡单位不同的变异度例:度量衡单位不同的变异度某地20岁男子110名
身高 =172.73cm, s=4.09cm;
体重 =55.04kg,
s=4.10kg,
试比较两组资料的变异程度,即身高、体重的变异程度哪个大?例:均数相差悬殊的变异度例:均数相差悬殊的变异度SPSS命令及操作SPSS命令及操作Analyze Descriptive Statistics
Frequencies
DescriptivesFrequencies、Descriptives、
Means和Case Summaries命令Frequencies、Descriptives、
Means和Case Summaries命令这四个命令都可以计算均数、标准差、标准误等主要指标。
如果只计算上述3个主要指标,选用Descriptives命令较为方便;
如果需计算中位数、百分位数和绘制频数分布图,应选用Frequencies命令;
如果需分组计算均数、中位数、几何均数、标准差、标准误等指标,应选用Means命令(必须有分组变量)。
如果计算几何均数,选用Case Summaries命令较为方便。第四节 正态分布及其应用第四节 正态分布及其应用 正态分布(normal distribution)的概念和特征
正态分布的两个参数
正态曲线下面积分布规律
标准正态分布
标准正态分布与标准化变换
标准正态分布表
正态分布的应用
估计频数分布
制定参考值范围
质量控制
统计方法的基础一、正态分布
(一)正态分布的图形
例:某地7岁男童身高的
频数分布**一、正态分布
(一)正态分布的图形
例:某地7岁男童身高的
频数分布正态分布图形特点正态分布图形特点正态分布
频数分布是中间(靠近均数)频数多,两边频数少,且左右对称。
正态曲线
呈钟型:两头低中间高,左右对称
若指标X的频数分布图接近正态分布曲线,则初步判断该指标服从正态分布。正态分布的概率密度函数:正态分布的概率密度函数:为总体均数, 为标准差,记为:X~N(m,s)记为:X~N(m,s)记为:X~N(m,s)如某年某地7岁男孩的身高X服从均数为121( cm )、标准差为5(cm)的正态分布,可记为X~ N(122,5)(二)正态分布的两个参数(二)正态分布的两个参数m描述了正态分布的集中趋势位置。
s描述正态分布的离散程度。 s越小,曲线越瘦高,分布越集中;反之,...二、正态曲线下面积的分布规律二、正态曲线下面积的分布规律F(X)为正态变量X的分布函数,即对概率密度函数求积分正态曲线下面积的分布规律---续正态曲线下面积的分布规律---续 (-1, +1)的面积占总面积的68.27%
(-1.96, +1.96)的面积占总面积的95.00%
(-2.58, +2.58)的面积占总面积的99.00%三、标准正态分布三、标准正态分布标准正态分布与标准化变换
标准正态分布表
标准化变换: u变换标准化变换: u变换这样可将所有不同均数和标准差的资料都转换为均数为0,标准差为1的分布,即标准正态分布。标准正态分布的累计函数标准正态分布的累计函数标准正态分布图形标准正态分布表(P803附表1)把标准正态分布曲线下的面积编制成工具表标准正态分布表(P803附表1)把标准正态分布曲线下的面积编制成工具表列出标准正态曲线下从-∞到u范围内的面积F(u)值。
而且F(u)= F(-u)。
-∞到u= - 0.50范围内的面积:
F(-0.5)= 0.3085
-∞到u= 0.50 范围内的面积为多少呢
F(0.5) =1- F(-0.5) =1-0.3085=0.6915标准正态分布面积分布规律标准正态分布面积分布规律-∞到u= - 2.58范围内的面积:0.0049
-∞到u= - 1.96范围内的面积:0.0250
-∞到u= 0.00范围内的面积:0.5000
(-1, 1) 的面积占总面积的68.27%
(-1.96, 1.96)的面积占总面积的95.00%
(-2.58, 2.58)的面积占总面积的99.00%- 3 -2 -1 0 1 2 3正态分布的特征正态分布的特征正态曲线呈钟型,在横轴的上方,均数位置最高;
正态分布以均数为中心,左右对称;
正态分布有两个参数,即均数和标准差;
标准正态分布的均数为0,标准差为1;
正态曲线在±1 各有一拐点;
正态分布的面积分布有一定的规律性。正态分布的应用正态分布的应用估计频数分布
制定参考值范围
质量控制
统计方法的基础估计频数分布估计频数分布 若某项研究得出某地婴儿出生体重均数为3200克,标准差为350克,估计该地当年低体重儿所占的比例。
U=(2500-3200)/350= -2
查标准正态表(695附表1)得:
F( -2 )=0.0228
估计该地当年低体重儿所占的比例为2.28%例出生体重低于2500克为低体重儿。第五节 医学参考值范围的制定第五节 医学参考值范围的制定reference ranges亦称正常值范围
绝大多数正常人某指标测定值所在的范围
绝大多数:90%、95%、99%等等。
正常人是指排除了影响所研究指标的疾病和有关因素的同质人群。
应遵循一定步骤确定参考值范围。
计算方法有正态分布法和百分位数法。一、确定参考值范围基本步骤一、确定参考值范围基本步骤从正常人总体中抽取足够含量的样本;n >100
控制测量误差下进行准确而统一的测定;
判定是否需要分组;有无年龄、性别差异等?
确定取单侧还是双侧范围值:红细胞?肺通气量?尿铅?
选定适当的百分界限;
对资料进行正态性检验;
计算参考值范围。正常人与病人的分布有重叠正常人与病人的分布有重叠减少假阳性可选用95%或99%:鉴定诊断。
减少假阴性可选用80%或90%:筛选可疑者。正常人和病人的分布重叠较多正常人和病人的分布重叠较多需要确定可疑范围。
如 舒张压
=<90mmHg:正常
>90mmHg 且 =<95mmHg :临界高血压
>95mmHg :高血压参考值范围的确定参考值范围的确定方法:正态近似法,百分位数法
95%参考值(正常值)范围
正态近似法 百分位数法
双侧 ±1.96s P2.5 ~ P97.5
单侧下限 -1.64s P5
单侧上限 +1.64s P95例1:某地农村1999年130名14岁女孩身高资料(cm)均数为143.08,标准差为6.58。求该地14岁女孩身高的95%参考值范围。例1:某地农村1999年130名14岁女孩身高资料(cm)均数为143.08,标准差为6.58。求该地14岁女孩身高的95%参考值范围。下限为:143.08 – 1.96 ×6.58=130.18(cm)
上限为:143.08 + 1.96 ×6.58=155.98(cm)
该地14岁女孩身高的95%参考值范围为130.2~156.0 (cm)。二、正态近似法例2 :某地调查110名健康成年男性的第一秒肺通气量的均数为4.2(L),标准差为0.7 (L)。请据此估计该地成年男子第一秒肺通气量的95%参考值范围。例2 :某地调查110名健康成年男性的第一秒肺通气量的均数为4.2(L),标准差为0.7 (L)。请据此估计该地成年男子第一秒肺通气量的95%参考值范围。下限为:4.2-1.64×0.7=3.052 (L)
该地成年男性的第一秒肺通气量95%参考值范围为:不低于3.052 (L)。
参考值范围 : > 3.052 (L)三、百分位数法三、百分位数法正态性检验正态性检验图示法:
概率图(probability-probability plot, P-P图)
分位数图(quantile-quantile plot, Q-Q图)
Q-Q图效率较高。
变量变换(variable transformation)变量变换(variable transformation)通过对原始数据进行某种函数的转换,使得各组方差齐同、稳定,或者使得偏态资料正态化,以满足统计分析方法对资料的要求。常用的变量变换主要有:常用的变量变换主要有:对数变换(logarithmic transformation)
平方根变换(square root transformation)
平方根反正弦变换(arcsine transformation)
倒数变换(reciprocal transformation)1、对数变换1、对数变换对原始数据X取对数。
X’=lgX
X’=lg(X+K) 或者X’=lg(K-X)
适用于:①对数正态分布资料②变异系数接近某一常数的资料1、对数变换1、对数变换对原始数据X取对数。
X’=lgX
X’=lg(X+K) 或者X’=lg(K-X)
适用于:①对数正态分布资料②变异系数接近某一常数的资料
SPSS函数命令:LG10(?) 或者LN(?)2、平方根变换2、平方根变换对原始数据X开算术平方根。
适用于:①服从Poisson分布资料,即各样本方差与均数成比例的资料②轻度偏态分布资料
SPSS函数命令:SQRT(?)3、平方根反正弦变换3、平方根反正弦变换对原始数据X的平方根取反正弦变换。
用角度表示的:
Y=ARSIN(SQRT(?))
用弧度表示的:
Y=(3.14159 / 180) * ARSIN(SQRT(?))
适用于:①率或者百分比的资料:发病率、患病率、淋巴细胞转换率(%)等资料4、倒数变换4、倒数变换对原始数据X取倒数。
适用于:数据两端波动较大的资料作业:作业:P26
三、计算分析题
题1、2、3、