�� ! ∀#∃% &
∋())∗
现 代 临 床 医 学 ∀#∃刀 年 + 月
,−. / 012 −3 �−4 5/ 0 6. 0∗ 612 妞54∗ 6∗05 第++ 卷 增刊第 7期
〔文章编号8 79& + 一 7:: & #∀#∃% & %: 7 一 ; 7 79 一 ;∀ <中图分类号 8 / 7=: ! 【文献标志码〕1
临床科研资料的统计描述
洪 旗 , 刘关健
#四川大学华西临床医学院 , 四川 成都 97 《∃%> 7%
在临床科研文章的撰写 、评价或临床科研结果的
分析中 , 统计分析是其重要的内容。 在众多的统计分
析方法中 , 数据资料的描述是其最基本的方法之一 。
本文就如何正确使用统计描述方法这个问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
做一简要
介绍和讨论 , 以供临床科研工作者参考 。
统计描述是利用统计指标 、统计图或统计表 , 对数
据资料所进行的最基本的统计分析 , 使其能反映数据
资料的基本特征 , 有利于研究者准确 、全面地了解数据
资料所包涵的信息 , 以便做出科学的推断 。
统计描述的内容包括了统计指标 、统计图和表 ,统
计指标的使用应根据分析 目的 、资料类型和资料的分
布特征等因素正确选用 , 与此同时 ,若辅以统计图或统
计表则可使数据资料的基本特征更加清晰 。 数据资料
的统计描述可分为数值变量的描述和分类变量的描
述 ,本文先讨论数值资料描述指标的正确选用 , 而统计
图表的正确使用请参阅其它书籍 。
描述数值变量资料的基本特征有两类指标 , 一是
描述集中趋势的指标 , 用以反映一组数据的平均水平 ?
二是描述离散程度的指标 , 用以反映一组数据的变异
大小 。 两类指标的联合应用才能全面描述一组数值变
量资料的基本特征 。 这是目前统计中应用最多 、最重
要和最广泛的指标体系 。 描述数值变量资料平均水平
的常用指标有均数 #算术均数 % 、 中位数和几何均数
等 ?而描述数值变量资料离散程度的常用指标有标准
差 、四分位数间距和变异系数等 。
7 集中趋势指标
7 ! ∀ ! 7 应用条件 ≅ 资料服从对数正态分布 , 或近似对
数正态分布 , 即等比级数资料。
?小, 七Α Β 。 Β , Β 一 ≅ ‘工全迷、 , Β Χ 、 , 、二应, · ∀ · ∀ 计算方法 , ‘二 烤一 ’#气黔%Δ 诚 为各个观察
值的对数值 , Ε 为观察例数。
7 ! + 中位数#� Φ击�Ε %
7 ! + ! 7 应用条件 ≅资料的分布不明 , 即偏态分布 、两端
无界和未知分布的资料。
7 ! + ! ∀ 计算方法 ≅在一个从小到大的有序数列中 , 位
置居中的那个数 , 即是中位数 。
直接法 ≅ 。 为奇数时 , � 二 Γ# 宁%?
Ε 为偶数时 , � Η #∃ #勃 Ι ∃ #全, , % %忍 −
频数表法 ≅� 二 2 Ι 于、, ! #要一 趴% 。‘
2 ≅ 中位数所在组段的下限 。
ϑ ≅ 中位数所在组段的组距 。
几 ≅ 中位数所在组段的频数。
又人≅ 小于中位数所在组段的累计频数 。
∀ 离散程度指标
离散程度的指标 , 可用以反映一组数据间变异大
小或个体差异 。
∀ ! 7 方差与标准差 #Κ 面�Ε ΛΦ , ∋切Μ Ν � Ν ΝΦ Οϑ �Πϑ ΔΕ %
∀ ! 7 ! 7 应用条件 ≅ 与均数同 。 资料服从正态分布或
近似正态分布 。
∀ ! 7 ! ∀ 计算方法
集中趋势的指标 , 可用以反映一组数据的平均水
平或集中位置 。 这类指标主要有均数 、几何均数和中
位数 ,通称平均数#1ΟΦ � ΘΦ % 。
7 ! 7 均数#� Φ � Ε %
7 ! 7 ! 7 应用条件 ≅ 资料服从正态分布或近似正态分
布 。
≅ Β 2 , 、、 不 艺∃ , ,‘、 、 。。 , , Β 。二 二。, · ’· “ 计算方法 , ∃ Η 粉 。 戈 为各个观察值 , “ 为观
察例数 。
十 ! , Β ≅ Β 艺护Ρ 了 二主 ≅ ‘ Η—
一 #艺∃ %‘ Ρ Ε
Ε 一 7
标准差 ≅ 艺丫 一 #艺∃ %
名Ρ Ε
Ε 一 Σ
! ∀ 几何均数#ΤΦ Δ Μ Φ Π ϑ Λ � Φ � Ε %
7 79
∀ ! ∀ 四分位数间距 #Υ(� Πϑ ΣΦ %
∀ ! ∀ ! 7 应用条件 ≅ 与中位数相同。 即适用于分布不
明即偏态分布 、 两端无界和未知分布的资料 。
∀ ! ∀ ! ∀ 计算方法 ≅ 在一个从小到大的有序数列中 ,
上四分位数 #第 &: ς 百分位数% 与下四分位数 #第
∀ : ς 百分位数% 之差 , 即是四分位数间距 。 即 ≅
Υ“ 一口乙 Η Ω & , 一 Ω 乃
∀ ;#% & 年 + 月
第 ++ 卷 增刊第 7 期
现 代 临 床 医 学
,−./ 012 −3 �− 4 5 / 0 #二2∗ 0 ∗61 2 �5 4 ∗6 ∗0 5
�� ! ∀ #∃% &
Κ Δ Σ! ++ ∋( ))∗!
式中的 ) ≅ 由下式计算 ≅
尸二 Η 2 Ι 告、 #羔 一歇 %一 ’ 人一 7;; Ξ 二 ,2 ≅ 第 Γ ς 百分位数所在组段的下限。
ϑ ≅ 第 Γ ς 百分位数所在组段的组距 。
几 ≅ 第 Γ ς 百分位数所在组段的频数 。
工几≅小于第 Γ ς 百分位数所在组段的累计频数 。
∀ ! + ! 7 应用条件 ≅ 当多个资料需要比较其变异程度
大小时 , 若它们的单位不同或单位相同 , 但其均数相
差过大 , 不能用前述的指标进行比较时 , 要用变异系
数进行比较 。
∀ ! + ! ∀ 计算方法 ≅ 6 Κ Η 二 Γ 7;; ς
各常用指标详见表
∃
Σ、 表 ∀ 。
∀ ! + 变异系数 #6ΔΦ ΨΨϑ ΦϑΦ Ε Π ΔΨ Ο� ϑ �Π ϑΔ Ε %
指标名称
衰 Σ 描述数值变Π 集中趋势的常用指标
作 用 适用的资料
均 数 #∃ %
中 位数 #� %
几何均数 #6%
描述一组数据的平均水平 、 集中位Ζ
与均数相同
与均数相同
正态分布或近似正态分布
偏态分布 、 分布未知 、 两端无界
对数正态分布 , 等比资料
衰 ∀ 描述数值变 ! 离散程度的常用指标
指标名称
标准差 #≅ % 或方差 #≅ ∀ %
四分位数间距 #口。一 Υ≅ %
变异系数 #6Κ%
极 差 #/ %
用 途
描述一组数据的变异大小 、 离散程度
与标准差相同
与标准差相同
与标准差相同
适用的资料
正态分布或近似正态分布
偏态分布 、 分布未知 、 两端无界
几组资料间的变异大小比较
观察例数相近的数值变量
在使用这些指标时 , 应注意两个问题 , 一是各个
指标都有其适用范围 , 应根据实际资料的情况选择使
用 , 如 ≅ 资料若服从正态分布或近似正态分布 , 可选
用均数和标准差进行描述 ? 二是各个指标的计算和应
用必须具备同质基础 。 如 ≅ 不分性别和年龄地求其血
红蛋白量的均数和标准差 , 既不能说明男女 , 也不能
说明儿童或成人血红蛋白量的基本特征 。 在应用这些
描述指标时 , 最常见的错误是不考虑这些指标的适用
范围和条件的滥用 , 如用均数和标准差描述偏态分
布 、 分布未知或两端无界的资料 , 就是目前应用过程
中较为普遍和典型的错误 。
从表中可看出 , 均数与标准差联合使用描述正态
分布或近似正态分布资料的基本特征 ? 中位数与四分
位数间距联合使用描述偏态分布或未知分布资料的基
本特征 。
均数与中位数的差值不等于零 。 因此 , 在实际工作中
只要均数与中位数相差不大时 , 可认为该资料服从正
态分布 。
在频数表和直方图中 , 正态分布的数值资料呈对
称分布 , 因此 , 也可用方法之一 。
正态分布的判断方法最好是使用正态性检验 , 目
前常用矩法检验 , 利用峰度系数和偏度系数来判断是
否服从正态分布 , 具体方法可参阅医学统计参考书。
此外 , 还可 以用医学知识来对分布进行估计 。 多
数情况下 , 正常人群的生长发育指标 、 生理生化指标
均服从正态分布 ? 而微量元素 、 有毒有害物质都服从
偏态分布 。 而临床上 , 与病人所患疾病相关的指标 ,
其分布特征往往已发生改变 , 许多指标已不再服从正
态分布 。 如 , 正常人的血液指标服从正态分布 , 而血
液病患者的血液指标却很少服从正态分布 。
〔参考文献〕+ 正态分布的判断
统计描述指标的使用与分布特征有关 , 在众多数
理统计分布中 , 医学科研工作者起码应熟悉正态分布
与偏态分布 。
多数情况下 , 可以用均数与中位数的关系来判断
某资料是否服从正态分布。 在统计理论中 , 正态分布
资料的均数与中位数的差值等于零 , 偏态分布资料的
〔Σ8 杨树勤 ! 卫生统计学 【�〕! 第 + 版 ! 北京 ≅ 人民卫生出
版社 , 7== 9 , = !
【∀ 8 方积乾 , 徐勇勇 , 余松林 , 医学统计学 与电脑实验
〔�〕! 上海 ≅ 上海科学技术出版社 , 7== & , >!
【+ 〕蒋知俭 ! 医学统计学 【� 8 ! 北京 ≅ 人民卫生出版社 ,
7== & , [!
【> 7 王家良 ! 临床流行病学 〔� 8 ! 第 ∀ 版 ! 上海 ≅ 上海科学
技术出版社 , ∀ #∃% 7 , [!
7 7&