第六章列联表分析

第六章列联表分析第六章列联表分析第六章列联表分析 6.1列联表分析列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法。设两个变量A和8>B分别有r和c个类型，则他们可以构成一个的列联表。独立性检验统计量在对两变量进行列联表分析时，首先要检验它们的独立性，这就涉及到独立性检验统计量，常用的统计量有皮尔逊卡方统计量(Pearson Chi-Square)和似然比统计量(Likelihood Ratio)。 Fisher精确检验仍采用卡方统计量作为检验统计量，只是在计算统计量的分布时，利用概率...

第六章列联表分析第六章列联表分析 6.1列联表分析列联表是分析两个分类变量(名义变量或者定序变量)之间关系的基本统计方法。设两个变量A和8><#004699'>B分别有r和c个类型，则他们可以构成一个的列联表。独立性检验统计量在对两变量进行列联表分析时，首先要检验它们的独立性，这就涉及到独立性检验统计量，常用的统计量有皮尔逊卡方统计量(Pearson Chi-Square)和似然比统计量(Likelihood Ratio)。 Fisher精确检验仍采用卡方统计量作为检验统计量，只是在计算统计量的分布时，利用概率论中的超几何分布来计算每一种情况发生的概率，然后才能得到P值。当样本量较大，或者列联表的行数及列数较大时，Fisher检验的计算量会变得很大，以至于无法承受。列联表中的相关测量统计量对于名义变量，通常采用基于卡方统计量的各种统计量来进行关联性度量，最常的是Cramer’s V系数对于有序变量，关联性度量的统计量通常是基于观测中的一致对和不一致对的个数。可以定义以下统计量来描述有序变量之间的有序关联性的大小: 统计量:gamma统计量和 Kendall统计量 6.2 Stata的列联表分析——table和tabulate命令 6.2.1使用table命令生成列联表 table命令可以用于生成一维到多维的列联表，表中不仅可以包含常见的频数，还可以包含任意其他变量的描述性统计量。 table命令的格式如下: table rowvar [colvar [supercolvar]] [if] [in] [weight] [, options] 其中rowvar代表行变量，colvar代表列变量，supercolvar代表更高阶的列变量，同之前一样，in和if用于选择样本或者选择范围，weight用于添加权重。表6-2 table命令可以报告的统计量 freq 频数 mean 平均数 sd 标准差 semean 标准误 (sd/sqrt(n)) sum 总和 count、n 观测值个数 max 最大值 min 最小值 median 中位数 p# 各种百分位数 iqr IQR四分位距【例6.1】数据集auto.dta是Stata系统自带的关于1978年汽车市场的一个调查数据，该数据集共有74个观测值，12个变量。变量的具体情况是:make是字符型变量，表明生产厂商。其他均为数值型变量，price是汽车的价格(万元)，mpg是行驶里程(英里)，rep78是在该年度修理次数，foreign是虚拟变量，赋值1代表国外产，0代表国产。数据用几个变量揭示了汽车的重要特征:headroom、trunk、length、turn、displacemen、gea_ratio依次代表汽车内部空间大小、后备箱空间大小、身长、转弯半径、排气量和变速比。本例演示如何利用table命令完成如下两个任务: (1)使用table命令创建关于rep78的频数表，并在表中显示mpg的观测值个数、平均数、标准差和中位数。 (2)使用table命令创建关于foreign和rep78的二维表格，并在表中显示mpg的平均数。【例6.2】本例使用一个关于肺炎的调查数据集byssin1.dta来说明table命令创建多维表格。数据集中每个观测值代表了一类人，变量prob是该类人罹患肺炎的概率，smokes是代表是否吸烟的虚拟变量，race是关于是否是白人的虚拟变量，workplace按照工作场所的烟尘等级划分为三类，1为最少，3为最多，sex是性别，1代表男性。最关键的变量是pop，表示具有该观测值的个体的数量，比如，pop=3，则意味着样本中有3个人具有该观测值所揭示的性质。在这个数据集中，pop的取值从0到507不等，其中0说明没有任何个体具有该观测值所揭示的性质，507则说明有507个个体具有同样的性质。我们鼓励读者使用codebook命令对这些变量的具体赋值更深入地考察。下面我们演示如何完成如下两个创建多维表格的任务。 (1)创建一个关于workplace、smokes和race的三维列联表。 (2)创建一个关于workplace、smokes、race和sex的四维列联表。表6-4 数据集byssin1.dta(部分数据) smokes race workplace pop prob sex yes white most 40 0.075 Male yes white less 74 0 Female yes white least 260 0.007692 Male yes other most 164 0.152439 Female yes other most 24 0.083333 Female yes other less 147 0.013605 Female yes other least 263 0.011407 Male no white most 16 0 Male no white less 35 0 Male no white least 134 0 Female no other most 81 0.074074 Male no other less 48 0.020833 Female no other least 123 0.00813 Female no white most 4 0 Male 6.2.2使用tabulate命令进行列联表分析 1( 一维tabulate命令 tabulate的一维命令主要用于生成含有频数的一维表格，使用比较简单，当我们想查看某个变量的赋值情况时，也可以使用tabulate来得到大体的印象。下面是这个命令的标准结构: tabulate varname [if] [in] [weight] [, tabulate1_options] 同之前一样，in和if用于选择样本或者选择范围，weight用于添加权重。 tabulate一维命令还有一个配套的方便工具——tab1，在其后可以添加多个变量，然后stata会对每个变量创建以为表格，也就是相当于多次执行tabulate命令。tab1的结构如下: tab1 varlist [if] [in] [weight] [, tab1_options] 【例6.3】使用auto.dta数据创建rep78和foreign的一维频数表。 2( 二维tabulate命令二维tabulate命令在生成二维表格的同时，可以计算多种独立性检验统计量和相关测量统计量，包括常用的Pearson's chi-squared、likelihood-ratio chi-squared、Cram 's V、Fisher's exact test、Goodman and Kruskal's gamma、Kendall's tau-<#004699'>b，这些统计量在前面均介绍过。下面是该命令的标准格式: tabulate varname1 varname2 [if] [in] [weight] [, options] 同之前一样，in和if用于选择样本或者选择范围，weight用于添加权重。同tabulate的一维表格一样，二维tabulate命令也有tab2，可用于快速生成varlist中所罗列的变量所有可能的二维表格，tab2的标准格式如下: tab2 varlist [if] [in] [weight] [, options] 【例6.4】利用关于肺炎的调查数据byssin1.dta来检验得肺炎概率与是否抽烟、工作场所空气质量这两个变量之间的独立性(当然，凭借常识，它们应该是有关系的)，即分别对probcat和smokes以及probcat和workplace做标准的列联分析。 6.3利用Stata生成包含描述性统计量的列表 6.3.1 tabstat命令 tabstat可以在一个表格中显示多个变量的多种描述性统计量，这些统计量包括平均数、最大最小值、极差、方差、标准差、偏度、峰度以及各种百分位数。tabstat是summarize命令的替代选择，前者比后者更加灵活，可以自由选择表格中包含的统计量种类。通过添加by()，tabstat对每类观测值报告各自的统计量。 tabstat的标准格式如下: tabstat varlist [if] [in] [weight] [, options] 同之前一样，in和if用于选择样本或者选择范围，weight用于添加权重。 range range = max - min mean 平均数 sd 标准差 variance 方差 semean 标准误 (sd/sqrt(n)) sum 总和 count 观测值个数 max min 最大值最小值 median 中位数 p# 各种百分位数 p 相当于p25 p50 p75 iqr IQR四分位距 -6】利用auto.dta数据集完成如下两个任务: 【例6 (1)生成包含price、weight、mpg、rep78的均值的表格。 (2)对上述四个变量按照foreign分类报告平均数、标准差和最小值、最大值。 6.3.2 tabulate, summarize () tabulate, summarize()用于生成一维或者二维的包含均值和标准差的表格，事实上，table比 tabulate, summarize()更加灵活，它可以生成一维到多维的包含更多统计量的表格，因此table命令更好，而tabulate, summarize() 的特点在于运行更快。 tabulate, summarize()命令的标准格式如下: tabulate varname1 [varname2] [if] [in] [weight] [, options] 【例6.7】利用数据集wage1.dta完成如下任务: (1) 按照性别报告wage的各种统计量。 (2)在一个由female和construc构成的二维表格中报告wage的相关统计量。 (3)在一个由female、married和construc构成的二维表格中报告wage的相关统计量。本章结束，谢谢观看～

                    本文档为【第六章 列联表分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第六章 列联表分析

你可能还喜欢

第六章列联表分析