首页 定性数据统计分析第1-2章

定性数据统计分析第1-2章

定性数据统计分析第1-2章定性数据统计分析CategoricalDataAnalysis授课班级：1070612009年下学期教学内容第一章定性数据第二章分类数据的检验第三章四格表第四章二维列联表第五章高维列联表第六章逻辑斯蒂回归模型第七章对数线性模型第八章列联表的对应分析第一章定性数据什么是定性数据？数据的类型——根据数据的取值来分：1.计量数据(ContinuousData):身高、体重等；取值为任意实数2.计数数据(Counts):职工人数、成交股票数等；取值为非负整数3.名义数据(NominalData):性别、婚姻状况等；取值为属...

定性数据统计分析 CategoricalDataAnalysis授课班级：1070612009年下学期教学内容第一章定性数据第二章分类数据的检验第三章四格表第四章二维列联表第五章高维列联表第六章逻辑斯蒂回归模型第七章对数线性模型第八章列联表的对应分析第一章定性数据什么是定性数据？数据的类型——根据数据的取值来分：1.计量数据(ContinuousData):身高、体重等；取值为任意实数2.计数数据(Counts):职工人数、成交股票数等；取值为非负整数3.名义数据(NominalData):性别、婚姻状况等；取值为属性编码4.有序数据(OrdinalData):文化程度、满意度等；取值为可排序的属性编码第一章定性数据定性数据的描述性统计方法有表格法、图示法、数值法1、表格法【例】向50个被访者调查“你最喜欢喝的饮料”，得到表1.1。以上数据经按类别整理后，可得到频数分布表，见表1.2制作有序数据的频数分布表时，还可以统计累积频数和累积频率。第一章定性数据如果我们想考察这些饮料受欢迎程度与性别的关系，可以制作饮料与性别的交叉分组表，见表1.3显然，这种表有利于我们进一步发现受欢迎程度与性别之间的关系。类似地有三种、或更多种方式分组的交叉表，即列联表（contingencytable）。第一章定性数据2、图示法包括条形图、圆形图（表1.4）、排列图等其中的排列图，又叫帕累托图，是按照发生频率大小顺序绘制的条形图；表示有多少结果是由已确认类型或范畴的原因所造成；将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表；可以用来分析质量问题，确定产生质量问题的主要因素。通常用双坐标系表示，左边纵坐标表示频数，右边纵坐标表示频率，分析线表示累积频率；横坐标表示影响质量的各项因素，按影响程度的大小(即出现频数多少)从左到右排列；通常将累积频率0~80%之间的因素认为是影响质量的主要因素。（见附录1）帕累托图(ParetoChart)第一章定性数据3、数值法即用代表性的数值描述定性数据的统计分布特征。代表性的数值有两类：描述定性数据的中心位置描述定性数据的离散程度中心位置：众数、中位数、百分位数离散程度：异众比率、G-S指数、熵众数数据中出现频数最高的数据值，记为Mo如上例中，“可口可乐”是众数；适用于定性名义数据中心位置的量度；众数的性质略。中位数将数据按一定顺序排列后位于中间的数值，记为Me；例：游客对服务态度的评价（%)适用于定性有序数据中心位置的量度。百分位数百分位数是对数据位置的量度，但不一定是中心位置；一般地，第p百分位数是指，至少有p%的数据项小于等于这个值，且至少有(100-p)%的数据项大于等于这个值；第25百分位数称为下四分位数，记为QL，第50百分位数就是中位数，第75百分位数称为上四分位数，记为QU；异众比率用于定性名义数据离散程度的度量，记为V：离异比率越小，说明数据越集中；此外，还可以利用随机变量来刻画定性数据的离散程度；比如，随机变量ξ，可以取等不同的值，相应的概率为即：Gini-Simpson指数基尼-辛卜生指数简称G-S指数随机变量ξ的G-S指数记为G-S(ξ)G-S指数越小，说明随机变量ξ的分布越集中；G-S指数越大，则分布越分散。当k=2，时，G-S指数达到最大值，即均匀分布时指数达到最大（见附录2）。熵随机变量ξ的熵(entropy)记为H(ξ)：在的条件下，衡量给定分布与均匀分布接近的程度。越接近于均匀分布，越处于平衡状态，即离散程度越大，熵的取值越大，最大值为；反之也反。(见附录2)定性数据离散程度的测度【例】最喜欢的饮料的频数分布表1、用离异比率测度：若将数据稍作调整为：则10050合计5012101018256559可口可乐苹果汁橘子汁百事可乐杏仁露频率频数饮料定性数据离散程度的测度2、用G-S指数测度：调整前，调整后，3、用熵测度：调整前，调整后，定性数据离散程度的测度如果前例中每种饮料的频数相同，那么各自的G-S指数和熵分别为多少呢？当均匀分布时，定性数据的离散程度达到最大G-S指数的最大值为：熵的最大值为：本章小结定性数据的类型运用频数分布表整理数据，并计算频率绘出条形图、饼图、帕累托图描述定性数据的中心位置和离散程度第二章分类数据的检验在描述分析基础上，进行推断统计分析参数估计假设检验统计推断要求知道统计量的抽样分布什么是统计量什么是抽样分布属性数据的两种重要分布：二项分布多项分布二项分布属性数据常常来源于每次试验仅有两种试验结果的n次独立重复试验，如成功与失败、合格与不合格、男与女、等等假设代表一次试验成功的概率，代表n次试验中成功的次数，这时服从指标n以及参数的二项分布，即二项分布二项分布的期望和方差分别为：当n=1时，二项分布简化为：即：0-1分布是二项分布的特殊情况二项分布【例】假设一次考试有10道选择题，每题有五个选项。一位完全没有准备的学生随机猜测每道题的答案。试问可能回答正确的题数及其概率如何。【解】结果见表2.1可以看出，仅当π=0.5时，二项分布才是对称的。对于固定的n，随着π趋近0或1，二项分布表现越加偏斜。对于固定的π，随着n增加，二项分布更趋近钟形。二项分布当n很大时，二项分布趋近于均值,的正态分布(近似分布)。原则上，要使二项分布趋近正态分布，要求期望和都不小于5。当π较大时(如0.5)，n相对较小(如≥10)就可以满足要求；当π较小时(如0.1或0.9)，则要求n取较大的值(如≥50)，即大样本要求。多项分布多项分布是二项分布的推广，其试验结果的类别多于两种，记为。令c代表结果的类别数，用表示每种结果出现的概率，且对于n次独立试验，具有次观测落入第1类，次观测落入第2类……的概率为：多项分布显然，当c=2时多项分布简化为二项分布。通常不需要使用以上多项分布概率公式，只需掌握基于多项分布律的统计量即可。大部分针对属性数据的方法都假设：单类别的计数服从二项分布多类别的计数服从多项分布任何一个确定类别计数具有均值，标准差。其他分布超几何分布设N件产品中有M件次品，从中无放回取n件时所含次品数X是一个随机变量，其概率为：泊松分布描述指定时间内，或面积、体积内某一事件出现的个数的分布，其概率为：二项分布的统计推断实际中，二项分布和多项分布的参数值未知，需要通过样本数据估计总体参数。在统计学原理中，可以根据样本比例的抽样分布，用样本比例估计总体比例的区间，或用样本比例的差估计总体比例差。二项分布的统计推断需要强调的是，以上方法使用的前提是样本量n要足够大，或者二项比例接近0.5；否则区间估计的效果将非常差，特别是在二项比例趋近1或0时；这时，可以采用假设检验(得分检验)的方法来进行参数估计，其效果要优于一般直接采用区间估计的方法。原因在于：计算样本比例的标准误时，不需要用样本比例作为总体比例的点估计。二项分布的统计推断【例】一项新治疗手段在10次试验中有9次成功，试对总体比例进行区间估计(α=0.05)。【解1】基于直接区间估计方法的结果为：【解2】运用检验统计量构造区间：对于给定的p和n，使检验统计量值的是下面方程的解.二项分布的统计推断对二项参数的假设检验：Wald检验(最简单的方法)是利用极大似然(ML)估计值代替真实标准误表达式中的未知参数而构造的统计量近似服从标准正态分布，近似服从df=1的卡方分布称为Wald统计量二项分布的统计推断似然比检验利用似然函数构造似然比统计量，其中分子是原假设成立时似然函数的极大值，分母是不限定参数时似然函数的极大值，形式为：在原假设成立条件下，该统计量服从df=1的大样本卡方分布可以利用统计软件计算似然函数的极大值几种方法的比较【例】试对前例进行假设检验，其原假设与备择假设分别为Wald检验的统计量：得分检验的统计量：似然比检验统计量：几种方法的比较其中，当以上统计推断方法结果不一致时，说明ML估计量的分布远离了正态分布，在这种情况下，使用小样本方法将更准确。对小样本时，直接使用二项分布，而不是使用正态近似来计算P-值，将更加安全准确。分类数据的检验当分类超过两类时，形成多项分布；多项分布属性数据的假设检验一般提法：按照某项指标总体被分为r类，分别为：提出原假设：假设对该总体进行n次观测，其中Ai类的观测次数为ni，以此为基础对原假设进行检验。分类数据的χ2检验在原假设成立时，n次观测中属于Ai类的期望频数为，则实际频数与期望频数应接近，从而有Pearson卡方统计量：该统计量的值越小，说明原假设成立；若该值较大，说明实际频数与期望频数差异较大，故拒绝原假设。Mendel的豌豆实验分类数据的χ2检验对得到的卡方统计量的值，可以直接与相应的显著性水平和自由度下的卡方值比较，若大于则拒绝原假设，若小于则不拒绝原假设；查表得：，故不拒绝原假设。也可以利用P-值进行判断：需要注意的是：卡方统计量的使用要求样本量要大，且期望频数不能太小，见附录3。通常要求样本量≥50，期望频数≥5。分类数据的χ2检验对于小期望频数的问题，有人采用合并类别的方法。但会导致：会丢失信息；随机性受到影响；不同的类别合并方式会产生不同的结论对于前面讨论的二项分布的检验而言，同样可以采用卡方统计量进行检验。只不过只有两类而已（卡方的df=1）。分类数据的χ2检验以上所进行的多项分布数据检验称为拟合优度检验，或一致性检验；类似的例子如：为提高市场占用率，两个主要竞争对手展开了公告战。已知之前A公司占用率45%，B公司为40%，其他15%。为了解广告之后是否有变化调查了200个消费者，有102人购买A公司产品，82人购买B公司产品，16人购买其他公司产品。问前后是否有差异。分类数据的似然比检验分类数据的似然函数取决于多项分布的分布律：似然函数就是观测数据出现的概率，被看作参数的函数。似然比统计量确定了在原假设下和不限定参数时似然函数极大值的比值。则多项分布的似然比统计量记为：分类数据的似然比检验似然比统计量说明，当期望频数等于实际频数时，G2等于0；越大的G2则提供了拒绝H0越充分的证据。G2与皮尔逊卡方统计量类似，当原假设成立且期望频数很大时，都服从相同的卡方分布。G2渐近卡方分布自由度的确定方法：自由度df=完全参数空间要估计的参数个数-原假设成立时要估计的参数个数Mendel的豌豆实验前例同样可以利用似然比统计量进行检验与皮尔逊卡方统计量的值相近。检验的判断准则同卡方检验。带参数的分类数据的检验前面的分类数据检验中，假设总体比例都是已知的，进而通过计算检验统计量的值进行判断原假设是否成立。而实际中并不完全是这样的。这就需要在原假设成立时先对未知的参数进行估计，然后再进行检验。原假设为：带参数的分类数据的检验根据多项分布律构造似然函数，从而得到对数似然方程，可以求得未知参数的估计值，再来计算皮尔逊卡方统计量和似然比统计量：带参数的分类数据的检验【例】按性别和是否色盲将随机调查1000人进行分类，结果为：男性正常、女性正常、男性色盲、女性色盲各有442人、514人、38人、6人。根据遗传学理论，男性正常、女性正常、男性色盲、女性色盲的概率分别为：其中，未知，。问调查与模型相符吗？带参数的分类数据的检验可见，上例中参数是未知的，需要先求p的极大似然估计值。似然函数为：得到对数似然方程：于是求得：数值迭代算法求参数在对数似然方程无显式解时，可以使用excel，用数值迭代算法求得参数的极大似然估计值。具体方法有五个步骤，可以参见教材P26。本章小结主要的定性数据的分布类型二项分布的统计推断分类数据的检验带参数的分类数据的检验

                    本文档为【定性数据统计分析第1-2章】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥16.8 已有0 人下载

立即下载

定性数据统计分析第1-2章

你可能还喜欢