首页 独立性检验的基本思想及其初步应用

独立性检验的基本思想及其初步应用

举报
开通vip

独立性检验的基本思想及其初步应用1.2独立性检验的基本思想及其初步应用定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义.如身高、体重、考试成绩、温度等等.变量定量变量分类变量例如身高、体重、考试成绩等,张明的身高是180cm,李立的身高是175cm,说明张明比李立高180-175=5(cm).两个定量变量的相关关系分析:回归分析(画散点图、相关系数r、相关指数R2、残差分析)对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.在日常生活中,主要考虑分类变量之...

独立性检验的基本思想及其初步应用
1.2独立性检验的基本思想及其初步应用定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义.如身高、体重、考试成绩、温度等等.变量定量变量分类变量例如身高、体重、考试成绩等,张明的身高是180cm,李立的身高是175cm,说明张明比李立高180-175=5(cm).两个定量变量的相关关系分析:回归分析(画散点图、相关系数r、相关指数R2、残差分析)对于性别变量,其取值为男和女两种,这种变量的不同“值” 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示个体所属的不同类别,像这样的变量称为分类变量.在日常生活中,主要考虑分类变量之间是否有关系:如是否吸烟、宗教信仰、是否患肺癌、国籍等等.例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等.分类变量也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等.有时也可以把分类变量的不同取值用数字来表示,但这时的数字除了分类以外没有其他的含义,例如用0表示“男”,1表示“女”,性别变量就变成取值为0和1的随机变量,但是这些数字没有其他的含义.此时比较性别变量的两个不同值之间的大小没有意义,性别变量的均值和方差也没有意义.两个分类变量的相关关系的分析:通过图形直观判断两个分类变量是否相关;独立性检验.9965919874总计2148492099吸烟7817427775不吸烟总计患肺癌不患肺癌由列联表可以粗略估计出,在不吸烟者中,有0.54%患有肺癌;在吸烟者中,有2.28%患有肺癌。因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人):吸烟与患肺癌列联表(列出两个分类变量的频数表):在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。0.54%2.28%上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?这需要用统计观点来考察这个问题。现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此先假设H0:吸烟与患肺癌没有关系.a+b+c+db+da+c总计c+ddc吸烟a+bba不吸烟总计患肺癌不患肺癌把表中的数字用字母代替,得到如下用字母表示的列联表用A表示吸烟,B表示患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设H0等价于P(AB)=P(A)P(B).因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。a+b+c+db+da+c总计c+ddc吸烟a+bba不吸烟总计患肺癌不患肺癌在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数。由于频率接近于概率,所以在H0成立的条件下应该有为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量-----卡方统计量(1)若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。根据表3-7中的数据,利用公式(1)计算得到K2的观测值为:那么这个值到底能告诉我们什么呢?(2)独立性检验随机变量-----卡方统计量5、独立性检验3.8410.055.0240.0256.6350.0107.8790.00510.8280.0012.7060.102.0721.3230.7080.4550.150.250.400.50临界值表0.1%把握认为A与B无关1%把握认为A与B无关99.9%把握认A与B有关99%把握认为A与B有关90%把握认为A与B有关10%把握认为A与B无关没有充分的依据显示A与B有关,但也不能显示A与B无关在H0成立的情况下,统计学家估算出如下的概率即在H0成立的情况下,K2的值大于6.635的概率非常小,近似于0.01。也就是说,在H0成立的情况下,对随机变量K2进行多次观测,观测值超过6.635的频率约为0.01。思考答:判断出错的概率为0.01。判断是否成立的规则如果,就判断不成立,即认为吸烟与患肺癌有关系;否则,就判断成立,即认为吸烟与患肺癌有关系。独立性检验的定义上面这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。在该规则下,把结论“成立”错判成“不成立”的概率不会差过即有99%的把握认为不成立。一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和2(如患病与不患病)。于是得到列联表所示的抽样数据:a+b+c+db+da+c总计c+ddc类Ba+bba类A总计类2类1 用统计量研究这类问题的方法称为独立性检验。要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0:Ⅰ和Ⅱ没有关系;(3)查对临界值,作出判断。(2)根据2×2列联表与公式计算的值;由于抽样的随机性,由样本得到的推断有可能正确,也有可能错误。利用进行独立性检验,可以对推断的正确性的概率作出估计,样本量n越大,估计越准确。1.2独立性检验的基本思想及其初步应用(二)1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的称为列联表.②2×2列联表一般地,假设两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(也称为2×2列联表)为下表.不同类别频数表{x1,x2}{y1,y2}2.等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否,常用等高条形图展示列联表数据的.a+b+c+db+da+c总计c+ddcx2a+bbax1总计y2y1互相影响频率特征③如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过a,否则就认为在不超过a的前提下不能推断“X与Y的关系”,或者在样本数据中支持结论“X与Y有关系”.4.在独立性检测中,当K2>时,有95%的把握说事件A与B有关;当K2>时;有99%的把握说事件A与B有关;当K2≤时,认为.k≥k0犯错误的概率没有发现足够证据3.8416.6353.841事件A与B是无关的[例1] 下面2×2列联表的K2的值为________.[答案] 1.7802.将K2的数值与两个临界值3.841与6.635进行对比;做出统计推断:当根据具体的数据算出的K2>3.841时,有95%的把握说事件A与B有关;当K2>6.635时,有99%的把握说事件A与B有关;当K2≤3.841时,认为事件A与B是无关的.某防疫站对屠宰场及肉食零售点的猪肉检查沙门氏菌情况,结果如下表,试检验屠宰场与零售点猪肉带菌率有无差异.725022合计321814零售点40328屠宰场合计不带菌头数带菌头数[分析] 这是一个2×2列联表,可以用K2检验来检验屠宰场与零售点猪肉带菌率有无差异.[例2] 在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,通过图形判断色盲与性别是否有关.利用独立性检验判断,是否能够以99.9%的把握认为“色盲与性别有关系”.你所得到的结论在什么范围内有效?[解析] 根据题目所给的数据作出如下的列联表(单位:名):[例3] 在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,通过图形判断色盲与性别是否有关.利用独立性检验判断,是否能够以99.9%的把握认为“色盲与性别有关系”.你所得到的结论在什么范围内有效?[解析] 根据题目所给的数据作出如下的列联表(单位:名):色盲与性别列联表根据列联表作出相应的二维条形图,如图所示.100095644总计5205146女48044238男总计非色盲色盲[点评] 本题应首先作出调查数据的列联表,再根据列联表画出条形等高图,并进行分析,最后利用独立性检验作出判断.1.利用图形来判断两个分类变量是否有关系,可以画出条形等高图,仅从图形上只可以粗略地判断两个分类变量是否有关系,可以结合所给的数值来进行比较.作图应注意单位统一,图形准确,但它不能给我们两个分类变量有关或无关的精确的可信程度,若要作出精确的判断,可以作独立性检验的有关计算.2.当需要利用公式计算K2的观测值大小来对问题作出推断时,首先要牢记公式,再将经过准确运算后得到的结果与临界值进行比较,最后才能得出合乎情理的结论.为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?[分析] 由题目可获取以下主要信息:①甲在生产现场和不在生产现场时,产品中的合格品和次品数量;②共调查统计了1500件产品.解答本题的关键是准确把握数据作出2×2列联表,然后具体分析.[解析] (1)2×2列联表如下:由列联表可得|ad-bc|=|982×17-493×8|=12750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.1500251475合计51017493甲不在生产现场9908982甲在生产现场合计次品数合格品数[例4] 有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表班级与成绩列联表试问能有多大把握认为“成绩与班级有关系”?907317总计45387乙班453510甲班总计不优秀优秀[辨析] 由于对2×2列联表中n11,n12,n21,n22的位置不确定,在代入公式时代错了数值导致计算结果的错误.一、选择题1.可以粗略地判断两个分类变量是否有关系的是(  )A.散点图B.条形等高图C.独立性检验的思想D.以上都不对[答案] B[解析] 用条形等高图可以粗略地判断两个分类变量是否有关系,但无法精确给出结论的可靠程度.2.下表是一个2×2列联表:则表中a,b处的值分别为(  )A.94,96  B.52,50  C.52,54  D.54,5210046b总计27252x27321ax1总计y2y13.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  )A.k越大,推断“X与Y有关系”,犯错误的概率越大B.k越小,推断“X与Y有关系”,犯错误的概率越大C.k越接近于0,推断“X与Y无关”,犯错误的概率越大D.k越大,推断“X与Y无关”,犯错误的概率越小[答案] B4.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过(  )A.0.25       B.0.75C.0.025D.0.975[答案] C[解析] 通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.二、填空题5.如果K2的观测值k为8.654,可推断“X与Y有关”犯错误的概率不超过______.[答案] 0.005[解析] k=8.654>7.879,就推断“X与Y有关”犯错误的概率不超过0.005.6.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:进行统计分析时的统计假设是__________________.[答案] 假设电离辐射的剂量与人体受损程度无关.503020合计25196第二种剂量251114第一种剂量合计存活死亡三、解答题7.在500个人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血清的人作比较,结果如下表所示.试画出列表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立性检验.1000524476合计500276224未用过500248252试验过合计感冒未感冒[解析] 如下图所示.8.(湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:1105060总计503020不爱好602040爱好总计女男由算得附表:10.8286.6353.8410.0010.0100.050参照附表,得到的正确结论是()A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”答案:C
本文档为【独立性检验的基本思想及其初步应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
仙人指路88
暂无简介~
格式:ppt
大小:799KB
软件:PowerPoint
页数:45
分类:初中语文
上传时间:2021-11-24
浏览量:0