首页 概率统计补充案例

概率统计补充案例

举报
开通vip

概率统计补充案例补充案例: 概率部分: 案例1、“三人行必有我师焉” 案例2、抓阄问题 案例3、贝叶斯方法运用案例介绍 案例4、化验呈阳性者是否患病 案例5、敏感性问题的调查 案例6、泊松分布在企业评先进中的应用 案例7、碰运气能否通过英语四级考试 案例8、检验方案的确定问题 案例9、风险型决策模型 案例10、一种很迷惑游客的赌博游戏 案例11、标准分及其应用 案例12、正态分布在人才招聘中的应用 案例13、预测录取分数线和考生考试名 统计部分: 案例14、随机变量函数的均值和标准差的近似计算方法 案例15、如何表示考试成...

概率统计补充案例
补充案例: 概率部分: 案例1、“三人行必有我师焉” 案例2、抓阄问题 案例3、贝叶斯方法运用案例介绍 案例4、化验呈阳性者是否患病 案例5、敏感性问题的调查 案例6、泊松分布在企业评先进中的应用 案例7、碰运气能否通过英语四级考试 案例8、检验MATCH_ word word文档格式规范word作业纸小票打印word模板word简历模板免费word简历 _1714007025945_1的确定问题 案例9、风险型决策模型 案例10、一种很迷惑游客的赌博游戏 案例11、 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 分及其应用 案例12、正态分布在人才招聘中的应用 案例13、预测录取分数线和考生考试名 统计部分: 案例14、随机变量函数的均值和标准差的近似计算方法 案例15、如何表示考试成绩比较合理 案例16、如何估计湖中黑、白鱼的比例 案例17、预测水稻总产量 案例18、工程师的建议是否应采纳 案例19、母亲嗜酒是否影响下—代的健康 案例20、银行经理的方案是否有效 案例21、一元线性回归分析的Excel实现 案例22、方差分析的Excel实现 案例23、 预测高考分数 案例24、两次地震间的间隔时间服从指数分布 案例1、“三人行必有我师焉” 我们可以运用概率知识解释孔子的名言“三人行必有我师焉”. 首先我们要明确一个问题,即只要在某一方面领先就可以为师(韩愈说“术业有专攻”). 俗语说“三百六十行,行行出状元”,我们不妨把一个人的才能分成360个方面。孔子是个大圣人,我们假设他在一个方面超过某个人的概率为99%,那么孔子在这方面超过与他“同行”的两个人的概率为99% ×99% =98.0l%,在360个方面孔子总比这两人强的概率为(98.01%)360=0.07% ,即这两个人在某一方面可以做孔子老师的概率为99.93%.从数学角度分析,孔子的话是很有道理的. 案例2、抓阄问题 一项耐力比赛胜出的10人中有1 人可以获得一次旅游的机会,组织者决定以抓阄的方式分配这一名额. 采取一组10人抓阄,10张阄中只有一张写“有”. 每个人都想争取到这次机会,你希望自己是第几个抓阄者呢? 有人说要先抓,否则写有“有”的阄被别人抓到,自己就没有机会了;有人说不急于先抓,如果前面的人没有抓到写有“有”的阄,这时再抓抓到“有”的机会会大一些. 为了统一认识,用概率的方法构造一个摸球模型来说明问题. 摸球模型:袋中装有1 个红球和9 个黄球除颜色不同外球的大小、形状、质量都相同. 现在10 人依次摸球(不放回),求红球被第 个人摸到的概率( = 1, 2, ?, 10). 解决问题 :设 = “ 第 个人摸到红球 , = 1, 2, ?, 10. 显然,红球被第一个人摸到的概率为 . 因为 ,于是红球被第二个人摸到的概率为 . 同样,由 知红球被第三个人摸到的概率为 . 如此继续,类似可得 = . 由此可见,其结果与 无关,表明10 个人无论摸球顺序如何,每个人摸到红球的机会相等. 这也说明10 个人抓阄,只要每个人在抓之前不知道他前边那些已经抓完的结果,无论先后, 抓到的机会是均等的. 在现实生活中单位分房、学生分班、短缺物品的分配等,人们常常乐于用抓阄的办法来解决,其合理性保证当然得归功于“概率”. 通过上面的摸球模型,我们总结出分配中的“抓阄”问题,无论先抓后抓, 结果是一样的.学完概率之后再遇到抓阄问题时不必争先恐后,我们要发扬风格让他人先抓. 案例3、贝叶斯方法运用案例介绍 什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。 正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。 2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。 另外,这种过滤器还具有自我学习的功能,会根据新收到的邮件,不断调整。收到的垃圾邮件越多,它的准确率就越高。 建立历史资料库 贝叶斯过滤器是一种统计学过滤器,建立在已有的统计结果之上。所以,我们必须预先提供两组已经识别好的邮件,一组是正常邮件,另一组是垃圾邮件。 我们用这两组邮件,对过滤器进行"训练"。这两组邮件的规模越大,训练效果就越好。Paul Graham使用的邮件规模,是正常邮件和垃圾邮件各4000封。 "训练"过程很简单。首先,解析所有邮件,提取每一个词。然后,计算每个词语在正常邮件和垃圾邮件中的出现频率。比如,我们假定"sex"这个词,在4000封垃圾邮件中,有200封包含这个词,那么它的出现频率就是5%;而在4000封正常邮件中,只有2封包含这个词,那么出现频率就是0.05%。(【注释】如果某个词只出现在垃圾邮件中,Paul Graham就假定,它在正常邮件的出现频率是1%,反之亦然。随着邮件数量的增加,计算结果会自动调整。) 有了这个初步的统计结果,过滤器就可以投入使用了。 贝叶斯过滤器的使用过程 现在,我们收到了一封新邮件。在未经统计分析之前,我们假定它是垃圾邮件的概率为50%。(【注释】有研究表明,用户收到的电子邮件中,80%是垃圾邮件。但是,这里仍然假定垃圾邮件的"先验概率"为50%。) 我们用S表示垃圾邮件(spam),H表示正常邮件(healthy)。因此,P(S)和P(H)的先验概率,都是50%。 然后,对这封邮件进行解析,发现其中包含了sex这个词,请问这封邮件属于垃圾邮件的概率有多高? 我们用W表示"sex"这个词,那么问题就变成了如何计算P(S|W)的值,即在某个词语(W)已经存在的条件下,垃圾邮件(S)的概率有多大。 根据条件概率 公式 小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载 ,马上可以写出 公式中,P(W|S)和P(W|H)的含义是,这个词语在垃圾邮件和正常邮件中,分别出现的概率。这两个值可以从历史资料库中得到,对sex这个词来说,上文假定它们分别等于5%和0.05%。另外,P(S)和P(H)的值,前面说过都等于50%。所以,马上可以计算P(S|W)的值: 因此,这封新邮件是垃圾邮件的概率等于99%。这说明,sex这个词的推断能力很强,将50%的"先验概率"一下子提高到了99%的"后验概率"。 联合概率的计算 做完上面一步,请问我们能否得出结论,这封新邮件就是垃圾邮件? 回答是不能。因为一封邮件包含很多词语,一些词语(比如sex)说这是垃圾邮件,另一些说这不是。你怎么知道以哪个词为准? Paul Graham的做法是,选出这封信中P(S|W)最高的15个词,计算它们的联合概率。(【注释】如果有的词是第一次出现,无法计算P(S|W),Paul Graham就假定这个值等于0.4。因为垃圾邮件用的往往都是某些固定的词语,所以如果你从来没见过某个词,它多半是一个正常的词。) 所谓联合概率,就是指在多个事件发生的情况下,另一个事件发生概率有多大。比如,已知W1和W2是两个不同的词语,它们都出现在某封电子邮件之中,那么这封邮件是垃圾邮件的概率,就是联合概率。 在已知W1和W2的情况下,无非就是两种结果:垃圾邮件(事件E1)或正常邮件(事件E2)。 其中,W1、W2和垃圾邮件的概率分别如下: 如果假定所有事件都是独立事件(【注释】严格地说,这个假定不成立,但是这里可以忽略),那么就可以计算P(E1)和P(E2): 又由于在W1和W2已经发生的情况下,垃圾邮件的概率等于下面的式子: 即 将P(S)等于0.5代入,得到 将P(S|W1)记为P1,P(S|W2)记为P2,公式就变成 这就是联合概率的计算公式。 最终的计算公式 将上面的公式扩展到15个词的情况,就得到了最终的概率计算公式: 一封邮件是不是垃圾邮件,就用这个式子进行计算。这时我们还需要一个用于比较的门槛值。Paul Graham的门槛值是0.9,概率大于0.9,表示15个词联合认定,这封邮件有90%以上的可能属于垃圾邮件;概率小于0.9,就表示是正常邮件。 有了这个公式以后,一封正常的信件即使出现sex这个词,也不会被认定为垃圾邮件了。 案例4、化验呈阳性者是否患病 在医疗中经常通过化验来诊断。当某人做癌症检查结果呈阳性时,他就患癌症了?其实不然。假设某一地区患有癌症的人占0.005,患者对一种试验反应是阳性的概率为0.95,正常人对这种试验反应是阳性的概率为0.04,现抽查了一个人,试验反应是阳性,问此人是癌症患者的概率有多大? 设C={抽查的人患有癌症},A={试验结果是阳性},则 表示“抽查的人不患癌症”。已知 , , , 。 由贝叶斯公式,可得 代入数据计算得: P(C|A)= 0.1066 。在以上假设下,做癌症检查结果呈阳性的人确患癌症的概率为仅为0.1066,平均来说,1000个人中大约只有107人确患癌症。 这是不是意味着这种试验对于诊断一个人是否患有癌症没有意义呢?不是!如果不做试验,一人是患者的概率为0.005。若试验后得阳性反应,则此人是患者的概率为0.1066, 从0.005增加到0.1066,将近增加约21倍,说明这种试验对于诊断一个人是否患有癌症有意义。 案例5、敏感性问题的调查 学生阅读不健康书刊或录像会严重影响学生的身心健康. 但这些都是避着家长和教师进行的,属个人隐私行为. 我们如何 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 一种调查方案,能够估计出大学生中看过不健康书刊或录像的人数的比率呢? 对这种敏感性问题的调查,被调查者会有一种顾虑,害怕调查者不能很好的保守秘密. 如果被调查者不愿意真实回答问题,将使调查数据失真,这样的统计结果将没有意义. 因此巧妙设计调查方案是获得真实数据的关键. 经过多年的研究和实践,一些统计学家和心理学家发明了一种能消除人们抵触情绪的“随机化应答”方法. 被调查者只需回答两个问题之一,而且只需回答“是”或“否”,设计的问题如下: 问题A:你的生日是否在 7月1日 之前? 问题B:你是否看过不健康书刊? 被调查者在没有外人的情况下,从一个装有黑球和白球的箱子中随机抽取一个球,看过颜色后又放回.若抽出白球则回答问题A;若抽出黑球则回答问题B. 箱中黑球所占比率 是已知的,即 , . 被调查者无论回答A或B,都只需在一张只有“是”、“否”两个选项的答案上做出选择,然后投入密封的投票箱内. 上述抽球和答卷都在无人的情况下进行,这样就可以消除被调查者的顾虑,从而可以保证答卷的真实可靠性.
本文档为【概率统计补充案例】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_597436
暂无简介~
格式:doc
大小:68KB
软件:Word
页数:0
分类:理学
上传时间:2019-08-21
浏览量:24