首页 0206

0206

举报
开通vip

0206null第6部分:第6部分:离散数据 的置信区间和假设检验第6部分:离散数据的置信区间 和假设检验第6部分:离散数据的置信区间 和假设检验目的:目标: 用Pareto图确定少数几个关键类型的缺陷。 强调离散数据分析图的使用。 理解缺陷比例的置信区间的用法,并计算单样本和双样本的置信区间。 理解多个X变量卡方分析的用法(双向表)。 使用Minitab绘图并进行分析。在上一部分,我们借助图形、置信区间和假设检验对连续数据的分析进行了讨论。下面,我们将运用图形、置信区间和几种比例的统计检验方法对离散数据进行分析。离散数据...

0206
null第6部分:第6部分:离散数据 的置信区间和假设检验第6部分:离散数据的置信区间 和假设检验第6部分:离散数据的置信区间 和假设检验目的:目标: 用Pareto图确定少数几个关键类型的缺陷。 强调离散数据分析图的使用。 理解缺陷比例的置信区间的用法,并计算单样本和双样本的置信区间。 理解多个X变量卡方分析的用法(双向表)。 使用Minitab绘图并进行分析。在上一部分,我们借助图形、置信区间和假设检验对连续数据的分析进行了讨论。下面,我们将运用图形、置信区间和几种比例的统计检验方法对离散数据进行分析。离散数据导图离散数据导图 工具 用途 1. Pareto - 找出少数关键 的 缺陷类型 2. 图形 - 找出变化规律以确定哪些X影 响缺陷 3. 比例的置信区间 - 量化变差,以确定变化是 和假设检验 否具有统计显著性 四种类型: 单样本,p接近 .5 双样本,p接近 .5 单样本,p<.1 双样本,p<.1 4.比例的卡方(2)检验 - 具有多水平独立变量的比较。 - 研究两个变量间的关系。Minitab可生成Pareto图Minitab可生成Pareto图如果工序产生的数据是离散的,Pareto图表可以帮助我们将注意力集中在研究关键因数上。合并那些不重要的缺陷有助于简化图形并使其对分析更有益处。关闭所有打开的工作表和图形。 打开工作表文件Pareto.mtw 路径为 L:\Six Sigma\minitab\training\ minitab\pareto.mtw 打开: Stat > Quality Tools > Pareto Chart在pareto对话框中,有两种数据 格式 pdf格式笔记格式下载页码格式下载公文格式下载简报格式下载 选项: Chart Defects data in: (用于原始缺陷数据, 栏C4 和 C5) Chart Defects Table: (用于汇总的缺陷数据 栏C1和C5)Pareto图形Pareto图形累计缺陷 %Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。Pareto图形Pareto图形Pareto图形左边显示最大频数的缺陷,右边显示较小频数的缺陷。 图中的曲线显示了累计的缺陷百分比。 图形应该可以 说明 关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书 : 查找造成80%缺陷的缺陷类型。在上例中,15种缺陷类型中的4种占总缺陷数量的66%,剩余35%的缺陷分别由其余的11种类型的缺陷产生。 查找栏高度出现较大差异的位置。如果次品数量之间存在很小的差异,那么,就不能缩小您项目的重点范围。(尝试换一种方式考虑问题,即,考虑财务上的影响,而不是缺陷的数量。)原始数据的Pareto图表原始数据的Pareto图表可以使用对话设置将原始数据对几种不同的因数进行分析。在图形中保留缺陷的常规顺序。 考虑累积缺陷线的高度,它表示特定因素总缺陷数量。在这种情况下,缺陷大多发生在“ 夜间”。 在被分析的因素(周期)之间,查找缺陷水平的差异。 在这本例中,傍晚和周末很少产生划痕。离散数据的指引图离散数据的指引图问题: 降低客户培训服务电话的比例 (百分比)。 处理离散的响应变量时,您想知道的是缺陷比例如何随潜在X变量的变化而变化。 注释:n 是样本容量 k 是样本的缺陷数量 p = k/n 是样本中的缺陷比例 p 总体的缺陷比例 (未知)>离散数据分析的类型离散数据分析的类型 正态 泊松(Poisson) 近似法 近似法1个比例 比较2个比例 多于2个比例 (及双向表格 ) 大n (样本容量) p不太 接近0或1 np>10和 n(1-p)>10 大n (样本容量) 比例较小 (p<0.10) 下表总结了我们在本部分中所使用的方法。 (置信区间和假设检验)离散数据分析的统计方法离散数据分析的统计方法p + z* p(1-p)/n>>> z* p(1-p)*>>(p1 - p2) + 1 1 n1 n2+2 (卡方)精确二项式 检验Poisson 置信区间 正态 泊松(Poisson) 近似法 近似法大n (样本容量) p不接近0或1 np>10 和n(1-p)>10大n (样本容量) 比例较小 (p<0.10)>>下表总结了我们将在这一部分使用的方法。Z值得自正态分布表,取决于所要求的置信度。1个比例 比较2个比例 多于2个比例 (及双向表格 )离散数据指引图离散数据指引图下图显示何时使用正态法、何时使用泊松(Poisson)法。合理方法的选择取决于样本容量和缺陷比例。注: 使用卡方检验法比较两个以上的比例,或2个X变量。0 n=20 50 100 150 200 250正态分布值正态分布值另外,我们将使用以下重要的Z-值 (来自正态表):正态近似法: 1个比例正态近似法: 1个比例 ( 大n, np>10, n(1-p)>10)例: 保险索赔的精度 不准确比例最可能的估计值是: p = 缺陷数量/样本容量 = k/n = 600/2000 = .30或30% 在总共80,000个记录中,不准确比例置信度为95% 的双边置信区间为: 解释: (28%, 32%)是在整个80,000个记录这个总体中缺陷(不准确)比例的取值范围。80,000 保险数据库中的记录 2,000 为分析数据准确度而抽样的样本记录(n) 1,400 (70%)是准确的 600 (30%)是不准确的(缺陷数量,k) p + z * p ( 1 - p ) / n .300 + 1.96 * .3 (1 - .3) / 2000 .300 + .020 (.280, .320) or 28% to 32%>>>= = =>激发想法激发想法假设我们希望上页的置信区间为 + .010, 而不是 + .020,我们需要多大的样本容量?正态近似法: 单比例正态近似法: 单比例(大n, np>10, n(1-p)>10)课堂练习: 抛币 掷币50次。 记录头面在上的次数。 计算头面在上的比例的 90% (双边)置信区间。p是什么? 应使用什么 Z? 置信区间是多少? p=.50是否位于置信区间内?>比较2个比例 (差异的取值范围是什么)比较2个比例 (差异的取值范围是什么)GE商品质量举例 : 服务质量 某厂商提供与GE相同的服务, 其客户不满意的比例比GE的要高。该厂商声称造成这种现象的原因是样本容量太小,而并不承认是由于自己的服务质量低于GE。 确定对该厂商的服务不满意的客户比例是否显著地高于GE,或者说,分析这种差异是否是由于偶然因素产生的。缺陷数量 k1 = 3281 k2 = 48 k1 + k2 = ___ 样本容量 n1 = 36054 n2 = 214 n1 + n2 = ___ 缺陷比例 p1 = k1/n1 p2 = k2/n2 p = (k1+k2) = ___ = ___ (n1+n2) = ___ GE (1) 其它提供商 (2) 总计>>>比较2个比例 (差异的取值范围是什么)比较2个比例 (差异的取值范围是什么)GE商品质量举例 : 服务质量缺陷数量 k1 = 3281 k2 = 48 样本容量 n1 = 36054 n2 = 214 缺陷比例 p1 = k1/n1 p2 = k2/n2 = .091 = .224 GE (1) 其它供应商 (2) >>计算置信区间: 1.96 * z *(p1 - p2) + >>= = .133 + .056 = (.077, .189) (7.7%, 18.9%)(.224 - .091) + .091(1-.091) .224(1-.224) 36054 214+p1(1-p1) p2(1-p2) n1 n2+解释 : 最可能的估计是GE客户的满意率比另一厂商的高出13%。 我们有95%的把握认为,对GE的服务满意的客户比例比对另一厂商的要高出8% -19% 。 该区间不包括0%,因此我们有95%以上的把握认为,差异的产生是确实存在的,而不是偶然出现的。Poisson近似法: 1个比例 (大n, 缺陷次数少)Poisson近似法: 1个比例 (大n, 缺陷次数少)例: 延迟付款的供应商比例 n = 42 个样本 (被审计的发票数量) k = 1 个缺陷 (延迟付款) 缺陷比例的最可能估算值是: p = k / n = 1 / 42 = .024, 或 2.4% 在缺陷率很低的情况下,正态近似是不准确的。 使用Poisson近似法计算一个比例的置信区间。^Poisson近似法: 1个比例Poisson近似法: 1个比例要计算缺限比例的90%、双边置信区间: 1. 从表中查找1个缺陷的上限和下限值 (.355 和 4.744). 2. 除以样本容量: 下限 = .355 / 42 = .0085, 或 .85% 上限 = 4.744 / 42 = .113, 或 11.3% 延迟付款的供应商的比例取值范围是 (.85%, 11.3%)。较大样本容量的影响较大样本容量的影响假设您抽取10倍多的样本,发现10倍多的缺陷。 现在的置信区间是: 下限 = 6.169 / 420 = .0147 or 1.47% 上限 = 16.96 / 420 = .0404 or 4.04% 比较两个置信区间: 最可 90% 2-边 样本 故障 能的 置信 容量(n) 数量(k) (k/n) 估算值 区间 42 1 2.4% (.85, 11.3) 420 10 2.4% (1.4, 4.04) 样本容量的增加导致新的置信区间 (1.4%, 4.04%) 比原来的小得多。Poisson近似法: 1个比例 (大n, 失败次数较少)Poisson近似法: 1个比例 (大n, 失败次数较少)课堂练习: 现场检验发动机故障 一年中现场检验300台发动机,发现两个缺陷。 计算这个总体中存在缺陷的发动机比例95% 的双边置信区间。 n是什么? K是什么? 表格中的缺陷下限是多少? 缺陷上限是多少? 精确二项式检验:比较2个小比例 (大n, 失败次数很少)精确二项式检验:比较2个小比例 (大n, 失败次数很少) 例: 涂漆表层的黑斑 涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。 确定是否有足够的证据证明,在置信度为95%的情况下,供应商1比供应商2生产的次品少(单边检验)。 由于涉及到的是大样本容量、小缺陷次数的两个比例之间的比较,我们需要使用“ 精确二项式”方法。 此方法请详见附录。 用Minitab计算比例用Minitab计算比例 > Stat > Basic Statistics > 1 Proportion 成功次数 在此例中指缺陷。输入一个比例的检验和置信区间 p = 0.5与 p  0.5对比检验 精确 样本 X N 样本 p 95.0 % CI P-值 1 600 2000 0.300000 (0.279972, 0.320616) 0.000用Minitab计算比例用Minitab计算比例 > Stat > Basic Statistics > 2 Proportionsp2p1两个样本的检验和置信区间 样本 X N 样本p 1 48 214 0.224299 2 3281 36054 0.091002 p(1) - p(2)估值: 0.133297 p(1) - p(2)的95% CI: (0.0773320, 0.189261) 检验p(1) - p(2) = 0 (或  0) : Z = 4.67 P-值 = 0.000用Minitab计算比例用Minitab计算比例 > Stat > Basic Statistics > 1 Proportion一个比例的检验与置信区间 p = 0.5与p  0.5的对比检验 精确 样本 X N 样本 p 90.0 % CI P-值 1 10 420 0.023810 (0.012973, 0.040052) 0.000Minitab的区间与我们原有的区间(.014,.404)稍有不同, 这是因为Minitab使用了不同的近似方法。卡方检验...卡方检验...拟合好坏检验 (多比例的互等性): Ho : p1 = p2 = p3 = ... = pn Ha : 至少一个等式不相等 (此方法可详见附录) 拒绝准则: 当p  .05时,无法拒绝Ho; 当p < .05时,接受Ha 比较2 的计算值和表中的临界值。用于双向表格的卡方等式:Ho : 独立 (总体间无关系) Ha : 非独立 (总体间有关系)卡方检验...卡方检验... 举例: 冰箱缺陷 我们希望依据以下变量对某一厂家生产的冰箱的缺陷进行分类: (1) 缺陷类型 (2) 生产班次 3个班次共有 n = 309个冰箱缺陷记录。这些缺陷各属4类之一 (1, 2, 3和4)。检验零假设Ho: 缺陷类型与班次无关,而备择假设 Ha: 缺陷类型与班次有关,置信度取95%。 缺陷‘1’: 凹痕 缺陷‘2’: 密封系统泄漏 缺陷‘3’: 制冰机开关故障 缺陷‘4’: 部件遗失缺陷类型 班次 1 2 3 4 总计 1 15 21 45 13 94 2 26 31 34 5 96 3 33 17 49 20 119 卡方检验...卡方检验...* 如果预期频率小于5,那么计算得出的卡方值将随fe的改变而发生显著的变化。此时计算值是不太可靠的,需要小心处理。 Ho : 独立 (总体间无关系) Ha : 非独立 (总体间有关系) 拒绝准则: 当p  .05时,无法拒绝Ho; 当p < .05时,接受Ha 比较2 的计算值和表中的临界值。双向表的卡方等式:列联表(Contingency Tables)列联表(Contingency Tables)假设 Ho : 三个班次产生的四类缺陷比例相同 Ha : 三个班次产生的四类缺陷比例不同 拒绝 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 是什么? 如果计算值: 2 = (fo - fe)2/fe 大于自由度为 (r-1) * (c-1) = (3-1) * (4-1) = 6 的表格中的临界值,则拒绝零假设。 同样地,如果p值小于.05,则拒绝零假设。 按下列格式在Minitab中输入数据:现在已有了数据,第一步该怎样做?将其绘图!将其绘图!Graph>Plot在显示框中填写数据将其绘图!将其绘图!说明: 在缺陷类型与班次之间似乎存在某种依赖关系: 缺陷2在班次2中比预期值大。 缺陷2在班次3中比预期值小。 缺陷4在班次2中比预期值小。列联表列联表 Stat>Tables>Cross Tabulation列联表列联表fo, 观测频率df = (3-1)(4-1)“St Resid”(标准残差)大的单元不能与其它单元的型式不一致,对总卡方值产生很大的影响。标准残差 标准残差的平方是该单元的2 值。 .422 = (13-11.56)2/11.56fe, 预期频率 fe = (总行数) x (总栏数) 总计 fe = 94 x 38 = 11.56 309卡方分布卡方分布(r-1)(c-1)=df(自由度)其中 r = 行数 c =栏数列联表列联表你的任务是减少医院设备的服务呼叫次数。有5个医院都在使用3种 型号 pcr仪的中文说明书矿用离心泵型号大全阀门型号表示含义汽车蓄电池车型适配表汉川数控铣床 相同的设备:MR(1), CT(2),和X-Ray(3)。现在设法确定在医院和需要服务的设备类型之间是否有什么关联。 在Minitab中输入以下数据: 课堂练习: 服务电话减少分析步骤:分析步骤:将数据制图,并加以说明 计算自由度 运行交叉制表 得出结论离散数据分析的统计方法离散数据分析的统计方法p + z* p(1-p)/n>>> z* p(1-p)*>>(p1 - p2) + 1 1 n1 n2+2 (Chi-square)精确二项式 检验Poisson 置信区间 正态 泊松(Poisson) 近似法 近似法单比例 比较2个比例 超过2个比例 (及双向表)大n (样本容量) p不太接近0或1 np>10及n(1-p)>10大n (样本容量) 较小的缺陷比例 (p<0.10)>>下表总结了本部分中所用的方法。Z是为满足置信度要求而从正态分布中产生的值。null下图显示何时使用正态法、何时使用Poisson法。合理方法的选择取决于样本容量和缺陷比例。注: 使用卡方检验法比较两个以上的比例,或具有2个变量的情况。大样本容量 缺陷比例不过小 也不过大 [ np>10 和 n(1-p)>10 ] 使用正态近似法p = 10/np=.10Use Poisson Approximation0 n=20 50 100 150 200 250 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0比例样本容量使用Poisson 近似法p = 1-10/n收集更多的数据, 或采用精确二项式方法课堂练习 - M&M课堂练习 - M&M棕色和红色为可接受 黄色、橙色、蓝色和绿色为缺陷 样本1是一包10盎司装的普通M&M 样本2是一包10盎司装的花生M&M 1. 分别画出以上两个样本的4种类型缺陷的Pareto图形(参见第4至7页)。 2. 计算两个样本缺陷比例间差异置信度为99%的置信区间。先用手算(16页),然后,再借助minitab(24页)进行计算。 3. 运用卡方检验检查两个样本的所有六种颜色的比例是否相同。切记将数据画图,参见25-35页(将颜色以数值而非文本的形式输入,只有这样Minitab才能将数据绘制成图)。 额外练习:计算两种M&M (普通和花生)中每种颜色所占的比例。将不同颜色的比例 以图形表示,两种不同的M&M以不同的颜色和符号标识。以适当的方式处理M&M (或让教师适当处理)null关键概念 - 第6部分 离散数据的置信区间 和假设检验使用Pareto图形确定哪种类型的缺陷出现的频率最高,最应加以重视。 对于那些不接近0.0或1.0的比例,可以使用正态近似法计算1个样本和2个样本差值的置信区间和假设检验。 对于较小的比例(p<.10),可以使用Poisson近似表或精确二项式方法计算1个样本的置信区间和2个样本的假设检验。 如果你具有一个双向表,首先将数据制图并寻找其间的关系,然后,运用显著性的卡方检验确定所观察到的差异是否是偶然产生。null附录null其它离散工具1. 属性数据电子表格(Attribute Data Spreedsheet) (小心使用小比例的样本容量计算) 计算比例的置信区间 路径: AP1FS01\users\pccommon\6_sigma\m2\library\attribut.xls 2. 后勤回归(Logistics Regression) 因变量为离散变量时的回归分析 路径: (In Minitab) Stat>Regression>Binary Logistic Regression 3. 判别分析 (Discriminante Analysis) 根据独立变量(X‘s)将观测值(Y)分类到两个或多个组中。 路径: (In Minitab) Stat>Multivariate>Discriminate Analysis 4.分类和回归树 (CART) -Classification and Regression Trees) 根据独立变量(X‘s)将观测值(Y)分类到两个或多个组中。 参考资料: Breiman, Friedman, Olshen, Stone, Classification and Regression Trees, Chapman & Hall, 1984. 5. 数据采集 (Data Mining) 根据独立变量(X‘s)将观测值(Y)分类到两个或多个组中。 参考资料: 参见Steve Delaney, I.T. nullPoisson近似法: 1个比例 (大n, 小缺陷次数)表中的数据为值,它满足:  其中可以是置信度,也可以是 (1 - 置信度)null精确二项式检验:比较2个小比例 (大n, 小缺陷次数) 例: 涂漆表面的黑斑 涂漆部门希望通过变更油漆供应商,来减少由于黑斑导致的缺陷数量。 确定是否有足够的证据证明,在置信度为95%的情况下,供应商1比供应商2生产的次品少(单边检验)。 当缺陷比例较低时,使用“ 精确二项式” 方法对两个工序中的缺陷比例进行比较。>>>null精确二项式检验:比较2个小比例 (大n, 小缺陷次数) 例: 涂漆表明的黑斑 检验逻辑: 如果两个工序相同,缺陷应该是随机地分布于两个样本中。   对于相等的样本容量(n1 = 100, n2 = 100),当缺陷按50/50平均分布时,每个供应商会有6.5次。   如果实际的比例远远偏离50/50,就有足够的证据说明这两个工序是不同的。>>>null精确二项式检验:比较2个小比例 (大n, 小缺陷次数)我们希望确定以3/10划分(相对于6.5/6.5)是否具有统计显著性 每个小组的数量将以“二项式”概率分布 使用Minitab来计算3/10或更高的比例划分偶然发生的概率,零假设(p = .50)是否为真? 重新启动Minitab 给 C1 取名“ 缺陷数量”,并输入0,1,2,3,…,12,13 产生一个累积概率: Calc > Probability Distributions > Binomialnull填写如下对话框:k1+k2 = 3+10 = 13n1/(n1+n2) = 100/200 = .5缺陷数量在对话窗口中显示累积分布:如果两个总体相同(p = .50),那么,在一个样本中出现的缺陷次数为3或小于3的概率为0.0461我们得出 100(1-.0461) = 95.39% 置信度(单边) 供应商 1的 涂料产品存在的缺陷少于供应商2的缺陷。单击累计null拟合好坏检验举例 (多比例互等性) 有90只老鼠,一个接一个地经过下降通道进入三扇门中的一扇。我们想检验假设:老鼠对其中的任何一扇门没有偏好。 Ho: p1 = p2 = p3 = 1/3 假设每只老鼠经过下降通道一次,观测所得数据如下: n1 = 23, n2 = 36, 以及 n3 = 31. 每个门道所观察的预期频数应该相等, 预期频率 = 90× (1/3) = 30  = .05 DF = 2 (k-1) 2table = 5.991 门 1 2 3 观测值 23 36 31 预期值 30 30 30 2calc = (23-30)2 + (36-30)2 + (31-30)2 = 2.87 30 30 30 由于2.87小于5.991,所以,我们不能拒绝H0。从而得出结论:没有证据显示老鼠对其中的任何一扇门具有偏好。Ho: p1 = p2 = p3 Ha: 至少有1个等式不成立 2 检验统计值(近似地)服从自由度为(k - 1)的2 分布,From: Mathematical Statistics with Applications, 3rd Edition - Mendenhall, Scheaffer, Wackerly null首先将数据制图 :Graph>Plot如图所示在“ Data Display” 中填写“ Item 1”,为每一类型设备创建一个单独的符号如图所示在“Data Display” 中填写“Item 2”,创建独特的线型以连接每类设备课堂练习解答: 服务电话减少nullStat>Tables>Cross Tabulationnull交叉制表的对话窗口 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 确实存在某种依赖关系! 注意:这并没有说是“ 好的”或“ 差的”依赖关系P值 < .05, 拒绝 Ho显著的差异主要是由于医院5。
本文档为【0206】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_028113
暂无简介~
格式:ppt
大小:584KB
软件:PowerPoint
页数:0
分类:企业经营
上传时间:2011-12-05
浏览量:27