Excel在数理统计中的应用

Excel在数理统计中的应用 ExcelExcelExcelExcel在数理统计中的应用在数理统计中的应用在数理统计中的应用在数理统计中的应用 2.1 概率分布 Excel 提供概率函数 P{ X = x}和概率分布函数 P{ X ≤x}或 P{ X >x}的一般形式 xDIST （但泊松分布 POISSON 和韦伯分布 WEIBULL 例外），也提供累积概率分布函数的逆函数的一般形式 xINV(但累积二项分布 CRITBINOM 例外)。具体相关函数请参考表 2-2。按随机变量取值的特点，概率分布可以分为离散型随机变量的概率分布和...

ExcelExcelExcelExcel在数理统计中的应用在数理统计中的应用在数理统计中的应用在数理统计中的应用 2.1 概率分布 Excel 提供概率函数 P{ X = x}和概率分布函数 P{ X ≤x}或 P{ X >x}的一般形式 xDIST （但泊松分布 POISSON 和韦伯分布 WEIBULL 例外），也提供累积概率分布函数的逆函数的一般形式 xINV(但累积二项分布 CRITBINOM 例外)。具体相关函数请参考表 2-2。按随机变量取值的特点，概率分布可以分为离散型随机变量的概率分布和连续型随机变量的概率分布。 2.1.1 离散概率分布以二项分布为例，Excel 提供的常用二项分布函数有 3 个：二项分布函数 BINOMDIST、累积二项分布的反函数 CRITBINOM 和负二项分布函数（即 Pascal 分布） NEGBINOMDIST。 BINOMDIST(number_s,trials,probability_s,cumulative) 返回一元二项式分布的概率值。 Number_s 为试验成功的次数。Trials 为独立试验的次数。Probability_s 为每次试验中成功的概率。Cumulative 若为 0，相当于 FALSE,返回为概率函数，若为 1，相当于 TRUE, 返回为概率分布函数。 • 一元二项式概率密度函数的计算公式为：，相当于( , , ) (1 )x n x n b x n p p p x −⎛ ⎞= −⎜ ⎟ ⎝ ⎠ BINOMDIST（x，n，p，0） • 一元二项式累积分布函数的计算公式为：，相当于 0 ( , , ) ( , , ) n x B x n p b x n p = =∑ BINOMDIST（n，x，p，1） CRITBINOM(trials,probability_s,alpha) 返回使累积二项式分布大于等于临界值的最小值。Trials 伯努利试验次数。Probability_s 每次试验中成功的概率。Alpha 临界值。 NEGBINOMDIST(number_f,number_s,probability_s)返回负二项式分布。当成功概率为常量 probability_s 时，函数 NEGBINOMDIST 返回在到达 number_s 次成功之前，出现 number_f 次失败的概率。Number_f 失败次数。Number_s 成功的极限次数。Probability_s 成功的概率。 • 负二项式（Pascal）分布概率为：，相当于 1 ( ; , ) (1 ) 1 r x x r f x r r p P p r + −⎛ ⎞ + = −⎜ ⎟−⎝ ⎠ NEGBINOMDIST（x，r，p）例 2.1.1 某车间有 200 台车床，它们独立地工作着，开工率各为 0.6，开工时耗电为 1 千瓦，第一问：至少需要 120 千瓦电力的概率是多少？第二问：供电所至少要供给给这个车间多少电力才能以 99.9%的概率保证这个车间不会因供电不足而影响生产。步骤 1 ：“插入”=>“函数”=> 选择常用函数下选择函数中的 BINOMDIST =>在“函数参数”窗口中，Number_s 内输入 119，Trials 内输入 200，Probability_s 内输入 0.6，Cumulative 输入 1（或直接输入=BINOMDIST(119,200,0.6,1)），得 46.93% 步骤 2 ：“插入”=>“函数”=> 选择常用函数下选择函数中的 CRITBINOM =>在“函数参数”窗口中，Trials 内输入 200，Probability_s 内输入 0.6，Alpha 输入 0.999（或直接输入=CRITBINOM(200,0.6,0.999)），得 141 至少需要 120 千瓦电力的概率是 1-46.93%=53.07%，对于第二问，用积分极限定理算出的与二项分布算出的一致，即同时开工的车床数不超过 141 台的概率大于 99.9%。例 2.1.2 某仓库有两个同类型系统，每个系统中都有 50 个备件，使用时，从两个系统中任取一个，然后从中抽取一个备件。问当第一次取到了一个空系统时，另一个系统中仍有 10 个备件的概率是多少？步骤：“插入”= >“函数”=> 选择常用函数下选择函数中的 NEGBINOMDIST =>在“函数参数”窗口中，Number_f 内输入 40，，Number_s 内输入 51，Probability_s 内输入 0.5，（或直接输入=NEGBINOMDIST(40,51,0.5)），得 2.41% 当第一次取到了一个空系统时，另一个系统中仍有 10 个备件的概率是 2.41% 2.1.2 对于连续概率分布以正态分布为例，Excel 提供的正态分布函数有 4 个：正态分布函数 NORMDIST、标准正态分布函数 NORMSDIST、正态分布函数的反函数 NORMINV 和标准正态分布函数的反函数 NORMSINV. NORMDIST(x,mean,standard_dev,cumulative) 返回指定平均值和标准偏差的正态分布函数。 X 为需要计算其分布的数值。Mean 分布的算术平均值。Standard_dev 分布的标准偏差。如果 Mean=0， Standard_dev=1 且 cumulative=1，则函数 NORMDIST 返回标准正态分布。 � 正态累积分布函数计算公式为：，相当于dxexf x x 2 2 2 )( 2 1 )( σ µ σπ − − ∞−∫= NORMDIST（x，，，1）µ σ NORMSDIST(z) 返回标准正态累积分布函数，该分布的平均值为 0，标准偏差为 1。Z 为需要计算其分布的数值。 � 正态累积分布函数计算公式为：，相当于 NORMSDIST（Z） 2 2 1 ( ;0,1) 2 z f z e π − = NORMSINV(probability) 返回标准正态累积分布函数的反函数。该分布的平均值为 0，标准偏差为 1。如果已给定概率值，则 NORMSINV 使用 NORMSDIST(z) = probability 求解数值 z。Probability 正态分布的概率值。 NORMINV(probability,mean,standard_dev) 返回指定平均值和标准偏差的正态累积分布函数的反函数。如果已给定概率值，则 NORMINV 使用 NORMDIST(x, mean, standard_dev, TRUE) = probability 求解数值 x。 Probability 正态分布的概率值。 Mean 分布的算术平均值。 Standard_dev 分布的标准偏差。例 2.1.3 假定某支股票的收益率呈正态分布，对应的正态分布的均值为 5%，标准差为 2%，试确定：（1）收益率为 4%对应的概率密度函数值和股票收益率小于等于 4%的概率。（2）股票获得收益率 80%的可能性不超过某值，求该临界收益率。解：（ 1）在 Excel 单元格输入“=NORMDIST(0.04，0.05，0.02，0)”，回车得到收益率为 4%对应的概率密度函数值 17.60.在另一单元格输入“=NORMDIST(0.04,0.05,0.02,1)”，得到股票收益率小于等于 4%的概率为 30.85%. (2) 在 Excel 单元格输入“=NORMINV(0.8,0.05,0.02)”，得到临界收益率为 6.68%。 2.2 数字特征随机变量的概率分布函数或概率密度函数完整地描述了随机变量的统计特征。但是，在统计学应用中，往往不易求出随机变量的概率分布或概率密度函数，这时，就要研究随机变量的数字特征。本节主要研究的有数学期望、方差、协方差、相关系数。 2.2.1 期望与方差 Excel 只提供离散随机变量的数学期望，AVERAGE 是计算算术平均值函数， SUMPRODUCT 是成绩求和函数。Excel 还提供函数 VAR 和 VARP 计算样本和总体的方差。具体函数用法如下： AVERAGE(number1,number2,...) 返回参数的平均值（算术平均值）。Number1, number2, ... 为需要计算平均值的 1 到 30 个参数。 SUMPRODUCT(array1,array2,array3, ...) 在给定的几组数组中 Array1, array2, array3, ... 为 2 到 30 个数组，，将数组间对应的元素相乘，并返回乘积之和。例如，计算，可以在单元10 0.5 9 0.2 8 0.1 7 0.1 6 0.05 5 0.05 0 0× + × + × + × + × + × + × 格 B6 输入“=SUMPRODUCT(B1:H1,B2:H2)”回车得到 8.85.如下图 2-1 图 2-1 VAR(number1,number2,...) 计算基于给定样本的方差。Number1,number2,... 为对应于样本的 1 到 30 个参数计算基于给定样本的方差。VAR＝ ∑ = − − n i i XX n 1 2)( 1 1 例如假设有 10 件工具在制造过程中是由同一台机器制造出来的，并取样为随机样本进行抗断强度检验。如图 2-2 如图 2-2 VARP(number1,number2,...) 计算基于样本的另一个方差。Number1, number2, ... 为对应于样本总体的 1 到 30 个参数。VARP＝ ∑ = − n i i XX n 1 2)( 1 例如假设全部 10 件工具在制造过程中是由同一台机器制造出来的，并取样进行抗断强度检验。如图 2-3 图 2-3 例 2.2.1 福建师范大学数计学院 05 级数本专业成绩数据（具体数据附表 2-1）,计算数理统计成绩的平均值、方差和标准差。步骤 1 ：“插入”=>“函数”=> 选择常用函数下选择函数中的 AVERAGE =>在“函数参数”窗口参数选择数据区域 S4:S204（或直接输入=AVERAGEZ(S4:S204)），得 68.37 分步骤 2 ：“插入”=>“函数”=> 选择常用函数下选择函数中的 VARP =>在“函数参数” 窗口参数选择数据区域 S4:S204（或直接输入=VARP(S4:S204)），得 237.43 步骤 3 ：“插入”=>“函数”=> 选择常用函数下选择函数中的 STDEVP =>在“函数参数”窗口参数选择数据区域 S4:S204（或直接输入 =STDEVP(S4:S204)），得 15.41 数理统计的平均成绩 68.37 分，方差为 237.43，标准差为 15.41 2.2.2 协方差与相关系数 � 协方差计算公式为 1 1 ( , ) ( )( ) n i i i Cov X Y x x y y n = = − −∑ COVAR(array1,array2)返回协方差。Array1 第一个所含数据为整数的单元格区域。 Array2 第二个所含数据为整数的单元格区域。 � 相关系数计算公式为 , ( , ) x y x y Cov X Y ρ σ σ = CORREL(array1,array2) 返回相关系数。Array1 第一组数值单元格区域。Array2 第二组数值单元格区域。例 2.2.2（续例 2.2.1）数理统计成绩和概率论成绩它们之间是否有关系呢？计算它们的协方差和相关系数。步骤 1 ：“插入”=>“函数”=> 选择常用函数下选择函数中的 COVAR =>在“函数参数”窗口参数选择数据区域 O4:O204 和 S4:S204（或直接输入=COVAR(O4:O204,S4:S204)），得 122.60 步骤 2 ：“插入”=>“函数”=> 选择常用函数下选择函数中的 CORREL =>在“函数参数 ” 窗口参数选择数据区域 O4:O204 和 S4:S204 （或直接输入 =CORREL(O4:O204,S4:S204)），得 0.64 数理统计成绩和概率论成绩它们的协方差为 122.60，相关系数为 0.64，表明数理统计成绩和概率论成绩还是有一定的相关性。 3. 点估计矩法估计和极大似然估计都是点估计。设是取自正态母体的一个子1, , nε εL 2( , )N µ σ 样，和未知，。则均值的矩估计和极大似然估计都是µ 2σ 2{ , 0}µ σΘ = −∞ < < ∞ > µ ，方差的矩估计和极大似然估计都是 1 1 n i i n ε ε = = ∑ 2σ 2 2 1 1 ( ) n n i i S n ε ε = = −∑ 3.1 甲、乙两班各有 10 名同学参加一场智力测验，其成绩如下表 3-1 所示。[2] 表 3-1 智力测验成绩表假设各班成绩服从正态分布，试用矩估计和极大似然的方法估计正态分布的均值和方差µ 。2σ 解: 由于和是正态分布的均值和方差，因此样本均值和样本方差既是它们的矩估µ 2σ 计，又是它们的极大似然估计。求样本均值，在Excel 单元格中输入“=AVERAGE(B2:K2)”，回车得到样本均值为 86.30 在另一个单元格中输入“=AVERAGE(B3:K3)”，回车得到样本均值为 91.40 求样本方差，在 Excel 单元格中输入“=VAR(B2:K2)”，回车得到样本方差为 123.12，在另一个单元格中输入“=VAR(B3:K3)”，回车得到样本方差为 13.60. 估计甲班平均成绩 86.30，乙班平均成绩 91.40，甲班成绩方差 123.12，乙班成绩方差 13.60.明显乙班的智力比甲班的强，且智力波动范围比甲班小。 4.假设检验 [3] 假设检验时涉及到 Excel 中相关的函数如下： ZTEST(array,x,sigma) 返回 z 检验的单尾概率值。对于给定的假设总体平均值 μ0， ZTEST 返回样本平均值大于数据集（数组）中观察平均值的概率，即观察样本平均值。array 为数据区域，x 为被检验的值，sigma 为样本总体的标准偏差，如果省略，则使用样本标准甲班 98 89 87 78 95 76 93 92 93 62 乙班 91 87 94 96 91 93 97 88 91 86 偏差。不省略 sigma 时，函数 ZTEST 的计算公式如下： 0 0(array, ,sigma)=1-NORMSDIST / x ZTEST n µ µ σ −⎛ ⎞ ⎜ ⎟ ⎝ ⎠ 省略 sigma 时，函数 ZTEST 的计算公式如下： 0 0(array, )=1-NORMSDIST / x ZTEST s n µ µ −⎛ ⎞ ⎜ ⎟ ⎝ ⎠ TDIST(x,degrees_freedom,tails) 返回学生 t 分布的百分点（概率）。 X 为需要计算分布的数字,不允许。Degrees_freedom 为表示自由度的整数。Tails 指明返回的分布函数是x<0 单尾分布还是双尾分布。如果 tails = 1，函数 TDIST 返回单尾分布，即 P(X>x);如果 tails = 2，函数 TDIST 返回双尾分布,即。P( X >x) 若 x < 0，应该注意 TDIST(-x,df,1) = 1 – TDIST(x,df,1) = P(X > -x) 和 TDIST(-x,df,2) = TDIST(x df,2) = P(|X| > x)。 TINV(probability,degrees_freedom) 返回作为概率和自由度函数的学生 t 分布的 t 值， P(|X| > t) = probability。Probability 为对应于双尾学生 t 分布的概。Degrees_freedom 为分布的自由度。单尾 t 值可通过用两倍概率替换概率而求得。如果概率为 0.05 而自由度为 10 ，则双尾值由 TINV(0.05,10) 计算得到，它返回 2.28139。而同样概率和自由度的单尾值可由 TINV(2*0.05,10) 计算得到，它返回 1.812462。 CHIDIST(x,degrees_freedom) 返回分布的单尾概率。CHIDTST=P(X>x)。2χ X 为用来计算分布的数值。Degrees_freedom 自由度。 CHIINV(probability,degrees_freedom) 返回分布单尾概率的反函数值。Probability2χ 为分布的单尾概率。Degrees_freedom 自由度。2χ TTEST(array1,array2,tails,type)，用于判断两个样本是否可能来自两个具有相同均值的总体，返回与学生氏- t 检验相关的概率。Array1 为第一个数据集，Array2 为第二个数据集。 Tails 指示分布曲线的尾数。如果 tails = 1，函数 TTEST 使用单尾分布。如果 tails = 2，函数 TTEST 使用双尾分布。Type 为 t 检验的类型：type=1, 成对双样本检验;type=2, 等方差双样本检验;type=3, 异方差双样本检验。 FTEST(array1,array2)，用于判断两个样本的方差是否不同，返回是当数组 1 和数组 2 的方差无明显差异时的单尾概率。array1 为第一个数据集，array2 为第二个数据集。 Excel 不仅提供统计函数，通过单独或组合使用这些函数，可以解决大多数概率统计问题。而且还提供了一组称作“数据分析 ”的统计分析工具包，一共包括 19 个工具，如下表4-1。表 4-1 统计分析工具基础分析检验分析相关与回归方差分析其他分析工具描述统计 Z-检验协方差单因素分析移动平均直方图 F-检验相关系数可重复双因素分析指数平滑排位与百 t-检验：双样本等回归分析无重复双因素分析傅立叶分析 Excel 在下载完整版安装后并不直接提供这些分析工具，在使用前在“工具”菜单上，单击“加载宏”，在“可用加载宏”列表中，选中“分析工具库”,单击“确定”。在打开“工具”菜单，就会发现多出了“数据分析…”项目。单击它，可以打开“分析工具”对话框，如图 4-1 图 4-1 4.1 单个正态总体的假设检验设设是取自正态母体的一个子样，均值检验考虑假设2, , , nε ε εL1 2N µ σ（，），方差检验考虑假设。0 0 1 0: :H Hµ µ µ µ= ≠ 0 0 2 2 2 2 0 1: :H Hσ σ σ σ= ≠ 4.1.1 已知时，均值的检验2σ µ 使用统计量进行假设检验,进行检验时有 3 种方法：0 / U n ε µ σ − = � 运用函数 ZTEST。双侧检验计算双尾概率： 2 * MIN(ZTEST(array,μ0,sigma), 1 - ZTEST(array,μ0,sigma))。单侧检验若原假设 ,备择假设 ,单尾概率：1-0 0:H µ µ≥ 1 0:H µ µ< ZTEST(array,μ0,sigma); 若原假设 ,备择假设 ,单尾概率：0 0:H µ µ≤ 1 0:H µ µ> ZTEST(array,μ0,sigma)。 � 临界值法。计算 z 统计量值和接受域的临界值，双侧检验：若，则/ 2zα / 2z zα< 表其落在接受域内，接受，否则应接受。单侧检验：若原假设 ,0H 1H 0 0:H µ µ≥ 备择假设，拒绝域为；若原假设 ,备择假设1 0:H µ µ< ( ), zα−∞ 0 0:H µ µ≤ ,拒绝域为。1 0:H µ µ> ( ),zα +∞ � P 值法。双侧检验计算概率值 P: 2*MIN(NORMSDIST(z),1- NORMSDIST(z))。单侧检验计算概率值 P: MIN(NORMSDIST(z),1- NORMSDIST(z))。分比位方差假设随机数发生器 t-检验：双样本异方差假设抽样分析 t-检验：平均值的成对二样本分析例 4.1.1 已知全国高校男生百米跑成绩均数，标准差，为了比较某高校0 14.5µ = 0 0.72σ = 与全国高校的百米跑水平，现从该校随机抽测男生 13 人的百米跑成绩，数据如表 4-2：表 4-2 男生 13 人的百米跑成绩如果标准差不变，问该校的百米跑均值与全国高校有无显著差异？分析：百米跑成绩服从正态分布，依题可知原假设 ,备择0( , )N µ σ 0 0: 14.5H µ µ= = 假设 ,取显著性水平1 0: 14.5H µ µ≠ = 0.05α = 用 Excel 求解方法一运用统计函数 ztest，如图 4-2 图 4-2 从图 4-2 可以看出双侧检验的概率仅为 0.045168<0.05，说明拒绝原假设，即该校的百米跑成绩均数与全国高校有显著差异。方法二临界值法和 P 值法。如图 4-3 图 4-3 15.2 14.8 14.4 14.2 13.9 13.6 13.7 13.5 13.3 13.8 14.2 14.1 14.6 从图 4-3 可以看出 Z 统计量或 P 值为 0.045<0.05,因此2.00 ( , 1.96] [1.96, )− ∈ −∞ − ∪ ∞ 拒绝原假设，即该校的百米跑成绩均数与全国高校有显著差异。例 4.1.2 （续例 4.1.1）问该校的百米跑均值是否比全国高校的百米跑均值显著小？分析：原假设 ,备择假设0 0: 14.5H µ µ≥ = 1 0: 14.5H µ µ< = 用 Excel 求解方法一运用统计函数 ztest 在 Excel 单元格输入“=1-ZTEST(A2:A14,14.5,0.72)”,回车可得概率为 0.022584<0.05，说明拒绝原假设，即该校的百米跑成绩均数与全国高校有显著差异。方法二临界值法和 P 值法。如图 4-4 图 4-4 从上图可以看出 Z 统计量或 P 值为 0.023<0.025,于是拒绝原假设，2.00 ( , 1.64]− ∈ −∞ − 即该校的百米跑均值比全国高校的百米跑均值显著小 4.1.2 未知时，均值的检验2σ µ 使用统计量进行假设检验0 / T s n ε µ− = � 临界值法。计算 t 统计量值和接受域的临界值，双侧检验：若，则1 / 2t α− 1 / 2t t α−< 表其落在接受域内，接受，否则应接受。单侧检验：若原假设 ,0H 1H 0 0:H µ µ≥ 备择假设，拒绝域为；若原假设 ,备择假设1 0:H µ µ< ( )1, t α−−∞ − 0 0:H µ µ≤ ,拒绝域为。1 0:H µ µ> ( )1 ,t α− +∞ � P 值法。计算 t 统计量值，双侧检验计算概率值 P: TDIST(t,自由度，2)。单侧检验计算概率值 P: TDIST(t,自由度，1). 例 4.1.3 （续例 4.1.1）若全国高校男生百米跑成绩标准差未知，问该校的百米跑均值与全国高校有无显著差异？分析：百米跑成绩服从正态分布，依题可知原假设 ,备择0( , )N µ σ 0 0: 14.5H µ µ= = 假设 ,取显著性水平1 0: 14.5H µ µ≠ = 0.05α = 用 Excel 求解如图 4-5 图 4-5 从图 4-5可以看出T 统计量或 P值为 0.02<0.05,因此拒2.63 ( , 2.18] [2.18, )− ∈ −∞ − ∪ ∞ 绝原假设，即该校的百米跑成绩均数与全国高校有显著差异。例 4.1.4（续例 4.1.3）问该校的百米跑均值是否比全国高校的百米跑均值显著小？分析：原假设 ,备择假设0 0: 14.5H µ µ≥ = 1 0: 14.5H µ µ< = 用 Excel 求解如图 4-6 图 4-6 从图 4-6 可以看出 T 统计量或 P 值为 0.01<0.025,拒绝原假设，即2.63 ( , 1.78]− ∈ −∞ − 该校的百米跑均值比全国高校的百米跑均值显著小。 4.1.3 为未知常数时，方差的检验µ 使用统计量进行假设检验 2 *2 2 1 2 2 0 0 ( ) ( 1) n i n i n S ε ε χ σ σ = − − = = ∑ � 临界值法。计算统计量值和接受域的临界值，双侧检验：若2χ 2 21 / 2 / 2α αχ χ− 和，则表其落在接受域内，接受，否则应接受。单侧( )2 2 2/ 2 1 / 2 α αχ χ χ −∈ ， 0H 1H 检验：若原假设 ,备择假设，拒绝域为；若 0 2 2 0 : H σ σ≥ 0 2 2 1 :H σ σ< ( )2 / 20, αχ 原假设 ,备择假设 ,拒绝域为。 0 2 2 0 : H σ σ≤ 0 2 2 1 :H σ σ> ( )21 / 2 ,αχ − +∞ � P 值法。计算统计量值，双侧检验计算概率值 P: 2*MIN(CHIDIST( ),1-2χ 2χ CHIDIST( ))。单侧检验计算概率值 P: MIN(CHIDIST( ),1- CHIDIST( ))。2χ 2χ 2χ 例 4.1.5 若全国高校男生百米跑成绩均数未知，标准差，问该校的百米跑成绩0µ 0 2 0.72σ = 与全国高校成绩稳定性有无显著差异？分析：百米跑成绩服从正态分布，依题可知原假设 ,备择0( , )N µ σ 0 2 2 0 : 0.72H σ σ= = 假设 ,取显著性水平。 0 2 2 1 :H σ σ≠ 0.05α = 用 Excel 求解如图 4-7 图 4-7 从图 4-7 可以看出统计量或 P 值为 0.28>0.05,接受原假2x 6.94 (0, 4.40] [23.34, )∉ ∪ ∞ 设，即可以认为该校的百米跑比全国高校的百米跑稳定性一样。 4.2 两个正态总体的假设检验设设是取自正态母体的字样，是取自正态母体2, , , nε ε εL1 2 1 1N µ σ（，） 2, , , mη η ηL1 的字样，并且这两个字样相互独立。检验两个正态总体均值的考虑假设22 2N µ σ（，），检验两个正态总体方差的考虑假设0 1 2 1 1 2: :H Hµ µ µ µ= ≠ 2 2 2 2 0 1 2 1 1 2: :H Hσ σ σ σ= ≠ 4.2.1 ，已知时，均值的检验21σ 2 2σ µ 使用统计量进行假设检验1 2 2 2 1 2 ( ) U n m ε η µ µ σ σ − − − = + 例 4.2.1 下面给出的是两个大文学家马克.吐温的 8篇小品文及斯诺特格拉斯的 10 篇小品文中由 3个字母组成的词的比例。设两组数据分别来自正态总体，并且第一组数据的方差为 0.001856，第二组数据的方差21σ 为 0.000084.试检验两位作家写的小品文稿中包含由3 个字母组成的词的比例是否有显22σ 著的差异？分析：依题可知原假设 ,备择假设 ,取显著性水平0 1 2:H µ µ= 1 1 2:H µ µ≠ 0.05α = 用 Excel 求解：“工具” =>“数据分析” =>在“数据分析”框中选“Z-检验：双样本均值差检验”=>单击“确定” =>在“Z-检验：双样本均值差检验”框中输入如下图 4-8 图 4-8 单击“确定”，得到下图 4-9。马克吐温 0.225 0.262 0.217 0.240 0.230 0.229 0.235 0.217 斯诺特格拉斯 0.209 0.205 0.196 0.210 0.202 0.207 0.224 0.223 0.220 0.201 图 4-9 从图 4-9可以看出 z 值为 3.944755>1.959964 或 P(Z<=z) 双尾为 0.000080<0.05,所以要拒绝原假设，即两位作家写的小品文稿中包含由 3 个字母组成的词的比例有显著的差异。 “P(Z<=z) 单尾”表示与z统计量值沿着相同的方向远离0的z值的概率。“z单尾临界” P(Z>z 临界值 )= 。从图中可看出 P(Z<=z) 单尾为 0.000040<0.05， z 单尾临界为 1.644854,α 。即马克吐温写的小品文稿中包含由 3 个字母组成的词的比例( )3.944755 1.644854, +∈ ∞ 比斯诺特格拉斯的大。 4.2.2．，未知时，均值的检验21σ 2 2σ µ 假定，使用统计量其中2 21 2σ σ= 1 1 w T S n m ε η− = + 进行假设检验 * 2 * 2 1 1( 1) ( 1) 2 n m w w n S m S S S n m − + − = + − 例 4.2.2(续例 4.2.1) 若方差和未知。试检验两位作家写的小品文稿中包含由 3 个21σ 2 2σ 字母组成的词的比例是否有显著的差异？分析：假定，依题可知原假设 ,备择假设 ,取显著性水2 21 2σ σ= 0 1 2:H µ µ= 1 1 2:H µ µ≠ 平 0.05α = 用 Excel 求解：方法一：运用统计函数 TTEST 步骤：“插入”=>“函数”=>“函数参数”对话框中输入如下图 4-10 图 4-10 单击“确定”，得到如下图 4-11 图 4-11 从上图可以看出 TTEST=0.001334<0.05，说明拒绝原假设，即两位作家写的小品文稿中包含由 3 个字母组成的词的比例有显著的差异。方法二运用统计分析工具中的“t-检验：双样本等方差假设” “工具” =>“数据分析” =>在“数据分析”框中选“t-检验：双样本等方差假设”=> 单击“确定” =>在“t-检验：双样本等方差假设”框中输入如下图 4-12 图 4-12 单击“确定”，得到下图 4-13。图 4-13 从上图可以看出 t 值为 3.878138>2.119905（双尾临界）或 P(T<=t) 双尾为 0.001334<0.05, 所以要拒绝原假设，即两位作家写的小品文稿中包含由 3 个字母组成的词的比例有显著的差异。如果 t < 0 ，“P(T<=t) 单尾” 返回 t-统计的观察值比 t 更趋向负值的概率。如果 t >=0，则“P(T <= t) 单尾”返回 t-统计的观察值比 t 更趋向正值的概率。“t 单尾临界值”返回截止值，这样，t-统计的观察值将大于或等于“t 单尾临界值”的概率就为 Alpha。从图中可看出 “P(T<=t) 单尾 ”为 0.000667<0.05 ， t 单尾临界为 1.745884, t 统计量值为。即马克吐温写的小品文稿中包含由 3 个字母组成的词的比例( )3.878138 1.745884, +∈ ∞ 比斯诺特格拉斯的大。 4.2.3 ，未知时，方差的检验1µ 2µ 使用统计量进行假设检验 * 2 1 * 2 2 n m S F S = 例 4.2.3（续例 4.2.1）若方差和未知。试检验两位作家写的小品文稿中包含由 3 个21σ 2 2σ 字母组成的词的比例的方差是否有显著的差异？分析：依题可知原假设 ,备择假设 ,取显著性水平2 20 1 2:H σ σ= 2 2 1 1 2:H σ σ≠ 0.05α = 用 Excel 求解，运用统计函数 FTEST 步骤：“插入”=>“函数”=>在“插入函数”对话框中选 FTEST=> 单击“确定” => 在“函数参数”对话框中输入如下图 4-14 图 4-14 单击“确定”，得到下图 4-15。图 4-15 从上图可以看出 FTEST=0.250073>0.05，说明接受原假设，即两位作家写的小品文稿中包含由 3 个字母组成的词的比例有显著的差异。例 4.2.4（续例 4.2.1）若方差和未知。试检验马克吐温写的小品文稿中包含由 3 个21σ 2 2σ 字母组成的词的比例的方差是否明显比斯诺特格拉写的小品文稿中包含由 3 个字母组成的词的比例的方差大？分析：依题可知原假设 ,备择假设 ,取显著性水平2 20 1 2:H σ σ≤ 2 2 1 1 2:H σ σ> 0.05α = 用 Excel 求解，运用统计分析工具中的“F-检验：双样本方差” 步骤：“工具” =>“数据分析” =>在“数据分析”框中选“F-检验：双样本方差”=> 单击“确定” =>在“F-检验：双样本方差”框中输入如下图 4-16 图 4-16 单击“确定”，得到下图 4-17。图 4-17 如果 F < 1，则当总体方差相等且根据所选择的显著水平“F 单尾临界值”返回小于 1 的临界值时，“P(F <= f) 单尾”返回 F-统计的观察值小于 F 的概率 Alpha。如果 F > 1，则当总体方差相等且根据所选择的显著水平，“F 单尾临界值”返回大于 1 的临界值时，“P(F <= f) 单尾”返回 F-统计的观察值大于 F 的概率 Alpha。从上图可以看出“P(F<=f) 单尾” 0.125037>0.05，f 单尾临界为 3.292746, f 统计量值为。即马克吐温写的小品文稿中包含由 3 个字母组成的词的( )2.272497 3.292746, +∉ ∞ 比例比斯诺特格拉斯的大. 5.区间估计设母体具有概率函数 ,为未知参数。为取自这个母体的一个字样。( );f x θ 1, , nε εL ε 若对于事先给定的 , ，存在两个统计量和使得α ( )1, , nθ ε εL ( )1, , nθ ε εL ,则称区间为参数的置信度为的( ) ( )1 1{ , , , , } 1n nP θ ε ε θ θ ε ε α< < = −L L ( , )θ θ θ 1 α− 置信区间，和分别称为置信度的置信下限和置信上限。 θ θ 1 α− 5.1 已知，单正态总体期望的区间估计2σ 1 2 1 n u α σ µ α ε − ⎛ ⎞ − ±⎜ ⎟ ⎝ ⎠ 的置信度为的置信区间 Excel 提供函数 CONFIDENCE 单正态总体期望的置信区间 CONFIDENCE(alpha,standard_dev,size) ，该值构建总体平均值的置信区间 x ± CONFIDENCE。Alpha 是用于计算置信度的显著水平参数。置信度等于 100*(1 - alpha)%，亦即，如果 alpha 为 0.05，则置信度为 95%。Standard_dev 数据区域的总体标准偏差，假设为已知。Size 样本容量。 5.1.1 某校为迎接评估，要检查学生的英语口语水平，从全校学生中随机抽取 80 个学生进行测试，得到的成绩（具体附表 5-1），假设成绩服从正态分布，且标准差为 ,现要以10σ = 95%的置信度估计全校学生英语口语的平均水平？步骤：“插入”=>“函数”=> 选择常用函数下选择函数中的 CONFIDENCE =>在“函数参数”窗口中，alpha 内输入 0.95，Standard_dev 内输入 10，Size 内输入 80，（或直接输入= CONFIDENCE (40,51,0.5)），得 2.19 5.2 未知，单正态总体期望的区间估计2σ 1 2 1 n S t α µ α ε − ⎛ ⎞ − ±⎜ ⎟ ⎝ ⎠ 的置信度为的置信区间 5.2.1 某校为迎接评估，要检查学生的英语口语水平，从全校学生中随机抽取 80 个学生进行测试(数据见附表 5-1)，得到的成绩如下图 5-1，现要以 95%的置信度估计全校学生英语口语的平均水平？图 5-1 如图 5-1 所示，置信度为 95%的全校学生英语口语平均成绩的置信区间为（76.35，81.08）注意：由于 TINV 函数返回的是双尾分布，因此其中的概率值用双倍的 0.025 5.3 未知，单正态总体方差的区间估计µ *2 *2 2 2 2 1 / 2 / 2 ( 1) ( 1) 1 , . ( 1) ( 1) n n n S n S n n α α σ α χ χ− ⎛ ⎞− − − ⎜ ⎟ − −⎝ ⎠ 的置信度为的置信区间 5.3.1（续 4.1.2）问在 95%置信度下全校学生英语口语成绩方差的置信区间？ 90%µ即的置信度为的置信区间为 (76.52, 80.90). 图 5-2 如图 5-2 所示，置信度为 95%的全校学生英语口语平成绩方差的置信区间为（84.42，158.13） 5.4 ，已知，二正态总体均值差的区间估计21σ 2 2σ 2 2 1 2 1 1 22 1 .u n n α σ σ µ µ α ξ η − ⎛ ⎞ − − ± +⎜ ⎟ ⎜ ⎟ ⎝ ⎠ 1 2- 的置信度为的置信区间 5.4.1 对厦门市海沧区的三叉路口小轿车和摩托车进行调查，每十分钟经过的小轿车和摩托车的数量如表 5-2，要求计算在 95%置信度下的小轿车和摩托车数量均值差的置信区间？图 5-3 如图 5-3 所示，置信度为 95%的小轿车和摩托车数量均值差的置信区间为（-8.54，11.69） 5.5 ，未知，二正态总体方差比的区间估计1µ 2µ 2 *2 *2 1 1 1 2 *2 *2 2 2 1 / 2 1 2 2 / 2 1 2 1 1 1 , ( 1, 1) ( 1, 1) S S S F n n S F n n α α σ α σ − ⎛ ⎞ − ⎜ ⎟ − − − −⎝ ⎠ 的一个置信度为的置信区间 5.5.1 某学校要更新明年校车服务合同，准备在 A、B 两公交公司中选择一个。公交公司的服务质量以到达时间的方差来衡量。较低的方差说明服务质量较高。今分别抽取 A、B 公司服务的 13 个和 11 个到达时间组成两个独立样本，如表 5-3。试问置信度为 95%的 A 公司的服务质量与 B 乙公司服务质量比的区间估计？（ α = 0.05 ）图 5-4 如图 5-4 所示，置信度为 95%的 A 公司的服务质量与 B 乙公司服务质量比的置信区间为（0.23，1.50）。 6.一元线性回归由一个或一组非随机变量来估计或预测某一个随机变量的观测值时，所建立的数学模型及所进行的统计分析，称为回归分析。回归分析是研究随机变量与非随机变量之间的数量关系的一种数学方法。如果所建立的模型是线性的就称为线性回归分析。线性回归分析中最简单的是一元线性回归。直线的公式为。1 0y b x b= + 由最小二乘法可得： /)( /)( )( ))(( 22 21 ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − = − −− = nxx nyxyx xx yyxx b ii iiii i ii xbyb 10 −= 对于描述现象间的相关程度与变动关系，Excel 提供提供图表进行回归分析，它具有直观方便，利于理解的优点。Excel 还提供回归分析工作表函数，主要有以下几个：（1）INTERCEPT(known_y's,known_x's) 利用现有的 x 值与 y 值计算直线与 y 轴的截距。 Known_y's 为因变的观察值或数据集合。 Known_x's 为自变的观察值或数据集合。（2）SLOPE(known_y's,known_x's) 返回根据 known_y's 和 known_x's 中的数据点拟合的线性回归直线的斜率。 Known_y's 为数字型因变量数据点数组或单元格区域。 Known_x's 为自变量数据点集合。（3）RSQ(known_y's,known_x's) 返回根据 known_y's 和 known_x's 中数据点计算得出的 Pearson 乘积矩相关系数的平方。 Known_y's 为数组或数据点区域。Known_x's 为数组或数据点区域。（4）STEYX(known_y's,known_x's) 返回通过线性回归法计算每个 x 的 y 预测值时所产生的标准误差。Known_y's 为因变量数据点数组或区域。 Known_x's 为自变量数据点数组或区域。 6.1 一家大型商业银行在多个地区设有分行，为弄清楚不良贷款形成的原因，抽取了该银行所属的 25 家分行 2002 年的有关业务数据(具体数据附表 6-1). 试建立不良贷款(y)与累计应收贷款 (x)、的线性回归方程并求出相关系数的平方。解：用 Excel 提供的工作表函数进行相关计算如下图 6-1：图 6-1 根据计算结果可以得出直线方程：。每个观察值与的平均离差为ˆ 0.42 0.32y x= − y ˆy 2.51； R 平方值为 0.54. 也可用用 Excel 图表进行回归分析步骤： “插入 ” => “ 图表” => 在“图表向导”对话框选择图表类型“XY 散点图”，点击“下一步” => 在图表向导步骤 2“数据区域”中输入“=Sheet3！$A$2:$B$26”, 选择”系列产生在为“列”,单击“下一步” => 在图表向导步骤 3 中，数值（X）轴输入 “累计应收贷款”，数值（Y）轴输入“不良贷款”，单击“下一步” => 单击“完成” => 在散点图中，把鼠标放在任一数据点上，游记，选择“添加趋势线” => 在“添加趋势线”对话框中打开“类型”，选择“线性”选项，在“选项”页面中选择“显示公式”和“显示 R 平方”选项，单击“确定”。得到如下图由图中保留 2 位小数后所得的回归方程，R 平方值为 0.54，和上述用工作ˆ 0.42 0.32y x= − 表函数计算出来的一样。附表 5-1 成绩 46 79 94 76 88 57 81 96 76 88 62 81 99 77 88 63 82 53 77 90 64 83 62 77 91 66 84 63 79 94 67 84 64 79 96 69 84 66 82 98 72 85 66 83 73 85 67 83 73 86 68 83 74 87 68 84 76 88 71 84 77 88 72 84 78 89 73 85 78 89 74 86 78 90 75 87 79 92 75 87 附表 6-1 累计应收货款不良货款 6.8 12.7 0.9 3.5 19.8 15.6 1.1 10.2 7.7 8.9 4.8 3 7.2 0.6 3.2 0.2 16.5 5.9 7.8 0.4 2.2 5 2.7 1 10.7 7.2 1.6 6.8 27.1 16.8 12.5 11.6 1.7 3.8 1 1.6 9.1 10.3 2.6 1.2 2.1 15.8 0.3 7.2 11.2 12 4 3.2 6 0.8 附表2-1 概率论 [4] 数理统计 [3] 47 83 63 69 74 63.5 62.5 64.5 53 50.5 83.5 62 0 76.5 75 61 31.5 81.5 88 97 15.5 81.5 88.5 96.5 0 63.5 72.5 60.5 21 67 71 60.5 54.5 66 91.5 52 62 36.5 75.5 47.5 51.5 65.5 67 60.5 60 49.5 67 65 75 66.5 69 60.5 63 64 78.5 45.5 74.5 61.5 65 66 60 61 64 70 64.5 76 51.5 76 65.5 47.5 37 85.5 57 55.5 72 60.5 47 69.5 74.5 60.5 60 60.5 71 57 50 51 72 57 74 79.5 60 63 69 93.5 69.5 66.5 74 78.5 71 76 76.5 75 68.5 63 91 56.5 70.5 60.5 90.5 31.5 63.5 72 32.5 83.5 49 60.5 44.5 86 62 66.5 85.5 79.5 56 60 62.5 65.5 17.5 63 74.5 74 88.5 50 75 47 85.5 25.5 68 63.5 69.5 55.5 75.5 77 77 65 64 73 76.5 48 65 67.5 91 35 63.5 58 47.5 77.5 61 70 62.5 84.5 68.5 74.5 71 80 60.5 64 67 88 70.5 82 38.5 89.5 75 64 28 80 81.5 75.5 66 50.5 76 77 67.5 60 67.5 68 43.5 79.5 70 65 74 83.5 67.5 83 50.5 64 79.5 66.5 80 79 74.5 77 76.5 74 73.5 89.5 77.5 84.5 89.5 72 70.5 80 88.5 74.5 68 60 81 68.5 64.5 44 85 78.5 77 73 87 71.5 69 94.5 94.5 76 57.5 65.5 67.5 60.5 82.5 63 73.5 80.5 67 73 64.5 69 44.5 73.5 79 75 84.5 63.5 86 88.5 68 47 93 79.5 61 77.5 60.5 91 61.5 90.5 64 85 68.5 69 60.5 60.5 50 69 66.5 64.5 73 84 71.5 73 49.5 68 82 74 66 68 70.5 73.5 50 68.5 72.5 72.5 61 84.5 61.5 60 73 90.5 82.5 75.5 66.5 70 76 78.5 39 74 86 87.5 66.5 81.5 71 63 67.5 71 83.5 69 76.5 71.5 67.5 61 75.5 78.5 79 67.5 71.5 50.5 62 62 72 35.5 60 66.5 85.5 80 63.5 77 74 70 52 79 79 58.5 67 48.5 75.5 62.5 67.5 55 68 62 56 68 68 71 55.5 77.5 80.5 71 79.5 72.5 86.5 7

                    本文档为【Excel在数理统计中的应用】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Excel在数理统计中的应用

你可能还喜欢