统计学5 随机试验与随机变量
统计学
天津财经大学统计系
第五章 随机试验与随机变量
第一节 随机试验
第二节 随机变量及其分布
第三节 随机变量与样本
第一节 随机试验
一、随机试验与随机事件
二、概率
一、随机试验与随机事件
(一)随机现象
1(概念:在给定的条件下不能确切预见其结果的现象叫作随机现象。 2(随机现象的产生:因大量的偶然因素存在且无法控制,使现象的结果不能确定和不能完全预见的。于是,现象的随机性便产生了。
3(随机现象有一定规律性的。在给定条件下在规律值附近的数值发生的可能性较大,离规律值越近则发生的可能性越大,离规律值越远则发生的可能性越小。统计学就是要通过对随机现象的有限次的观察结果去探寻它的各种统计规
律。
(二)随机试验
1(概念:对随机现象的观测称作随机试验。
2(种类:随机试验有可重复随机试验和不可重复随机试验两种。前者是指可以在相同条件下重复进行的随机试验;后者是指不能在相同条件下重复进行的随机试验。
要注意,随机现象或随机试验的概念都是同给定的一组条件联系在一起的。给定的一组条件发生了改变,就变成了另外的随机现象和另外的随机试验。
1.事件的种类
一个事件如果不能再被分解为两个或两个以上事件,称作基本事件。基本事件是试验的最基本结果:每次试验必出现一个基本事件,任何两个基本事件都不会同时出现。
由两个或两个以上基本事件所组成的事件称作复合事件。
一项随机试验的所有基本事件的集合,称作该随机试验的基本事件空间。必然事件是每次试验都一定出现的事件,记作Ω。任何一次试验都不可能出现的事件称为不可能事件,记作??。
(三)事件
2.事件的关系和运算
事件的关系有:包含和相等;事件的运算有:和(并),差,交(积),逆。
(1)包含:关系式 表示“若A出现,则B也出现(反之则未必)”,称作“B包含A”,或“A导致B”。
(2)相等:关系式A=B表示二事件A和B要么都出现,要么都不出现,称作“事件A等于事件B”或“事件A和B等价”。
(3)和(并):运算式A+B或A?B读作“A加B”,称作“A与B的和(并)”,表示“A和B至少出现一个”。对于多个事件 ,
或 表示“诸事件中至少出现一个”。
(4)差:运算式 A,B或A\B读作“A减B”,称作“A与B的差”,表示“事件A出现但B不出现。”
(5)交(积):运算式AB或A?B,称作“A与B的交(或积)”,表示“事件A和B同时出现”。对于多个事件
表示“诸事件 同时出现”。
(6)逆事件: ={A不出现},称作A的对立事件或逆事件。显然A和
互为对立事件,它们之间有下列关系:,A? =??。
7)不相容:若AB=??,即A与B不可能同时出现,则称A和B不相容。 (
二、概率
对于一个随机事件来说,它在一次试验中可能发生,也可能不发生。既然有可能性,就有可能性大小问题。事件A在随机试验中出现可能性大小的数值度量,称作概率。事件A的概率以P(A)表示。
(一)随机事件的频率与概率的关系
在相同条件下,重复进行同一随机试验,A是这个试验的一个结果(事件)。设试验的次数为n,在n次重复试验中A出现的次数为nA,则事件A的频率为
通过大量观测,可以发现:随机试验的频率具有随试验次数增加而趋向稳定的性质,而频率的稳定值可以用来反映事件发生的可能性大小。因此,可以说频率的稳定值p是事件A发生的概率。即P(A)=p
(二)概率的性质
设事件A的概率记作P(A),则它应该具有如下性质:
性质1:非负性,即0?P(A)?1
性质2:规范性,即,对于必然事件Ω,有
P(Ω)=1
性质3:对于随机事件Ai(i=1,2,„),只要它
们两两互不相容,则有
(三)概率的估计和计算
1.概率的直接计算
(1)古典型概率
如果一项随机试验的全部基本事件总数有限,并且各基本事件出现的可能性都相同,事件A由若干基本事件所组成,则A的概率可用下式计算
【例5-1】 袋中盛有除颜色外其他完全相同的50个不同颜色的小球,其中有10个白球。充分混匀后随意摸出一球。求所摸为白球的概率。
解:记A = {抽到白球}。该试验总共有50个等可能的基本事件,A包含其中的10个。因此
(2)几何型概率
如果随机试验可模拟区域上随机投点。并且(1)这个区域有明确界限,可以作长度、面积、体积的几何度量。(2)随机点落在这个区域任何一点上的可能性都相同,也就是说,对于中的某一区域g,随机点落在g内的概率与g的几何度量成正比,同它的形状以及在中的位置无关。
对于这种随机试验,如果以A表示{随机点落在区域g中}这一事件,则其概率可用下式计算
【例5-2】 某农场有耕地500亩,其中1号地块面积为8亩。向500亩耕地随机投点,随机点落在500亩耕地每一位置的可能性相等。求1号地块被抽中的概率。
解:随机点落在1号地块内的概率与地块的面积成正比。1号地块的几何度量为8亩,整个区域几何度量为500亩。记A={随机点落在1号地块}={1号地块被抽中},则
2.用频率估计概率
在最一般情况下,用事件在大量重复试验中出现的频率估计其概率的值。这样做的依据是概率的稳定性。就这一点前面已经有所叙述。
3.主观概率
根据决策者综合各种信息,并依靠其经验和判断力对事件的概率做出估计,这种概率的估计值被称为主观概率。主观概率不假定现象的可重复性,甚至可以根据一次性试验做出判断。例如,请资深体育评论员对即将参赛的两支足球队的胜、负可能性进行估计。在对事件出现的真实可能性缺乏有效估计时,主观概率法也可作为解决问题的一种方法。不过,目前对主观概率法的应用理论界尚存在争议。
4.概率的计算
(1)概率的加法法则
任意事件的加法规则
任意两个事件和(并)的概率,等于两事件概率的和再减去两事件同时发生的概率。即
不相容事件的加法规则
两个不相容事件与的和(并)的概率,等于两事件概率的和。即
对多个事件,这个规则也就是前面说过的概率的性质3。
(2)条件概率和乘法公式
在实际问题中,除了要知道事件发生概率外,有时还需要知道在“事件B已发生”的条件下,事件A发生的概率,这种概率称为条件概率,记作 。
条件概率的下列一般定义:设,A,B是任意两个事件,且P(B),0,则称
为“在事件B发生的条件下,事件A发生的条件概率”,简称“A关于B的条件概率”。
由这个定义,可得到概率的乘法公式:设A与是B任意两个事件,且P(A),0,P(B),0,则
【例5-4】 设一批产品共N件,其中有M件次品,不放回地抽取两件,求事件{第一件抽到的是正品,而第二件抽到的是次品}的概率。
解:记A={第一件是正品},B={第二件是次品},所求事件为AB。根据乘法公式,有
(3)全概率公式
全概率公式可表述如下:
设 为个互不相容事件,且
,则任一事件的概
率为
(4)贝叶斯公式
(5)事件的独立性
对于两个事件A和B,假若事件B的发生会对事件A发生的概率产生影响,即 ,称事件A与B之间统计相依。假若事件B的发生并不影响事件A发生的概率,称事件A与B之间统计独立。在A与B独立时显然有 ,这时,乘法公式式(5.9)成为
通常把这个关系式作为事件独立性的定义。即
设A与B是任意两个事件,如果满足
则称事件A与B独立,否则称A与B相依。
在实际应用中,如果两个事件相互间没有影响,则可以认为这两个事件相互独立。
应该指出,两个事件相互独立与互不相容是两个不同的概念。独立性是指两个事件的发生互不影响,互不相容是指两个事件不能同时发生。两个不相容事件一定是统计相依的,两个独立事件一定是相容的(除非其中有一个事件的概率为0)。
【例5-8】 对同一目标进行3次射击,第一、二、三次射击的命中概率分
别是0.3、0.4、0.6,试求在这三次射击中恰有一次命中的概率。
解:记 ,
(i=1,2,3),于是可以写出:
显然,这三个事件是两两不相容的。而
是这三个事件的和。根据不相容事件的加法法则,有
由于三次射击是彼此独立的,即相互独立,故有
第二节 随机变量及其分布
一、随机变量的概念
二、随机变量的概率分布
三、随机变量的数字特征
一、随机变量的概念
(一)什么是随机变量
随机变量就是在随机试验中被测量的量。 在给定的条件下,这种变量取何值事先不能确定,只能由随机试验的结果来定,并且随试验的结果而变。
(二)随机变量的种类
如果随机变量的全体可能取值能够一一列举出来,这样的随机变量称作离散型随机变量(如掷一枚硬币首次出现正面向上所需要的投掷次数);
如果随机变量的全体可能取值不能一一列举,其可能的取值在
数轴上是连续的,则该变量称为连续型随机变量(如可能出现的测量误差)。 二、随机变量的概率分布
(一)概率分布的概念
随机变量的一切可能值的集合(值域),及其相应的概率叫做随
机变量的概率分布。随机变量的统计性质可由它的概率分布来表征。
1.离散型随机变量的分布
【例5-9】 历史上曾有不少人作过反复投掷均匀硬币的试验。现在定义这
样一个随机变量:
表5-1 投掷硬币试验结果的频率分布
1.0000
24000
1.0000
12000
1.0000
4040
合 计
0.5005
0.4995
12012
11998
0.5016
0.4984 6019
5981
0.5069 0.4931 2048
1992
1(正面)
0(反面)
频率
频数
频率
频数
频率
频数
试验者:皮尔逊 试验者:皮尔逊 试验者:蒲 丰 试验
结果
X
综上所述,离散型随机变量X的每一个可能的取值xi和随机
变量取该值的概率p(xi)之间所确立的对应关系称作这个离散型随机变量的分布。P(xi)(i=1,2,3,„)称作随机变量X的概率分布或概率函数,它满足下面的关系:p(xi)?0和 。
【例5-10】 袋中共有50个球,其中记上0号的5个,记上k号的分别有k个( k = 1,2,„,9)。现从袋中任取一球。试做出所得号数的分布列。
解:记所取之球的号数为随机变量X,由古典概率的计算方法可知:P(x=0)=5 / 50,P(x = k) = k / 50 ( k = 1,2,„,9)。于是,可做出分布列(见表4-3)。
表4-3 离散型随机变量分布数列
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.10
P(xi)
9
8
7
6
5
4
3
2
1
0
X = xi
2. 连续型随机变量的分布
【例5-11】检查了在相同条件下生产的246件汽车活塞,测得所切削之
活塞孔对中心线的偏差数据。因偏差尺寸属于连续型变量,对这类变量观测数据
的整理应当采用组距式分组。把整理结果做成频率分布表(见表5-4)和次数分
布直方图(见图5-1)。
表5-4 汽车活塞削孔对中心线偏差的频率分布 ——
1.0000
246
合 计
0.00081
0.00732 0.01423 0.02195 0.02032 0.01789 0.01097 0.00488 0.00163 0.0081 0.0732 0.1423 0.2195 0.2032 0.1789 0.1097 0.0488 0.0163
2
18
35
54
50
44
27
12
4
,45,,35
,35,,25
,25,,15
,15,,5
,5,5
5,15
15,25
25,35
35,45
频率密度
频率
频数(件)
偏差尺寸分组(毫米)X = x
偏差尺寸(毫米)
图5-1 活塞削孔对中心线的偏差的频率分布
综上所述,连续型随机变量X的一系列取值区间(例如,可以是
由–?与实数轴上的任意点所构成的一系列区间)和随机变量在该区间取值的概
率之间确立的对应关系,称作这个连续型随机变量的分布。
连续型随机变量的分布可以用密度函数来描述,随机变量的密度函数记作 。
次数分布直方图是用各组的频率密度作直条的高来画图的。当分组数无穷多,而组距(即直条的底边长)趋近于0时,直方图演变成平滑的曲线(如图4-1),这时,直条的高就成 为 。
连续型随机变量在某一数值区间内取值的概率等于竖立在该区间上的,以密度曲线为上底的曲边梯形的面积。写作
密度函数满足下面两个基本性质:
(1)密度函数的函数值不会是负数,从图形看,密度曲线在横轴上方,以横轴为渐近线;
(2)在整个实数轴上的密度函数值的和等于1,从图形看,密度曲线下覆盖的总面积等于1。这两个性质用密度函数式写作
三、随机变量的数字特征
(一)随机变量的
数学
数学高考答题卡模板高考数学答题卡模板三年级数学混合运算测试卷数学作业设计案例新人教版八年级上数学教学计划
期望
随机变量X的数学期望是X的一切可能值以相应的概率为权数的加权算术平均数。今后我们把X的数学期望记作E(X)。
若X是离散型随机变量,
E(X)=
若是连续型随机变量,其概率密度函数为p(x),则X的数学期望定义为 式中的定积分应绝对收敛。
数学期望有下列性质:
性质 1 E(c)=c
性质 2 E(X+c)=E(X)+c
性质 3 E(cX)= cE(X)
性质 4 E(X?Y)=E(X)?E(Y)
推广
性质5 若X与Y独立,E(XY)=E(X)E(Y)
推广 若X1,„,Xn独立,有
E(X1?X2?„?Xn)=E(X1)?(X2)?„?E(Xn) (二)随机变量的方差、
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
差和变异系数
1.方差和标准差
随机变量X的方差,记作V(X),是X与其数学期望的离差平方
的数学期望。即
V(X)=E[X – E( X )]2
称 为X的标准差。
方差还可以有下列表达式
V(X)=E(X2)–[E( X )]2 若X是离散型随机变量,其分布如表4-5所示,则X的方差用下式计算。
V( X ) =
若是连续型随机变量,其概率密度函数为,则的方差用下式计算。 方差有下列性质:
性质 1 V(c)= 0
性质 2 V(X+c)= V(X)
性质 3 V(cX)= c2V(X)
性质 4 若X与Y独立,有
若X1,„,Xn独立,有
性质 5 若X与Y独立,有
2.变异系数
随机变量的变异系数是随机变量的标准差与数学期望的比率。随机变量X
的变异系数写作
δ(X)=
四、 几种常用的概率分布
(一)两点分布
(二)二项分布
(三)超几何分布
(四)正态分布
(五) 分布
(六)F–分布
(七)t–分布
(一)两点分布
-π,如果随机变量X只取1和0两个值,取1的概率是π,取0的概率是1我们称X服从两点分布或0-1分布,π是X的参数。
两点分布的数字特征如下:
数学期望:E(X)= π;
方差:V(X) = π( 1–π)
【例5-12】 已知在20件产品中有5件是二等品。现在从中任意抽取1件(每件产品都有相等的可能性被抽到),写出抽取结果(是二等品、不是二等品)的分布列。
解:用随机变量X表示抽取结果。若结果是二等品,记X = 1;若结果不是二等品,记X = 0。分布列如表4-6。
表5-6 两点分布的分布列
0.75
0.25
P(X = x)
0
1
X = x
(二)二项分布
如果把一个贝努里试验在完全相同的条件下独立地重复n次,称作n重贝努
里试验。n重贝努里试验应符合下列三个条件:
(1)每次试验只有“成功”和 “失败”两种对立的结局;
(2)各次试验“成功”的概率相同(都为);
(3)各次试验相互独立。
以随机变量X表示n重贝努里试验中“成功”的次数,它服从参数为(n,
π)的二项分布。二项分布的概率函数为
(k=0,1,„,n)
其中,k是n重贝努里试验中“成功”的次数。
二项分布的数字特征如下:
数学期望:E(X)= nπ ;
方差: V(X)= nπ( 1–π)
【例5-13】 例5-12中,如果以还原方式抽取4次(即每次抽取后,把所
抽取的产品放回),写出抽到二等品件数的分布列。
解:用随机变量X表示经过4次抽取,抽到二等品的件数。它可能的取
值是0,1,2,3,4。分布列如表5-7。
表5-7 二项分布的分布列
表中,X取0,1,2,3,4各数值的概率是用式(5.35)算出的,其中,
n = 4,π = 5 / 20 = 0.25, k= 0,1,2,3,4。 0.039
0.0469
0.2109
0.4219
0.3164
P(X = k)
4
3
2
1
0
X = k
(三)超几何分布
超几何分布的试验背景是:对有限总体进行不还原方式(每次抽取后,所抽单位不再放回,称之为不还原方式)的简单随机抽样,观察样本中具有某种特征的单位数目。如果有限总体单位数目为N,其中具有某种特征的单位数目为M,对这个总体进行n次不还原简单随机抽样,用随机变量X表示样本中具有某种特征的单位的数目,则X服从参数为(N,M,n)的超几何分布。超几何分布的概率函数是
(k=0,1,„,min{ n,M })其中,k是样本中具有某种特征的单位的数目。
超几何分布的数字特征如下:
数学期望:E(X)= n π(这里, π =M/N)
方差: = nπ( 1–π)
【例5-14】例4-13中,如果改为不还原地抽取4次,写出抽到二等品件数的分布列。
解:用随机变量X表示经过4次抽取,抽到二等品的件数。它可能的取值是0,1,2,3,4。分布列如表5-8。
表5-8 超几何分布的分布列
表中取0,1,2,3,4各数值的概率是用式(5.36)算出的。式中,N =20,
M =5,n = 4。
0.0010
0.0310
0.2167
0.4696
0.2817
P(X = x)
4
3
2
1
0
X = x
(四)正态分布
令随机变量X是在一个随机试验中被测量的结果,并且,决定这项试
验结果的是大量偶然因素作用的总和,每个因素的单独作用相对均匀地小,那么,
X的分布就近似于正态分布。
正态分布的密度函数是
正态分布的数字特征如下:
数学期望:E(X)=μ
方 差:V(X) =σ2
图5-2 正态分布概率密度曲线
正态分布的密度函数有两个参数:μ和σ2。从密度函数的图形来说,μ决定着曲线在横轴上的位置, μ越大,图形位置越靠右;σ2决定着曲线的形状,σ2越大,图形越“矮胖”(见图5-3)。
图5-3 正态分布概率密度曲线中 的参数作用
把随机变量与它的数学期望相减之差除以该随机变量的标准差(方差的平方根),称作随机变量的标准化。标准化能简化正态分布概率的计算.
(五) 分布
图5-4 分布概率密度曲线
(六)F–分布
设X和Y是相互独立的服从分布的随机变量,自由度分别为f 1,f 2,则称随机变量
所遵循的分布规律为 F–分布,记作F(f1,f2)。f1称作F–分布的第一自由度(分子自由度),f2称作F–分布的第二自由度(分母自由度)。图中表示一族曲线,其形态随f1和 f2的改变而不同。
图5-5 F–分布的概率密度曲线
(七)t–分布
设X是标准正态变量,Y是自由度为v的变量,且X和Y相互独立,则称随机变量
所遵循的分布规律为t??–分布。v称为它的自由度,记作t (v)。这个分布的概率密度函数的图形如图5-6。图中表示一族曲线,其形态随v的改变而不同。
图5-6 t–分布的概率密度曲线
第三节 随机变量与样本
如果随机变量是在某个可以在不变条件下重复进行的随机试验中被观测的量。我们想要知道的分布。
进行的有限次的试验(观测)叫作的样本。相对于样本而言,在统计学中把随
机变量叫作总体(统计总体)。