【基础理论知识衔接】第三章1-3节 《概率论与数理统计》
一、总结和复习描述数据的方法
二、密度曲线
三、关于概率
(一)三种解释:
古典概率(63页)
统计概率(64页)
主观概率(65页)
概率的以上三种定义,各有其特定的应用范围,也存在局限性,都缺乏严密性。
? 古典定义要求试验的基本事件有限且具有等可能性
? 统计定义要求试验次数充分大,但试验次数究竟应该取多大、频率与概率有多么接近都没有确切说明
? 主观概率的确定又具有主观随意性
苏联数学家柯尔莫哥洛夫于1933年提出了概率的公理化定义
——通过
规定
关于下班后关闭电源的规定党章中关于入党时间的规定公务员考核规定下载规定办法文件下载宁波关于闷顶的规定
应具备的基本性质来定义概率
公理化定义为概率论严谨的逻辑推理打下了坚实的基础。
(二)概率的基本性质(67页)
? 非负性:对任意事件A,有 0 P(A) 1。
?
规范
编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载
性:必然事件的概率为1,即: P()=1;不可能事件的概率为0 ,即:P()=0。
? 可加性:若A与B互斥,则:P ( A∪B ) = P ( A ) + P ( B )
对于多个两两互斥事件A1,A2,…,An,则有:
P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An )
上述三条基本性质,也称为概率的三条公理。
四、随机变量及其数字特征
(75---86页)
随机变量——表示随机试验结果的变量
取值是随机的,事先不能确定取哪一个值
一个取值对应随机试验的一个可能结果
用大写字母如X、Y、Z...来表示,具体取值则用相应的小写字母如x、y、z…来表示
根据取值特点的不同,可分为:
? 离散型随机变量——取值可以一一列举
? 连续型随机变量——取值不能一一列举
离散型随机变量
(1)离散型随机变量的第一个数字特征
是指数学期望,又称均值
描述一个随机变量的概率分布的中心位置
离散型随机变量 X的数学期望:(77页公式3.12)
相当于所有可能取值(以概率为权数)的加权平均值
数学期望的主要数学性质
? 若k是一常数,则E (k X) =k E(X)
? 对于任意两个随机变量X 、Y , 有 E(X+Y)=E(X) +E(Y)
? 若两个随机变量X 、Y 相互独立,则 E(XY)=E(X) E(Y)
(2)离散型随机变量X的方差——第二个数字特征
? 方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或σ2
公式:(77页公式3.13)
?
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
差=方差的平方根
? 方差和标准差都反映随机变量取值的分散程度。
? 它们的值越大,说明离散程度越大,其概率分布曲线越扁平。
? 方差的主要数学性质:
? 若k 是一常数,则 D(k)=0;D(kX)=k2 D(X)
? 若两个随机变量X、Y 相互独立,则D(X+Y)=D(X) +D(Y)
五、随机变量的概率分布
1.离散型随机变量的概率分布(76页)
? X的概率分布——X的有限个可能取值为xi与其概率 pi(i=1,2,3,…,n)之间的对应关系。
? 概率分布具有如下两个基本性质: 76页公式(1)(2)
离散型概率分布的表示:
概率函数:P(X= xi)= pi
分布列:
分布图:
常用离散型随机变量的概率分布(78—85页)
? 二点分布
? 二项分布
? 泊松分布(略)
? 超几何分布(略)
二点分布(0—1分布、Bernoulli伯努利分布、贝努里分布)教材78页
二项分布(教材79页)
(背景)——n重贝努里试验:
一次试验只有两种可能结果
用“成功”代表所关心的结果,相反的结果为“失败”
每次试验中“成功”的概率都是 p
n 次试验相互独立。
(教材79页公式3.15——重点公式)
在n重贝努里试验中,“成功”的次数X服从参数为n、p的二项分布,记为 X ~B(n , p)
一元二项分布概率计算函数
教材80页
BINOMDIST
【复习】85页表3.11常用离散型随机变量概率分布的数字特征 重点公式
2.连续型随机变量
连续型随机变量的概率分布
? 可以取某一区间或整个实数轴上的任意一个值
? 连续型随机变量的概率分布只能表示为:
? 数学函数——概率密度函数f (x)和分布函数F (x)
? 图 形——概率密度曲线和分布函数曲线
? 连续型随机变量取任何一个特定值的概率等于0
? 不能列出每一个值及其相应的概率,只能计算随机变量落在一定区间内的概率
? ——由x轴以上、概率密度曲线下方面积来表示
? 概率密度函数全面描述了连续型随机变量的统计规律
概率密度函数f (x) 的性质
(1)概率密度是非负函数(即位于横轴的上方)。
(2)概率密度曲线与横轴之间的面积为1
分布函数(86页)
设X是一个随机变量,对任一实数x,事件“X≤x”称为随机变量X的分布函数,记为F(x)
分布函数也全面描述随机变量的统计规律——离散型随机变量的分布函数
常用连续型随机变量的概率分布(85—96页)
? 均匀分布
? 正态分布
? 指数分布(略)
? t分布(第四章讲)
? F分布(第五章讲)
1. 均匀分布(93--94页)
X 只在一有限区间 [a ,b] 上取值
且概率密度是一个常数
其概率密度为:
X 落在子区间 [c,d ] 内的概率与该子区间的长度成正比,与具体位置无关
2. 正态分布(86--93页)
(1)X~N (μ、σ 2 ),其概率密度为:
(2)正态分布的均值和标准差
均值 E(X) =μ
方差 D(X)= σ 2
(3)正态曲线(87页)
正态曲线的主要特性:
? 关于x = μ 对称的钟形曲线
? 参数μ 决定正态曲线的中心位置
? 参数σ 决定正态曲线的陡峭或扁平程度
? 以X 轴为渐近线,即当x→ ± ∞ 时,概率密度函数f(x) → 0
(4)正态分布的68-95-99.73经验
规则
编码规则下载淘宝规则下载天猫规则下载麻将竞赛规则pdf麻将竞赛规则pdf
(教材87页图3.12)
又称3西格玛原则或小概率原理
(5)正态分布的线性变换——标准正态分布(88页)
μ=0、σ=1的正态分布,记为N (0, 1)
其概率密度φ(x),分布函数 Ф(x)
X~N (μ、σ 2 ), 则 : Z~N (0,1 )
? 标准正态分布函数NORMDIST
(6)标准化值(Standard score) (教材88页)
又称标准计分或z-得分(重点公式)
观测值 – 平均数
Z=——————————
标准差
用标准正态分布来确定随机变量取值的概率
【教材89页例题】
(7)正态分布是一种最常用、最重要的概率分布
大千世界中许多常见的随机现象服从或近似服从正态分布
特点是 “中间多两头少”
由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位
正态分布是许多概率分布的极限分布
统计推断中许多重要的分布(如χ2分布、t分布、F分布)都是在正态分布的基础上推导出来的。
(8)数据正态性的判断方法(教材91——92页)
1)频数分布直方图或茎叶图
2)计算样本数据的四分位差与标准差的比值。当
表示数据近似服从正态分布
3)绘制正态概率图
(9)二项分布的正态近似(教材92页)二项分布图形
p=0.5时,二项分布是以均值为中心对称
p≠0.5时,二项分布总是非对称的
? p<0.5时峰值在中心的左侧
? p>0.5时峰值在中心的右侧
随着n无限增大,二项分布趋近于正态分布
【教材例题3.28】
六、抽样方法(第三节)教材96——98页
1.简单随机抽样(教材第97页)
(simple random sampling)
? 从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中
? 抽取元素的具体方法有重复抽样和不重复抽样
? 特点
简单、直观,在抽样框完整时,可直接从中抽取样本
用样本统计量对目标量进行估计比较方便
? 局限性
当N很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难
没有利用其他辅助信息以提高估计的效率
2.分层抽样(教材第97页) (stratified sampling)
? 将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
? 优点
保证样本的结构与总体的结构比较相近,从而提高估计的精度
组织实施调查方便
既可以对总体参数进行估计,也可以对各层的目标量进行估计
3.系统抽样(教材第98页) (systematic sampling)
? 将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
? 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
? 优点:操作简便,可提高估计的精度
? 缺点:对估计量方差的估计比较困难
4.整群抽样(教材第98页) (cluster sampling)
? 将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
特点
抽样时只需群的抽样框,可简化工作量
调查的地点相对集中,节省调查费用,方便调查的实施
缺点是估计的精度较差
七、 统计推断的理论依据(补充)——中心极限定理和大数定理
(一)中心极限定理
? 1. 独立同分布中心极限定理
? 2. 棣莫佛-拉普拉斯中心极限定理
1.独立同分布的中心极限定理(也称列维——林德伯格定理)
结论 :
不论总体服从何种分布,只要其数学期望和方差存在,对这一总体进行重复抽样时,当样本量n充分大,就趋于正态分布。
该定理为均值的抽样推断奠定了理论基础。
2、棣莫佛-拉普拉斯中心极限定理
设随机变量X服从二项分布B(n,p)的,那么当n→ ∞时,X服从均值为np、方差为 np(1-p) 的正态分布,即:
上述定理表明:
n很大,np 和 np(1-p)也都不太小时,二项分布可以用正态分布去近似。
(二)大数定理
又称大数法则。大数定律是阐述大量同类随机现象的平均结果具有稳定性的一系列定理的总称。
大数定理是通过偶然现象,揭示必然性、规律性的工具。
? 1. 独立同分布大数定律
? 2. 贝努里(伯努利)大数定律
1、独立同分布大数定律
该大数定律表明:当n充分大时,相互独立且服从同一分布的一系列随机变量取值的算术平均数,与其数学期望μ的偏差任意小的概率接近于1。