下载

1下载券

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 统计学知识点汇总

统计学知识点汇总.doc

统计学知识点汇总

zheng万霞
2017-10-14 0人阅读 举报 0 0 暂无简介

简介:本文档为《统计学知识点汇总doc》,可适用于综合领域

统计学知识点汇总第一章:统计学是收集、处理、分析、解析数据并从数据中得出结论的科学。分类:描述统计、推断统计。描述统计是研究数据收集、处理和描述的统计学方法。推断统计是研究如何利用样本数据来推断总体特征的统计学方法(内容包括参数估计和假设检验)。变量:每次观察都会得到不同结果的某种特征。分类变量:又称无序分类变量观测结果表现为某种类别的变量。顺序变量:又称有序分类变量观测结果表现为某种有序类别的变量。数值变量:又称定量变量观测结果表现为数字的变量。数据:、分类数据、顺序数据、数值型数据总体:包含所研究的全部个体(数据)的集合。样本:从总体中抽取的一部分元素的集合。样本量:构成样本元素的数目。抽样方法:、简单随机抽样、分层抽样、系统抽样、整群抽样简单随机抽样:从含有N个元素的总体中抽取n个元素组成一个样本使得总体中的每一个元素都有相同的机会(概率)被抽中。分层抽样:也称分类抽样在抽样之前先将总体的元素划分为若干层(类)然后从各个层中抽取一定数量的元素组成一个样本。软件应用:用Excel抽取简单随机样本。第二章:一、定性数据的图示:、条形图、帕累托图、饼图、环形图条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别的多少或分布状况。帕累托图:是按各类别出现的频数多少排序后绘制的条形图。通过对条形的排序容易看出哪类频数出现的多哪类出现的少。饼图:主要用于表示一个样本(或总体)中各类别的频数占全部频数的比例。用图表展示定量数据:生成定量数据的频数分布表时需要先将原始数据按照某种标准分成不同的组别然后统计出各组别的数据频数即可。一组数据所分的组数K应不少于组且不多于组。组距=(最大值最小值)组数组数=全距组距每组组距均相等称为等距数列反之则为异距数列在比较等距数列与异距数列的次数分布时常用:次数密度=本组次数本组组距组中值classmidpoint组中值=(本组上限本组下限)或组中值=(本组假定上限本组假定下限)二、定量数据的图示:、分组数据看分布:直方图、未分组数据看分布:茎叶图和箱线图、垂线图和误差图最小值四分位数中位数四分位数最大值箱线图的示意图:、两个变量间的关系:散点图是用二维坐标展示两个变量之间关系的一种图形。、比较多个样本的相似性:雷达图和轮廓图雷达图是从一个点出发用每一条射线代表一个变量多个变量的数据点连接起来成线即围成一个区域多个样本围成多个区域就是雷达图利用它也可以研究多个样本之间的相似程度。、掌握各种图标的绘制直方图与条形图的区别、茎叶图与直方图的区别。三、合理使用图表Excel应用:生成定性定量数据的频数分布表(操作步骤)。第三章:用统计量描述数据一、水平的度量:平均数:计算形式:=总体标志总量总体单位总量(一)简单均数(二)加权均数中位数:是一组数据排序后处于中间位置的数值用Me表示。xxnxxff众数:是一组数据中频数最大的变量值直观地反映了数据的集中趋势。是度量定类数据集中趋势的测度。一般用Mo表示。四分位数:是一组数据排序后处于和位置上的值。它是通过个点将全部数据等分为四部分其中每部分包含的数据。显然中间的四分位数就是中位数因此通常所说的四分位数是指处在位置上和处在位置上的数值。二、差异的度量:、极差是一组数据的最大值与最小值之差也称全距用R表示。由于极差只是利用了一组数据两端的信息因而容易受极值端的影响不能全面反映差异状况。、四分位差是一组数据位置上的四分位数与位置上的四分位数之差也称为内距或四分间距用Qd表示反映了中间(xx)ff的数值越分散四分位差不受极值的影响。(xx)、样本方差和标准差:N方差是度量数值变量离散程度的基本测度。n个同性质独立变量和的方差等于各个变量方差之和。n个同性质独立变量平均数的方差等于各变量方差平均数的n。、标准分数:测度每个数值在该组数据中的相对位置并可以用它来判断一组数据中是否有离群点它是某个数据与其平均数的离差除以标准差后的值。三、比较几组数据的离散程度:离散系数是一组数据的标准差与其相应的平均数之比它消除了数据水平高低和计量单位对标准差大小的影响。主要用于比较不同样本数据的离散程度离散系数越大说明数据的离散程度也越大离散系数越小说明数据的离散程度也越小。计算公式是:Vs=Sx四、分布形状的度量偏态系数x)(xx)f(xSKorSKNf偏态系数为时数据是对称分布偏态系数为负数时数据是左偏分布也称为负偏态偏态系数为正数时数据是右偏分布也称为正偏态。偏态系数越大表明偏离程度越大。峰态系数峰度系数为时数据是对称分布峰度系数大于时数据是尖峰分布峰度系数小于时数据是平峰分布。软件应用:用Excel计算描述统计量。第一步:选择【工具】【数据分析】。在分析工具中选择【描述统计】。单击【确定】。第二部:将原始数据所在的区域输入【输入区域】在【输出选项】中选择结果的输出位置选择【汇总统计】。单击【确定】(xx)KN(xx)orKff第四章:概率分布事件发生可能性大小的度量就是概率。随机变量的概率分布、有些随机变量只能取有限个值称为离散型随机变量。、有些则可以取一个或多个区间中的任何值称为连续性随机变量。描述随机变量集中程度的统计量称为期望值。一、离散型随机变量的概率分布(二项分布、超几何分布、泊松分布)、二项分布(binomialdistribution):互斥现象独立事件每次成功概率为p(不成功概率为q)。n次n!xxnxPcnpqpxqnx试验成功x次每次成功的概率p则成功x次的概率P为x!(nx)!、超几何分布(hypergeometricdistribution)样本抽取后不放回时的离散型概率分布。N个总体有T次成功次数则抽取n次中有x次成功的概率。例:名业务骨干中的人在职时间超过了年。随机抽取这人中的人恰好有人在职时间超过了年的概率。NTTnxxPNn、泊松分布(Poissondistribution)事件在一段时(空)间内连续发生时指定次数事件的概率。例:某网店平均每小时接单个。现在随机抽取小时观察恰好接个定单的概率是xeePx!!为事件的均值二、连续性随机变量的概率分布(正态分布、指数分布、均匀分布)正态曲线的性质:、正态曲线的图形是关于x=μ对称的钟形曲线且峰值在x=μ处。、正态分布的两个参数μ和σ一旦确定正态分布的具体形式也就唯一确定均值μ决定正态曲线的具体位置标准差σ相同而均值不同的正态曲线在坐标轴上体现为水平位移。σ越大正态曲线越扁平σ越小正态曲线越陡峭。、当X的取值向横轴左右两个方向无限延伸时正态曲线的两个尾端也无限渐进横轴但理论上永远不会与之相交。、正态随机变量在特定区间上取值的概率由正态曲线下的面积给出而且其曲线下的总面积等于。三、其他几个重要的统计分布(t分布、χ分布、F分布)熟记各种分布的性质与特点。四、样本统计量的概率分布、总体分布为正态分布时大、小样本的样本均值均服从正态分布、总体分布为非正态分布大样本时的样本均值服从正态分布小样本的样本均值服从非正态分布。五、统计量的标准误差统计量的标准误差也称为标准误它是指样本统计量分布的标准差用于衡量样本统计量的离散程度在参数估计和假设检验中它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。SE=σn^当总体标准差σ未知时可用样本标准差s代替计算这时计算的标准误差称为估计标准误差。(统计软件中给出的都是估计标准误差)样本比例的标准误差可表示为:σp=π(π)n^当总体比例的方差π(π)未知时可用样本比例的方差p(p)代替。注意:区别标准误差与标准差的概念以及反映的内容。第五章:参数估计一、参数估计的基本原理、点估计、区间估计:是在点估计的基础上给出总体参数估计的一个估计区间该区间通常是由样本统计量加减估计误差。在区间估计中由样本估计量构造出的总体参数在一定置信水平下的估计区间称为置信区间其中区间的最小值称为置信下限最大值称为置信上限。一般的如果将构造置信区间的步骤重复多次置信区间中包含总体参数真值的次数所占的比例称为置信水平也称为置信度或置信系数。置信水平=α、评价估计量的标准无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。有效性:是指估计量的方差尽可能小。一致性:是指随着样本量的增大点估计量的值越来越接近被估计总体的参数。二、一个总体参数的区间估计类比总体比例方差的区间估计三、两个总体参数的区间估计类比两个总体比例之差方差比的区间估计四、样本量的确定、估计总体均值时样本量的确定。、估计总体比例时样本的确定。(熟练掌握其公式)

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

文档小程序码

使用微信“扫一扫”扫码寻找文档

1

打开微信

2

扫描小程序码

3

发布寻找信息

4

等待寻找结果

我知道了
评分:

/7

统计学知识点汇总

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利