《统计学》课件

《统计学》课件nullnull统计学第一章统计和统计数据的收集第二章统计数据的整理和展示第三章数据的描述性分析第四章概率基础第五章区间估计和假设检验第六章相关与回归分析第七章非参数统计第八章时间数列分析第九章指数结束null第一章统计和统计数据的收集一、什么是统计二、数据三、搜集数据的组织方式四、有关数据调查的几个问题主要内容目录null一、什么是统计？（一）统计包含三种涵义，两重关系1. 统计工作：对统计数据进行搜集...

nullnull统计学第一章统计和统计数据的收集第二章统计数据的整理和展示第三章数据的描述性分析第四章概率基础第五章区间估计和假设检验第六章相关与回归分析第七章非参数统计第八章时间数列分析第九章指数结束null第一章统计和统计数据的收集一、什么是统计二、数据三、搜集数据的组织方式四、有关数据调查的几个问题主要内容目录null一、什么是统计？（一）统计包含三种涵义，两重关系1. 统计工作：对统计数据进行搜集、整理和分析的过程。2. 统计数据：统计工作所产生的成果，用以描述我们所研究现象的属性和特征。如统计图表，统计分析报告等。3. 统计学：一门研究总体数量特征的方法论科学。统计工作统计资料统计学工作与工作成果关系实践与理论关系null（二）四个重要的术语所研究的具有某些相同性质的全部单位或事件的整体。总体无限总体：含无限多个单位。范围有限总体：含有限个单位。样本：亦可称为抽样总体,是从总体中抽取部分单位所组成的整体，用以分析总体。参数：亦可称为总体指标,是综合测量的整个总体的某个数量特征。统计量：亦可称为样本指标,是根据样本数据计算的综合测量值，可用以反映或估计、推断总体的某个数量特征。 null（三）统计学的内容1. 描述统计关于搜集、展示一批数据，并反映这批数据特征的各种方法，其目的是为了正确地反映总体的数量特点。 2. 推断统计根据样本统计量估计和推断总体参数的技术和方法。描述统计是推断统计的前提，推断统计是描述统计的发展。null二、数据（一）为何需要数据？统计学要研究各种随机变量，通过对这些随机变量的观察所获取的数据包含了我们所需的信息，这些信息能有助于我们在许多场合中做出更为正确的决策。例如：市场研究者需要对产品的特性进行评估，以区分不同的产品。药品制造厂商需要判别一种新药是否比现在正使用着的药更有效。 null审计人员想通过查看某家公司的财务报表，以确认这家公司是否是依据了通行的会计准则做报表。财务金融分析人员想判断在未来的五年中，哪些行业中的哪些公司最具有成长性。经济学家想估计我国国内生产总值今年的增长速度。生产部门的经理按惯例要检查生产过程，以检验其生产的产品质量是否符合公司的标准。 null（二）数据分类的原则互斥原则：每一个数据只能划归到某一类型中，而不能既是这一类，又是那一类。穷尽原则：所有被观察的数据都可被归属到适当的类型中，没有一个数据无从归属。（三）数据的类型1. 定性数据和定量数据定性数据：用文字描述的。如在本章的“统计引例”中消费者对永美所提供服务的总体评价等都属于文字描述的定性数据。null定量数据：用数字描述的。如企业的净资产额、净利润额等。2. 离散型数据和连续型数据变量若我们所研究现象的属性和特征的具体表现在不同时间、不同空间或不同单位之间可取不同的数值，则可称这种数据为变量。类型离散型变量：数据只能取整数。如一家公司的职工人数。连续型变量的数据可以取介于两个数值之间的任意数值。如销售额、经济增长率等。 null3. 数据的四个等级定类数据例如，对人口按性别划分为男性和女性两类。也称定名数据，这种数据只对事物的某种属性和类别进行具体的定性描述。能够进行的唯一运算是计数，即计算每一个类型的频数或频率（即比重）。定类数据例如，对企业按经营管理的水平和取得的效益划分为一级企业、二级企业等。定序数据，也称序列数据，是对事物所具有的属性顺序进行描述。 null定距数据如10℃、20℃等。它不仅有明确的高低之分，而且可以计算差距，如20℃比10℃高10℃，比5℃高15℃等。也称间距数据，是比定序数据的描述功能更好一些的定量数据。定距测定的量可以进行加或减的运算，但却不能进行乘或除的运算。定比数据如产量、产值、固定资产投资额、居民货币收入和支出、银行存款余额等。也称比率数据，是比定距数据更高一级的定量数据。它不仅可以进行加减运算，而且还可以作乘除运算。 null测定层次特征运算功能举例1. 定类测定 2. 定序测定 3. 定距测定 4. 定比测定分类分类；排序分类；排序；有基本测量单位分类；排序；有基本测量单位；有绝对零点计数计数；排序计数；排序；加减计数；排序；加减乘除产业分类企业等级温度商品销售额统计数据四个层次的概括 null4. 截面数据和时间序列数据截面数据：所搜集的不同单位在同一时间的数据。例如，所有上市公司公布的2004年年度的净利润。时间序列数据：所搜集的同一总体或单位在不同时间的数据。某公司公布的1993年到2004年的年度净利润就是时间序列数据。 5. 原始数据和次级数据原始数据：指直接从各个调查单位搜集的、尚未经过整理的统计数据资料，也称一手数据。null次级数据:指那些已经加工整理过的，往往是公开发表的数据，也称二手数据。如从报纸杂志、统计年鉴、会计报表上取得的数据。（四）数据的来源1. 从政府机构、各种行业组织、公司和企业所公布的数据中获取。就是把政府机构、各种组织和公司所公布的数据作为来源，这种数据往往是次级数据。 2. 设计一次试验以获取必要的数据。例如，在检验洗衣机洗净程度的研究中，研究人员通过实际洗涤脏衣服，来研究哪种牌子的洗衣机效果最佳。 null3.从观察研究中获取。研究人员通常是在自然状态下,进行直接的观察。例如，观察路口的交通流量、观察顾客在商场的购买行为和观察流水线上的产品质量等。4. 进行一次调查。它对所调查人们的行为不进行任何控制，仅提出诸如出生年月、爱好、消费习惯、对某一事件的看法和其他特征方面的问题，然后对他们回答的结果进行整理、编码、列表和分析。调查方案的主要内容确定调查目的确定调查对象和调查单位拟订调查提纲确定调查时间编制调查的组织计划null三、数据搜集的组织方式（一）普查、抽样、统计报表制度和重点调查 1.普查特点：工作量大，时间性强，需要大量人力和财力。任务：搜集重要的国情国力和资源状况的全面资料，为政府制定规划、方针政策提供依据。方式：建立专门机构，配备专门人员调查。利用基层单位原始记录和核算资料进行调查。原则：规定统一的标准时点。规定统一的普查期限。规定统一的调查的项目和指标。null2.抽样调查特点：1.按随机原则从总体中抽取样本；2.以样本指标（统计量）为依据推断总体参数或检验总体的某种假设；3.抽样误差可以事先计算并加以控制。null3.统计报表制度是按一定的表式和要求，自上而下统一布置，自下而上提供统计资料的一种统计调查方法。这种搜集统计数据方法是伴随着计划经济而产生的，并曾在我国占主导地位。现在，在社会主义市场经济条件下，仍是我国搜集统计数据的组织方式之一。null4.重点调查特点：在总体中选择个别或部分重点单位进行调查。任务：及时了解总体基本情况，为主管部门指导工作服务。方式：重点单位指在总体中有举足轻重地位的单位，其标志值在总体标志总量中占有绝大比重。经常性调查；同报表制度结合，用统计报表调查。例如，要了解全国钢铁生产的基本情况，只要调查鞍钢、宝钢、首钢、武钢、包钢等十几家特大型的钢铁企业就可以掌握全国钢铁企业生产的基本情况。null（二）抽样的优点 1.适用的范围广。对于有限总体，从理论上讲，既可以进行普查也可以进行抽样；对于无限总体，就只能进行抽样。若理论上可以而实际上很难采用全面普查的情况，也只能采用抽样。如产品质量的破坏性检验、居民住户调查等。2.与全面普查相比，抽样最大的优点是节省人、财、物力和时间。 3.随机抽样可以比普查更为精确。 null（三）抽样的类型非随机抽样随机抽样判断抽样定额抽样方便抽样简单随机抽样抽样类型系统抽样分层抽样整群抽样 null非随机抽样又称为非概率抽样 ,是不按照随机原则来抽取样本中的单位或个体。特点具有方便、快速和低成本精确性差，结论缺乏普遍性判断抽样又称为典型调查，是从事有关工作的专家按照一定的标准有意识地在总体中选择若干有代表性的单位组成样本进行调查，代表单位的选取标准应根据统计研究的目的而定。 null定额抽样是根据已定的单位数抽取样本，往往是对总体了解甚少的时采用。如想获取某地区化妆品的销售情况，对该地区的5家商厦进行调查。方便抽样是为了取样方便，随意地抽取样本单位。街头偶遇式调查就是一种最为常见的方便抽样。null随机抽样是根据随机原则来抽取样本单位 .简单随机抽样方法：在抽样框中的每个单位都具有相同的被抽中的机会,每个容量相同的样本被抽中的机会也是相同的。亦称为纯随机抽样抽取样本的方法：有放回抽样和无放回抽样。适合：总体内部差异不是很大，规模也不大的情况。null系统抽样方法：抽样框中的N个单位被分成k个系统，k等于抽样框的容量N除以所需的样本容量n，在抽样框中前面的k个个体或单位中随机抽出第一个样本单位，然后，可在其后的每隔k个单位抽取样本中其余的部分。亦可称为等距抽样编号有两种方法：············一种是利用原有的顺序或编号。如学生的注册名单，或者是从生产流水线上下来的、有编号的产品等。对所研究的总体已有所了解，则可用已知的相关变量对抽样框中的单位进行编号。null分层抽样亦可称为类型抽样方法：将总体全部单位分类，形成若干个类型组，后从各类型中分别抽取样本单位，合成样本。总体 N样本 n等额等比例最优······null整群抽样方法：首先把总体中的N个单位划分成为若干个群，并要求每个群对整个总体都具有代表性，然后对群进行简单随机抽样，并对抽中群内的所有单位进行调查研究。总体群数R=16 样本群数r=4 样本容量ABCDEFGHIJKLMNOPLHPDnull适合：比简单随机抽样的方法能节约更多的成本，特别当总体的分布地域非常辽阔时。null四、有关数据调查的几个问题调查的目的判断调查误差的大小调查误差登记性误差：代表性误差系统性的代表性误差登记、汇总、过录时产生的误差，以及无回答误差和测量误差等偶然性的代表性误差即为抽样误差 null调查中的道德性问题 1.调查者别有用意地、有意识地选择导向性的问题，使回答者出现有倾向性的回答。 2.询问者有意识地通过语气、语调引导被询问者出现有倾向性的回答。 3.回答者不重视或不愿意回答调查的内容，就很可能提供错误的信息。 null第二章统计数据的整理和展示统计数据的整理目录统计数据的展示排序统计分组频数分布编制统计表统计图null一、统计数据的整理排序统计搜集到的大量资料是分散的，不系统的，只能说明各个单位的特征和属性，必须按照科学的原则加以整理，使之条理化和系统化，成为便于储存和传递的、反映总体特征的数据。就是把定量数据按从大到小或从小到大的顺序排列，把定性数据按习惯的文字顺序排列，便于我们研究其条理。 null统计分组对于定性数据就是依据属性的不同将数据划分成若干组，对于定量数据就是依据属性数值的不同将数据划分成若干组。组内同质性，组间差异性。null频数分布编制分组的关键变量的选择，选择与研究的问题有关的变量。组限的确定。应遵循穷尽和互斥原则。定性数列编制：组限的确定一般比较简单。如人口按性别分组、企业按所有制分组等定量变量编制：分为单项数列和组距数列两种形式。单项数列：即变量的一个取值为一组，适用于离散型变量，并且变量的取值较少。组距数列：即每一组有一个上限值和一个下限值所形成的区间，适用于连续性变量，或离散型变量且变量的取值较多的情况。 null注意以下三个方面的问题 1.确定组数 2.确定组距：组距为上限与下限之差。等距数列－数据分布均匀。异距数列－数据分布不均匀。 3.确定组限应能把现象的不同类型划分出来。要考虑到数据是连续性变量还是离散型变量。无法确定实际数据的取值范围，或者数据中存在极端数值，可采用开口组的形式。4.确定组中值：(上限＋下限）／2 ，开口组 null二、统计数据的展示当统计数据比较多时，就应该制作表格或者图形进行来展示，使数据的重要特性能从表格或者图形中直观地反映出来，这样可提高分析数据和解释数据的效率。统计表是把统计数据用表格的形式展示出来。类型：按作用分调查表按数据所属的时间分截面数据表时间序列表汇总整理表计算分析表 null按分组变量的多少分单变量分组表多变量分组表有平行形式交叉形式统计图统计图形通常可比统计表格更生动地描述数据。类型：饼图是以整个圆的360度代表全部数据的总和，按照各类组所占的百分比（频率），把一个“饼”切割为各个扇形。适用于定性数据。 50家门店按区域分组的饼图 null条形图中，每一分类组表示成一个条，条的长度代表了这个组中所含数据的频数或频率。适用于定性数据。 50家门店数按区域分组的条形图家门店按区域并按人数分组的分段比例条形图null直方图与条形图相似，是在每个分组区间上绘制一个长条形而产生的图形，它可以用来描述已表示成频数或频率的数据。适用于定量数据。根据表2-5的等距数列对于异距数列，以组距为宽，以频数密度为高来绘制直方图。 null折线图可以在直方图基础上，将每个长方形的顶端中点用折线连接而成，或用组中值与频数（或频率）求坐标点连接而成。根据图2-6的直方图绘制的折线图null曲线图当变量的取值非常多，变量数列的组数无限增多时，折线便趋于一条平滑的曲线，这是一种概括描述变量数列分布特征的理论曲线。枝叶图是探索性数据分析中的一种方法，也是对一批数据进行组织整理的很有价值的一个工具，可用以了解一批数据中由所有观测值构成的数据的取值范围是如何分布的。 null第三章数据的描述性分析本章将讨论的是数据的总量和相对关系的测度，数据的集中趋势、离散趋势及其形态的测度。一、绝对数和相对数二、集中趋势的测定三、离散趋势的测定四、数据的形态测定主要内容null一、绝对数和相对数（一）绝对数绝对数（亦称总量指标）是统计资料经过汇总整理后得到的反映总体规模和水平的总和指标。（3）是计算相对指标和平均指标的基础。作用概念例如，企业的销售收入、一个地区或国家的社会总产值、国内生产总值等。（1）反映一个国家的国情和国力，一个地区或一个企业的人力、物力、财力（2）是进行经济核算和经济活动分析的基础 null分类按反映总体的内容分按反映的时间状态分按计量单位分变量总值单位总数时期数时点数实物量价值量null 相对数是用两个有联系的指标进行对比的比值，可以反映现象的数量特征和数量关系，并可将现象的绝对差异抽象化，使原来不能直接相比的绝对数可以进行比较。种类计划完成相对数结构相对数比较相对数强度相对数动态相对数（二）相对数概念null不同时期比较动态相对数注：又称发展速度强度相对数注：复名数有正逆指标不同现象比较不同总体比较比较相对数同一总体中部分与总体比较实际与计划比较结构相对数计划完成相对数注：有正逆指标同一时期比较同类现象比较null（1）正确选择对比的基数；（2）必须注意统计的可比性；（3）相对指标要与总量指标相结合。应用原则null二、集中趋势的测定—平均数概念表明同类现象在一定时间、地点、条件下所达到的一般水平，是总体内某个变量大小各异的观察值的代表性数值。也是对变量分布集中趋势的测定。数据集中区变量xnull常用的几种平均数概念计算公式特点优点：①容易理，便于计算 ②灵敏度高 ③稳定性好 ④ 和缺点：①易受极值影响 ②在偏斜分布和U形分布中，不具有代表性1. 算术平均数（）一个变量的所有观察值相加，再除以观察值的个数简单：加权：null权数解释权数（Weighted），是分布数列中的频数或频率。对求平均数具有权衡轻重的作用，是影响平均数变动的两个因素之一（另一因素是变量值）。(1) (2)(3)X456合计频数频率(%)10201025.050.025.040100.0X456合计频数频率(%)20402025.050.025.080100.0X456合计频数频率(%)20101050.025.025.080100.0 =5 =5 =4.75 频率分布变了，均值也变。因此，严格地说，权数应指频率。null算术平均数的变形数学上称其为调和平均数，只是用这种形式时，变量的取值不能为0。求某种商品三种零售价格的平均价格调和平均价格（元）3.32.52.0合计销售额（元）10101030null常用的几种平均数概念计算公式特点优点：灵敏度高 ②受极值影响小于和 ③适宜于各比率之积为总比率的变量求平均缺点:①有“ 0”或负值时不能计算 ②偶数项数列只能用正根2. 几何平均数（）几个变量值连乘积的n次根简单：加权：null概念计算公式特点 3. 中位数（Me）是一种位置平均数,数据按大小顺序排列，处于数据序列中间位置的数值就是中位数上限公式：下限公式：优点：①容易理解， ②不受极值影响 ③适宜于开口组资料和些不能用数字测定的事物缺点：①灵敏度和计算功能差 ②间断数Me常用的几种平均数null常用的几种平均数概念计算公式特点 4. 众数（Mo）是一种位置平均数，是一批数据中出现次数最多的那个数值.通常只用于定性数据或离散型的定量数据。上限公式：下限公式：优点：①容易理解， ②不受极值影响缺点：①灵敏度和计算功能差 ②稳定性差 ③具有不唯一性null25303540455051015f （人数）月收入：元36.11 d1 d255null位置平均数与算术平均数的关系1.众数适用于所有的定性数据和定量数据中位数适用于定性数据中的定序数据和定量数据算术平均数只适用于定量数据2.定量数据:若是钟形分布，三种集中趋势指标一般都可适用。而对J形分布，反J形分布和U形分布，中位数和算术平均数没有任何意义。3.在确定集中趋势指标的过程中，算术平均数比中位数和众数使用了更多的数据信息。4.对于钟形分布且数据量很大时，三种集中趋势指标有如下三种数量关系： nullXfXfXf(对称分布)正偏态分布（右）负偏态分布(左）1212null应用平均指标的原则 1．必须是同质的量方可平均； 2．总平均数与组平均数结合分析； 3．集中趋势与离散趋势结合分析null三、离散趋势的测定概念标志变异指标是反映变量分布离散趋势、与平均指标相匹配的指标。（1）反映变量分布的离散趋势；（3）是对事物发展均衡性的量度。（2）是对平均数的代表性程度的量度；作用null概念计算方法特点是非众数组所占比重 1．异众比率如百得便利超市公司50家门店按区域划分的众数是A区域，该组的次数是20家，所以异众比率为60%，这说明50家门店按区域划分的离散程度比较大，众数的代表性较差。异众比率是反映定名数据离散趋势的唯一指标，这个指标越小，说明数据的离散程度越小，集中程度越大 null概念计算特点数列中最大值与最小值之差2．极差（R）R=最大值-最小值R=最大组的上限-最小组的下限优点：容易理解，计算方便缺点：不能反映全部数据分布状况3．四分位差（M3- M1）/2 在反映数据的离散程度方面比全距较为准确，但仍显粗略是一批数据中的第三四分位数与第一四分位数之差的二分之一 null概念计算特点 4．平均差（AD）各标志值与均值离差绝对值的算术平均简单：加权：优点：反映全部数据分布状况缺点：取绝对值数字上不尽合理所有观察值与平均数离差平方平均数的平方根，亦称均方差。标准差的平方即为方差。 5．方差（σ2 s2）和标准差(σ s) 优点：反映全部数据分布状况，数字上合理。缺点：受计量单位和平均水平影响，不便于比较简单：加权：null概念计算特点 6．标准差系数（Vσ）标准差与均值之商，是无量纲的两列数据的分布进行离散程度的比较，当它们的平均数不等、计量单位不同时则应消除平均数不同和计量单位不可比的影响。此时就需要用离散系数这种相对数来是测定离散趋势方差（σ2）和标准差（σ）是应用最广的标志变异指标null四、数据的形态测定偏度:是测定数据分布的偏斜程度的指标.。定义M=∑(X-A)k/n为变量X关于A的k阶矩。当A=0，即以原点为中心，上式称为“K阶原点矩”。K=1，2，3时，有：一阶原点矩M1=∑(X-0)1/n=∑X/n 二阶原点矩M2=∑(X-0)2/n=∑X2/n 三阶原点矩M3=∑(X-0)3/n=∑X3/n 当A= ，即以为中心，上式称为“K阶中心矩”。K=1，2，3时，有：一阶中心矩二阶中心矩三阶中心矩null 所以，m3可以测定偏度。为消除量纲，转变为系数，再除以σ3。<0负偏态 =0对称分布 >0正偏态峰度：是用来反映数据分布曲线顶端的尖峭或扁平程度的指标。 <0平顶曲线 =3正态曲线 >3尖顶曲线注：在EXCL等软件中输出的峰度是在此基础上再减3。null五数概括：即最小值xmin 、最大值xmax 、第一四分位数M1、中位数Me和第三四分位数M3 五个数之间的关系，确定数据分布形态的方法：数据是完全对称：数据是不对称：最小值xmin到中位数的距离等于中位数到最大值xmax的距离。从xmin到M1的距离等于M3到xmax的距离。从xmax到中位数的距离大于中位数到xmin的距离。从M3到xmax的距离大于从从xmin到M1的距离。右偏分布null从xmin到中位数的距离大于中位数到xmax的距离。从xmin到M1的距离大于M3到xmax的距离。左偏分布箱线图:是基于五数概括的图示方式，使得集中趋势、离散趋势和偏态更为直观。 null第五章参数估计和假设检验推断统计：利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体参数统计量推断估计参数估计检验假设检验抽样分布null抽样分布简单随机抽样和简单随机样本的性质不放回放回放回不放回独立性和同一性同一性当n/N≤5%时，有限总体不放回抽样等同于放回抽样null统计量与抽样分布统计量：即样本指标。样本均值样本成数样本方差如：抽样分布：某一统计量所有可能的样本的取值形成的分布。性质数字特征0≤P（Xi）1∑P（Xi）=1均值E（X）方差E[x-E(x)]2 方差的平方根即抽样分布的标准差就是推断的抽样误差。null样本均值的抽样分布（简称均值的分布）抽样均值均值μ=∑Xi/N样本均值是样本的函数，故样本均值是一个统计量，统计量是一个随机变量，样本均值的概率分布称为样本均值的抽样分布。null抽样方法均值方差标准差（1）从无限总体抽样和有限总体放回抽样（2）从有限总体不放回抽样抽样误差抽样误差null从正态总体中抽样得到的均值的分布也服从正态分布。从非正态总体中抽样得到的均值的分布呢？中心极限定理：无论总体为何种分布，只要样本n足够大（n≥30），均值（）标准化为（z）变量，必定服从标准正态分布，均值（）则服从正态分布，即：关于均值的抽样分布有如下的一些结论:1.对于多数总体分布来说，不论其形态如何，如果样本观察值超过30个，那么均值的抽样分布将近似于正态分布。2.如果总体分布是明显对称的，那么只要样本观察值超过15个，均值的抽样分布也近似于正态分布。 3.如果总体是正态分布的，则不管样本大小如何，均值的抽样分布一定是正态分布的。 null两个样本均值之差的抽样分布抽样抽样估计（1）如：（2〕如果两个总体都是非正态总体，只要n1、n2足够大，根据中心极限定理，可知：null样本成数（即比例）的抽样分布（简称成数的分布）抽样成数成数P=Ni/N 所有可能的样本的成数（）所形成的分布，称为样本成数的抽样分布。null抽样方法均值方差标准差（1）从无限总体抽样和有限总体放回抽样（2）从有限总体不放回抽样根据中心极限定理，只要样本足够大，的分布就近似正态分布。（np和nq大于5时）抽样误差抽样误差null两个样本成数之差的抽样分布抽样抽样估计当n1、n2都足够大时，样本成数都近似服从正态分布，两个样本成数之差（）也近似服从正态分布。P1-P2=？null一个样本方差的抽样分布抽样若:从一个正态总体中抽样所得到的样本方差的分布n,S2则当则 null两个样本方差之比的抽样分布抽样从两个正态总体中分别独立抽样所得到的两个样本方差之比的抽样分布。n1,S12则抽样n2,S22null参数估计点估计以样本指标直接估计总体参数。评价准则的数学期望等于总体参数，即该估计量称为无偏估计。无偏性有效性当为的无偏估计时，方差越小，无偏估计越有效。一致性对于无限总体，如果对任意则称的一致估计。是充分性一个估计量如能完全地包含未知参数信息，即为充分量估计量null点估计常用的求点估计量的方法 1.数字特征法: 当样本容量增大时 ,用样本的数字特征去估计总体的数字特征。例如，我们可以用样本平均数(或成数)和样本方差来估计总体的均值(或比率)和方差。2.顺序统计量法 : 如果把取得的样本观测值按大小排列起来，那么与排列位置有关的统计量就称为顺序统计量。常用的顺序统计量有样本中位数和极差。 null当总体服从正态分布时, 用样本中位数来估计总体的数学期望 :3.极大似然估计法: 极大似然估计是根据样本的似然函数对总体参数进行估计的一种方法。其实质就是根据样本观测值发生的可能性达到最大这一原则来选取未知参数的估计量θ，其理论依据就是概率最大的事件最可能出现。 null区间估计估计未知参数所在的可能的区间。评价准则随机区间置信度精确度随机区间包含（即可靠程度）越大越好。的概率的平均长度（误差范围）越小越好一般形式或总体参数估计值误差范围 △：一定倍数的抽样误差例如：抽样误差一定时，越大，概率（可靠性）大；随之增大，精确度就差。null参数的区间估计待估计参数已知条件置信区间正态总体，σ2已知正态总体，σ2未知非正态总体，n≥30有限总体，n≥30 （不放回抽样）总体均值（μ）σ未知时，用Sσ未知时，用S两个正态总体已知两个正态总体未知但相等两个非正态总体,n1，n2≥30两个总体均值之差 μ1-μ2null待估计参数已知条件置信区间无限总体， np和nq都大于5总体成数（p）无限总体， n1p1＞5, n1q1 ＞5 n2p2＞5, n2q2＞5两个总体成数之差（P1 - P2）有限总体， np和nq都大于5有限总体， n1p1＞5, n1q1 ＞5 n2p2＞5, n2q2＞5null待估计参数已知条件置信区间正态总体总体方差两个正态总体两个总体方差之比null样本数的确定待估计参数已知条件样本数的确定正态总体，σ2已知总体均值（μ）例：误差范围简单随机抽样有限总体，不放回抽样， σ2已知总体成数（P）服从正态分布有限总体，不放回抽样null 假设检验基本思想检验规则检验步骤常见的假设检验方差分析null 基本思想小概率原理：如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。总体（某种假设）抽样样本（观察结果）检验（接受）（拒绝）小概率事件未发生小概率事件发生null假设的形式： H0——原假设， H1——备择假设双侧检验：H0：μ=μ0 ， H1：μ≠μ0单侧检验： H0：μ = μ0 ， H1：μ＜μ0 H0：μ = μ0 ， H1：μ＞μ0 假设检验就是根据样本观察结果对原假设（H0）进行检验，接受H0，就否定H1；拒绝H0，就接受H1。null 检验规则确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著，超过了临界点，拒绝H0；反之，差异不显著，接受H0差异临界点拒绝H0接受H0cc判断两类错误接受或拒绝H0，都可能犯错误I类错误——弃真错误，发生的概率为α II类错误——取伪错误，发生的概率为β检验决策 H0为真 H0非真拒绝H0 犯I类错误（α）正确接受H0 正确犯II类错误（β）怎样确定c?nullα大β就小，α小β就大基本原则：力求在控制α前提下减少β α——显著性水平，取值：0.1, 0.05, 0.01, 等。如果犯I类错误损失更大，为减少损失，α值取小；如果犯II类错误损失更，α值取大。确定α，就确定了临界点c。①设有总体：X~N（μ，σ2），σ2已知。②随机抽样：样本均值③标准化：④确定α值，⑤查概率表，知临界值⑥计算Z值，作出判断0接受区拒绝区拒绝区null 当检验判断为接受原假设H0时，就有可能犯取伪的错误即II类错误。确定犯第Ⅱ类错误的概率β比较困难，具体计算可根据书上的例子。统计上把称为统计检验的势，它是原假设实际上是错误的应该被拒绝的概率。 II类错误的概率β的计算null 检验步骤根据具体问题的要求，建立总体假设H0，H112选择统计量确定H0为真时的抽样分布3给定显著性水平α，当原假设H0为真时，求出临界值。计算检验统计量的数值与临界值比较4null 几种常见的假设检验条件检验条件量拒绝域H0、H1(1) H0：μ=μ0 H1：μ≠μ0 z(2) H0：μ = μ0 H1：μ＞μ0(3) H0：μ = μ0 H1：μ＜μz0z0正态总体σ2已知null条件检验条件量拒绝域H0、H1(1) H0：μ=μ0 H1：μ≠μ0 t(2) H0：μ = μ0 H1：μ＞μ0(3) H0：μ = μ0 H1：μ＜μt0t00正态总体σ2未知(n＜30)null条件检验条件量拒绝域H0、H1(1) H0：μ=μ0 H1：μ≠μ0 z(2) H0：μ = μ0 H1：μ＞μ0(3) H0：μ = μ0 H1：μ＜μz0z00非正态总体n≥30 σ2已知或未知null条件检验条件量拒绝域H0、H1(1) H0： μ1=μ2 H1: μ1 ≠ μ2 z(2) H0：μ1 = μ2 H1: μ1 ＞ μ2 (3) H0： μ1 = μ2 H1：μ1 ＜ μ2 z0z00两个正态总体已知null条件检验条件量拒绝域H0、H1(1) H0: μ1 = μ2 H1: μ1 ≠ μ2 t(2) H0: μ1 = μ2 H1: μ1＞ μ2 (3) H0： μ1 = μ2 H1： μ1＜ μ2 t0t00两个正态总体未知，但相等null条件检验条件量拒绝域H0、H1(1) H0：μ1 = μ2 H1：μ1 ≠ μ2 (2) H0：μ1 = μ2 H1：μ1 ＞ μ2 (3) H0：μ1 = μ2 H1：μ1 ＜ μ2 0z00两个非正态体n1≥30 n2≥30已知或未知zznull条件检验条件量拒绝域H0、H1(1) H0：P=P0 H1：P≠P0 z(2) H0：P = P0 H1：P＞P0(3) H0：P = P0 H1：P＜P0z0z00np≥5 nq≥5null条件检验条件量拒绝域H0、H1(1) H0：P1=P2 H1：P1 ≠P2 z(2) H0： P1 ≤P2 H1：P1 ＞ P2(3) H0：P1 ≥P2 H1：P1 ＜P2z0z00n1p1≥5 n1q1≥5 n2p2≥5 n2q2≥5 null条件检验条件量拒绝域H0、H1总体服从正态分布 null条件检验条件量拒绝域H0、H1总体服从正态分布 FFFnull 方差分析一、问题的提出同一原材料加工产品质量产地各组产品的质量是否有显著差异？随机原则null一个班级的学生，某门课程的成绩专业分组各组学生的成绩是否有显著差异？？？差异随机误差系统误差随机原则加以比较若存在显著性差异，则说明该因素的影响是显著的null二、假定条件各组水平都服从正态分布，均值和方差未知，但方差相同（i=1,2,3, ···,k)null三、单因素方差分析H0：各水平的均值相等 H1：各水平均值不全相等总离差平方和=组间离差平方和+组内离差平方和离差平方和：SST= SSB + SSE自由度： n-1 = k-1 + n-k方差： MST=MSB + MSE检验量=系统误差/随机误差即： F=MSB/MSE检验规则nullnull因为：F=3.15 < 4.26 或 P（0.092) > (0.05) 所以接受原假设，认为不同的家庭背景对学员成绩没有显著影响。null 四、不考虑交互作用的两因素方差分析H0 (A):因素A的k个水平的均值相等 H1：不全相等总离差平方和=组间离差平方和 +组内离差平方和离差平方和：SST= SS(A)+SS(B)+ SSE自由度： kh-1 = k-1 +h-1 + (k-1)(h-1)方差： MST=MS(A)+MS(B) +MSE检验量=系统误差/随机误差即： F(A)=MS(A)/MSE F(B)=MS(B)/MSE H0(B): 因素B的h个水平的均值相等 H1：不全相等检验规则null null 因为：F(A)=0.393<5.14 F(B)=0.028<4.76 或 P(A)（0.69) > (0.05) P(B)（0.99) > (0.05) 所以接受原假设，认为不同的机器设备和不同的工艺方法对生产量都没有显著影响。null 五、考虑交互作用的两因素方差分析H0 (A):因素A的k个水平的均值相等 H1：不全相等总离差平方和=组间离差平方和 +组内离差平方和离差平方和:SST= SS(A)+SS(B)+SS(AB)+ SSE自由度： khm-1 = k-1 + h-1 + (k-1)(h-1)+kh(m-1)方差： MST=MS(A)+MS(B) +MS(AB)+MSE检验量=系统误差/随机误差即： F(A)=MS(A)/MSE F(B)=MS(B)/MSE F(AB)=MS(AB)/MSEH0(B): 因素B的h个水平的均值相等 H1：不全相等H0(AB): AB之间不存在交互影响的作用 H1：有交互影响null 检验规则例：null null null 因为：F(A)=7.89>3.40 F(B)=0.53<3.01 F(AB)=7.11>2.51 或 P(A)（0.002) < (0.05) P(A)（0.665) > (0.05) P(AB)（0.0002) < (0.05) 所以认为不同的机器设备对日产量有显著影响。不同的工艺方法对日产量没有显著影响。不同机器设备与工艺搭配的交互作用对日产量有显著的影响。null 相关分析回归分析第六章相关与回归相关和回归分析方法，是分析两个或更多变量之间的相互关系，测定它们之间联系的紧密程度，以揭示其变化的具体形式和规律性，以便用一个或几个变量，去预测另一个我们感兴趣的变量。主要内容null 相关分析概念种类线性相关变量之间关系函数关系相关关系因果关系互为因果关系共变关系确定性依存关系随机性依存关系 null 种类一元相关多元相关负相关正相关线性相关曲线相关xy正相关xy负相关xy曲线相关xy不相关null 线性相关相关系数测定两变量是否线性相关？定义式：未分组：已分组：值：|r|=0 不存在线性关系； |r|＝1 完全线性相关 0<|r|<1不同程度线性相关(0~0.3 微弱；0.3~0.5 低度； 0.5~0.8 显著；0.8~1 高度)符号：r>0 正相关；r<0 负相关计算公式相关系数的检验（t检验）检验统计量null 回归分析特点一元线性回归多元线性回归非线性回归逻辑回归种类null 特点1·理论和方法具有一致性；2·无相关就无回归，相关程度越高，回归越好；3·相关系数和回归系数方向一致，可以互相推算。1·相关分析中，x与y对等，回归分析中，x与y要确定自变量和因变量；2·相关分析中x，y均为随机变量，回归分析中，只有y为随机变量；3·相关分析测定相关程度和方向，回归分析用回归模型进行预测和控制。null种类一元回归多元回归线性回归非线性回归自变量的多少变量之间的具体变动形式 null 一元线性回归1·一元线性回归模型的一般形式总体一元线性回归模型的一般形式Y的数学期望E（Yi）随机误差也称一元线性回归方程，是对应于自变量X某一取值时因变量Y的均值。未知参数Yi=α+βXi+εi null回归系数b表明自变量x每变化一个单位因变量y的平均增（减）量。b与r的关系：r＞0 r＜0 r=0 b＞0 b＜0 b=0样本的一元线性回归模型和回归方程一元线性回归模型:一元线性回归方程:截距斜率（回归系数）nullxy2·一元线性回归模型的确定根据实际数据，用最小平方法，即使，分别对a、b求编导并令其为零，求得两个标准方程：解联立方程，得到null3·一元线性回归模型拟合优度的评价判定系数（r2）是对回归模型拟合优度的评价。xy总偏差 = 回归偏差 + 剩余偏差 r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。r 的符号同 bnull估计标准误（Sxy） Sxy 越小，拟合越好； Sxy 越大，拟合越差。 Sxy也是用自变量对因变量进行区间估计的抽样误差。68.27% 94,45% 99.73%是一个测量Y的实际值与Y的预测值之间离散程度的统计量。 null4·回归分析中的假设条件和残差分析回归分析中的假设条件随机误差项ε的理论假定值相互独立服从正态分布的数学期望E（）＝0的方差都相同，且残差分析随机误差项ei = Yi -又称为残差，对残差进行分析，既能用来评价回归模型与实际数据的拟合优度，也能评价回归的假设能否成立。null评价回归模型的拟合优度可通过绘制残差图直观地进行评价。残差图是以残差为纵坐标、以相应自变量的X值为横坐标的散点图。散点的分布不存在明显的变化规律，说明建立的模型对数据是合适的。null散点的分布有明显的变化规律，说明建立的模型对数据是不合适的。null假设条件的评估 (1)等方差性 :通过残差与Xi的残差图来评价残差 0X0此图中，散点如扇形般地展开，即显示出X增大时残差的变异也在增大，证明了在X的每个水平上，Y缺少等方差性 null(2)正态性。可通过残差分析中计算残差的频数分布，并把其结果用直方图加以反映和评估。引例店址选择的数据，可把残差列成如表的频数分布，并把其结果可用直方图展示出来 .null(3)独立性。可根据数据获得的先后顺序排列的残差散点图来评估。在一段时间内收集的数据，有时观测值中会存在着自相关的影响。此时，前后之间的残差就会有某种联系。若存在这种联系，就违背了独立性假设，这将很明显地在残差对收集数据的时间散点图上反映出来。自相关的影响可用杜宾—沃特森统计量进行测度 null5·一元线性回归模型的显著性检验回归系数b的检验：设总体回归系数为β H0：β=0；H1：β≠0n≥30时检验统计量（β=0） σb是样本回归系数抽样分布的标准差。通常是未知的，用其估计量代替。给定显著性水平α，查Z表可知其临界值。n＜30时（β=0）给定显著性水平α，查t表可知其临界值。null00Ztnull回归模型整体的F检验 H0：R2=0；H1：R2>0 检验统计量 Fnull6·应用回归方程进行估计 n≥30时给定x0，y0的置信度（1-α）的置信区间为：n＜30时xyX00给定的x0越接，y值估计的精确度越高。平均值估计n＜30时特定值估计null 多元线性回归1·多元线性回归模型的确定二元线性回归模型：总体多元线性回归模型的一般形式Y的数学期望随机误差表明自变量共同变动引起的Y 的平均变动。也称总体的二元线性回归方程。null常数项，和Y构成的平面与Y轴的截距偏回归系数，表示在固定时每变化一个单位引起的Y的平均变动；偏回归系数，表示在固定时每变化一个单位引起的Y的平均变动；随机误差，其理论假定与一元线性回归模型中的一样。偏回归系数的符号与它们所联系的自变量Xi同因变量Y的相关系数ri的符号是一致的。 null样本多元线性回归模型的一般形式二元线性回归模型为：其数学期望也称样本（或估计的）二元线性回归方程。2.二元线性回归方程的确定根据实际资料，用最小平方法，即使，分别对b0、b1、b2求编导并令其为零，求得三个标准方程：null解此联立方程便可得到β0、β1和β2。 3·多元线性回归模型的判定系数和估计标准误判定系数修正的判定余数：null估计标准误） r2和Sy（x1、x2）都是对回归模型拟合优度的评价指标。 Sy（x1、x2）也是用自变量对因变量进行区间估计的抽样误差。4·多元线性回归方程的显著性检验对偏回归系数的t检验 H0: β1=0 , H1: β1≠0; H0: β2=0, H1: β2≠0。检验统计量：null按显著性水平α和自由度（n-3）查t表可得到临界值t0null模型整体的F检验检验统计量：（k—自变量个数）或按给定的α和自由度（2）和（n-3）查F表可得到临界值Fαnull5·多元回归中的相关分析复相关：指一个因变量同多个自变量的相关关系。复相关系数恒取正值。偏相关（净相关）指各个自变量在其他自变量固定不变时，单个变量同因变量的相关关系。 x1与y的偏相关系数： x2与y的偏相关系数：null6·应用多元回归方程进行区间估计Y的平均值的区间估计Y的特点值的区间估计式中，是即区间估计的抽样误差。的抽样分布的标准差，式中，是的抽样分布的标准差，即区间估计的抽样误差。null7·建立多元回归模型应注意的几个问题和步骤建立多元回归模型应注意的几个问题 1．变量的选择当实际问题确实有两个或两个以上因素影响其变动时，就应尽力获得这些因素的资料，构造多元回归模型。通常有两种向前逐步回归向后逐步回归 2．多重共线性：如果各自变量之间存在完全相关或高度相关的情况，这在统计上称作多重共线性。 null方差膨胀因子（VIF）＝若一系列自变量之间是不相关的，则VIFj等于1。若这些解释变量之间存在着高度的相关，则VIFj可大到超过10。一般的标准是VIFj的最大值超过5，则可认为此自变量与其他自变量之间存在着较高的相关，需要对回归模型进行修正。 3。多元线性回归模型的残差分析需要对每个自变量与因变量的简单线性回归方程的残差图分别都进行分析 null建立回归模型的方法  1．考虑一批可能入选模型的自变量。 3．判别每个自变量的VIF是否大于5。 4．有可能发生发下三种结果： 2．拟合一个含有全部考虑过的自变量的回归模型，以便判别每个自变量的变异膨胀因子（VIF）。 a. 没有一个自变量的VIF>5，若产生这种情况，进入第5步。 b. 有一个自变量的VIF>5，若产生这种情况，剔除这个自变量，进入第5步。 c. 不止一个自变量的VIF>5，若产生这种情况，剔除VIF值最大的那个自变量，然后回到第2步。null5．对余下的自变量，找出所有自变量形成的子集，进行最佳子集的回归分析，以获得给定自变量的最佳模型。具体可计算Cp统计量来选择最佳子集，有关Cp统计量的计算公式和使用方法可阅读相关的书籍。6．列出所有Cp≤(k+1) 的模型。7．在第5步列出的所有模型中，选择一个最佳模型。8．对模型做一个包括残差分析在内的完整分析。9．根据残差分析的结果，增加二次项或进行变量变换（见下一节），然后分析数据。10．用选定的模型进行预测。 null虚拟变量运用虚拟变量，就能把定性自变量作为回归模型的一部分。逻辑回归若给出的定性自变量有两个分类，虚拟变量Xd的定义如下： Xd =0，若观测对象属于第一个分类 Xd =1，若观测对象属于第二个分类null逻辑回归设P(Y=1｜X)＝p表示自变量为X时，因变量Y=1出现的概率，对p作Logit变换，定义Logit p为 Logit pi＝总体一元逻辑回归模型：Logit pi ＝α+βXi+εi 或样本的一元逻辑回归方程 a+bXi其中或：null例：在一次住房展销会上，与房地产商签定初步购房意向书的共有n=325名顾客，在随后的3个月时间内，只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1, 没有购买房屋的顾客记为0。以顾客年家庭收入为自变量X, 对表所示的数据，建立逻辑回归方程。解：令X为自变量，为因变量，由公式6-49可得回归方程为： -0.8863+0.1558Xi判定系数： r2=0.92

                    本文档为【《统计学》课件】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

《统计学》课件

你可能还喜欢