购买

¥15.0

加入VIP
  • 专属下载特权
  • 现金文档折扣购买
  • VIP免费专区
  • 千万文档免费下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 多元统计分析及spss实现

多元统计分析及spss实现.ppt

多元统计分析及spss实现

xxj7584
2019-03-13 0人阅读 举报 0 0 0 暂无简介

简介:本文档为《多元统计分析及spss实现ppt》,可适用于综合领域

多元统计分析及spss实现数理部任铭多元统计分析方法从研究问题的角度可以分为不同的类相应有具体解决问题的方法。多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。本讲重点介绍常用的统计方法。这些方法包括聚类分析、主成分分析、因子分析、判别分析、对应分析、典型相关分析、方差分析、回归分析等。典型统计赛题:葡萄酒评价(年A题)葡萄酒评价(年A题)内容提纲、数据处理、描述性统计、聚类分析、主成分分析、因子分析、判别分析、方差分析、回归分析一、数据处理SPSS界面介绍建立数据文件制图一、数据处理mdashmdashSPSS界面介绍数据编辑窗口一、数据处理mdashmdashSPSS界面介绍结果编辑窗口一、数据处理mdashmdash建立数据文件定义变量数据录入数据文件的保存数据编辑调用其它数据文件一、数据处理mdashmdash建立数据文件:定义变量单击数据编辑窗口左下方的ldquoVariableViewrdquo标签或双击题头(Var)进入变量定义窗口。可定义:变量名(Name)变量类型(Type)变量长度(Width)小数点位数(Decimal)变量标签(Label)变量值标签(Values)缺失值的定义方式(Missing)变量的显示宽度(Columns)变量显示的对齐方式(Align)变量的测量尺度(Measure)一、数据处理mdashmdash建立数据文件:定义变量定义变量名(Name)时应注意:()变量名可为汉字或英文英文的第一个字符必须为字母后面可跟任意字母、数字、句点或、#、、$等()变量名不能以句点结尾()定义时应避免最后一个字符为下划线ldquordquo(因为某些过程运行时自动创建的变量名的最后一个字符有可能为下划线)()变量的长度一般不能超过个字符()每个变量名必须保证是唯一的不区分大小写。常用的变量类型(Type)包括:数值型、字符串型、日期格式变量等。一、数据处理mdashmdash建立数据文件:数据录入直接录入调入数据:excel、记事本等一、数据处理mdashmdash建立数据文件:保存选择ldquoFilerdquo菜单的ldquoSaverdquo命令可直接保存为SPSS默认的数据文件格式(*sav)。选择ldquoFilerdquo菜单的ldquoSaveAsrdquo命令弹出ldquoSaveDataAsrdquo对话框可选择保存为Excel(*xls)等文件格式。一、数据处理mdashmdash建立数据文件:数据编辑()数据的排序:数据rarr排序个案hellip数据rarr排列变量hellip()数据的转置:数据rarr转置hellip分割文件、重组、选择个案等一、数据处理mdashmdash制图主要通过ldquoGraphrdquo菜单中的选项来创建图形二、描述性统计例:数据给出了员工代码、性别、起始薪金、当前薪金等信息:利用频率计算当前薪金的描述性统计量并绘制带正态检验的直方图利用探索性分析不同性别员工当前薪金情况用比率分析比较不同性别员工的薪金增长率是否有较大差异用PP图和QQ图检验当前薪金是否符合正态分布二、描述性统计利用频率计算当前薪金的描述性统计量并绘制带正态检验的直方图二、描述性统计利用频率计算当前薪金的描述性统计量并绘制带正态检验的直方图二、描述性统计利用探索性分析不同性别员工当前薪金情况单击ldquo分割文件rdquo按钮将ldquo性别rdquo指定为分组方式选中ldquo比较组rdquo单击ldquo确定rdquo分析rarr描述统计rarr描述将ldquo当前薪金rdquo指定为变量单击ldquo选项rdquo按钮选中所需统计量单击ldquo继续rdquo单击ldquo确定rdquo分析rarr描述统计rarr探索将ldquo当前薪金rdquo指定为因变量将ldquo性别rdquo指定为因子单击ldquo绘制rdquo选定ldquo直方图rdquo单击ldquo继续rdquo单击ldquo确定rdquo二、描述性统计利用探索性分析不同性别员工当前薪金情况p值小于通过正态性检验即认为当前薪金分布服从正态分布二、描述性统计用比率分析比较不同性别员工的薪金增长率是否有较大差异分析rarr描述统计rarr比率将ldquo当前薪金rdquo指定为分子将ldquo起始薪金rdquo指定为分母将ldquo性别rdquo指定为组变量单击ldquo统计量rdquo选中:均值、置信区间、AAD、PRD、COD单击ldquo继续rdquo单击ldquo确定rdquo二、描述性统计用比率分析比较不同性别员工的薪金增长率是否有较大差异二、描述性统计用PP图和QQ图检验当前薪金是否符合正态分布QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值用QQ图还可获得样本偏度和峰度的粗略信息PP图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过PP图可以检验数据是否符合指定的分布。当数据符合指定分布时PP图中各点近似呈一条直线。如果PP图中各点不呈直线但有一定规律可以对变量数据进行转换使转换后的数据更接近指定分布。PP图和QQ图的用途完全相同只是检验方法存在差异三、聚类分析mdashmdash聚类分析的概念及分类聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理R型聚类是对变量进行分类处理。三、聚类分析mdashmdash相似性度量在聚类之前要首先分析样品(变量)间的相似性。样品相似性度量(距离):即两个样品间相似程度就可用p维空间中的两点距离公式来度量。变量相似性度量(夹角余弦、相关系数)相对于数据的大小我们更关心变量的方向及相关性三、聚类分析mdashmdash相似性度量几种距离、闵式距离绝对距离(q=)欧氏距离(q=)切比雪夫距离(q=infin)欧氏距离是常用的距离但在解决多元数据的分析问题时欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对ldquo距离rdquo远近的影响显然一个变异程度大的总体可能与更多样品近些既使它们的欧氏距离不一定最近另外欧氏距离受变量的量纲影响这对多元数据的处理是不利的。为了克服这方面的不足可用ldquo马氏距离rdquo的概念。unknown三、聚类分析mdashmdash相似性度量、马氏距离马氏距离又称为广义欧氏距离。显然马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。如果各变量之间相互独立即观测变量的协方差矩阵是对角矩阵则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异性不再受各指标量纲的影响。将原始数据作线性变换后马氏距离不变。unknown三、聚类分析mdashmdash相似性度量.距离选择的原则一般说来同一批数据采用不同的距离公式会得到不同的分类结果。产生不同结果的原因主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则:()要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。()要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理则通常就可采用欧氏距离。()要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题我们应根据研究对象的特点不同做出具体分折。实际中聚类分析前不妨试探性地多选择几个距离公式分别进行聚类然后对聚类分析的结果进行对比分析以确定最合适的距离测度方法。三、聚类分析mdashmdash相似性度量变量相似性度量、夹角余弦、相关系数unknownunknown三、聚类分析mdashmdash相似性度量无论是夹角余弦还是相关系数它们的绝对值都小于作为变量近似性的度量工具我们把它们统记为cij。当∣cij∣=时说明变量Xi与Xj完全相似当∣cij∣近似于时说明变量Xi与Xj非常密切当∣cij∣=时说明变量Xi与Xj完全不一样当∣cij∣近似于时说明变量Xi与Xj差别很大。据此我们把比较相似的变量聚为一类把不太相似的变量归到不同的类内。在实际聚类过程中为了计算方便我们把变量间相似性的度量公式作一个变换为dij=∣cij∣或者dij=cij来表示变量间的距离远近小则先聚成一类这比较符合人们的一般思维习惯。三、聚类分析mdashmdash常见聚类方法A)系统聚类法B)K均值聚类法三、聚类分析mdashmdash常见聚类方法A)系统聚类法系统聚类的基本思想是:距离相近的样品(或变量)先聚成类距离相远的后聚成类过程一直进行下去每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n个样品(或变量)第一步将每个样品(或变量)独自聚成一类共有n类第二步根据所确定的样品(或变量)ldquo距离rdquo公式把距离较近的两个样品(或变量)聚合为一类其它的样品(或变量)仍各自聚为一类共聚成n类第三步将ldquo距离rdquo最近的两个类进一步聚成一类共聚成n类helliphellip以上步骤一直进行下去最后将所有的样品(或变量)全聚成一类。为了直观地反映以上的系统聚类过程可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。系统聚类法与聚类步骤流程图初始分类:若与距离最小,合并为一类no输出分类结果三、聚类分析mdashmdash常见聚类方法B)K均值聚类系统聚类法需要计算出不同样品或变量的距离还要在聚类的每一步都要计算ldquo类间距离rdquo相应的计算量自然比较大特别是当样本的容量很大时需要占据非常大的计算机内存空间这给应用带来一定的困难。而Kmdash均值法是一种快速聚类法采用该方法得到的结果比较简单易懂对计算机的性能要求不高因此应用也比较广泛。K均值法是麦奎因(MacQueen)提出的这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中具体的算法至少包括以下三个步骤:.将所有的样品分成K个初始类.通过欧氏距离将某个样品划入离中心最近的类中并对获得样品与失去样品的类重新计算中心坐标.重复步骤直到所有的样品都不能再分配时为止。K均值聚类法步骤流程图三、聚类分析mdashmdashMatlab聚类分析工具箱Matlab聚类分析工具箱:cluster三、聚类分析mdashmdashSPSS实现例:(数据)已知全国个省市的城市小康水平衡量指标值现要分析各省市城市水平情况及相似程度采用聚类分析法将个省市分为类并用判别分析法分析城市水平划分所依据的主要变量并验证聚类分析所划分类别是否合理。三、聚类分析mdashmdashSPSS实现三、聚类分析mdashmdashSPSS实现三、聚类分析mdashmdashSPSS实现四、主成分分析mdashmdash主要目的多元统计分析处理的是多变量(多指标)问题。由于变量较多增加了分析问题的复杂性。但在实际问题中变量之间可能存在一定的相关性因此多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性用较少的变量来代替原来较多的变量而这种代替可以反映原来多个变量的大部分信息这实际上是一种ldquo降维rdquo的思想。四、主成分分析mdashmdash数学模型主成分分析的数学模型是设p个变量构成的p维随机向量为X=(XhellipXp)prime。对X作正交变换令Y=TprimeX其中T为正交阵要求Y的各分量是不相关的并且Y的第一个分量的方差是最大的第二个分量的方差次之helliphellip等等。为了保持信息不丢失Y的各分量方差和与X的各分量方差和相等。主成分分析的计算:设的协差阵为其特征根为EMBEDEquationDSMT相应的单位化的特征向量为。那么由此所确定的主成分为其方差分别为的特征根。unknownunknownunknownunknownunknownunknownunknownunknownunknown四、主成分分析mdashmdash主成分的性质主成分的性质性质:主成分的协方差矩阵是对角阵。性质:主成分的总方差等于原始变量的总方差性质:主成分与原始变量的相关系数为并称之为因子负荷量(或因子载荷量)。性质()。unknownunknownunknownunknownunknown四、主成分分析mdashmdash累计贡献率主成分分析的目的是减少变量的个数所以一般不会使用所有个主成分的忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称为第个主成分的贡献率为主成分的累计贡献率累计贡献率表明综合的能力。通常取使得累计贡献率达到一个较高的百分数(如%以上)。unknownunknownunknownunknownunknownunknownunknownunknownunknownunknown四、主成分分析mdashmdash具体步骤因此在实际应用中主成分分析的具体步骤可以归纳为:将原始数据标准化建立变量的相关系数阵求的特征根为相应的特征向量为由累积方差贡献率确定主成分的个数()并写出主成分为unknownunknownunknownunknownunknownunknown四、主成分分析mdashmdash综合评价运用主成分进行综合评价设是所求出的个主成分它们的特征根分别是将特征根ldquo归一化rdquo即有EMBEDEquationDSMT记为由构造综合评价函数为()令并代入()式有从本质上说综合评价函数是对原始指标的线性综合从计算主成分到对之加权经过两次线性运算后得到综合评价函数。unknownunknownunknownunknownunknownunknownunknownunknownunknownunknown四、主成分分析mdashmdashSPSS实现例:(数据)汽车参数用主成分分析和因子分析方法处理该数据。四、主成分分析mdashmdashSPSS实现四、主成分分析mdashmdashSPSS实现该表给出了主成分分析从每个变量提取的信息可以看出所有变量都提取了以上的信息。四、主成分分析mdashmdashSPSS实现该表为各主成分解释原始变量总方差的情况默认保留了特征值大于的主成分前两个主成分累积解释了的方差效果比较好。四、主成分分析mdashmdashSPSS实现该表为成分矩阵即主成分与标准化原始变量之间相关系数矩阵标准化原始变量可用所得主成分近似线性表示同时()=即第一个变量被提取的信息的比例。第一列数据的平方和为第主成分的特征值。四、主成分分析mdashmdashSPSS实现本例分析从相关矩阵出发求主成分该表中的系数为将原始变量标准化后表示主成分的系数。标准化主成分=X引擎X马力helliphellip()X油耗五、因子分析因子分析(factoranalysis)也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系探求观测数据中的基本结构并用少数几个ldquo抽象rdquo的变量来表示其基本的数据结构。这几个抽象的变量被称作ldquo因子rdquo能反映原来众多变量的主要信息。原始的变量是可观测的显在变量而因子一般是不可观测的潜在变量。例如在商业企业的形象评价中消费者可以通过一系列指标构成的一个评价指标体系评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外商店的环境和服务质量都是客观存在的、抽象的影响因素都不便于直接测量只能通过其它具体指标进行间接反映。因子分析就是一种通过显在变量测评潜在变量通过具体指标测评抽象因子的统计分析方法。五、因子分析因子分析的内容非常丰富常用的因子分析类型是Q型因子分析和R型因子分析。Q型因子分析是对样品作因子分析R型的因子分析是对变量作因子分析。侧重讨论R型因子分析。五、因子分析(一)R型因子分析模型R因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素每一个变量都可以表示成公共因子的线性函数与特殊因子之和即()()()式中的称为公共因子称为的特殊因子。该模型可用矩阵表示为:()unknownunknownunknownunknownunknownunknownunknownunknown五、因子分析这里unknownunknownunknownunknown五、因子分析且满足:()()即公共因子与特殊因子是不相关的()即各个公共因子不相关且方差为()即各个特殊因子不相关方差不要求相等。unknownunknownunknownunknown五、因子分析(二)Q型因子分析类似地Q型因子分析的数学模型可表示为:()()Q型因子分析与R型因子分析模型的差异体现在表示的是个样品。unknownunknownunknownunknown五、因子分析前面的因子分析模型中出现了一个概念叫因子载荷矩阵实际上因子载荷矩阵存在明显的统计意义。为了对因子分析过程和计算结果做详细的解释我们对因子载荷矩阵的统计意义加以说明。五、因子分析.因子载荷的统计意义对于因子模型我们可以得到与的协方差为:==unknownunknownunknownunknownunknownunknownunknown五、因子分析如果对作了标准化处理的标准差为且的标准差为因此()那么从上面的分析我们知道对于标准化后的是与的相关系数它一方面表示对的依赖程度绝对值越大密切程度越高另一方面也反映了变量对公共因子的相对重要性。了解这一点对我们理解抽象的因子含义有非常重要的作用。unknownunknownunknownunknownunknownunknownunknownunknownunknown五、因子分析.变量共同度的统计意义设因子载荷矩阵为称第行元素的平方和即()为变量的共同度。由因子模型知()unknownunknownunknownunknownunknownunknownunknownunknown五、因子分析这里应该注意()式说明变量的方差由两部分组成:第一部分为共同度它描述了全部公共因子对变量的总方差所作的贡献反映了公共因子对变量的影响程度。第二部分为特殊因子对变量的方差的贡献通常称为个性方差。如果对作了标准化处理有()unknownunknownunknownunknownunknown五、因子分析、公因子的方差贡献的统计意义设因子载荷矩阵为称第列元素的平方和即为公共因子对的贡献即表示同一公共因子对各变量所提供的方差贡献之总和它是衡量每一个公共因子相对重要性的一个尺度。unknownunknownunknownunknownunknownunknown五、因子分析mdashmdash具体步骤在实际应用中因子分析的具体步骤可以归纳为:五、因子分析mdashmdashSPSS实现可以看出除马力和轴距两个变量的相关系数较小外其余各变量的相关系数都大于各变量相关性较强。五、因子分析mdashmdashSPSS实现KMO=该值越接近意味着变量间的相关性越强适合于因子分析:非常适合(,)内适合:(,)内一般(,)内适合度较低适合度很低。Bartlett的球形度检验小于即变量间存在相关惯性系适合做因子分析。五、因子分析mdashmdashSPSS实现五、因子分析mdashmdashSPSS实现第一个因子主要由引擎、马力、油耗个变量决定这个变量在第一个主因子上的载荷均在以上该因子代表汽车的动力情况与汽车所能达到的最大行驶速度有关。第二个因子主要由轴距、长度两个变量决定这两个变量在该因子上的载荷均在以上表明该因子代表汽车的外形特征。五、因子分析mdashmdashSPSS实现表是研究消费者对购买牙膏偏好的调查数据。通过市场的拦截访问用级量表询问受访者对以下陈述的认同程度(表示非常不同意表示非常同意)。V:购买预防蛀牙的牙膏是重要的V:我喜欢使牙齿亮泽的牙膏V:牙膏应当保护牙龈V:我喜欢使口气清新的牙膏V:预防坏牙不是牙膏提供的一项重要利益V:购买牙膏时最重要的考虑是富有魅力的牙齿。五、因子分析mdashmdashSPSS实现表牙膏属性评分得分表编号VVVVVV编号VVVVVV五、因子分析mdashmdashSPSS实现编号VVVVVV五、因子分析mdashmdashSPSS实现将表中的数据通过SPSS进行因子分析得到相关结果是:特征根和累计贡献率表方差贡献率表五、因子分析mdashmdashSPSS实现从表可以看出提取两个因子累计方差贡献率就达到第三个特征根相比下降较快因此我们选取两个公共因子。因子的含义为了得到意义明确的因子含义我们将因子载荷阵进行方差最大法旋转得到旋转后的因子载荷矩阵如下表。表旋转后因子载荷矩阵五、因子分析mdashmdashSPSS实现从因子载荷阵可以看出:因子与V(预防蛀牙)V(保护牙龈)V(预防坏牙)相关性强其中V的载荷是负数是由于这个陈述是反向询问的因子与V(牙齿亮泽)V(口气清新)V(富有魅力)的相关系数相对较高因此我们命名因子为ldquo护牙因子rdquo是人们对牙齿的保健态度因子是ldquo美牙因子rdquo说明人们ldquolsquo通过牙膏美化牙齿rsquo影响社交活动rdquo的重视。从这两方面分析对牙膏生产企业开发新产品都富有启发意义。六、判别分析判别分析问题即根据历史上划分类别的有关资料和某种最优准则确定一种判别方法判定一个新的样本归属哪一类。这类问题用数学语言来表达可以叙述如下:设有n个样本对每个样本测得p项指标(变量)的数据已知每个样本属于k个类别(或总体)GGhellipGk中的某一类且它们的分布函数分别为F(x)F(x)hellipFk(x)。我们希望利用这些数据找出一种判别函数使得这一函数具有某种最优性质能把属于不同类别的样本点尽可能地区别开来并对测得同样p项指标(变量)数据的一个新样本能判定这个样本归属于哪一类。六、判别分析mdashmdash分类判别分析内容很丰富方法很多。判别分析按判别的总体数来区分:两个总体判别分析、多总体判别分析按区分不同总体所用的数学模型来分:有线性判别、非线性判别按判别时所处理的变量方法不同:逐步判别、序贯判别判别分析可以从不同角度提出问题因此有不同的判别准则如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等按判别准则的不同又提出多种判别方法。本章仅介绍距离判别法六、判别分析mdashmdash距离判别法距离判别法的基本思想方法:将新样品判别给与其距离最近的总体马氏距离(马哈拉诺比斯Mahalanobis,)设和是来自均值向量为协方差为的总体中的维样本则总体内两点与之间的马氏距离定义为()定义点到总体的马氏距离为()这里应该注意到当(单位矩阵)时即为欧氏距离的情形。unknownunknownunknownunknownunknownunknownunknownunknownunknownunknownunknown六、判别分析mdashmdash距离判别法问题:设有个总体其均值和协方差矩阵分别是和而且。对于一个新的样品要判断它来自哪个总体。计算新样品到每一个总体的距离即()这里。unknownunknownunknownunknownunknownunknownunknownunknownunknownunknown六、判别分析mdashmdash距离判别法其中unknownunknown六、判别分析mdashmdash距离判别法从上节看距离判别法虽然简单便于使用。但是该方法也有它明显的不足之处。第一判别方法与总体各自出现的概率的大小无关第二判别方法与错判之后所造成的损失无关。六、判别分析mdashmdashMatlab判别分析工具箱Matlab判别分析工具箱:classify七、方差分析单因素方差分析多因素方差分析七、方差分析mdashmdash单因素方差分析例:(数据)为检验家工厂生产的机器加工一批原料所需的平均时间是否相同某化学公司得到了关于加工原料所需时间的数据利用这些数据检验家工厂加工一批原料所需平均时间是否相同。各厂的加工效率是否存在差异?哪个厂的加工时间最短?工厂加工时间七、方差分析mdashmdash单因素方差分析方差分析就是通过对水平之间的方差(组间方差)和水平内部的方差(组内方差)进行比较做出拒绝还是不能拒绝原假设的判断。方差分析通常要有以下两个假定:各样本的独立性即各组观察数据是从相互独立的总体中抽取的。要求所有观察值都是从正态总体中抽取的且方差相等。七、方差分析mdashmdash单因素方差分析数据类型因素A的水平观察值helliphelliphelliphelliphellip七、方差分析mdashmdash单因素方差分析步骤:提出假设rarr构造检验的统计量rarr显著性检验rarr得到结论七、方差分析mdashmdash单因素方差分析提出假设:在单因素方差分析中要检验因素A的k个水平(总体)的均值是否相等因此提出假设的一般形式为:原假设:对立假设:七、方差分析mdashmdash单因素方差分析由于样本均值可以作为总体均值的估计所以可以借助样本均值粗略估计一下总体均值的情况。符号说明:总样本容量第i水平的样本均值总样本均值七、方差分析mdashmdash单因素方差分析当时有三组的样本均值各不相等能否说明三组的总体均值有明显差异?为什么观察值之间存在差异?这些差异是由哪些原因造成的?如何来衡量各组之间的差异大小呢?七、方差分析mdashmdash单因素方差分析所有观察值几乎各不相等它们的分散程度可以用总平方和来度量。观察值之间的差异越大ST越大。在单因素实验中造成观察值差异的原因有两个:一个是由随机误差引起的不可避免另一个就是由因素的不同水平造成的。七、方差分析mdashmdash单因素方差分析我们定义组间平方和来度量各组之间的差异。定义组内平方和来度量组内随机误差引起的偏差。可以证明:七、方差分析mdashmdash单因素方差分析按照构造统计量的基本原则:统计量具有一定的实际意义统计量要服从某已知分布可以构造单因素方差分析的统计量:服从自由度为的F分布。七、方差分析mdashmdash单因素方差分析对给定的显著性水平当时应拒绝原假设H即认为各水平之间有明显差异否则应接受原假设H即认为各水平之间无明显差异。七、方差分析mdashmdash单因素方差分析七、方差分析mdashmdash单因素方差分析p值为在显著性水平的前期下通过了方差齐性检验即不同厂的加工时间被认为是来自于相同方差的不同总体满足方差分析的前提。七、方差分析mdashmdash单因素方差分析表中的ldquo*rdquo表示在显著性水平的情况下相应的两组均值之间存在显著差异。七、方差分析mdashmdash单因素方差分析p值近似为远小于显著性水平因此有理由拒绝原假设认为不同工厂对加工时间产生了显著影响。七、方差分析mdashmdash多因素方差分析例:(数据)某电器公司想知道某产品销售量与销售方式及销售地点是否有关随机抽样得到以下资料以的显著性水平进行检验。地点一地点二地点三地点四地点五方式一方式二方式三方式四七、方差分析mdashmdash多因素方差分析以下根据平方和分解的思想来给出检验用的统计量的计算公式。先引入下述记号:其中i=,,hellip,rj=,,hellip,s总样本容量n=rtimesstimesm七、方差分析mdashmdash多因素方差分析总偏差平方和ST、因素A的效应平方和SA、因素B的效应平方和SB、交互效应平方和SAtimesB以及误差平方和SE的计算公式如下:七、方差分析mdashmdash多因素方差分析七、方差分析mdashmdash多因素方差分析七、方差分析mdashmdash多因素方差分析例:某电器公司想知道某产品销售量与销售方式及销售地点是否有关随机抽样得到以下资料以的显著性水平进行检验。地点一地点二地点三地点四地点五方式一方式二方式三方式四七、方差分析mdashmdash多因素方差分析七、方差分析mdashmdash多因素方差分析七、方差分析mdashmdash多因素方差分析销售方式的p值为表明对销售量的影响存在显著差异销售地点不存在显著差异。七、方差分析mdashmdash多因素方差分析该均衡子集表中第一均衡子集包含方式和方式两均值比较的概率p值为表明销售方式和销售方式的销售量均值之间无明显差异。八、回归分析变量与变量的关系:确定性关系函数关系U=IRv=gt变量与变量的关系:非确定性关系统计相关(具有统计规律)Y=f(x,x,hellip,xn)helliphellip回归分析方法八、回归分析八、回归分析mdashmdash一元线性回归八、回归分析mdashmdash一元线性回归可以用相关分析或非线性回归分析画出两个变量X和Y的散点图由X的变化引起的Y的线性变化部分abXY=abXepsilon由于其他随机因素引起的Y的变化部分epsilonepsilon~N(,sigma)观察散点是否呈直线趋势是否建立一元线性回归模型:Y=abXepsilon如何建立方程???最小二乘法根据距离观测值的各点平方和最小原则确定参数的方法称为最小二乘法八、回归分析mdashmdash一元线性回归:最小二乘法最小二乘法就是使实际观测值的参数的最小二乘估计与之间的差的平方和取最小值即要选择的参数应满足使残差平方和取最小值。令整理得方程组:正规方程组解此正规方程组得八、回归分析mdashmdash一元线性回归:最小二乘法总离差平方和回归平方和剩余平方和离差平方和的分解八、回归分析mdashmdash一元线性回归:最小二乘法八、回归分析mdashmdash一元线性回归:统计检验F对回归模型的显著性检验t对回归系数的显著性检验样本决定系数R模型拟合优度检验对一元线性回归来说三种检验的等价的但对多元的则不同。八、回归分析mdashmdash一元线性回归:统计检验、回归方程的拟合优度检验mdashmdash检验R越接近于回归方程对实际观测值的拟合优度越高R越接近于回归方程对实际观测值的拟合优度越低。八、回归分析mdashmdash一元线性回归:统计检验、回归方程的显著性检验mdashmdashF检验H:线性关系不显著H:线性关系显著当H为真时检验统计量~F(n)给定显著性水平alpha查表确定临界点确定拒绝域:列出方差分析表八、回归分析mdashmdash一元线性回归:统计检验方差分析表方差来源平方和自由度均方差F值回归平方和剩余平方和SSRSSEnVR=SSRVE=SSEnF=VRVE总平方和SSTn八、回归分析mdashmdash一元线性回归:统计检验、回归系数的显著性检验mdasht检验回归系数的显著性检验是检验自变量X对因变量Y的影响是否显著。如果回归系数b=总体回归直线是一条水平线表明自变量X的变化对因变量Y没有影响。因此回归系数的显著性检验就是检验回归系数b与之间是否有显著差异。八、回归分析mdashmdash一元线性回归:统计检验t检验步骤八、回归分析mdashmdash一元线性回归:预测预测就是指通过自变量X的取值估计或预测因变量Y的取值。其中八、回归分析mdashmdash多元线性回归:模型涉及p个自变量的多元线性回归模型可表示为八、回归分析mdashmdash多元线性回归:检验判定系数R仍然是指回归平方和占总离差平方和的比例。、回归方程的拟合优度检验mdashmdash检验修正的判定系数是指用平均剩余平方和来代替SSE用平均总离差平方和来代替SST进而得到修正的判定系数的计算公式为:八、回归分析mdashmdash多元线性回归:检验、回归方程的显著性检验mdashmdashF检验给定显著性水平alpha查表确定临界点。当时拒绝原假设认为回归方程显著。八、回归分析mdashmdash多元线性回归:检验、回归系数的显著性检验mdasht检验回归系数的检验就是用来确定每一个单个的自变量Xj对因变量Y的影响是否显著。在多元线性回归中回归方程的显著性检验不再等价于回归系数的显著性检验。检验的步骤如下:()提出假设:H:bj=H:bjne()构造检验统计量当H为真时检验统计量为:八、回归分析mdashmdash多元线性回归:检验()给定显著性水平alpha查表确定临界点()确定拒绝域:()做出统计决策:时拒绝H认为Xj对因变量Y的影响显著反之就认为自变量Xj对因变量Y的影响不显著。八、回归分析mdashmdash多元线性回归:检验F对回归模型的显著性检验:)显著表示y与X有明显的线性关系但有可能用非线性更合理)不显著只能说明没有显著线性关系可能有别的关系t对回归系数的显著性检验样本决定系数R模型拟合优度检验反应了自变量全体对因变量的解释程度八、回归分析mdashmdash多元线性回归:实例例:(数据)研究影响汽车销售量的因素给出了一些汽车的特征研究这些特征与汽车销售量之间的关系通过多元线性回归模型为汽车的改进设计提出建议以提高销售量。八、回归分析mdashmdash多元线性回归:实例八、回归分析mdashmdash多元线性回归:实例八、回归分析mdashmdash多元线性回归:实例八、回归分析mdashmdash多元线性回归:实例模型的R大于模型的R说明模型可解释的变化占总变化的比例越来越大引入方程的变量wheelbase是显著的。八、回归分析mdashmdash多元线性回归:实例p值表明销售量与price和wheelbase间存在着线性关系但不能直接说明这线性关系的强弱八、回归分析mdashmdash多元线性回归:实例t检验p值表明price和wheelbase都有显著性意义常数项p值不能通过显著性检验。销售量=XpriceXwheelbase最右一列为共线性诊断统计量两个变量的膨胀因子(VIF)都为所有模型中的两个自变量之间没有出现共线性。

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

评分:

/135

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利