首页 第4章集中趋势与离中趋势

第4章集中趋势与离中趋势

举报
开通vip

第4章集中趋势与离中趋势第四章集中趋势和离中趋势4.1集中趋势的计量4.2离中趋势的计量4.3数据的分布形状1.简单算术平均数计算公式:它是反映数据集中的主要测度。4.1集中趋势的计算集中趋势反映一组资料中各数据所具有的共同趋势。一、算术平均(也叫均值)算术平均的统计含义:算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的数值。反映数据集中的特征。例某生产班组11个工人的日产零件数分别为:15,17,19,20,22,…26,30。求该生产班组工人的平均日产零件数。22*******…解:算术平均值的性质...

第4章集中趋势与离中趋势
第四章集中趋势和离中趋势4.1集中趋势的计量4.2离中趋势的计量4.3数据的分布形状1.简单算术平均数计算公式:它是反映数据集中的主要测度。4.1集中趋势的计算集中趋势反映一组资料中各数据所具有的共同趋势。一、算术平均(也叫均值)算术平均的统计含义:算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的数值。反映数据集中的特征。例某生产班组11个工人的日产零件数分别为:15,17,19,20,22,…26,30。求该生产班组工人的平均日产零件数。22*******…解:算术平均值的性质一:数据观察值与均值的离差值之和为零.此性质表明均值是各数值的重心算术平均值的性质二:观察值与均值的离差平方和最小。为非任意数故用算术平均值来预测作为估计值,误差平方和最小。( 证明 住所证明下载场所使用证明下载诊断证明下载住所证明下载爱问住所证明下载爱问 见P74)数列:1,2,2,3平均数为2数列:1,2,2,5平均数为2.5数列:1,2,2,7平均数为3均值的缺点:均值易受极端值的影响,某个极端大值或极端小值都会影响均值的代表性,影响其对集中趋势测度的准确性。2.加权算术平均数如果数据是分组资料,经过整理形成了次数分配,由于各组次数不同,要用次数作权数计算加权算术平均数。则均值的计算公式为:其中Xi表示第i组的组中值,fi表示第i组的次数。工人一周生产零件数工人数fi组中值xixifi60以下75538560-702165136570-802575187580-901985161590以上895760合计80---6000例:某单位80工人一周生产零件数的分组统计资料如下表:二、中位数将数据观察值x1,x2,…,xn按其变量值由小到大的顺序排列,处于数列中点位置的数值就是中位数(Me)。中位数的确定方法:①如果数据个数为奇数,则处于(n+1)/2位置的标志值是中位数。②如果数据个数为偶数,则处于n/2、n/2+1的两个标志值的平均数为中位数。③如果是组距分组资料,公式为:中位数是n/2位置上的数值,设落在第i组,Li是中位数所在组的下限,Ui是中位数所在组的上限;fi是中位数所在组的次数。Fi-1是中位数所在组的前一组的累积次数Ui-Li是中位数所在组的组距=上限-下限向上累积向下累积某单位80工人一周生产零件数分组统计资料如下:工人一周生产零件数工人数fi组中值xixifi向上累计频数向下累计频数60以下75538578060-7021651365287370-8025751875535280-9019851615722790以上895760808合计80---6000------121328优点:中位数是位置平均数,不受极端值的影响。不足:中位数确定时只与中间位置的相关数据有关,而不考虑其它数值的大小,缺乏敏感性;计算复杂。三、众数众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度(M0)。①未分组资料,M0就是出现次数最多的变量值。20,15,18,20,20,22,20,23众数为2020,20,15,19,19,20,19,25众数为19,2010,11,13,16,15,25,8,12不存在众数②分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。设众数在第i组,则Li是众数所在组的下限,Ui是众数所在组的上限;fi是众数所在组的次数。di=Ui-Li是中位数所在组的组距=上限-下限某单位80工人一周生产零件数分组统计资料如下:工人一周生产零件数工人数fi组中值xixifi向上累计频数向下累计频数60以下75538578060-7021651365287370-8025751875535280-9019851615722790以上895760808合计80---6000------60以下70809090以上102030f(人数)周生产零件数Δ1Δ2M0在Excel中AVERAGE()—计算算术平均数如:AVERAGE(F1:F30)利用SUM()函数和SUMPRODUCT()函数求加权算术平均。如:SUMPRODUCT(A1:A10,B1:B10)/SUM(B1:B10)MEDIAN()—计算中位数如:MEDIAN(F1:F30)MODE()—计算众数如:MODE(F1:F30)四、均值、中位数、众数三者之间的关系XfXfXf(对称分布)正偏态分布(右)负偏态分布(左)均值是数据分布的平衡点或重心,中位数把这个分布划分为两半,众数正好是分布的顶端。在偏斜不大时,中位数大约位于均值与众数的1/3处。算术平均数适合用代数方法运算,故在实践中应用很广,主要适用于数值变量;中位数不受极端值的影响,各个数值相对其中位数的绝对离差之和为最小。故当一组观测值有极大值或极小值时,用中位数表示现象的一般水平更具有代表性。众数适用于总体的单位数较多,各标志值的次数分配有明显的集中趋势的情况。如果总体单位数很少,尽管次数分配较集中,那么计算出来的众数意义不大;如果总体单位数很多,但次数分配不集中,即各单位的标志值在总体中出现的比重较均匀,那么也无所谓众数。五、集中趋势的其它测度量1.分位数:四分位数、十分位数、百分位数。(P84)分位数的计算:(1)将资料按大小顺序排列;(2)求出分位数所在位置i;(3)若i为整数,则所求分位数为该位置上的数值;若i为非整数,则取第[i]与第[i]+1位置的两个数值的平均数为所求分位数。(4)若资料为分组数据,则各分位数可按下式计算:Ki表示第i个K分位数;Li表示第i个K分位数所在组的下限;N表示数据总个数;Fi-1表示第i个K分位数所在组的前一组的累积次数;fi是第i个K分位数所在组的次数。di=Ui-Li是第i个K分位数所在组的组距。其中[]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上四分位数的位置确定方法:方法1:定义算法方法2:以中位数为中心,从两端再计算中位数,公式:方法3Excel给出的四分位数位置的确定方法无论哪种算法,如果位置是整数,四分位数就是该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果在0.25或0.75位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。【例】:9个家庭的人均月收入数据(3种方法计算)原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789方法1:方法2:所以QL为从最小值数第3个数值,即850元;Qu为从最大值数第3个数值,即1500元;方法3Excel方法所以QL为第3个数值,即850元;Qu为7个数值,即1500元;可见三种方法计算的四分位数不完全相同。但对他们的解释是一样的,即排序数据中,至少25%的数据小于等于QL,至少75%的数据小于等于Qu。原始数据:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234567892.几何平均数(1)简单几何平均数公式为:对上式取对数:主要用于计算平均发展速度或平均增长率,即(1)对比率进行平均;(2)测定生产或经济变量的时间序列的平均增长率。例:某高校2001-2005年学生人数如下表,求该校学生学生人数的平均发展速度。平均发展速度为:年份学生人数逐年发展速度(%)20003760---20015900156.920027600128.820039900130.3200410200103.0200511000107.8例:某机械厂五个流水作业车间的合格率分别为96%、94%、95%、95%和96%,则五个车间(即全厂)的平均生产合格率为:但注意:该厂总的合格率为(2)加权几何平均数当各个变量值出现的次数不等时,则应采用加权几何平均。公式为:注意:当观测值有一项为0或负值时,不易计算几何平均数。例:将一笔钱存入银行,存期10年,以复利计息,10年的利率分配是:第1年至第2年为5%、第3年至5年为8%、第6年至第8年为10%、第9年至第10年12%,计算平均年利率。3.调和平均值调和平均值是观察值倒数之平均数的倒数,也称倒数平均数。用表示:当总体单位数未知或观测值是具有倒数性质的变量时,适合采用调和平均数。例如某人前10公里以时速50公里行驶,后10公里以30公里时速行驶。这20公里花了0.533小时,所以平均时速加权调和平均数mi表示各组标志总量。应用条件:资料经过分组,各组次数不同。例:市场上某种蔬菜的价格是早市每公斤1.25元,午市每公斤1.20元,晚市每公斤1.10元。现若早、中、晚分别购买15元、12元和10元钱的蔬菜,问所购买蔬菜的平均价格是多少?算术平均、几何平均、调和平均三者关系三者均属于均值体系一般情况下,算术平均值、几何平均值、调和平均值有如下关系:在实际中任何一个计算对象一般都只适合采用一种方法来计算平均数,也就是说不同的平均数计算方法适合不同的计算条件,必须加以正确选择。在Excel中QUARTILE()—计算四分位数如:QUARTILE(A2:A10,1)——第一个四分位数QUARTILE(A2:A10,2)——第二个四分位数(即中位数)QUARTILE(A2:A10,3)——第三个四分位数QUARTILE(A2:A10,0)——最小值QUARTILE(A2:A10,4)——最大值PERCENTILE()—计算百分位数如:PERCENTILE(B2:B15,0.3)GEOMEAN()—计算几何平均数GEOMEAN(B2:B10)HARMEAN()—计算简单调和平均数HARMEAN(B2:B10)4.2离中趋势的计算离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。离中趋势测度经常用到的指标有:极差、方差和 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差、四分位差等,它们也被称为变异指标。一、极差极差也称为全距,是一组数据的最大值和最小值的差:缺点:易受极端值的影响。由于全距只考虑了两个极端值之间的差距,没有利用全部观测值的信息,所以不能充分反映全部观测值之间的实际差异程度,在应用上有一定的局限性。二、平均差1、平均差是指数据值与其均值之差的绝对值的算术平均值,用符号A·D表示。计算公式:2、优点:完整地反映了全部数据的分散程度,计算方法简单;缺点:绝对值计算不方便,故实际中较少应用。分组数据:未分组数据:平均差越大,说明数据的离散程度越大;平均差愈小,说明数据的离散程度越小;三、方差与标准差总体方差是观察值与其均值离差平方和的均值;总体标准差是总体方差的正平方根;如果计算总体方差的资料是次数分配数据,在计算总体方差时要将各组权数考虑进去,有如下公式:总体方差的另一种表达方式:总体方差愈大,数据的变动程度愈大,总体方差愈小,数据的变动程度愈小。样本方差与样本标准差当样本数据个数足够大时,样本方差与总体方差很接近在Excel中Max()-min()—计算极差AVEDEV()—计算平均差VARP()—计算总体方差VAR()—计算样本方差STDEVP()—计算总体标准差STDEV()—计算样本标准差四、Chebishev定理与经验法则1.Chebishev定理:对任何一组资料,观测值落于均值左右k个标准差的区间内的比例,至少为(1-1/k2)。Chebishev定理适用于任何形状的次数分布资料,但此区间是一个比较保守的估计值。2.经验法则:当资料分布呈对称形状时,有:(1)约有68%的观测值落于的区间内;(2)约有95%的观测值落于的区间内;(3)约有99.7%的观测值落于的区间内;五、相对离中趋势——变异系数定义:变异系数又称离散系数,是标准差与均值的比值。(CoefficientofVariation)公式:对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较例:甲乙两车间工人日产量的均值分别为58件和65件,标准差分别为10件和13件,试计算其变异系数。故甲车间工人平均日产量的代表性大,工人技术熟练程度较均衡。哪名运动员的发挥更稳定?在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10枪共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩,如下表:最后的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰林娜以总成绩489.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺·萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫·蒙赫珠勒仅以479.6环的成绩名列第8名由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。【例】评价哪名运动员的发挥更稳定发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇和中国的郭文珺,发挥不稳定的运动员是蒙古的卓格巴德拉赫·蒙赫珠勒和波兰的莱万多夫斯卡·萨贡六、离中趋势的其它测度量1.四分位差四分位差是第三个四分位值与第一个四分位值之差的二分之一。用Q.D.表示。意义:——剔除了极端值影响;——与中位数配合说明数据分布是否对称。若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2若不相等,则是非对称的。2.异众比率异众比率指非众数值的次数之和占总次数的比重,用VMo表示。fMo为众数值次数,N为总次数含义:异众比率数值越大,说明众数的代表性越低,即观测值差异较大;异众比率数值越小,说明众数的代表性越高,即观测值差异较小。3.平均差系数对于分类数据(如根据行业做分类有:零售业、旅游业、制造业等),主要用异众比率来测度其离散程度;对于顺序数据(如受教育程度可分为小学、中学、大学、硕士等),主要用四分位差来测度其离散程度;对于数值型数据,主要用方差或标准差来测度其离散程度;当需要对不同样本数据的离散程度进行比较时,则使用离散系数4.3数据的分布形状一、偏斜度偏斜度是对数据分布在平均数两侧的偏移方向和偏移程度所作的描述。1.Pearson偏态系数偏态系数以平均数与中位数之差对标准差之比来衡量偏斜程度,用SK表示。其计算公式为:当SK=0时,呈对称分布;当SK>0时,分布是右偏(正偏)的;当SK<0时,分布是左偏(负偏)的。SK=0SK>0SK<0(对称分布)正偏态分布(右)负偏态分布(左)2.动差法(矩法)求偏态系数统计学中,矩包括原点矩和中心矩。k阶原点矩的定义是:k为整数。k阶中心矩的定义是:中心矩的两个重要性质:——分布对称时,奇数阶中心矩恒为零;——当分布为正态分布时,偶数阶中心矩有:(2k-1)!!表示从1到2k-1点的一切奇数的连乘积。矩法估计就是利用中心矩来衡量分布的偏度。用公式表示为:偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为中等偏态分布;偏态系数越接近0,偏斜程度就越低EXCEL中,用函数skew()求偏斜度如:skew(B3:B10)二、峰度峰度是变量分布的又一性质,它指的是分布曲线的高峰形态,即分布曲线的尖峭程度。峰度系数EXCEL中,用函数kurt()求峰度如:kurt(B3:B10)峰度系数K=3,分布为正态峰度(常态峰);峰度系数K>3时,表示频数分布比正态分布更集中,分布呈尖峰状态(高狭峰);峰度系数K<3时,表示频数分布比正态分布更分散,分布呈平坦峰(低阔峰)。如图:注意:用EXCEL计算的峰度系数经过处理使得正态分布的峰值系数为0,故结果大于0表示分布呈尖峰状态(高狭峰),结果小于0表示分布呈平坦峰(低阔峰)。EXCEL的统计描述功能使用【数据】→“数据 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 ”→“描述统计”功能若菜单没有显示,则可通过下面的方法加载:Office左上角按钮→Execl选项→加载项→转到→选中分析工具库数据的描述统计量
本文档为【第4章集中趋势与离中趋势】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_641889
暂无简介~
格式:ppt
大小:667KB
软件:PowerPoint
页数:0
分类:金融/投资/证券
上传时间:2018-07-05
浏览量:39