首页 chapt01 次数分布和平均数、变异数

chapt01 次数分布和平均数、变异数

举报
开通vip

chapt01 次数分布和平均数、变异数chapt01 次数分布和平均数、变异数 第一章 次数分布和平均数、变异数 35 第一章 次数分布和平均数、变异数 通过科学试验的观察、测定和记载,可以得到大量的数据资料。对于这些资料,必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏在数据中的客观规律。所以,资料的整理和分析是试验工作的重要组成部分,也是深入认识客观事物的一个重要步骤。 第一节 总体及其样本 具有共同性质的个体所组成的集团,称为总体(population),总体往往是根据事物的属性人为规定的。总体所包含的个体数目可能有无穷多个,...

chapt01 次数分布和平均数、变异数
chapt01 次数分布和平均数、变异数 第一章 次数分布和平均数、变异数 35 第一章 次数分布和平均数、变异数 通过科学试验的观察、测定和记载,可以得到大量的数据资料。对于这些资料,必须按照一定的程序进行整理和分析,才能透过数据表现看到蕴藏在数据中的客观规律。所以,资料的整理和分析是试验工作的重要组成部分,也是深入认识客观事物的一个重要步骤。 第一节 总体及其样本 具有共同性质的个体所组成的集团,称为总体(population),总体往往是根据事物的属性人为规定的。总体所包含的个体数目可能有无穷多个,这种总体称为无限总体(infinite population);也可能是由有限个个体构成,这种总体称为有限总体(finite population)。例如水稻品种湘矮早4号的总体,是指湘矮早4号这一品种在多年、多地点无数次种植中的所有个体,其个体数目是无限的,所以是无限总体。而诸如“某一小区种植的所有大豆植株”,“一包小麦种子”,“一块玉米田的果穗”等总体,由有限个个体组成,因而是有限总体。总体可以是根据属性人为定义的,因此可能是抽象的,例如“水稻品种”可以是一个总体,它是指所有的水稻品种;“江苏水稻新品种”也可以是一个总体,它是指江苏省新近选育成功的所有水稻品种。 同一总体的各个体间在性状或特性表现上有差异,因而总体内个体间呈现不同或者说呈现变异。例如同是湘矮早4号,即使栽培在相对一致的条件下,由于受到许多偶然因素的影响,它的植株高度也彼此不一。每一个体的某一性状、特性的测定数值叫做观察值(observation)。观察值集合起来,称为总体的变数(variable)。总体内个体间尽管属性相同但仍然受一些随机因素的影响造成观察值或表现上的变异,所以变数又称为随机变数(random variable)。 由总体的全部观察值而算得的总体特征数,如总体平均数等,则称为参数。参数是反映某类事物的总体规律性的数值,科学研究的目的就在于求得对总体参数的了解。但总体所包含的个体往往太多,不能逐一测定或观察。因而,一般只能从总体中抽取若干个个体来研究。这些个体的集合称为样本(sample)。测定样本中的各个体而得的样本特征数,如平均数等,称为统计数(statistic)。统计数是总体相应参数的估计值(estimate)。 既然要从样本估计总体的特征参数,那么就要考虑样本的代表性,样本越能近似地代表总体就越好。而这样的样本,一般是随机地从总体中抽取的,这样可以无偏地估计总体。从总体中随机抽取的样本称为随机样本(random sample),其意义将于后述。此外,样本中包含的个体数称为样本容量或样本含量(sample size)。随机样本的容量越大,越能代表总体。 第一章 次数分布和平均数、变异数 36 第二节 次数分布 一、试验资料的性质与分类 试验中观察记载所得数据,因所研究的性状、特性不同而有不同的性质,一般可以分为数量性状资料和质量性状资料两大类。 (一) 数量性状资料 数量性状(quantitative trait)的度量有计数和量测两种方式,其所得变数不同。 1. 不连续性或间断性变数(discontinuous or discrete variable) 指用计数方法获得的数据,如基本苗数、分蘖数、穗数、每穗小穗数、每穗粒数等,其各个观察值必须以整数表示,在两个相邻的整数间不容许有带小数的数值存在。例如在记载单株分蘖数时,只能得到整数而不能得到3.2或4.8个分蘖。由于两个整数间是不连续的故称为不连续性或间断性变数。 2. 连续性变数(continuous variable) 指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。例如测定水稻每穗粒重时,在2g和3g间,可以有2.357g等数值存在。其小数位数的多少,因称量的精度而异。这种变数称为连续性变数。又如农作物产量、株高、病斑长度、土壤中营养元素的含量等也属于此类变数。 (二) 质量性状资料 质量性状(qualitative trait)指能观察而不能量测的性状,即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法: 1. 统计次数法 于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。例如在320株水稻植株中有240株为紫色柱头的,80株黄色柱头的。这类资料也称为次数(或频次)资料。又如对某品种做接种病菌试验,结果为接种200个单株后有152个单株不发病,48个单株发病,前者占76%,后者占24%,这种资料也属于次数资料。 2. 给予每类性状以相对数量的方法(给分法) 例如,小麦子粒颜色有白有红,可令白色的数量值为0,呈红色的数量值为1。从这类变异所得资料,处理方法同间断性变数资料。 二、次数分布表 试验或调查研究所得资料,倘包含很多观察值,如有几百个观察值时,未加整理就有大堆数字,很难得到明确的概念。如果把这些观察值按数值大小或数据的类别进行分组,制成关于观察值的不同组别或不同分类单位的次数分布表,就可以看出资料中不同表现的观察值与其频率间的规律性,即可以看出资料的频率分布的初步情况,从而对资料得到一个初步概念。次数分布表的制作方法因变数种类不同而略有不同,兹分述如下。 (一) 间断性变数资料的整理 现以某小麦品种的每穗小穗数为例,随机采取100个麦穗,计数每穗小穗数,未加整理的资料列成表3.1。 第一章 次数分布和平均数、变异数 37 表3.1 100个麦穗的每穗小穗数 18 15 17 19 16 15 20 18 19 17 17 18 17 16 18 20 19 17 16 18 17 16 17 19 18 18 17 17 17 18 18 15 16 18 18 18 17 20 19 18 17 19 15 17 17 17 16 17 18 18 17 19 19 17 19 17 18 16 18 17 17 19 16 16 17 17 17 15 17 16 18 19 18 18 19 19 20 17 16 19 18 17 18 20 19 16 18 19 17 16 15 16 18 17 18 17 17 16 19 17 上述资料为间断性变数资料,每穗小穗数在15表3.2 100个麦穗每穗小穗数的次数分布表 —20的范围内变动,把所有观察值按每穗小穗数多每穗小穗数(y) 次数( f ) 少加以归类,共分为6组,组与组间相差为1小穗,15 6 称为组距。这样可得表3.2形式的次数分布表。 16 15 从表3.2中看到,一堆杂乱的原始资料,经初17 32 步整理后,就可了解资料的大致情况,如每穗小穗18 25 数以17个为最多等。另外,经过整理的资料也便于19 17 进一步的分析。 20 5 有些间断性变数资料,观察值个数较多,变异总次数(n) 100 幅度较大,不可能如上例那样按每一观察值归一组 表3.3 200个稻穗每穗粒数的次数分布表 的方法整理。例如研究某早稻品种的每穗粒数,共 每穗粒数(y) 次数(即穗数f) 观察200个稻穗,每穗粒数的变异幅度为27—83粒。 26—30 1 这样的资料如以每一观察值为一组,则组数太多, 31—35 3 资料的规律性就显示不出来。如每组包含若干粒数 36—40 10 的幅度,例如以5粒为一组,则可使组数适当减少。41—45 21 经初步整理后分为12组(这里要求组距相等),资料46—50 32 的规律性就较明显,如表3.3。 51—55 41 从表3.3可以看出,半数多的稻穗的每穗粒数56—60 38 在46—60粒间,大部分稻穗的每穗粒数在41—7061—65 25 间;但也有少数稻穗少到26—30粒的,多到81—8566—70 16 71—75 8 的。 76—80 3 (二) 连续性变数资料的整理 81—85 2 兹以表3.4的100行水稻试验的产量为例,说合计 200 明整理方法。 1. 数据排序(sort) 首先对数据按从小到大排 列(升序)或从大到小排列(降序)。 2. 求极差(range) 所有数据中的最大观察值和最小观察值的差数,称为极差,亦即整个样本的变异幅度。从表3.4中查到最大观察值为254g,最小观察值为75g,极差为254-75=179g。 第一章 次数分布和平均数、变异数 38 表3.4 140行水稻产量(单位:克) 177 215 197 97 123 159 245 119 119 131 149 152 167 104 161 214 125 175 219 118 192 176 175 95 136 199 116 165 214 95 158 83 137 80 138 151 187 126 196 134 206 137 98 97 129 143 179 174 159 165 136 108 101 141 148 168 163 176 102 194 145 173 75 130 149 150 161 155 111 158 131 189 91 142 140 154 152 163 123 205 149 155 131 209 183 97 119 181 149 187 131 215 111 186 118 150 155 197 116 254 239 160 172 179 151 198 124 179 135 184 168 169 173 181 188 211 197 175 122 151 171 166 175 143 190 213 192 231 163 159 158 159 177 147 194 227 141 169 124 159 3. 确定组数和组距(class interval) 根据极差分为若干组,每组的距离相等,称为组距。组数和组距是相互决定的,组距小则组数多;组距大, 表3.5 样本容量与组数多少的关系 则组数少。决定组数时必须考虑到资料整理的目的, 样本内观察值的个数 分组时的组数 组数过多或过少,都不能反映次数与观察值间的关 50 5—10 系,不能反映资料的规律性。另外,如果组数过多, 100 8—16 则往往过于分散,看不到资料的集中情况,而且不便 200 10—20 于以后的继续分析。怎样才能使组距和组数大小适当 300 12—24 呢,在确定组数和组距时应考虑:(1)观察值个数的 500 15—30 多少;(2)极差的大小;(3)便于计算;(4)能反映出 1000 20—40 资料的真实面貌等方面。样本大小(即样本内包含观 察值的个数的多少)与组数多少的关系可参照表3.5 来确定。 组数确定后,还须确定组距。组距=极差/组数。以表3.4中140行水稻产量为例,样本内观察值的个数为140,查表3.5可分为8—16组,假定分为12组,则组距为179/12=14.9g,为分组方便起见,可以15g作为组距。 4. 选定组限(class limit)和组中点值(组值,class value) 每组应有明确的界限,才能使各个观察值划入一定的组内,为此必须选定适当的组中点值及组限。组值最好为整数或与观察值的位数相同,以便于以后的计算。组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不致含糊不清。组距确定后,首先要选定第一组的中点值,这一点选定后,则该组组限确定,其余各组的中点值和组限也可确定。第一组的中点值以最接近最小观察值为好,这样可以避免第一组内次数过多,能正确地反映资料的规律性。 以表3.4中140行水稻产量为例,选定第一组的中点值为75g,与最小观察值75g相等;则第二组的中点值为75+15=90g,余类推。各组的中点值选定后,就可以求得各组组限。每组有两个组限,数值小的称为下限(lower limit),数值大的称为上限(upper limit)。上述资料中,第一组的下限为该组中点值减去1/2组距,即75-(15/2)=67.5g,上限为中点值加1/2组距,即75+(15/2)=82.5g。故第一组的组限为67.5—82.5g。按照此法计算其余各组的组限,就可写出分组数列。 第一章 次数分布和平均数、变异数 39 5. 把原始资料的各个观察值按分组数列的各表3.6 140行水稻的次数分布 组组限归组 可按原始资料中各观察值的次序,组 限 中点值(y) 次数( f ) 逐个把数值归于各组。按照中国的传统方法可在 67.5— 82.5 75 2 每组用5笔的“正”字作归组记号,划完一个“正” 82.5— 97.5 90 7 97.5—112.5 105 7 表示有5次。待全部观察值归组后,即可求得各 112.5—127.5 120 13 组的次数,制成一个次数分布表。例如表3.4中127.5—142.5 135 17 第一个观察值177应归于表3.6中第8组,组限142.5—157.5 150 20 为172.5—187.5;第二个观察值149应归于第6157.5—172.5 165 25 组,组限为142.5—157.5;„„。依次把140个172.5—187.5 180 21 187.5—202.5 195 13 观察值都进行归组,即可制成140行水稻产量的 202.5—217.5 210 9 次数分布表(表3.6)。 217.5—232.5 225 3 前面提到分为12组,但由于第一组的中点值232.5—247.5 240 2 接近于最小观察值,故第一组的下限小于最小观247.5—262.5 255 1 察值,实际上差不多增加了1/2组;这样也使最合计(n) 140 后一组的中点值接近于最大值,又增加了1/2组, 故实际的组数比原来确定的要多一个组,为13组。 表3.7 水稻杂种二代植株米粒性状的分离情况 属性分组(y) 次数(f ) (三) 属性变数资料的整理 红米非糯 96 属性变数的资料,也可以用类似次数分布的 红米糯稻 37 方法来整理。在整理前,把资料按各种质量性状白米非糯 31 进行分类,分类数等于组数,然后根据各个体在白米糯稻 15 质量属性上的具体表现,分别归入相应的组中,合计(n) 179 即可得到属性分布的规律性认识。例如,某水稻 杂种第二代植株米粒性状的分离情况,归于表 3.7。 三、次数分布图 试验资料除用次数分布表来表示外,也可以用图形来表示,次数分布图可以更形象地表明次数分布的情况。较普遍应用的图示有:方柱形图、多边形图、条形图和饼图。 (一) 方柱形图 方柱形图(histogram)适用于表示连续性变数的 次数分布。现以表3.6的140行水稻产量的次数分25f 布表为例加以说明。该表有13组,所以在横轴上分20 为13等分(因第一组下限不是从0开始,故第一等15 分应离开原点一些,并在其前加折断号),每一等分10 代表一组。第一组的上限即为第二组的下限,如此5 依次类推。在纵轴上标定次数,查140行水稻产量607590105120135150165180195210225240255270y(产量,克/行)的次数分布表,最多一组的次数为25,故在纵轴上 分为25等分,但只要标明0、5、10、15、20、25图3.1 140行水稻产量次数分布方柱形图 即可,借以代表次数。横坐标与纵坐标的长度应有 第一章 次数分布和平均数、变异数 40 合适的比例(一般为5?4或6?5为好),绘成的图形才能明显表明次数分布情况。图示第一组时,横坐标上第一等分的两界限,即为第一组的下限和上限。查表3.6第一组有次数为2,所以在两组限处绘两条纵线,其高度等于纵坐标上两个单位,再画一横线连接两纵线的顶端,成为方柱形。其余各组可依次绘制,即成方柱形次数分布图3.1。 (二) 多边形图 多边形图(polygon)也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。仍以140行水稻产量次数分布为例,在图示时,以每组的中点值为代表,在横坐标第一等分的中点向上至纵坐标上2个单位处标记一 个点,表示第一组含有两个次数。在横坐标的第f30二等分的中点用同法向上标记一点,其高度为纵25坐标上的7个单位,以表示该组含次数7个。其20余各组依同法标记各组次数的点。最后把各点依15次用直线连接,所成图形即为次数多边形图(图103.2)。多边形图的折线在左边最小组的组中点外5和右边最大组的组中点外,应各伸出一个组距的0607590105120135150165180195210225240255270y(产量,克/行)距离而交于横轴,因该两组次数为0,这可以使 多边形的面积大致上与方柱形图相同。 图3.2 140行水稻产量次数分布多边形图 (三) 条形图 条形图(bar)适用于间断性变数和属性变数资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次120f数。现以表3.7水稻杂种第二代米粒性状的分离100情况为例,在横轴上按等距离分别标定4种米粒 80性状,在纵轴上标定次数(f)。查表3.7中第一 60组为红米非糯稻,其次数为96,在此组标定点向 上,相当于纵坐标96处画垂直于横坐标的狭条40 形,表示第一组的次数。同法于第二组的标定点20 处向上画一狭条形,其高度相当于纵坐标的37,0表示红米糯稻的次数。余类推,即可画成水稻杂红米非糯红米糯稻白米非糯白米糯稻 种第二代植株4种米粒性状分离情况条形图(图图3.3 水稻F代米粒性状分离条形图 2 3.3)。 白米糯稻 (四) 饼图 8% 饼图(pie)适用于间断性变数和属性变数资白米非糯17%料,用以表示这些变数中各种属性或各种间断性 红米非糯数据观察值在总观察个数中的百分比。如图3.454%中白米糯稻在F群体中占8%,白米非糯、红米2红米糯稻21%糯稻和红米非糯分别占17%、21%和54%。 图3.4 水稻F代米粒性状分离的饼图 2
本文档为【chapt01 次数分布和平均数、变异数】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_153723
暂无简介~
格式:doc
大小:27KB
软件:Word
页数:0
分类:理学
上传时间:2017-11-27
浏览量:31