首页 统计学依据数据的计量尺度

统计学依据数据的计量尺度

统计学依据数据的计量尺度统计学依据数据的计量尺度将数据划分为三类:定距型数据(Scale)、定序型数据(Ordinal)、定类型数据(Nominal)。定距型数据通常是指诸如身高、体重、血压等的连续型数据，也包括诸如人数、商品件数等离散型数据；定序型数据具有内在固有大小或高低顺序，但它又不同于定距型数据，一般可以数值或字符表示。如职称变量可以有低级、中级、高级三个取值，可以分别用1、2、3等表示，年龄段变量可以有老、中、青三个取值，分别用ABC表示等。这里，无论是数值型的1、2、3还是字符型的ABC,都是有大小或高低顺序的，但数据之间却是...

统计学依据数据的计量尺度将数据划分为三类:定距型数据(Scale)、定序型数据(Ordinal)、定类型数据(Nominal)。定距型数据通常是指诸如身高、体重、血压等的连续型数据，也包括诸如人数、商品件数等离散型数据；定序型数据具有内在固有大小或高低顺序，但它又不同于定距型数据，一般可以数值或字符表示。如职称变量可以有低级、中级、高级三个取值，可以分别用1、2、3等表示，年龄段变量可以有老、中、青三个取值，分别用ABC表示等。这里，无论是数值型的1、2、3还是字符型的ABC,都是有大小或高低顺序的，但数据之间却是不等距的。因为，低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的；定类型数据是指没有内在固有大小或高低顺序，一般以数值或字符表示的分类数据。如性别变量中的男、女取值，可以分别用1、2表示，民族变量中的各个民族，可以用汉‘回"满’等字符表示等。这里，无论是数值型的1、2还是字符型的汉‘回‘满’都不存在内部固有的大小或高低顺序，而只是一种名义上的指代。我觉得教育年限应该设置成定距型数据(Scale)吧。因为，教育年限应该是一个连续的变量，它不存在内在的大小或高低顺序问题。将可变的数量标志抽象化就称其为变量，其取值称为变量值或标志值。变量分为确定性变量和随机变量。确定性变量是指受必然性因素的作用，各变量值呈现出上升或下降惟一方向性变动的变量；随机变量是指受偶然性因素的作用，变量值呈现出随机的混沌状态变动的变量。。根据变量的取值是否连续划分，有连续型变量和离散型变量。连续型变量是指在一个取值区间内可取无穷多个值。连续型变量值要用测量或计算的方法取得；离散型变量是指在?例如，企业个数，职工人一个取值区间内变量仅可取有限个可列值。离散型变量值只能用计数的方法取得。离散变量是指其数值只能用自然数或整数单位计算的则为离散变量数，设备台数等，只能按计量单位数计数，这种变量的数值一般用计数方法取得反之，在一定区间内可以任意取值的变量叫连续变量，其数值是连续不断的，相邻两个数值可作无限分割，即可取无限个数值砌如住产零件的规格尺寸，人体测量的身高，体重胸围等为连续变量，其数值只能用测量或计量的方法取得？即变量的取值可以是连续的，这随机变量就称为连如果变量可以在某个区间内取任一实数,续型随机变量，1)无偏性。无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为0,所选择的估计量为B?如果E(0?尸称，B?为0的无偏估计量。(2)有效性。一个无偏的估计量并不意味着它就非常接近被估计的参数，它还必须与总体参数的离散程度比较小。假定有两个用于估计总体参数的无偏估计量，分别用m1和m2表示，它们的抽样分布的方差分别用D(m1)和D(m2)表示，如果m1的方差小于m2的方差，即D(m1) 样本量的增大，点估计量的值越来越接近被估总体的参数。统计量定义：设X1,X2,X3…,Xn为取自某总体的样本，若样本函数T=T(X1,X2,X3,Xn)中不含有任何未知参数，则称T为统计量。从统计量的定义可知，任何统计量都是不含参数的，统计量的取值只与样本有关。一旦样本确定，统计量的值也就确定。从目前企业市场调查所得到的资料看大致可分为原始资料或称为一手资料和二手资料两大类o没有经过任何的处理的大量个经过他人整理加工后反映原始资料是由企业市场调查活动在市场直接获得，体资料组成。二手资料则是在调查中透过其他媒介组织而获得的,某一类事物的资料数据。二手资料通常不需要直接对调查个体进行登记,而是从有关媒介或政府部门公开发表的资讯中获得，也可以是从专业的市场调查机构定期或不定期的发表的资料中获取,且资料获取的费用要大大低于企业专门组织的市场调查,通过对二手资料的获得，可以方便快捷取得所需的市场信息。经常性收集市场二手资料可以帮助企业建立起自己的市场资源数据库，为企业建立起现代经营模式，从事市场营运，适应数字化时代生存法则的要求。其最初的调查目的所以对二手资料的引只有这样才有可但是也应引起企业界注意的是二手资料由于来自不同的部门和机构，和调查方案方法的设计是不一致的，其资料的内涵和口径是不一样的用要特别谨慎。首先，对二手资料的设计口径和计算方法要有充分的了解。能根据自身的市场调查目的二手资料进行再整理和再分组，以使其符合企业市场调查的需要。其次,要对二手资料的调查对象有着充分的了解和认识。不同的调查对象对同一问题的回答是不一样的，企业在不同的时期有不同的调查任务，在不同的市场上目标消费者是不一样的，市场调查的对象自然也不可能是一样的。没有弄清楚二手资料的调查对象绝对不可随意引用。再其次，要了解二手资料原来的调查过程。不同调查过程会样本的选取过程和选取方法，最终影响调查资料的误差大小以及调查误差的控制方法。第四，对于来自商业性的市场调查的数据，要有高度的警惕和充分的认识。目前，我国市场调查行业还十分不规范，这些机构中还有许多企业未能摆脱生存的威胁，其公布的调查资料往往无法真正做到公平公正，更有甚者在公布的资料中明显带有人为的痕迹，谁出资赞助调查的结果就偏向谁，谁赞助多谁的排名就有利。对于这类资料，企业在引用时要足够的警惕，否则就会误导企业作出错误的调查结论，给企业带来不可估量的损失。在原始资料与二手资料之间，如果时间和财力物力条件许可，当然应以原始资料为主。但是二手资料因其经济快捷也是企业市场调查的一个重要部分。科学合理地善用二手资料，可以帮助企业提高市场调查的效益。特别是在中小企业中对二手资料的应用更是应引起特别的重视。与此同时，我们在还应看到虽然二手资料有可能不符合企业市场调查的需要，但在目前我国企业界尚缺乏市场调查能力，合格的市场调查人员严重匮乏的情形下，在某种条件上，利用他人调查的二手资料可能是唯一正确的选择。变量的特点是从一次观察到下一次观察会呈现出差别或变化，如“居民收入”、“居民支出”、“受教育程度”、“性别”等都是变量。变量的具体取值称为变量值。统计数据就是统计变量的某些取值。变量可以分为以下几种类型。分类变量(categoricalvariable):说明事物类别的一个名称。分类变量的取值就是分类数据。例如，“性别”就是一个分类变量，其变量值为“男”或“女”；“所有制”也是一个分类变量，其变量值可以为“国有”、“集体”、“合资”、“私营”等。顺序变量（rankvariable）:说明事物有序类别的一个名称。顺序变量的取值就是顺序数据。例如，“产品等级”就是一个顺序变量，其取值可以是“一等品”、“二等品”、“三等品”、“次品”；“受教育程度”是另一个顺序变量的例子，其取值可以是“大学及以上”、“高中”、“初中”、“小学”及以下。数值型变量（metricvariable）:说明事物某种数字特征的一个名称。数值型变量取值就是数值型数据，如“居民收入”、“居民支出”、“企业数”等都是数值型变量，这些变量可以取不同的数值。数值型变量根据其取值是否连续，又可分为离散型变量（discretevariable）和连续型变量（continuousvariable）。简述众数、中位数和均值的特点和应用场合。答：（1）众数是将数据按大小顺序排队形成次数分配后,在统计分布中具有明显集中趋势点的数值，是数据一般水平代表性的一种。特点：可能没有众或有多个众数，最容易计算，但不是永远存在，同时作为集中趋势代表值应用的场合很少，一般在农贸市场上。（2）中位数是数据排序后，位置在最中间的数值。特点：很容易理解、很直观，它不受极端值的影响。（3）均值是算术平均数，是数据集中趋势的最主要测度值。特点：数据信息提取得最充分，在整个统计方法中应用最广，对经济管理和工程等实际工作也是最重要的方法之一。简述众数、中位数和均值的特点和应用场合。答：众数是一种位置代表值，它的应用场合比较有限；中位数具有稳健性，数据值与中位数之差的绝对值之和最小；均值就是算术平均数，是数据集中趋势的最主要测度值。众数最容易计算，但不是永远存在，同时作为集中趋势代表值应用的场合很少；中位数很容易理解、很直观，它不受极端值的影响，这既是它有价值的方面，也是它数据信息利用不够充分的地方；均值是对所有数据平均后计算的一般水平代表值，数据信息提取得最充分。.简述众数、中位数和均值的特点和应用场合。答：众数是一组数据中出现数据最多的标志值，它主要是对分类数据的概括性度量，其特点是不受极端值影响，但它没有利用全部数据的信息；中位数是一组数据排序后处于中间位置的变量值，它主要用于对顺序数据的概括性度量。中位数的特点是不受极端值的影响，但它没有利用原始数据的全部信息。均值是一组数据的算术平均，它利用了全部数据的信息，是概括一组数据最常用的一个值。但均值的缺点是容易受极端值的影响。当一组数据有极端值时，均值的代表性最差。就数据型数值而言，当一组数据为对称分布时，众数、中位数、均值相等，这是最好用均值做数据的概括性度量；当一组数据的分布为偏态时，尤其是当偏斜程度较大时，最好用中位数或众数为该组数据的概括性度量。5.一组数据的分布特征可以从哪几个方面进行测度？答：一组数据的分布特征可以从以下3个方面进行测度：（1）集中趋势的测度（众数、中位数、分位数、均值、几何平均数、切尾均值）。（2）离散程度的测度（极差、内距、方差和标准差、离散系数）。（3）偏态与峰度的测度（偏态及其测度、峰度及其测度）8.解释中心极限定理的含义。答：中心极限定理就是对于一个抽自任意总体（均值为h标准差为6）,样本容量为n的随机样本。当n充分大时，样本均值的抽样分布将近似于一个具有均值和标准差的正太分布。解释置信水平为95%勺置信区间的含义。答：含义：如果用某种方法构造的所有区间中，有95%勺区间包含总体参数的真值，5%勺区间不包含总体参数的真值，那么，用该方法^^造的区间，称为置信水平为95%勺置信区间；而置信区间是指在某以置信水平下，样本统计值与总体参数值的误差范围。二、试述正态分布、F分布、卡方分布和t分布的特性答：正态分布特性：.正态分布曲线是以y=u为对称轴，向左右两侧作对称分布，所以它是一个对称曲线。2、正态分布曲线以参数□和6的不同而表现为一系列曲线，所以它是一个曲线簇而不仅是一个曲线。3、正态分布资料的次数分布表现为多数次数集中于算术平均数附近，离平均数越远，其相应的次数越少。4、正态曲线在|y-m=16处有“拐点”。5、正态曲线与横轴之间的总面积等于1。F分布特性：F分布乃具有平均数找=1和取值区间为［0,八］的一组曲线；而某一特定曲线的开关则仅决定于参数Vi和V2o在Vi=1或V2=2时，F分布曲线是严重倾斜成反向J型；当v>3时，曲线转为偏态。卡方分布特性：卡方分布的自由度为独立的正态离差的个数，此处v=n,其分布图形为一组具不同自由度v值的曲线。X2值最小为0,最大为+x,因而在坐标轴的右面。自由度小时呈偏态，随着自由度增加，偏度降低，至+X时，呈对称分布。t分布特性：t分布特性：t分布曲线是对称的，围绕其平均数口=0向两侧递降。自由度较小的t分布比之自由度较大的t分布具有较大的变异度。它和正态曲线比较，t分布曲线稍为扁平，峰顶略低，尾部稍高。t分布是一组随自由度v而改变的曲线，但当v>30时接近正态曲线，当v=x时和正态曲线合一，由于分布受自由度制约，所以t值与其相应的概率也随自由度而不同。二、评价估计量的标准.无偏性(unbiased)由于估计量是样本的函数，是随机变量，它对于不同样本观测值会得到不同的估计值。我们自然希望这些估计值的平均值与参数的真值相等，也就是一个好的估计量的期望等于未知参数的真实值，具有这种性质的估计量，称为无偏估计量(unbiasedestimate),即当估计值彳的期望E(予-v时，称彳为v的无偏估计量。.有效性(effectiveness)有时未知参数的无偏估计量不是唯一的，那么如何比较其好坏呢？自然是估计量？与参数二的偏差越小越好，因为E(彳)-v,也就是乡的方差越小越好。我们把方差最小的那个估计量称为有效估计量(efficientestimator)。.一致性(consistency)如果随着容量增加，统计量的值越来越接近总体参数值，那么这样的统计量就是与总体参数一致的估计量。样本容量越大，估计量的一致性越可靠。

                    本文档为【统计学依据数据的计量尺度】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

统计学依据数据的计量尺度

你可能还喜欢