首页 统计学第2章

统计学第2章

举报
开通vip

统计学第2章null第2章 统计数据的搜集第2章 统计数据的搜集 2.1 数据的来源 2.2 调查数据 2.3 实验数据 2.4 数据的误差 2.5 数据文件2.1 数据的来源2.1 数据的来源 对使用者,数据来源有两种方式: 1 直接来源 2 间接来源2.1.1 数据的间接来源(间接数据)2.1.1 数据的间接来源(间接数据) 对大多数使用者来说,亲自去做调查往往是不可能的。由于种种原因,不能直接取得数据时,所使用的数据大多数是别人调查或科学实...

统计学第2章
null第2章 统计数据的搜集第2章 统计数据的搜集 2.1 数据的来源 2.2 调查数据 2.3 实验数据 2.4 数据的误差 2.5 数据文件2.1 数据的来源2.1 数据的来源 对使用者,数据来源有两种方式: 1 直接来源 2 间接来源2.1.1 数据的间接来源(间接数据)2.1.1 数据的间接来源(间接数据) 对大多数使用者来说,亲自去做调查往往是不可能的。由于种种原因,不能直接取得数据时,所使用的数据大多数是别人调查或科学实验的数据,对使用者来说称为二手数据。二手数据主要是公开出版的或公开报道的数据,当然有些是尚未公开出版的数据。 1 系统外部的数据1 系统外部的数据1) 统计部门和政府部门公布的有关资料,如各类统计年鉴,公开出版的有《中国市场统计年鉴》以及各省、市、地区的统计年鉴等。提供世界各国社会和经济数据的出版社也有很多,如《世界经济年鉴》 2) 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 3) 各类专业期刊、报纸、书籍所提供的资料 4) 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 5) 从互联网或图书馆查阅到的相关资料 2 系统内部的数据2 系统内部的数据1)业务资料,如与业务经营活动有关的各种单据,记录 2)经营活动过程中的各种统计报表 3)各种财务,会计核算和 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 资料等3 二手数据的特点3 二手数据的特点1)搜集容易,采集成本低 2)作用广泛 分析所要研究的问题 提供研究问题的背景 帮助研究者更好地定义问题 检验和回答某些疑问和假设 寻找研究问题的思路和途径 3)搜集二手资料在研究中应优先考虑4 二手数据的评估4 二手数据的评估1)数据是谁搜集的? 可信度评估 2)为什么目的而搜集的? 3)数据是怎样搜集的? 4)什么时候搜集的? 2.1.2 数据的直接来源(原始数据)2.1.2 数据的直接来源(原始数据) 有两种 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 ,通过调查方法获得的数据称为调查数据,而通过实验方法得到的数据称为实验数据. (1)调查方法常用于社会科学(通常取自有限总体) ▽ 普查 ▽ 抽样调查 (2)实验数据常用于自然科学, 目前也被逐渐运用到社会科学中.2.2 调查数据2.2 调查数据2.2.1 统计调查方式 1 普查  为特定目的专门组织的一次性全面调查,用于搜集某一时点上的社会经济现象的数量(例如人口普查、工业普查、农业普查等)。普查适用于特定目的、特定对象,旨在搜集有关国情国力的基本统计数据,为国家制定有关政策或措施提供依据。 第一次全国经济普查的目的:了解国民经济的规模、结构和效益。决不是要通过经济普查来查企业和个体户有没有偷税漏税、查他们违法违纪的问题。 第一次全国经济普查的对象:中华人民共和国境内(不包括香港,澳门特别行政区和台湾省)从事第二,第三产业活动的全部法人单位,产业活动单位和个体经营户.   1 普查1 普查1 普查 (1)一次性或周期性(普查涉及面广,调查单位多,要耗费大量的人力、物力和财力,所以间隔较长时间,如10年才进行一次。我国的人口普查从1953年到2000年共进行过5次,每逢末尾为“0”的年份进行人口普查,末尾为“3”的年份进行第三产业普查,末尾为“5”的年份进行工业普查,末尾为“7”的年份进行农业普查。) (2)普查一般需要规定统一的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 调查时间,以避免调查数据的重复或遗漏,保证普查结果的准确性。我国前四次人口普查的标准时间定为普查年份的7月1日0时,第五次人口普查为2000年11月1日0时。农业普查的标准时间定为普查年份的1月1日0时。标准时间一般定为调查对象比较集中、相对稳定的时期。 (3)数据比较准确和规范(按统一规定进行登记) (4)应用范围较窄(调查工作量大,需大量人力和财力,第1次经济普查费用为20亿。)  2 统计报表  统计报表是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方法,以全面调查为主。这种调查组织方式在我国政府统计工作中,经过几十年的改进和完善,已形成了一套比较完备的统计 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 制度,它要求以原始数据为基础,按照统一的表式、指标、报送时间和报送程序填报,已成为国家和地方政府部门获取统计数据的主要统计调查组织方式。   ⑴ 按填报范围不同分为全面报表和非全面报表(全面报表:要求每一个单位都填报;非全面报表:一部分单位填报)   ⑵ 按报送时间不同分为日报、月报、季报和年报   ⑶ 按报送范围不同分为国家、部门和地方统计报表2 统计报表3 概率抽样  从调查对象的总体中随机抽取一部分单位进行调查,用以推断总体的数量特征。   (1).经济(由于只抽取总体的很少一部分,大量节省人力和财力)   (2).快速(由于调查工作量小,所需时间短)   (3).应用范围广(适用各种调查,特别是破坏性测定和总体太大的情况)   (4).准确性高(所需调查人员少,则相对素质高,从而数据质量高,结论可靠)3 概率抽样(1) 简单随机抽样(simple random sampling)(1) 简单随机抽样(simple random sampling) 简单随机抽样是最基本的一种抽样方法,并且是其它抽样方法的基础. 简单随机抽样是从总体N个单位中随机地抽取n个单位作为样本,每个单位有相同的概率被抽取. ▽特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 ▽局限性 当N 很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其它辅助信息以提高估计的效率 (1) 简单随机抽样(simple random sampling)(1) 简单随机抽样(simple random sampling) 简单随机抽样要求有完整的抽样框,简单随机抽样通常采 用随机数表组织样本.随机数表由 0,1,2,…,9随机排列而成. 利用随机数表组织样本时,应先确定起始点,然后从左到右, 或从上到下按预先规定抽取n个数,这n个数对应的单位就是简 单随机样本. 随机数表随机数表 15011 01536 02011 81647 91646 69179 14194 62590 46573 25595 85393 30995 89198 27982 53402 93965 48360 22527 97265 76393 64809 15179 24830 49340 42167 93093 06243 61680 07856 16376 39440 53537 71341 37570 39975 81837 16656 06121 91782 60468 81305 49684 77921 06907 11008 42751 27756 53498 18602 70659 96055 99526 72905 56420 69994 98872 31016 71194 18738 44013 96301 91977 05403 07972 18876 20922 94595 56869 69014 89579 14342 63661 10281 17453 18103 57740 84378 25331 85475 36857 53342 53988 53060 59533 38867 62300 08158 简单随机抽样法简单随机抽样法 方法1: N的第1位数大于5, 例如 N=678, n=5时, 规定 001-678 (保留) 000, 679-999 (舍去) 方法2: N的第1位数小于5, 例如 N=327, n=5时,则规定 001-327 (保留) 328-654 (-327) 655-981 (-654) 000, 982-999 (舍去) 简单随机抽样示意图简单随机抽样示意图(2) 分层抽样(stratified sampling)(2) 分层抽样(stratified sampling) 把抽样单位按某种规则划分为不同的层,然后从不同的层 中独立、随机地抽取样本. (Ⅰ)保证样本的结构与总体的结构比较相近,从而提高估计的精度. (Ⅱ)可以方便组织实施调查. (Ⅲ)不仅可以对总体参数进行估计,也可以对各层的目标量进行估计. 分层抽样示意图分层抽样示意图(3) 整群抽样(cluster sampling)(3) 整群抽样(cluster sampling) 把总体按某种规则划分为若干个组,每个组称为群. 抽样 时只抽取群,并对抽取的群进行普查. (Ⅰ)抽样时只需群的抽样框 (Ⅱ)调查的地点相对集中,可以节省调查费用,方便调查的实施 (Ⅲ)估计精度通常低于简单随机抽样整群抽样示意图整群抽样示意图(4) 系统抽样(systematic sampling)(4) 系统抽样(systematic sampling) 把总体的所有单位按一定顺序排列,先从数字1到k之间随 机抽取一个数字r作为初始单位,以后依次取 r+ k,r+2k … 等单位组成样本. (1)便于抽取样本 (2)对估计量方差的估计缺少一般的方法系统抽样示意图系统抽样示意图(5) 多阶段抽样(multi-stage sampling)(5) 多阶段抽样(multi-stage sampling) 把总体按某种规则划分为若干个组,先抽取组,但并不是 调查组内的所有单位,而是从抽中的每个组中再抽取若干个单 位进行调查, 称为二阶段抽样. ▽ 将该方法推广,则称为多阶段抽样. ▽ 具有整群抽样相同的特点,使样本单位相对集中. ▽不需要包含所有低阶段抽样单位的抽样框(例如在省抽县、县抽乡、乡抽村、村抽户的农产量四阶抽样中,凡未被抽中的县、乡、村就不必编制关于乡、村、户的抽样框) ;同时由于实行了再抽样,使调查单位在更广泛的范围内展开. ▽在大规模的抽样调查中,经常被采用的方法. 4 非概率抽样(non-probability sampling)4 非概率抽样(non-probability sampling) 抽取样本时并不是依据随机原则,而是根据研究目的和对 数据的要求,采用某种方式从总体中选择部分单位进行调查. 主要方式有: (1)方便抽样 (2)判断抽样 (3)自愿样本 (4)滚雪球抽样 (5)配额抽样 (1) 方便抽样(1) 方便抽样 调查时由调查人员依据方便的原则,随意确定样本单位 ▽ 调查员在街头、公园、商店等公共场所进行调查. ▽ 厂家在出售产品柜台前对路过顾客进行的调查. (Ⅰ)优点:实施方便,调查的成本低. (Ⅱ)缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体. (2) 判断抽样(2) 判断抽样 研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本.判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性. (Ⅰ)优点:抽样成本比较低,容易操作. (Ⅱ)缺点:样本是人为确定的,没有依据随机的原则,调查结果不能用于对推断总体. 主要方法有: (Ⅰ)重点抽样 (Ⅱ)典型抽样 (Ⅲ)代表抽样(Ⅰ)重点抽样(Ⅰ)重点抽样 从全部单位中选择重点单位进行调查的方法.   ▽ 要求总体存在少数重点单位   ▽ 不能根据调查结果推断总体 (重点单位:这些单位虽然数量很少,但这些单位的数值却很大,占总体的比例很高,通过对这些单位的调查就能了解总体的基本情况). 例:为了解全国钢铁工业生产情况,就可以把鞍钢、武钢、首钢、宝钢等特大型企业作为重点单位进行调查,就能了解全国钢铁生产的基本情况.(Ⅱ)典型抽样(Ⅱ)典型抽样 从全部单位中选择若干典型单位进行调查的方法,因此也 是一种部分调查方法.   ▽ 通过典型单位揭示事物的本质和规律   ▽ 不能根据调查结果推断总体 (Ⅲ)代表抽样(Ⅲ)代表抽样 从全部单位中选择若干代表单位进行调查的方法,因此也 是一种部分调查方法.   ▽ 通过代表单位揭示事物的本质和规律   ▽ 不能根据调查结果推断总体 (3) 自愿样本(3) 自愿样本 被调查者自愿参加,向调查人员提供有关信息. 例如,参与报刊上和互联网上刊登的调查问卷活动. (Ⅰ)样本只能反映特定人群的情况. (Ⅱ)调查结果不能推断总体.(4) 滚雪球抽样 先选择一些调查单位,对其调查之后,再请他们提供另外一些调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应. (Ⅰ)适合于对稀少群体和特定群体研究,容易找到那些属于特定群体的被调查者,调查的成本也比较低 (Ⅱ)调查结果不能推断总体(4) 滚雪球抽样(5) 配额抽样(5) 配额抽样 先把总体中的全部单位按某个因素(变量)划分为若干类, 然后在每个类中采用方便抽样或判断抽样的方式选取样本单位. (Ⅰ)操作简单,可以使总体中不同类别的单位都能包括在样 本中(使得样本的结构和总体的结构类似). (Ⅱ)调查结果不能推断总体. 表2-1 单一变量控制配额分配表表2-1 单一变量控制配额分配表按年龄分配按性别分配表2-2 交叉变量控制配额分配表表2-2 交叉变量控制配额分配表同时按年龄和性别分配5 概率抽样与非概率抽样的比较 (1)概率抽样 ▽ 按随机原则抽选样本 ▽ 可以根据调查的结果推断总体 (2)非概率抽样 ▽ 不按随机原则抽选样本 ▽ 不能根据调查的结果推断总体 5 概率抽样与非概率抽样的比较2.2.2 搜集数据的基本方法2.2.2 搜集数据的基本方法1 自填式 由被调查者自己填写调查问卷. 问卷递送方法:调查员分 发、邮寄、网络、媒体等. (1)要求调查问卷结构严谨,有详细和清楚的说明 (2)问卷的返回率比较低,调查周期比较长. (1).邮寄调查  通过邮寄或其他方式将调查问卷或调查表送至被调 查者手中,按要求填写后再寄回给调查者的调查方法。   优点:范围广、费用低、给被调查者时间充裕、匿名性好 缺点:回收率低、时间长 提高回收率方法:事后性工作、附加“实惠”东西、预先通知、请权威机构帮助(1).邮寄调查(2).网上访问   利用互联网进行调查收集数据。   优点:速度快、匿名性好、费用低 缺点:局限于网民、真实性不高(2).网上访问 2 面访式2 面访式  调查员与被调查者通过面对面地交谈而获得数据的调查方法.   (1).标准式访问:按事先 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 好的问卷或表格进行调查   (2).非标准式访问:不事先制作问卷或表格,与被调查者进行自由交谈 优点:灵活、拒答率低、质量较好、适用范围广 缺点:调查的成本较高、对调查者要求高、匿名性差、周期长、对调查者管理困难 3 电话式  利用电话与被调查者交谈获得数据的调查方法。   优点:周期短、低成本、范围广 缺点:拒答率高、不便深入、母体不完整 电话调查时问题的数量不宜太多,适用于调查项目单一,问题相对简单并需要及时得到结果的调查。随着电话的普及,电话调查的应用越来越广泛。3 电话式观察式调查观察式调查 调查人员通过直接观察的方法获得数据,调查人员不是强行介入,能够在被调查者不察觉的情况下获得资料. ▽ 例如交通流量的调查4 数据搜集方法的选择4 数据搜集方法的选择 选择数据搜集方法应考虑的几个方面 (1)抽样框中的有关信息:已具备的条件 (2)目标总体特征:总体的具体情况 (3)调查问题的内容: (4)有形辅助物的使用: (5)实施调查的资源: (6)管理与控制: (7)质量要求表2-3 搜集数据不同方法的特点表2-3 搜集数据不同方法的特点2.3 实验数据2.3 实验数据 实验数据是指在实验中控制实验对象而收集到的变量的数据。实验法的基本逻辑是:有意识地改变某个变量的情况(A项),然后看另一个变量变化的情况(B项),如果B项随着A项变化而变化,就说明A项对B项有影响。 2.3.1 实验组和对照组 2.3.1 实验组和对照组 (1)将研究对象分为两组:实验组和对照组。实验组中的每个单位接受某种特别的处理。对照组中的每个单位不接受实验组成员所接受的某种特别处理。 (2)实验组和对照组的产生应遵循随机原则,而且应该匹配(匹配指对实验单位的背景材料进行分析比较,将情况类似的每对单位分别随机地分配到实验组和对照组)。 2.3.2 实验中的若干问题2.3.2 实验中的若干问题 当研究的对象是人的时候,会产生如下一些问题 1 人的意愿 研究的对象是人的时候,在划分实验组和对照组时的随机原则将面临挑战 2 心理问题 人们对被研究非常敏感,这使得他们更加注意自我,从 而走到事物的另一个极端 3 道德问题 当某种实验涉及道德问题时,人们会处于进退两难的尴 尬境地 2.3.3 实验中的统计2.3.3 实验中的统计 (1)实验设计本身就是一个统计问题,实验设计是统计学 的重要分支 (2)确定实验所需要的试验单位的个数,以保证实验达到 设计要求 (3)将统计的思想融入到实验设计中,使实验设计符合统 计分析的标准 (4)对实验数据进行分析时,统计可以提供最恰当的分析 方法 2.3.4 实验法案例2.3.4 实验法案例 下面的两个案例可对实验数据的作用有更多的了解2.4 数据的误差2.4 数据的误差2.4.1 抽样误差(sampling error)2.4.1 抽样误差(sampling error) (1)由抽样的随机性所带来的误差 (2)所有样本可能的结果与总体真值之间的平均差异 (3)影响抽样误差的大小的因素 ▽ 样本量 ▽ 总体的变异性 抽样误差抽样误差 例如,总体由1,2,3,4,5五个数字组成,按纯随机不重复抽样方法抽取3个数字组成一系列样本,样本的个数有 个,所有可能的样本为 总体平均数 抽样平均数的总平均数 所以有 ,即抽样平均数的总平均数等于总体平均数,由抽样误差的定义可知,抽样误差即抽样平均数的标准差: 结果表明,这10个样本不管抽取到哪个样本,平均来看误差为0.582.4.2 非抽样误差(non-sampling error)2.4.2 非抽样误差(non-sampling error) (1)相对抽样误差而言,即是由其他原因造成的样本观察结 果与总体真值之间的差异 (2)存在于所有的调查之中(概率抽样、非概率抽样和全面 调查) (3)有抽样框误差、回答误差、无回答误差、调查员误差、 测量误差1 抽样框误差1 抽样框误差 由于抽样框不完善造成抽样框:包括全部总体单位的名单框架。 名单抽样框:列出全部总体单位的名录一览表。 (职工名单、企业名单) 区域抽样框:以区域为抽样单位。 时间表抽样框:把总体的时间过程划分为若干个小的时间单位,以时间单位为抽样单位。如对流水线上24小时内生产的产品进行质量抽查时,可以以5分钟为一个抽样单位,分成288个抽样单位。 一个好的抽样框应该是,抽样框中的单位和研究总体中的单位有一一对应的关系。2 回答误差2 回答误差 由于被调查者的回答有误造成,主要原因有 (1)理解误差:由于调查时所提问题的不确切,使被调查者的理解存在差异造成 (2)记忆误差:由于被调查者的记忆不正确造成 (3)有意识误差:由于被调查者的故意隐瞒造成3 无回答误差3 无回答误差 由于各种原因不能取得调查数据时(例如被调查者拒绝接 受调查或找不到被调查者),称这类问题为“无回答”. (1)当无回答是随机时,无回答不会产生系统偏差. (2)当无回答的产生与是调查内容有关,或无回答集中于 某类人群时,则会产生系统偏差. 4 调查员误差4 调查员误差 由于调查者的原因造成的错误。如调查员粗心,在记录调查结果时出现错误。或在调查中的诱导,如有意无意地流露出对调查选项的看法或倾向,都可能对被调查者产生影响。5 测量误差5 测量误差 由于调查者在观察或测定存在误差造成2.4.3 误差的控制2.4.3 误差的控制 (1)抽样误差可计算和控制 (2)非抽样误差的控制 ▽调查员的挑选 ▽调查员的培训 ▽调查结果进行检验、评估 ▽现场调查人员进行奖惩的制度2.5 数据文件2.5 数据文件 在利用计算机进行统计分析时,首先应把统计数据录入计算 机,形成数据文件。 表2-4 数据文件的一般格式(文字)表2-5表2-5数据文件的一般格式(代码)代码:男–1, 女–0; 可乐–1, 雪碧–0; 知道 –1, 不知道 –0
本文档为【统计学第2章】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_025455
暂无简介~
格式:ppt
大小:543KB
软件:PowerPoint
页数:0
分类:其他高等教育
上传时间:2012-12-21
浏览量:48