统计-抽样调查与样本量
用统计来认识事物的步骤是:统计设计—>数据收集—>统计推断—>结论
统计设计是统计工作的重点工作之一,对于统计工作有着方向性的指导作用,对达到怎样的结果也起着决定性作用。
数据资料的抽样设计、收集
方案
气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载
是统计设计中的基础阶段工作。 统计设计
总体分析
抽样方式确定
样本量确定
样本量的确定:
根据总体性质的不同,选取的抽样方式不同,采取的方式方法及计算方式也不同。 引入概念——基本概念
研究对象的全体称为总体(母体)。
组成总体的每个研究对象(或每个基本单位)称为个体。
总体中按一定的规则抽出的个体的全部称为样本
样本中所含个体的个数称为样本容量,用 n 表示。 目标总体必须被精确的定义,不精确的定义总体将会导致研究无效,甚至误解
例13>. 某市今年有两万多名初中毕业生参加升学考试,从中抽出300名考生的数学成绩进行分析。
在这个问题中,总体是两万多名初中考生的数学成绩,个体是每个考生的数学成绩,样本是300名考生的数学成绩,样本容量是300。
引入概念——抽样方式
抽样技术
概率抽样
非概率抽样
简单随机抽样
系统抽样
分层抽样
整群抽样
便利抽样
判断抽样
配额抽样
滚雪球抽样
非概率抽样——便利抽样
以研究者或访问者方便来选择被访者,通常被访者由于碰巧在恰当的时间正处在恰当的地点而被选中
使用学生以及社会组织成员;
商场拦截购物者;
使用费用帐目清单确定的百货商店;
“街上的行人”访谈。
便利抽样在所有抽样技术中成本最低、耗时最少,抽样单位易于接近; 不能代表总体。
非概率抽样——判断抽样
判断抽样是便利抽样的一种形式,根据研究人员的判断选出总体中的个体
进行判断的研究人员或专家选出要被包括进样本的个体
是主观的判断,其价值完全取决于研究人员的判断、专业知识以及创造力
缺点是不支持特定总体的直接推断
优点是成本低、便利且快速
非概率抽样——配额抽样
配额抽样可以被看成两阶段有约束的判断抽样
第一阶段,由确定总体中的个体的控制类别或者配额组成,配额确保了样本的组成与总体的组成在特定特征方面相同;
第二阶段,样本个体在便利或者判断的基础上被选择出来
缺点是缺乏对总体的代表性,无法计算抽样误差
优点是低成本,并且为每个配额选择个体对访谈人员而言较为容易 非概率抽样——滚雪球抽样
通常是先选出一组最初的调查对象,通常是随机选出的,在访谈之后,要求这些被访者推荐一些属于目标总体的其他人,根据这些推选出后面的被访者。
与随机的方式相比,被推举的人将具备与推荐人更为翔实的人口及心理特征。 主要目的是估计总体中非常稀少的某些特征。
缺点是这种方式非常耗时。
概率抽样——简单随机抽样
在简单随机抽样中,总体中每一个个体都有一个已知且相等的抽中概率
首先确定一个抽样框架,其中的每一个个体被分配了一个唯一的号码 然后产生出随机的数字来确定那些个体被包括进样本中
优点是易于理解,样本结果可以推断总体,大多数统计推论方法都假定数据是由简单随机抽样法法获得的
局限性:抽样框难以构建;数据收集时间和成本高;比其他概率抽样精确度低,
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
差较大。 概率抽样——系统抽样
在系统抽样中,通过选择一个随机的起点,然后从抽样框架中连续地每隔i个个体选出一个个体,从而选出样本。
这种方法成本较低,因为只需要做一次随机抽样
可以在不了解抽样框的组成的情况下进行
概率抽样——分层抽样
分层抽样是一个两阶段过程,总体被分割为子总体,或称为“层”后,再用随机方法,从每一层中选出个体。
各层间应相互独立,并且全体上没有遗漏; 与配额抽样法法的不同是自总体的样本选取是随机的;
分成抽样可以确保子总体在样本中都得以体现。 概率抽样——整群抽样
首先将目标总体分为相互排斥且没有遗漏的子总体,或称群,然后根据一种概率抽样技术,
选出各群的一个随机样本
可分为单阶段整群抽样与二阶段整群抽样; 与分层抽样的关键差别在于,在整群抽样中,只有一个子总体的样本被选出,而在分层抽样
中,为了进一步的抽样,所有的子总体都被选出来了;
整群抽样的目的是通过降低成本来增加抽样效率,分层抽样的目的是增加精确度。
在每个群中的各体,应尽可能的异质性,但各群本身应尽可能的同质。
不利
有利
操作上的考虑
有利
不利
统计上的考虑
异质(高)
同质(低)
总体的变异程度
抽样误差较大
非抽样误差较大
抽样误差与非抽样误差的相对大小 描述性
概率抽样
非概率抽样
探索性
有利于使用的条件
研究的性质
决择考虑方面
引入概念——样本量的确定
教条式方法
成本基本法
统计分析法
置信区间法
确定样本量——教条主义方法
任意方法也许基于经验,如5%规则 具有主观性
优点:容易确定,简单易行
缺点:无效率、不经济
200-300
150
广告研究
300-500
200
试销研究
300-500
200
产品测试
300-500
200
问题解决研究
1000-2000
500
问题鉴别研究
典型范围
最小量
研究类型
确定样本量——成本基础法
将成本作为确定样本容量的基础
对于成本基础法的区别很大;
通常会忽视调查结果对管理决策的价值;
确定样本容量一个好的
办法
鲁班奖评选办法下载鲁班奖评选办法下载鲁班奖评选办法下载企业年金办法下载企业年金办法下载
是考虑成本与调研对于经历的价值之间的关系;
确定样本量——统计分析法
一些统计分析方法对最小样本容量有要求
如果要讨论分类变量的影响,那么每一分类变量的样本数应符合统计分析数的需要
要将每一类样本或子集看成一个总体
确定样本量——置信区间法
运用差异性置信区间、样本分布以及平均数标准误差或百分比标准误差等概念来创建一个由
小样本
置信区间的概念,是一个范围,其终点指定了对于一个问题的某一应答百分率。
标准差越大置信区间就越大
结合简单随机抽样、置信区间计算样本量
在简单随机抽样下,通常结合置信区间法使用容许误差和估计量的标准差来确定所需的样本
量。
在计算样本容量时,我们要考虑三个因素:
可确信的总体差异性大小
期望精确度
估计总体值所需要的置信度
Z2 S2 n = ------------
d2
其中:
n :代表所需要样本量
Z:置信水平的Z统计量 (可通过查表得出)
S:总体的标准差;
d :置信区间的1/2,在实际应用中就是容许误差,或者调查误差。
公式的应用方法
对于公式的应用,一些参数是我们可以事先确定的:Z值取决于置信水平,通常我们可以考虑95%的置信水平,那么Z=1.96。然后可以确定容许误差d(或者说精度),即我们可以根据实际情况指定置信区间的半宽度d。因此,公式应用的关键是如何确定总体的标准差S。如果我们可以估计出总体的方差(标准差),那么我们可以根据公式计算出样本量。 例如:要了解该城市的居民收入,假定我们知道该市居民收入的标准差为1500,要求的调查误差不超过100元,则在95%的置信水平下,所需的样本量为
n=1.962*15002/1002=8,643,600/10,000=864 即需要调查的样本量为864个。
以上公式只是理论上的,在实际调查中确定合理的样本量,必须考虑多方面的因素。 由于人们通常缺乏对标准差的感性认识,因此对标准差的估计往往是最难的。总体的标准差是123, 还是765,如果没有一点对样本的先验知识,那么对标准差的估计是不可能的。 实际研究的情况通常要复杂得多,因为一个研究往往都要考虑多个目标的,即要求对多个指标的误差进行控制,而不是简单地考虑一个指标。
样本容量的确定通常是介于理论上的完善方案与实际的可行方案之间的一个折中方案。 实际调查样本量的确定原则
1、调查的主要目标
一个现实的市场调查往往有多个目标,对于一些目标单一的调查,调查的样本量往往可以很少,而对于具有多个目标的研究,必须考虑这些目标中变异程度最大,要求精度最高的目标。
2、分类比较的程度
分类是市场研究中一个最基本的方法,研究者往往是通过分类来发现细分市场,确定产品的市场定位等。假定对同一变量(研究目标),在一定精度与置信程度下,只要100个样本量就足够了,如果我们仅仅希望了解不同性别的消费者市场,则确定样本量时只需要考虑两类消费者的样本量,这样调查的总样本量可能需要200个以上,如果希望了解不同年龄层的消费者,则可能要将消费者分为多类,如分为:20岁以下,20-35,35-50,50岁以上等四类,这样的样本量需要400个以上。也就是说,确定样本量时必须考虑到每一类别的样本量。
3、调查区域的大小
根据常识,调查区域越大,所需要的样本量可能越大,因为大区域内的样本变异程度我们通常较难掌握。此外,在实际研究中,我们还往往需要对大区域进行进一步分类,以寻求更加准确的市场细分。因此,对于同一调查目标,在上海进行调查所需要的样本量通常是要大于苏州的。
实际研究中的一些经验
1、通过对方差的估计,采用公式计算所需样本量,主要做法有:
用两步抽样,在调查前先抽取少量的样本,得到标准差S的估计,然后代入公式中,得到下一步抽样所需样本量n;
如果有以前类似调查的数据,可以使用以前调查的方差作为总体方差的估计。
2、根据经验,确定样本量,主要方法有:
如果以前有人做过类似的研究,初学者可以参照前人的样本。