中国家庭金融抽样
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
简介
2013年1月19日
一、调查样本框和样本量
为了保证样本的随机性和代
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
性,同时达到CHFS着眼于研究家庭资产配置、消费储蓄等行为的目的,抽样设计力求满足如下四个方面的要求:一是经济富裕地区的样本比重相对较大;二是城镇地区的样本比重相对较大;三是样本的地理分布比较均匀;四是尽可能节约成本。
总体而言,本项目的整体抽样方案采用了分层、三阶段与规模度量成比例(PPS)的抽样设计。初级抽样单元(PSU)为全国除西藏、新疆、内蒙和港澳地区外的2585个市/县。第二阶段抽样将直接从市/县中抽取居委会/村委会;最后在居委会/村委会中抽取住户。每个阶段抽样的实施都采用了PPS抽样方法,其权重为该抽样单位的人口数(或户数)。为控制成本,本项目首轮调查的户数设定为8438户。
从可操作性以及成本的角度出发,各阶段样本数设定如下:首先,根据城乡以及地区经济发展水平,末端抽样的户数(即从每个居委会/村委会抽取的户数)设定在20—50户之间,其平均户数约为25户;其次,在每个市/县中抽取的居委会/村委会数量为4;最后可以计算得到抽取的市/县个数约为8000÷(4×25)=80。
二、抽样设计
总体而言,本项目的整体抽样方案采用了分层、三阶段与规模度量成比例(PPS)的抽样设计。初级抽样单元(PSU)为全国除西藏、新疆、内蒙和港澳地区外的2585个市/县。第二阶段抽样将直接从市/县中抽取居委会/村委会;最后在居委会/村委会中抽取住户。每个阶段抽样的实施都采用了PPS抽样方法,其权重为该抽样单位的人口数(或户数)。为控制成本,本项目首轮调查的户数设定为8000—8500户。
从可操作性角度出发,各阶段样本数设定如下:首先,根据城乡以及地区经济发展水平,末端抽样的户数(即从每个居委会/村委会抽取的户数)设定在20—50户之间,其平均户数约为25户;其次,在每个市/县中抽取的居委会/村委会数量为4;最后可以计算得到抽取的市/县个数约为8000÷(4×25)=80。
1. 第一阶段抽样
第一阶段抽样的目标是从2585个市县中抽取80个市县。同时,要求80个市县的地理分布相对均匀,并且富裕地区的样本不能过少。为达到该目的,我们将2585个市县按照人均GDP分成十层,在每个层内以市县人口数为权重,采用PPS抽样抽取8个市县,共抽得80个市县,样本涵盖全国25 个省。表1列出了抽取的80个市县样本与总体的人均GDP描述统计。可以看出,样本与总体在人均GDP的分布上是非常接近的。
表1:总体和80个市县样本人均GDP分布
人均GDP
均值
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
差
中位数
Q25
Q75
峰度
偏度
总体
17334.8
17736.9
11370
7173
20263
3.2
17.64
样本
17809.2
19336.3
11349
7232
21143
3.5
20.41
注:Q25和Q75分别表示25%和75%的分位数
上述抽样过程并没有考虑到抽取出的市县样本的地理分布情况。为了评估在上述抽样方案下样本的地理分布情况,我们通过随机模拟的方式将上述分层PPS抽样过程重复1000次,得到样本的平均地理分布情况(以东部、中部和西部城市占样本总体的比例衡量)。模拟结果如表2所示。
表2:总体和样本的地理分布
总体
样本平均(模拟1000次)
东部
中部
西部
东部
中部
西部
均值
0.343
0.272
0.384
0.367
0.306
0.327
标准差
—
—
—
0.023
0.023
0.023
由表2可以看出,在该抽样方案下,样本中东部、中部和西部市县占样本总体的比例十分稳定(其模拟的标准差很小),约为37:30:33。与总体相比,样本中东部城市的比例更大。但由于我们的抽样方案仅要求样本分布相对均匀,而无需与总体一致,因此该抽样方案能满足第一阶段的抽样要求。在最终抽取出的涵盖25个省份80个市县的样本中,东、中、西部省份的比例为32:27:21。
2. 第二阶段抽样
第二阶段抽样的目标是从市县中抽取居委会/村委会样本。抽样的关键在合理分配城镇样本和农村样本的比例。由于我国非农人口众多,若按照非农人口比例等比例分配城乡样本,则会出现城镇样本过少的情况。考虑到CHFS项目的研究主题是居民资产配置等家庭金融行为,必须按一定的原则分配样本,以达到多抽取城镇样本的目的。其具体实施方法如下:
第一,按照各市县的非农人口比例的分位数,将各市县分成5个组。分组的依据是各市县非农人口比重20%、40%、60%和80%的分位数。
第二,在非农人口比例最大的市县组中,居委会和村委会分配的样本比例是4:0。
第三,在非农人口比例次大的市县组中,居委会和村委会分配的样本比例是3:1。
第四,以此类推,在非农人口比例最低的市县组中,居委会和村委会分配的样本比例是0:4
基于上述样本分配方式,在既定市/县内形成了城镇和农村两个抽样框。在城镇和农村抽样框内,其抽取的居委会和村委会样本数量是已知的。因此可以分别按照各居委会(村委会)的居民户数进行PPS抽样。80个市县的城乡样本分配如表3所示。
表3:城乡样本分配
城镇样本数
频数
比重(%)
0
15
18.75
1
10
12.25
2
15
18.75
3
15
18.75
4
25
31.25
从表3可以看出,在我们的城乡样本分配方案下,城镇样本数(居委会数量)为0的市县个数为15,占80个市县的18.75%;而农村样本数(村委会数量)为零的市县为25个,占80个市县样本的31.25%。上述统计数据表明该样本分配方案达到了多抽取城市样本的目的。按照上述方案,在第二阶段抽取出的320个居委会/村委会中,城镇样本与农村样本比例为:181:139。
3. 第三阶段抽样
第三阶段抽样是CHFS项目的末端抽样阶段。其目的是从给定居委会/村委会的住户清单列表中抽取访问的住户。在这一阶段的抽样中,农村地区抽取的户数统一设定为20户。而在城市地区,我们收集了各社区的平均住房价格信息,并以此作为社区富裕程度的衡量指标。在此基础上,我们根据住房价格由高到低将各社区分成四个组,在住房价格最高的组分配50户样本;而在住房价格最低的组分配25个样本,以达到进一步抽取富裕家庭的目的。各城市社区的住户样本分配情况如表4所示。
表4:城市社区户数分配
分配户数
社区数量
社区百分比(%)
社区累计百分比(%)
25
53
32.72
32.72
30
52
32.10
64.81
35
28
17.28
82.10
50
29
17.90
100.00
三、抽样实施
1. 绘制住宅分布图
本项目的末端抽样建立在绘制住宅分布图以及制作住户清单列表的基础上,借助“住宅分布地理信息”作为抽样框来进行末端抽样。末端抽样框的精度很大程度上取决于实地绘图的精度,因此,如何有效的提高绘图精度成为关键。
CHFS的绘图采用项目组自行研发的地理信息抽样系统,借助3G(遥感、GPS、GIS)技术解决了目标区域空间地理信息的采集问题。借助地理信息研究所提供的高精度数字化影像图和矢量地图,绘图员在野外通过电子平板仪加上GPS定位获取高精度的测量电子数据,并直接输入到计算机系统中,从而获得高质量矢量底图。考虑到地图数据的时效性,通过后期实地核查人工修正的方式对空间地理数字模型进行修正,建立起与现实地理空间对应的虚拟地理信息空间。
该系统除了使绘图工作人员能直接在电子地图上绘制住宅分布图外,还能储存住户分布信息,并辅助完成末端抽样工作,从而在最大程度上提高工作效率,减少绘图和末端抽样误差。此外,使用电子地理信息抽样系统也有利于保存住户信息资料,为进一步深化和改进项目的工作奠定了基础。该部分核心流程如下图1所示:
住宅分布图
图1:绘图核心处理流程
2. 末端抽样
末端抽样基于绘图工作生成的住户清单列表采用等距抽样的方式进行。具体步骤如下:
第一,计算抽样间距,即每隔多少户抽选一个家庭。抽样间距的计算公式为:
抽样间距 = 住户清单总户数 ÷ 设计抽取户数(向上取整)
若某社区共有住户100户,计划抽取30户,100/30=3.33。则抽样间距为4。
第二,确定随机起点。随机起点的确定为抽样开始时,钟表上分针所处位置的个体数值。如此时时间为15时34分,则随机起点为4;如此时时间为12:03,则随机起点为3。
第三,确定抽中住户。随机起点所指示的住户为第一个被抽中的住户。在上述例子中,假定随机起点为3,则第一个被抽中的住户是编号为3的住户。则其他被抽中的住户依次为7,11,15,19,…,依次类推,直至抽满30户为止。
我们的抽样中对家庭的定义如下:家庭可分为多人家庭和单人家庭两种情况。多人家庭由夫妻、父母、子女、兄弟姐妹等构成,可以直接访问;单人家庭又分为几种情况:没有其他家人,可以直接访问;而如果在其他地方有家人,但经济独立,则不算作本地区的家庭成员。同时,必须至少有一个人是中国国籍,至少在本地居住6个月以上。识别家庭总的原则是满足下列条件之一:共享收入,共担支出。
图2 绘图员手绘地图
图3 绘图员电子绘图
四、样本分布与加权汇总
1. 样本分布
在上述抽样方法下,最终抽取出的涵盖25个省份80个市县的样本中,东、中、西部省份的比例为32:27:21。城镇样本数(居委会数量)为0的市县个数为15,占80个市县的18.75%;而农村样本数(村委会数量)为零的市县为25个,占80个市县样本的31.25%。在第二阶段抽取出的320个居委会/村委会中,城镇样本与农村样本比例为162:158。
图4 样本分布
2. 加权汇总
在我们的抽样设计下,由于每户家庭被抽中的概率不同,因此每户家庭代表的中国家庭数量也就不同。在推断总体的时候,需要通过权重的调整来真实准确的反映每户样本家庭代表的家庭数量,以获得对总体的正确推断。中国家庭金融调查的所有计算结果都经过抽样权重的调整。抽样权重的计算方法如下,根据每阶段的抽样分别计算出调查市县被抽中的概率P1、调查社区(村)在所属区县被抽中的概率P2以及调查样本在所属社区(村)被抽中的概率P3,分别计算出三阶段的抽样权重W1=1/P1、W2=1/P2、W3=1/P3,最后得到该样本的抽样权重为W=W1×W2×W3 。