首页 第八章 虚拟变量

第八章 虚拟变量

举报
开通vip

第八章 虚拟变量第8章模型中的特殊解释变量虚拟变量(dummyvariable)主要内容一、为什么引入虚拟变量二、用虚拟变量测量截距变动三、测量斜率变动四、分段线性回归2CompanyLogo一、为什么引入虚拟变量1.定量解释变量诸如前几章介绍的,可以在取值范围内连续取值的解释变量,称作定量解释变量。如:人均收入,农产品收购量,等。2.定性变量如性别、民族、国籍、战争、自然灾害和政治体制等,只表示某种特征的存在与不存在,称作定性变量。3CompanyLogo一、为什么引入虚拟变量建立回归模型的过程中,被解释变量不仅受定量解释变量影...

第八章 虚拟变量
第8章模型中的特殊解释变量虚拟变量(dummyvariable)主要内容一、为什么引入虚拟变量二、用虚拟变量测量截距变动三、测量斜率变动四、分段线性回归2CompanyLogo一、为什么引入虚拟变量1.定量解释变量诸如前几章介绍的,可以在取值范围内连续取值的解释变量,称作定量解释变量。如:人均收入,农产品收购量,等。2.定性变量如性别、民族、国籍、战争、自然灾害和政治体制等,只表示某种特征的存在与不存在,称作定性变量。3CompanyLogo一、为什么引入虚拟变量建立回归模型的过程中,被解释变量不仅受定量解释变量影响,有时还受一些诸如如性别、民族、国籍、战争、自然灾害和政治体制等定性变量的影响。因此,当这些定性变量对被解释变量产生影响时,当然也应该包括在回归模型中。4CompanyLogo一、为什么引入虚拟变量3.如何将定性变量引入模型由于定性变量通常表示的是某种特征或属性是否存在,如男性、女性,城市户口、非城市户口等,所以量化方法可采用取值为0或1。可以用1表示该属性存在,0表示该属性不存在(也可相反)。5CompanyLogo一、为什么引入虚拟变量4.虚拟变量上述这种取值为0或1的变量称作虚拟变量,用D(Dummy)表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。当一个定性变量含有m个类别时,应向模型引入m-1个虚拟变量。6CompanyLogo一、为什么引入虚拟变量比如“性别”含男性与女性两个类别,所以当“性别”作解释变量时,应向模型引入一个虚拟变量。取值方式是:(男性)(女性)(女性)(男性)或7CompanyLogo一、为什么引入虚拟变量再例如,定性变量“学历”还有四个类别,即大学学历、中学学历、小学学历和无学历。当“学历”作解释变量时,应向模型引入(4-1)三个虚拟变量,一种取值方式是:(大学学历)(非大学学历)(小学学历)(非小学学历)(中学学历)(非中学学历)8CompanyLogo一、为什么引入虚拟变量5.虚拟变量注意事项(1)当定性变量含有m个类别时,模型不能引入m个虚拟变量。否则在虚拟变量间会产生完全多重共线性,无法估计回归参数。例如:一年四季,取m=4个虚拟变量。截距项对应的单位向量等于D1+D2+D3+D4。即出现完全多重共线性。tβ0D1D2D3D41995.1110001995.2101001995.3100101995.4100011996.1110001996.2101001996.3100101996.4100011997.11 10009CompanyLogo一、为什么引入虚拟变量(2)把虚拟变量取值为0所对应的类别称作基础类别。例如:按上面对“学历”的赋值方法,“无学历”为基础类别。(3)当定性变量含有m个类别时,不能把虚拟变量的值设成如下形式:(第一个类别)(第二个类别)(第m个类别)这种赋值法在一般情形下与虚拟变量赋值是完全不同的两回事。10CompanyLogo一、为什么引入虚拟变量(4)回归模型可以只用虚拟变量作解释变量,也可以用定量变量和虚拟变量一起作解释变量。11CompanyLogo二、用虚拟变量测量截距变动下面给出的模型都属于测量截距变动的模型。以上面第二个模型为例,D=1、0时,回归函数分别是(D=1)(D=0)由此可见,向模型引入虚拟变量,其数学意义就是回归函数截距项发生变化。对虚拟变量的系数作显著性检验,就是判别两条回归直线的截距项是否存在显著性差异。12CompanyLogo二、用虚拟变量测量截距变动例8.3随机调查美国旧金山地区20个家庭的储蓄情况,拟建立年储蓄额Yi(千美元)对年收入Xi(千美元)的回归模型。上部的6个样本点,都是自己有房的家庭。下部的14个样本点,都是租房住的家庭。这两类家庭所对应的样本观测点各自都表现出明显的不同的线性关系。13CompanyLogo二、用虚拟变量测量截距变动为研究不同住房状况家庭的储蓄情况,引入定性变量“住房状况”,用D表示。虚拟变量D定义如下:建立回归模型:(有房户)(租房户)Y—年储蓄额Y(千美元)X—年收入(千美元)D—住房状况14CompanyLogo二、用虚拟变量测量截距变动因为D不能作为Eviews的用户变量名,所以虚拟变量的名称取D1。15CompanyLogo二、用虚拟变量测量截距变动由于虚拟变量D的回归系数显著地不为零,说明对住房状况不同的两类家庭来说,回归函数截距项确实明显不同。(因为D不能作为Eviews的用户变量名,所以取D1)16CompanyLogo二、用虚拟变量测量截距变动当模型不引入虚拟变量“住房状况”时,得回归方程如下:比较上述两个回归方程的统计检验指标,说明该回归模型引入虚拟变量非常必要。17CompanyLogo二、用虚拟变量测量截距变动引入虚拟变量后,不同住房状况的居民的储蓄明显具有不同的截距:(1)D=1时,即对于有房户(2)D=0时,即对于租房户18CompanyLogo二、用虚拟变量测量截距变动例8.4季节影响“季节”是在研究经济问题中常常遇到的定性因素。比如,酒、肉的销量在冬季要超过其他季节,而饮料的销量又以夏季为最大。当建立这类问题的计量模型时,就要考虑把“季节”因素引入模型。由于一年有四个季节,所以这是一个含有四个类别的定性变量。应该向模型引入3个虚拟变量。19CompanyLogo二、用虚拟变量测量截距变动研究,1982年第1季度至1988年第4季度全国按季节市场用煤销售量,时间序列图如下20CompanyLogo二、用虚拟变量测量截距变动从上图看出,煤销售量随季节不同呈明显的周期性变化。给出三个虚拟变量,设:(第四季度)(其他季度)(第二季度)(其他季度)(第三季度)(其他季度)这里是以第一季度为基础类别,也可以选其他季度为基础类别。设模型为:21CompanyLogo二、用虚拟变量测量截距变动1982年第1季度取t=1,估计模型参数给定显著性水平α=0.05,D2、D3的系数没有显著性,说明第二、三季度可以归并入基础类别第一季度。22CompanyLogo二、用虚拟变量测量截距变动现在考虑只加入一个虚拟变量D1,把季节因素分为第四季度和第一、二、三季度两类。(第四季度)(其他季度)这里第一、二、三季度为基础类23CompanyLogo二、用虚拟变量测量截距变动第四季度用煤量:第一、二、三季度用煤量:24CompanyLogo三、测量斜率变动用虚拟变量还可以考察回归函数的斜率是否发生变化,来分析不同“类型”的不同斜率。方法是在模型中加入定量变量与虚拟变量的乘积项:设模型如下按β2、β3是否为零,回归函数可有如下四种形式:25CompanyLogo三、测量斜率变动截距、斜率同时发生变化的两种情形:26CompanyLogo三、测量斜率变动例2:利用中国进出口贸易总额数据(1950-1984)。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下:从图中观察到,改革开放前后的散点斜率确实不同,所以可以用虚拟变量进行测度。1978年27CompanyLogo三、测量斜率变动模型的数学形式:以时间time为解释变量,进出口贸易总额用trade表示:Eviews先中生成解释变量time和虚拟变量D的乘积:genrtimeD=time*D1(因为D不能作为Eviews的用户变量名,所以取D1)28CompanyLogo三、测量斜率变动29CompanyLogo三、测量斜率变动还有虚拟变量的两项都是显著的,所以上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量(斜率)扩大了17倍。30CompanyLogo四、分段线性回归当在模型中使用虚拟变量时,回归函数就不再是连续的了,分段线性回归可以既使用虚拟变量描述出模型结构变化,又可以使回归函数保持连续,其中每一段都是线性的。31CompanyLogo四、分段线性回归考虑下面的模型其中Xb1表示结构发生变化的t=b1时刻的Xt的值。当D1=0时,当D1=1时,其中Xt=Xb1时,两个式子相等。尽管两个子时段回归函数不同,但是在结构发生突变的那一刻,两个子时段回归函数是连续的。32CompanyLogo四、分段线性回归如果回归函数在两个时刻t=b1,b2,(b1<b2)发生结构变化时,定义两个虚拟变量如下:其中t=1,2,3,……,T,相应的分段线性回归模型为:33CompanyLogo四、分段线性回归三个直线段的回归函数分别是:34CompanyLogo四、分段线性回归例8.6中国货币流通量。对数的中国货币流通序列LMt通过对LMt序列的分析,可知:(1)从建国初期~1961(三年经济困难时期开始年)年的LMt增加速度比较快;(2)1962~1978年由于处于经济困难和文化大革命时期,LMt增速明显减缓;(3)1978年改革开放以后,进入社会主义市场经济时期,LMt增速是建国以来最快的一个时期。使用虚拟变量进行分析。35CompanyLogo四、分段线性回归定义两个虚拟变量:36CompanyLogo四、分段线性回归均显著37CompanyLogo四、分段线性回归上述分段式在1961年(t=10)和1978年(t=27)是连续的。折点的总坐标分别为4.5158和5.3539。1978年改革开放以后的LMt的年增长系数(斜率)最高;1961年次之,1962年~1978年期间再次之。38CompanyLogo四、分段线性回归LM观测值序列(LM)与拟合值序列(LMF)曲线图。本章完39CompanyLogoThankYou!演讲完毕,谢谢观看!
本文档为【第八章 虚拟变量】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
言言无悔一生
暂无简介~
格式:ppt
大小:476KB
软件:PowerPoint
页数:41
分类:
上传时间:2022-01-21
浏览量:0