首页 连玉君:面板数据模型讲义,第八章(理论和在STATA中的操作)

连玉君:面板数据模型讲义,第八章(理论和在STATA中的操作)

举报
开通vip

连玉君:面板数据模型讲义,第八章(理论和在STATA中的操作) Estimation with STATA 连玉君1 中山大学 岭南学院 金融系 arlionn@163.com 2007.07 1这是我在西安交通大学金禾中心读博期间整理的学习笔记。非常感谢我的导师钟经樊先生带我走进 计量经济学的多彩世界,并介绍给我一非常难得的朋友—- STATA。同时,也要感谢金禾中心的程建博 士 (现就职于建行总行博士后流动站)和朱晓明博士 (现就职于国家开发银行北京总行)在 LATEX软件的使 用方面给与的帮助。如果发现笔记中有任何错误和不妥之处,或是对我还没有想出来的问题有任...

连玉君:面板数据模型讲义,第八章(理论和在STATA中的操作)
Estimation with STATA 连玉君1 中山大学 岭南学院 金融系 arlionn@163.com 2007.07 1这是我在西安交通大学金禾中心读博期间整理的学习笔记。非常感谢我的导师钟经樊先生带我走进 计量经济学的多彩世界,并介绍给我一非常难得的朋友—- STATA。同时,也要感谢金禾中心的程建博 士 (现就职于建行总行博士后流动站)和朱晓明博士 (现就职于国家开发银行北京总行)在 LATEX软件的使 用方面给与的帮助。如果发现笔记中有任何错误和不妥之处,或是对我还没有想出来的问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 有任何解决 的建议,烦请发邮件给我。同时,我已经完成的笔记 (共 12章)都可以在我的博客 ( http:// arlion.8j.cn ) 中下载,欢迎光临。 由于这些笔记还在不断更新中,所以恳请各位将阅读过程中发现的小错误及时反 馈给我,我会将你们的名字做成列表,定时发送最新版的笔记给你们。 yzss 打字机 yzss 打字机 特别好的一篇文章,希望我能学会STATA,加油! yzss 高亮 yzss 高亮 目录 第八章 面板数据模型 1 8.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8.2 静态面板数据模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8.2.1 固定效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 8.2.2 随机效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 8.2.3 假设检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 8.2.4 STATA实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 8.3 非均齐方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 8.3.1 异方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 8.3.2 序列相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 8.3.3 方差形式未知时的稳健性估计 . . . . . . . . . . . . . . . . . . . . . . . . . . 33 8.4 动态面板模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 8.5 面板 VAR模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 8.6 面板门槛模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 8.7 面板单位根检验和协整分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 I 第八章 面板数据模型 8.1 简介 面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体 (如居民、国 家、公司等)连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来, 由于面板数据资料的获得变得相对容易,使其应用范围也不断扩大。而关于面板数据的计量理 论也几乎涉及到了以往截面分析和时间序列分析中所有可能出现的主题,如近年来发展出的面 板向量自回归模型 (Panel VAR)、面板单位根检验 (Panel Unit Root test)、面板协整分析 (Panel Cointegeration)、门槛面板数据模型 (Panel Threshold)等,都是在现有截面分析和时间序列分析 中的热点主题的基础上发展起来的。 采用面板数据模型进行分析的主要目的有二:一是控制不可观测的个体异质性;二是描述 和分析动态调整过程,处理误差成分。 使用面板数据主要有以下几方面的优点: • 便于控制个体的异质性。比如,我们在研究全国 30个省份居民人均消费青岛啤酒的数 量时。可以选取居民的收入、当地的啤酒价格、上一年的啤酒消费量等变量作为解释变 量。但同时我们认为民族习惯、1 风俗文化、2广告投放等因素也会显著地影响居民的啤 酒消费量。对于特定的个体而言,前两种因素不会随时间的推移而有明显的变化,通常 称为个体效应。而广告的投放往往通过电视或广播,我们可以认为在特定的年份所有省 份所接受的广告投放量是相同的,通常称为时间效应。这些因素往往因为难以获得数据 或不易衡量而无法进入我们的模型,在截面分析中者往往会引起遗漏变量的问题。而面 板数据模型的主要用途之一就在于处理这些不可观测的个体效应或时间效应。 • 包含的信息量更大,降低了变量间共线性的可能性,增加了自由度和估计的有效性。 • 便于分析动态调整。 8.2 静态面板数据模型 我们一般所说的静态面板数据模型,是指解释变量中不包含被解释变量的滞后项 (通常为 一阶滞后项) 的情形。但严格地讲,随机干扰项服从某种序列相关的模型,如 AR(1), AR(2), MA(1)等,也不是静态模型。动态模型和静态模型在处理方法上往往有较大的差异。本节中我 们重点介绍两种最为常用的静态模型—固定效应模型和随机效应模型。 考虑如下模型: yi t = x′i tβββ + ui t (8-1) ui t = ai + εi t 1如宁夏属于回族自治区,那里的回民因为信仰伊斯兰教,所以不允许饮酒的,而生活在宁夏的许多汉民也往往 因为自己的回民朋友无法饮酒而无形中减少了啤酒的消费量。 2如中国南部地区啤酒的消费量比较大,而北方很多地区只有在夏天才会饮用较多的啤酒,冬天他们一般是只喝 白酒的。 1 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 8.2静态面板数据模型 2 其中, i = 1, 2, · · · , N , t = 1, 2, · · · , T;xi t 为 K ×1 列向量,K 为解释变量的个 数,βββ 为 K × 1系数列向量。对于特定的个体 i 而言, ai 表示那些不随时间改变的影响因素,而这些因 素在多数情况下都是无法直接观测或难以量化的,如个人的消费习惯、国家的社会 制度 关于办公室下班关闭电源制度矿山事故隐患举报和奖励制度制度下载人事管理制度doc盘点制度下载 等,我 们一般称其为“个体效应” (individual effects)。对“个体效应”的处理主要有两种方式:一种 是视其为不随时间改变的固定性因素,相应的模型称为“固定效应”模型;另一种是视其为随 机因素,相应的模型称为“随机效应”模型。 这两种模型的差异主要反映在对“个体效应”的处理上。固定效应模型中的个体差异反映 在每个个体都有一个特定的截距项上;随机效应模型则假设所有的个体具有相同的截距项,个 体的差异主要反应在随机干扰项的设定上,因此该模型通常也称为“误差成分模型”。基于 此,一种常见的观点认为,当我们的样本来自一个较小的母体时,我们应该使用固定效应模 型,而当样本来自一个很大的母体时,应当采用随机效应模型。比如在研究中国地区经济增长 的过程中,我们以全国 28个省区为研究对象,可以认为这 28个省区几乎代表了整个母体。同 时也可以假设在样本区间内,各省区的经济结构、人口素质等不可观测的特质性因素是固定不 变的,因此采用固定效应模型是比较合适的。而当我们研究西安市居民的消费行为时,即使样 本数为 10000人,相对于西安市 600万人口的母体而言仍然是个很小的样本。此时,可以认为 不同的居民在个人能力、消费习惯等方面的差异是随机的,此时采用随机效应模型较为合适。 遗憾的是,很多情况下,我们并不能明确地区分我们的样本来自一个较大母体还是较小的 母体。因此有些学者认为,区分固定效应模型和随机效应模型应当看使用二者的假设条件是否 满足。由于随机效应模型 把个体效应设定为干扰项的一部分,所以就要求解释变量与个体效应 不相关,而固定效应模型并不需要这个假设条件。因此,如果我们的检验结果表明该假设满 足,那么就应该采用随机效应模型,因为它更为有效,反之,就需要采用固定效应模型。 另外,有些学者认为具体采用哪一种模型主要决定于我们的分析目的。如果主要目的在于 估计模型的参数,而模型中个体的数目又不是很大,采用固定效应模型是个不错的选择,因 为它非常容易估计。但当我们需要对模型的误差成分进行分析时 (通常分解为长期效果和短期 效果),就只能采用随机效应模型。在这种情况下,即使模型中的部分解释变量与个体效应相 关,我们仍然可以通过工具变量法对模型进行估计。 简言之,两种模型有各自的优缺点和适用范围,在实证分析的过程中,我们一方面要根 据分析的目的选择合适的模型,同时也要以 8.2.3节中介绍的假设检验方法为基础进行模型筛 选。 8.2.1 固定效应模型 模型的基本设定和假设条件 若视 ai 为固定效应,模型 (8-1)可以采用向量的形式表示为: yi = ai 1T + xiβββ + εεεi (8-2) 其中, yi = (yi1, yi2, · · · , yiT )′ , xi = (xi1, xi2, · · · , xiT )′ , εεεi = (εi1, εi2, · · · , εiT )′ , 1T 是一个所有元 素都为 1的 T × 1列向量。 我们有如下两个基本假设: 3 3一般应用中,我们也常采用如下两个相对较弱的假设。假设 1′: E[εεεi |xi ] = 0和假设 2′: Var [εεεi |xi ] = σ 2IT 。 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 第八章面板数据模型 3 假设 1 : E[εεεi |xi , ai ] = 0 (8-3) 假设 2 : Var [εεεi |xi , ai ] = σ 2IT (8-4) 假设 1表明干扰项 εεε与解释变量 x的当期观察值、前期观察值以及未来的观察值均不相关,也 就是说模型中所有的解释变量都是严格外生的。假设 2就是一般的同方差假设,在此假设下模 型 (8-1)的 OLS估计是 BLUE的。当此假设无法满足时,我们就需要处理异方差或序列相关以 便得到稳健性估计量。 组内估计量 上面我们已经提到,在假设 1和假设 2同时成立的情况下,模型 (8-1)的 OLS估计是 BLUE 的。但在实际操作的过程中,如果 N比较大,那么我们的模型中将包含 (N + K )个解释变量, 4计算的工作量往往很大,对于 N相当大的情况 (如 N=10000 ),一般的计算机都无法胜任。所 以我们有必要先进行一些变换以消除固定效应,进而对简化后的模型进行估计,本小节和下一 小节 介绍的这两种方法都是基于此目的进行的。 我们首先将所有观察值进行堆叠,于是模型 (8-1)可用矩阵形式表示为: y = Da+ Xβββ + εεε (8-5) 其中, y = (y′1, y′2, · · · , y′N )′ , εεε = (εεε′1, εεε′2, · · · , εεε′N )′ , 均为 N T ×1 向量, D = IN ⊗1T , a = (a1, a2, · · · , aN )′ 。考虑到 D 矩阵的构造形式,它事实上对应着 N 个虚拟变量。因此,模型 (8-5)等价于在混合 OLS模型 y = Xβββ + εεε中加入 N 个虚拟变量。 在正式估计模型之前,我们先定义一些有用的矩阵运算,它们将在后面的分析中反复使 用。 定义 DD′ = IN ⊗ JT , 其中, JT = 1T 1′T 为 T ×T 维矩阵,每个元素均为 1。 同时,我 们定义 P = D(D′D)−1D′ = IN ⊗ J¯T , J¯T = (1/T )JT 是 T × T 维矩阵,每个元素均为 1/T ; Q = IN T − D(D′D)−1D′ = IN T − P。矩阵 P和 Q都具有如下性质: (1) 对称、幂等性: P′ = P ,且 P2 = P ; (2) 正交性: PQ = 0 ; (3) 和为单位矩阵: P+Q = IN T . 我们可以从上述三个性质中的任意两个推导出第三个。易于 证明 住所证明下载场所使用证明下载诊断证明下载住所证明下载爱问住所证明下载爱问 , QD = 0,因此,我们可以 通过在等式 (8-5)两边同时左乘 Q以消除固定效应: Qy = QXβββ +Qεεε (8-6) 4此时,我们可以将模型 (8-1)视为一个包含 N个虚拟变量, X中不包含常数项的普通 OLS模型。当然,我们也 可以在 X中包含常数项,但此时只需加入 N − 1个虚拟变量,参见脚注 6。 8.2静态面板数据模型 4 变换后的模型的 OLS估计量为: 5 βˆββWG = (X′QX)−1X′Qy (8-7) 方差估计量为: Var(βˆββW G) = σ 2(X′QX)−1 (8-8) 显然, σ 2 的一致估计量为: σˆ 2 = 1 N T−N−K (Qy−QXβˆββWG) ′(Qy−QXβˆββWG) (8-9) 个体效应的估计值为: aˆi = y¯i − x¯iβˆββWG (8-10) 该估计量通常称为“组内估计量”,因为上述变换实质上是从每个观察值中减去其组内平 均值,以去除组内不随时间变化的个体效应。变换后的模型 (8-7)的特定元素为: (yi t − y¯i ) = (x′i t − x¯i )βββ + (εi t − ε¯i ) (8-11) 其中, y¯i = (1/T ) ∑T t=1 yi t , x¯i 和 ε¯i 的定义方式与此相同。所以,要得到 βˆββWG ,我们只需要从原 始数据中间去其组内平均,然后对变换后的模型执行 OLS估计即可。 需要注意的是,在模型 (8-5)中, Da项实际上对应着 N 个虚拟变量,所以为了避免共线 性问题,解释变量 X中不应再包含常数项。6 一阶差分估计量 除了上述通过“组内去心”的办法消除固定效应外,我们还可以通过一阶差分的方式去除 固定效应。对 (8-1)式取一阶差分,得到 4yi2 = 4x′i2βββ +4εεεi2 ... 4yiT = 4x′iTβββ +4εεεiT (8-12) 采用矩阵形式可表示为 Byi = Bxi + Bεεεi (8-13) 其中, B =  −1 1 0 · · · 0 0 0 −1 1 · · · 0 0 ... ... . . . ... 0 0 0 · · · −1 1  (T−1)×T (8-14) 5事实上,模型 (8-6)并不满足 OLS的经典假设,因为 E[(Qεεε)(Qεεε)′] = σ 2Q 6= σ 2I,但其 GLS估计量与 (8-7)式 相同。具体推导过程留给读者。 6当然,我们也可以在 X中加入常数项,但此时要同时加入约束条件:∑Ni=1 ai = 0。这样我们估计出的个体效 应 aˆi 就应当解释为个体 i 的相对截距项,而不是前面得到的绝对截距项。STATA8.0就采取了在 X中包含常数项的 处理方式。 yzss 高亮 第八章面板数据模型 5 对所有观察值进行堆叠,得到 (IN ⊗ B)y = (IN ⊗ B)X+ (IN ⊗ B)εεε (8-15) 设 QB = IN ⊗ B,则相应的 OLS的估计量为: βˆββOLS = (X′QBX)−1X′QBy (8-16) 根据假设 1可知,E[εεεX] = 0,所以 βˆββOLS 是 βˆ 的无偏估计量,在 N 较大的情况下, βˆββOLS 也是 一致的。由假设 2可知, εεε 满足同方差假设,且不存在序列相关。但变换后的干扰项 Bεεε 却并 不满足同方差的假设, Var(QBεεε) = σ 2QBQ′B (8-17) 但此时模型 (8-15)的 GLS估计量是 BLUE的, βˆββGL S = [XQB(QBQ′B)−1QBX]−1XQB(QBQ′B)−1QBy. (8-18) 易于证明 QB(QBQ′B)−1QB = Q。 7 因此, βˆββGLS ∼ βˆββWG 也就是说,我们采用一阶差分去除“固定效应”后,再用 GLS估计差分后的模型以消除由于差 分而导致的干扰项的序列相关问题得到的 GLS估计量与我们前面介绍的组内估计是等价的。 由于 βˆββGLS 满足经典 OLS的基本假设,所以 βˆββWG 是 BLUE的。 正交分解 最后,我们需要介绍一下与上一小节中首先对原始数据进行差分处理,进而采用 GLS估计 经过差分变换的模型具有相同效果的另一种处理方式—“前向正交分解” (forward orthogonal debiations),这种方法最早是由 Arellano and Bover (1995)引入的。虽然在处理静态模型的过程 中使用这种方法略显繁复,但在动态面板数据模型的分析中,该方法显得格外重要。 正交变换基于如下 (T − 1)× T 矩阵 A = (BB′)−1/2B. 如果我们将 (BB′)−1/2 视为裘拉斯基 (Cholesky) 分解的上三角阵,那么 A 矩阵可表示为 A = 7利用矩阵直乘的性质: (A⊗ F)(C⊗D) = (AC)⊗ (FD) , 我们可以得到 QB(QBQ′B)−1QB = IN ⊗ B′(BB′)−1B。 进一步,我们可以证明 B′(BB′)−1B = IT − J¯T :由于矩阵 H = [ T−1/21′T (BB′)−1/2B ] 满足HH ′ = IT ,所以H ′H = IT ,即 1′T 1T /T + B′(BB′)−1B = IT 因此, QB(QBQ′B)−1QB = IN ⊗ (IT − J¯T ) = IN T − P = Q . yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 8.2静态面板数据模型 6 diag[(T − 1)/T, (T − 2)/(T − 1), · · · , 1/2]−1/2A† ,其中, A† =  1 (1− T )−1 (1− T )−1 · · · (1− T )−1 (1− T )−1 (1− T )−1 0 1 (2− T )−1 · · · (2− T )−1 (2− T )−1 (2− T )−1 ... ... ... ... ... ... 0 0 0 · · · 1 −1/2 −1/2 0 0 0 · · · 0 1 −1  . (8-19) 因此,干扰项 εεεi 经矩阵 A转换后得到的 εεε∗i = Aεεεi 将具有如下 T − 1个元素: ε∗i t = ct [εi t − 1 T − t (εi,t+1)+ · · · + εiT )] (8-20) 其中,c2t = (T − t)/(T − t + 1)。显然,A′A = IT − J¯T , AA′ = IT−1。进一步,我们可以得到 Q = IN ⊗ A′A。因此,我们采用 OLS估计经过这种“前向正交分解”变换后的模型同样可以 得到组内估计量 βˆββWG 。在随后的动态面板数据模型和面板向量自回归模型的分析中,我们将主 要应用这种转换方法。 时间效应 我们前面介绍的固定效应模型着重在于考虑不可观测的个体效应,按照同样的思路,我们 还可以在某些分析中考虑不可观测的时间效应。如在研究区域经济增长的过程中,全球石油价 格的上涨、金融危机的爆发都会对所有研究对象在特定年份的产出有所影响。我们注意到,这 些因素在特定的年份会对经济体中的所有个体同时产生影响,这启发我们可以通过设定时间虚 拟变量来反映这些时间效应的影响。 模型的基本设定为:8 yi t = x′i tβββ + ui t (8-21) ui t = ai + λt + εi t 其中,i = 1, 2, · · · , N ; t = 1, 2, · · · , T。相应的向量形式为: y = Xβββ + u (8-22) u = (IN ⊗ 1T )a+ (1N ⊗ IT )λλλ+ εεε 其中,λλλ = (λ1, λ2, · · · , λT )′,a和 εεε 的定义同前。假设对于任何 i 和 t 而言, xi t 均不与 εi t 相 关。为了分析的方便,令 Da = IN ⊗ 1T , Dλ = 1N ⊗ IT。那么模型的矩阵形式可表示为: y = Daa+ Dλλλλ+ Xβββ + εεε (8-23) 我们注意到, Da 和 Dλ分别为( N T × N )和( N T × T )维矩阵,当 N 或 T 较大时,运算量都会 很大。因此,我们需要事先进行一些简单的运算以去除个体效应和时间效应。类似于前面 JT 8部分文献也将此模型称为“双向固定效应模型”。 yzss 高亮 第八章面板数据模型 7 的定义方式,设 JN = 1N 1′N,于是,DλD′λ = JN ⊗ IT。同时,我们定义 EN = IN −J¯N,其中 J¯N = (1/N )JN。进一步,我们定义转换矩阵为: Q = EN ⊗ ET = IN ⊗ IT + IN ⊗J¯T −J¯N ⊗ IT +J¯N ⊗J¯T (8-24) 该转换矩阵可以去除个体效应 ai 和时间效应 λt。如,y˜ = Qy的特定元素为: y˜i t = yi t − y¯i − y¯t + y¯,其中, y¯i = (1/N ) ∑N i=1 yi t , y¯t = (1/T ) ∑T t=1 yi t , y¯ = (1/N T ) ∑N i=1 ∑T t=1 yi t。因此,我 们可以用 y˜ = Qy对 X˜ = QX进行 OLS回归,得到模型 (8-21)的组内估计量为: β˜ββ = (X′QX)−1X′Qy (8-25) 个体效应和时间效应的估计量分别为: aˆi = (y¯i − y¯)− β˜ββ(x¯i − x¯) (8-26) λˆt = (y¯t − y¯)− β˜ββ(x¯t − x¯) (8-27) 这里有两点需要注意:其一,模型 (8-21)中不能包含不随时间或不随个体变化的解释变量,因 为这些变量在转换过程中都被消除了;其二,我们没有特意强调模型中是否包含常数项,事 实上我们只要保证不出现完全共线性问题即可,即,如果要加入常数项,那么就必须同时约束∑N i=1 ai = 0和 ∑T t=1 λt = 0 ; 如果不加常数项,那么就无需作任何约束了。但加入常数项与否 将影响到 aˆi 和 λˆt 的含义,在解释结果时需要注意。 8.2.2 随机效应模型 模型的基本设定和 GLS估计 当 N很大时,采用固定效应模型往往会使参数的数目迅速增加,自由度的损失往往较大。 另一方面,固定效应模型的基本目的是在控制个体效应的前提下估计模型的参数,而我们采用 面板数据模型的另一个重要的目的在于分离出方差中的长期成分和短期成分。此时,随机效应 模型可能更为适用。模型的基本设定同 (8-1) : yi t = xi tβββ + ui t (8-28) ui t = ai + εi t 随机效应模型可以视为固定效应模型的一个扩展,这需要我们在上一节中假设 1和假设 2 的基础上再增加如下假设: 假设 3 : ai ∼ IID(0, σ 2a ) (8-29) 假设 4 : Cov(ai , xi t) = 0 (8-30) 假设 5 : ui |xi ∼ IID(0, σ 2IT + σ 2a 1T 1′T ) (8-31) 8.2静态面板数据模型 8 其中,假设 3将个体效应设定为服从均值为 0,方差为 σ 2a 的随机数,而我们在固定效应模型中 没有对 E[ai ]作任何限制;假设 4非常显然,因为此时我们将 ai 视为随机干扰项的一部分,所 以它不能与解释变量相关;假设 5表明 ai 与 εi t 相互独立。 基于以上设定,我们可以写出模型的方差-协方差矩阵:  = E[uu′] = IN ⊗ (σ 2IT + σ 2a 1T 1′T ) = IN ⊗666 (8-32) 其中,666 = σ 2IT + σ 2a 1T 1′T ,具体形式为: 666 =  σ 2a + σ 2 σ 2a · · · σ 2a σ 2a σ 2 a + σ 2 · · · σ 2a ... ... . . . ... σ 2a σ 2 a · · · σ 2a + σ 2  . (8-33) 那么, βββ 的 GLS估计量为: βˆββGLS = [X′−1X]−1X′−1y (8-34) 方差估计量为: Var (βˆββGLS) = [X′−1X]−1 (8-35) 这里,我们也可以像第四章那样将 矩阵进行分解并转换原始数据,继而用 OLS估计转 换后的数据。我们需要求得 −1/2 = [In ⊗666]−1/2,显然,我们只需要求出 666−1/2 即可, 666−1/2 = 1 σε [ I− θ T 1T 1′T ] 其中, θ = 1− σε√ σ 2ε + Tσ 2a 于是我们可以对原始数据作如下转换: 666−1/2yi = 1 σε  yi1 − θ y¯i yi2 − θ y¯i ... yiT − θ y¯i  (8-36) 按照同样的方法我们可以对 xi 进行转换。对转换后的数据执行 OLS回归即可得到与 (8-34)式相 同的结果。我们注意到,如果 (8-36)式中的 θ = 1,则上述变换就是我们前面讲到的“去心变 换”,得到的就是固定效应模型对应的组内估计量。事实上,我们可以证明 βˆββGL S 可以表示为 组内估计量和组间估计量的加权平均,详细过程请参考 Greene(2002, pp.295-296)。 FGLS估计 我们上面介绍的 GLS估计是在假设方差成分已知的前提下进行了,但多数情况下我们并不 知道 σ 2ε 和 σ 2a ,因此需要先估计这两个未知参数,继而用它们去代替 (8-58)式中的真实值并采 用 GLS估计即可。基本思路是:先估计固定效应模型,得到 σ 2ε 的估计值 σˆ 2ε ,继而估计混合 OLS模型,利用其残差和第一步得到的 σˆ 2ε 即可估计出 σˆ 2u 。 yzss 高亮 第八章面板数据模型 9 由于组内估计量是无偏且一致的,所以我们可以利用固定效应模型的残差来估计 σ 2ε ,因为 在估计固定效应模型的过程中我们已经去除了个体效应。设 ei t = (yi t − y¯i )− (xi t − x¯i )′βˆββW G 为 固定效应模型的残差,则 σˆ 2ε = ∑n i=1 ∑T t=1 e 2 i t nT − n − K (8-37) 接着我们看如何估计 σ 2a 。模型 (8-28) 的 OLS 估计仍然是一致的,多数情况下也是无偏 的。设 e˜i t 为模型 (8-28)的 OLS残差,则 σˆ 2u = ∑n i=1 ∑T t=1 e˜ 2 i t nT − K − 1 = σˆ 2 ε + σˆ 2a (8-38) 由此,我们可以得到: σˆ 2a = σˆ 2u − σˆ 2ε 采用该估计量的一个问题是它有时可能是负值,此时我们可以略去 (8-37)式和 (8-38)式中对自 由度的调整。这样就可以保证 σˆ 2u 一定是大于 σˆ 2ε 的,因为前者是后者的受限模型的估计量。这 种处理方法的依据在于我们只需要 σ 2ε 和 σ 2a 的一致估计即可,至于是否无偏并不影响大样本性 质。 上述估计方法虽然简单易行,但是当随机效应模型中包含不随时间改变的变量,如性别、 种族等,我们就无法通过估计固定效应模型来估计 σε 了。不过此时,我们可以沿袭上面的思 路,利用组间估计和混合 OLS估计的残差来估计 σ 2ε 和 σ 2a 。采用 OLS估计模型 y¯i = x¯′iβββ + ε¯εεi (8-39) 可以得到一致估计量 m∗ = σˆ 2a + (σˆ 2ε /T ),结合 m∗和 σˆ 2u 我们可以得到: σˆ 2ε = T T − 1(σˆ 2 u − m∗) σˆ 2a = T T − 1m ∗ − 1 T − 1 σˆ 2 u 那么以上介绍的各种 FGLS估计量哪个更为有效呢?我们知道,对于随机效应模型而言, 针对方差成分的真实值进行 GLS 估计将得到 BLUE 估计量。而以上介绍的 FGLS 估计量在 N→∞或 T→∞或二者都成立的情况下,都是渐进有效的。Maddala和Mount(1973)采用蒙 特卡罗模拟方法对各种 FGLS估计量的比较表明,在小样本下各种估计方法难分仲伯,所以建 议采用简单易行的方法进行估计。 Taylor(1980)比较了小样本下随机效应的 FGLS估计和固定效应的 LSDV估计,结果表明: (1) 相对于 LSDV,FGLS更具有效性,且具有较小的自由度; (2) FGLS的方差不会大于 Cramer-Rao下限的 17%。 (3) 选择相对有效的方差成分估计量并不必然能够提高 FGLS估计量的有效性。 8.2静态面板数据模型 10 序列相关性 易于证明: Cov (ui t , u js) =  σ 2a + σ 2 for i = j, t = s σ 2a for i = j, t 6= s 0 for i 6= j, t 6= s (8-40) 和 ρ = Corr (ui t , u js) =  1 for i = j, t = s σ 2a /(σ 2 a + σ 2) for i = j, t 6= s 0 for i 6= j, t 6= s (8-41) 从 (8-41)式可以看出,由于随机效应的引入使得组内不同时期的观察值之间存在固定不变的自 相关关系,相关系数为 ρ = σ 2a /(σ 2a + σ 2)。这很容易理解,因为尽管个体效应是随机的,但在 组内并不随时间改变,组内不同期间固定的相关性也就必然存在。显然,在某些情况下这个假 设并不合理。如在研究投资或消费时,我们往往会假设组内不同期间的相关性是随时间逐渐减 弱的。关于序列相关更为一般性的设定将在 8.3.2小节中讲述。 8.2.3 假设检验 根据前面的介绍,我们大体可以采用三种方法估计面板数据模型:混合 OLS、固定效应模 型和随机效应模型。那么如何对这三种模型进行区分和筛选呢?这就需要进行假设检验。显 然,如果个体效应 (固定效应或随机效应)显著异于零,那么就需要采用固定效应或随机效应模 型。对于随机效应模型,它要求 Cov(ai , xi ) = 0,而固定效应模型则没有这一限制,所以如果 这一假设无法满足,我们就只能采用固定效应模型,或采用工具变量法来估计随机效应模型。 检验固定效应 在本章的 (8.2.1)小节中,我们已经提到,固定效应模型的设定是建立在如下假设基础之上 的,即,我们认为个体间存在显著差异,但是对于特定的个体而言,组内不存在时间序列上的 差异。但是,如果个体间(组间)的差异不明显,那么采用 OLS对混合数据(Pooled OLS)进行估 计即可。检验的基本思路为,在个体效应不显著的原假设下,应当有如下关系成立: H0 : α1 = α2 = · · · = αn 我们可以采用F统计量来检验上述假设是否成立, F = (R 2 u − R2r )/(n − 1) (1− R2u)/(nT − n − K ) ∼ F(n − 1, nT − n − K ) (8-42) 其中, u 表示不受约束的模型,即我们的固定效应模型; r 表示受约束的模型,即混合数据模 型,仅有一个公共的常数项。 同理,我们可以构造相应的 F统计量来检验时间效应的显著性,以及个体效应和时间效应 的联合显著性。 检验随机效应 Breusch和Pagan (1980)则基于OLS估计的残差构造LM统计量,针对如下假设来检验随机效 应, H0 : σ 2a = 0 v.s. H1 : σ 2a 6= 0 yzss 高亮 yzss 高亮 第八章面板数据模型 11 相应的检验统计量为: LM = nT 2(T − 1)  ∑n i=1 [∑T t=1 ei t ]2 ∑n i=1 ∑T t=1 e 2 i t − 1  2 (8-43) 在原假设下,LM统计量服从一个自由度为 1的卡方分布。如果拒绝原假设则表明存在随机效 应。如果采用矩阵的形式,该 LM统计量可以表示为: LM = nT 2(T − 1) [ e′DD′e e′e − 1 ]2 (8-44) 需要说明的是,该检验假设模型的设定是正确的,即 ai 与解释变量不相关,而这一假设是否正确 还需要作进一步的检验,这是我们下面要分析的内容。 固定效应还是随机效应?Hausman检验 在前面的分析中,我们从不同角度比较了固定效应模型和随机效应模型的差别,那么在实 际分析中应该使用哪个模型呢?某些学者指出,试图区分固定效应和随机效应本身就是错误 的,二者似乎不具可比性。Mundlak (1978)指出,一般情况下,我们都应当把个体效应视为随 机的。如果从单纯的实际操作角度来考虑,固定效应模型往往会耗费很大的自由度,尤其是对 于截面数目很大的面板数据,随机效应模型似乎更合适。但另一方面,固定效应模型有一个独 特的优势,我们无须做个体效应与其它解释变数不相关的假设,而在随机效应模型中,这个假 设是必须的,否则就会导致内生性问题,并进而导致参数估计的非一致性。 因此,我们可以通过检验固定效应 ai与其它解释变量是否相关作为进行固定效应和随机效 应模型筛选的依据。Hausman检验就是这样一个检验统计量。其基本思想是,在 ai 与其他解释 变量不相关的原假设下,我们采用 OLS估计固定效应模型和采用 GLS估计随机效应模型得到 的参数估计都是无偏且一致的,只是前者不具有效性。若原假设不成立,则固定效应模型的参 数估计仍然是一致的,但随机效应模型却不是。因此,在原假设下,二者的参数估计应该不会 有显著的差异,我们可以基于二者参数估计的差异构造统计检验量。 假设 b和 βˆββ 分别为固定效应模型的 OLS估计和随机效应模型的 GLS估计,则 Var[b− βˆββ] = Var[b]+ Var[βˆββ]− Cov[b, βˆββ]− Cov[b, βˆββ]′ (8-45) 基于上述 Hausman检验的思想,有效估计量与它和非有效估计量之差的协方差应当为零,即 Cov[(b − βˆββ), βˆββ] = Cov[b, βˆββ]− Var[βˆββ] = 0 (8-46) 由此我们可以得到: Cov[b, βˆββ] = Var[βˆββ] (8-47) 将 (8-47)式的结果代入 (8-45)式得到: Var[b − βˆββ] = Var[b]− Var[βˆββ] = 999 (8-48) Hausman检验基于如下Wald统计量: W = [b − βˆββ]′9ˆ99−1[b − βˆββ] ∼ χ2(K − 1) (8-49) yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 8.2静态面板数据模型 12 其中, 9ˆ99 采用固定效应和随机效应模型的协方差矩阵进行计算.如果拒绝了原假设,就表明个体 效应 ai 和解释变量 xi t 是相关的,此时我们有两种处理办法:一是采用固定效应模型,某些情 况下这是一种无奈的选择;9 二是采用工具变量法来处理内生问题。10 序列相关检验 考虑固定效应模型 yi t = ai + xi tβββ + εi t (8-50) 其一阶差分的形式为: 4yi t = 4xi tβββ +4εi t (8-51) 若我们设定 εi t = ρεi t−1 + ui t ,则 4εi t = ρ4εi t−1 +4ui t 。那么序列相关的原假设为: H0 : ρ = 0 v.s. ρ 6= 0 设 4εi t = ei t 在原假设 H0 下,我们易于证明有如下关系成立: Corr(ei t , ei t−1) = −0.5 (8-52) 由于在存在序列相关的情况下, (8-51)式的 OLS估计量仍然是其真实值的一致估计量,设用 eˆi t 对 eˆi t−1 进行 OLS回归的系数估计值为 θˆ ,那么上述序列相关检验就转化为检验 θˆ 是否显著异 于 -0.5,这采用一般的 t检验即可完成。11 至于随机效应模型设定下的序列相关检验就要相对复杂一些,有兴趣的读者可以参考 Baltagi (2001)。12 9因为有时我们通过 B-P检验发现存在随机效应,但 Hausman检验又表明使用随机效应模型的前提假设得不到满 足,而我们又往往很难找到合适的工具变量,所以只能采用固定效应模型。 10在 STATA中可以采用 xthtaylor和 xtivreg命令来完成相应的估计。但这两个命令的侧重点还是有所差别的,前者 重点处理的是模型 (8-28)中 ai 与 xi 之间的相关性,而后者则重点处理通常意义上的内生性问题,即 εεεi 与 xi 之间的 相关性。 11对于这部分内容的详细介绍,请参考Wooldridge (2002, pp.282),STATA中的 xtserial可以完成该检验。 12不过 STATA中的 xttest1可以完成这一任务,我们在下面会介绍该命令的使用。 yzss 高亮 yzss 高亮 yzss 高亮 第八章面板数据模型 13 8.2.4 STATA实现 基本设定 Panel Data具有如下数据存储格式: company year invest mvalue 1 1951 755.9 4833.0 1 1952 891.2 4924.9 1 1953 1304.4 6241.7 1 1954 1486.7 5593.6 2 1951 588.2 2289.5 2 1952 645.5 2159.4 2 1953 641.0 2031.3 2 1954 459.3 2115.5 3 1951 135.2 1819.4 3 1952 157.3 2079.7 3 1953 179.5 2371.6 3 1954 189.6 2759.9 . . . . . . . . . . . . 其中,变量 company和 year分别为截面变量和时间变量。显然,通过这两个变量我们可以非常 清楚地确定 panel data的数据存储格式。因此,在使用 STATA估计模型之前,我们必须告诉它 截面变量和时间变量分别是什么,所用的命令为 tsset,13命令为: tsset company year 输出结果为: panel variable: company, 1 to 5 time variable: time, 1 to 20 这里需要指出的是,由于 Panel Data本身兼具截面数据和时间序列二者的特性,所以对时间序 列进行操作的运算同样可以应用到 Panel Data身上。这一点在处理某些数据时显得非常方便。 如,对于上述数据,我们想产生一个新的变量 Lag invest,也就是 invest的一阶滞后,那么我们 可以采用如下命令: gen Lag_invest = L.invest 得到的新的数据为: company year invest Lag_invest mvalue 1 1951 755.9 . 4833.0 1 1952 891.2 755.9 4924.9 1 1953 1304.4 891.2 6241.7 13 See help tsset,命令为[whelp tsset]。另外,如果想获得关于 Panel Data的所有帮助,可采用命令 [whelp xt]。 yzss 高亮 yzss 高亮 8.2静态面板数据模型 14 1 1954 1486.7 1304.4 5593.6 2 1951 588.2 . 2289.5 2 1952 645.5 588.2 2159.4 2 1953 641.0 645.5 2031.3 2 1954 459.3 641.0 2115.5 3 1951 135.2 . 1819.4 3 1952 157.3 135.2 2079.7 3 1953 179.5 157.3 2371.6 3 1954 189.6 179.5 2759.9 . . . . . . . . . . . . . . . 当然,按照这样的思路,我们还可以产生某个变量的移动平均、差分等。总之,凡是可以 应用到时间序列上的命令,基本上都可以应用到 Panel Data中来。在完成了上述设定后,我们 就可以进行基于 Panel Data的数据描述性统计和模型的估计了。 统计描述 1. 基本命令 在正式进行模型的估计之前,我们必须对样本的基本分布特性有一个总体的了解。对于 Panel Data而言,我们至少要知道我们的数据中有多少个截面(个体),每个截面上有多少个观察 期间,整个数据结构是平行的还是非平行的。进一步地,我们还要知道主要变量的样本均值、 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差、最大值、最小值等情况。这些都可以通过以下三个命令来完成:14 xtdes命令用于初步 表 8-1: 面板数据描述统计命令 命令 用途 xtdes 对Panel Data截面个数、时间跨度的整体描述 xtsum 分组内、组间和样本整体计算各个变量的基本统计量 xttab 采用列表的方式显示某个变量的分布,较少使用 了解数据的大体分布状况,我们可以知道数据中含有多少个截面,最大和最小的时间跨度是多 少。在某些要求使用平行面板数据的情况下,我们可以采用该命令来诊断处理后的数据是否为 平行数据。 xtsum 命令事实上是我们经常使用的命令 summary 的扩展,各个统计量都分别在样本总 体、组内和组间三个层次上进行计算。 需要指出的是,由于我们可以把面板数据简单地视为混合数据(pooled data),所以以往针 对截面数据设定的命令,如 list、sum、des、tabstat、histogram、kdensity等命令也都可以用于 Panel data的样本描述。 2. 统计各行业的公司数目 假设我们事先定义了一个表示行业归属的变量,sicmen,15我们需要知道每个行业中的公司 14另外一些用于面板数据统计性描述的命令可以从网上下载,包括 xtcount、xtlist、countby、xtpattern、xtcorr和 xtcorr2。 15如,属于农林行业的公司取值为 1,采掘业公司取值为 2,制造业公司取值为3, · · · ,综合类公司取值为 13。 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 yzss 高亮 第八章面板数据模型 15 数目,便可以采用 table命令: tab sicmen if year==1998 如果需要分年度统计,可以结合使用前面介绍的 bysort命令: bysort year: tab sicmen 3. 产生组内均值 tsset id year by id: egen avgi = mean(invest) 4. 将非平行面板数据转换为平行面板数据 有时候我们的数据在经过初步处理后并非是平行数据,即每个截面的观察期数可能不同, 可是许多情况下我们又必须使用平行数据,这就需要把非平行数据“削平”后转化为平行数 据。虽然思路很简单,就是把那些样本数小于 T的截面(公司或国家)删除掉,可是手动操作显 然是件令人生畏的事情,遗憾的是 STATA本身也没有很好的指令可以完成这项看似简单的工 作。下面是我自己编写的一个小程序,可以很方便地处理上述问题。16 *! version 1.01 2006.07.29 *! By Arlion, xi’an Jiaotong University * Blog: http://arlion.8j.cn * E-mail: arlionn@163.com program define xtbalance version 8.0 syntax , Range(numlist min=2 max=2 int ascending) qui capture tsset capture confirm e ‘r(panelvar)’ if ( _rc != 0 ) { dis in r "You must {help tsset} data before using {cmd:xtbalance}," dis in r "see help {help xtbalance}." exit } qui tsset local id "‘r(panelvar)’" local t "‘r(timevar)’" gettoken byear oyear : range local r1 = ‘oyear’ - ‘byear’ local r2 = ‘r1’ + 1 16该程序及其帮助文件都可以在作者的博客(http://arlion.8j.cn)中下载。 yzss 高亮 8.2静态面板数据模型 16 drop if ‘t’ < ‘byear’ tempvar nobalance gen ‘nobalance’ = 0 qui sum local obs = _N forvalues i = 1(1)‘obs’{ if ‘id’[‘i’]!=‘id’[‘i’-1]|‘i’==_N { local j = ‘i’-1 local ny= 1 forvalues p = 1(1)‘r1’{
本文档为【连玉君:面板数据模型讲义,第八章(理论和在STATA中的操作)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_083112
暂无简介~
格式:pdf
大小:507KB
软件:PDF阅读器
页数:38
分类:
上传时间:2013-05-16
浏览量:673