STATA与面板数据回归(中文好)

STATA与面板数据回归(中文好) Estimation with STATA 连玉君 (西安交通大学金禾经济研究中心) arlion@stu.xjtu.edu.cn 2005.10 目录第八章面板数据模型 2 8.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 8.2 静态面板数据模型 . . . . . . . . . . . . . . . . . . . . . . . . . ...

Estimation with STATA 连玉君 (西安交通大学金禾经济研究中心) arlion@stu.xjtu.edu.cn 2005.10 目录第八章面板数据模型 2 8.1 简介 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 8.2 静态面板数据模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 8.2.1 固定效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 8.2.2 随机效应模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 8.2.3 假设检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 8.2.4 STATA实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 8.3 非均齐方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 8.3.1 异方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 8.3.2 序列相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 8.3.3 方差形式未知时的稳健性估计 . . . . . . . . . . . . . . . . . . . . . . . . . . 30 8.3.4 STATA实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 8.4 参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1 第八章面板数据模型 8.1 简介面板数据，简言之是时间序列和截面数据的混合。严格地讲是指对一组个体（如居民、国家、公司等）连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来，由于面板数据资料获得变得相对容易，使得其应用范围也不断扩大。而关于面板数据的计量理论也几乎涉及到了以往截面分析和时间序列分析中所有可能出现的主题，如近年来发展出的面板向量自回归模型（Panel VAR）、面板单位根检验（Panel Unit Root test）、面板协整分析（Panel Cointegeration）、门槛面板数据模型（Panel Threshold）等，都是在现有截面分析和时间序列分析中的热点主题的基础上发展起来的。采用面板数据模型进行分析的主要目的在于两个方向：一是控制不可观测的个体异质性；二是描述和分析动态调整过程，处理误差成分。使用面板数据主要有以下几方面的优点： • 便于控制个体的异质性。比如，我们在研究全国 30个省份居民人均消费青岛啤酒的数量时。可以选取居民的收入、当地的啤酒价格、上一年的啤酒消费量等变量作为解释变量。但同时我们认为民族习惯、1 风俗文化、2广告投放等因素也会显著地影响居民的啤酒消费量。对于特定的个体而言，前两种因素不会随时间的推移而有明显的变化，通常称为个体效应。而广告的投放往往通过电视或广播，我们可以认为在特定的年份所有省份所接受的广告投放量是相同的，通常称为时间效应。这些因素往往因为难以获得数据或不易衡量而无法进入我们的模型，在截面分析中者往往会引起遗漏变量的问题。而面板数据模型的主要用途之一就在于处理这些不可观测的个体效应或时间效应。 • 包含的信息量更大，降低了变量间共线性的可能性，增加了自由度和估计的有效性。 • 便于分析动态调整。 1如宁夏属于回族自治区，那里的回民因为信仰伊斯兰教，所以不允许饮酒的，而生活在宁夏的许多汉民也往往因为自己的回民朋友无法饮酒而无形中减少了啤酒的消费量。 2如中国南部地区啤酒的消费量比较大，而北方很多地区只有在夏天才会饮用较多的啤酒，冬天他们一般是只喝白酒的。 2 8.2. 静态面板数据模型 3 8.2 静态面板数据模型我们一般所说的静态面板数据模型，是指解释变量中不包含被解释变量的滞后项（通常为一阶滞后项）的情形。但严格地讲，随机干扰项服从某种序列相关（如 AR(1), AR(2), MA(1)等）的模型也不是静态模型。动态模型和静态模型在处理方法上往往有较大的差异。本节中我们重点介绍两种最为常用的静态模型—固定效应模型和随机效应模型。考虑如下模型： yi t = x′i tβββ + ui t (8.1) ui t = ai + εi t (8.2) 其中， i = 1, 2, · · · , N , t = 1, 2, · · · , T ；xi t 为 K×1列向量， K 为解释变量的个数， βββ 为 K × 1系数列向量。对于特定的个体 i 而言， ai 表示那些不随时间改变的影响因素，而这些因素在多数情况下都是无法直接观测或难以量化的，如个人的消费习惯、国家的社会制度等，我们一般称其为“个体效应”(individual effects)。对“个体效应”的处理主要有两种方式：一种是视其为不随时间改变的固定性因素，相应的模型称为“固定效应”模型；另一种是视其为随机因素，相应的模型称为“随机效应”模型。这两种模型的差异主要反映在对“个体效应”的处理上。固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上；随机效应模型则假设所有的个体具有相同的截距项，个体的差异主要反应在随机干扰项的设定上，因此该模型通常也称为“误差成分模型”。基于此，一种常见的观点认为，当我们的样本来自一个较小的母体时，我们应该使用固定效应模型，而当样本来自一个很大的母体时，应当采用随机效应模型。比如在研究中国地区经济增长的过程中，我们以全国 28个省区为研究对象，可以认为这 28个省区几乎代表了整个母体。同时也可以假设在样本区间内，各省区的经济结构、人口素质等不可观测的特质性因素是固定不变的，因此采用固定效应模型是比较合适的。而当我们研究西安市居民的消费行为时，即使样本数为 10000人，相对于西安市 600万人口的母体而言仍然是个很小的样本。此时，可以认为不同的居民在个人能力、消费习惯等方面的差异是随机的，此时采用随机效应模型较为合适。遗憾的是，很多情况下，我们并不能明确地区分我们的样本来自一个较大母体还是较小的母体。因此有些学者认为，区分固定效应模型和随机效应模型应当看使用二者的假设条件是否满足。由于随机效应模型把个体效应设定为干扰项的一部分，所以就要求解释变量与个体效应不相关，而固定效应模型并不需要这个假设条件。所以如果我们的检验结果表明该假设满足，那么就应该采用随机效应模型，因为它更为有效，反之，就需要采用固定效应模型。另外，有些学者认为具体采用哪一种模型主要决定于我们的分析目的。如果主要目的在于 8.2. 静态面板数据模型 4 估计模型的参数，而模型中个体的数目又不是很大的情况下，采用固定效应模型是个不错的选择，因为它非常容易估计。但当我们需要对模型的误差成分进行分析时（通常分解为长期效果和短期效果），就只能采用随机效应模型。在这种情况下，即使模型中的部分解释变量与个体效应相关，我们仍然可以通过工具变量法对模型进行估计。简言之，两种模型有各自的优缺点和适用范围，在实证分析的过程中，我们一方面要根据分析的目的选择合适的模型，同时也要以 8.2.3节中介绍的假设检验方法为基础进行模型筛选。 8.2.1 固定效应模型模型的基本设定和假设条件若视 ai 为固定效应，模型 (8.1)可以采用向量的形式表示为： yi = ai 1T + xiβββ + εεεi (8.3) 其中, yi = (yi1, yi2, · · · , yiT )′ , xi = (xi1, xi2, · · · , xiT )′ , εεεi = (εi1, εi2, · · · , εiT )′ , 1T 是一个所有元素都为 1的 T × 1列向量。我们有如下两个基本假设：3 假设 1 : E[εεεi |xi , ai ] = 0 (8.4) 假设 2 : V ar [εεεi |xi , ai ] = σ 2IT (8.5) 假设 1表明干扰项 εεε与解释变量 x的当期观察值、前期观察值以及未来的观察值均不相关，也就是说我们的模型中所有的解释变量都是严格外生的。假设 2就是一般的同方差假设，在此假设下模型 (8.1)的 OLS估计是 BLUE的。当此假设无法满足时，我们就需要处理异方差或序列相关以便得到稳健性估计量。组内估计量上面我们已经提到，在假设 1 和假设 2 同时成立的情况下，模型 (8.1) 的 OLS 估计是 BLUE的。但在实际操作的过程中，如果 N比较大，那么我们的模型中将包含 (N+K)个解释变量，4计算的工作量往往很大，对于 N相当大的情况（如 N=10000），一般的计算机都无法胜 3一般应用中，我们也常采用如下两个相对较弱的假设。假设 1′ : E[εεεi |xi ] = 0和假设 2′ : V ar [εεεi |xi ] = σ 2IT 。 4此时，我们可以将模型 (8.1)视为一个包含 N个虚拟变量， X中不包含常数项的普通 OLS模型。当然，我们也可以在 X中包含常数项，但此时只需加入 N-1个虚拟变量，参见脚注 6。 8.2. 静态面板数据模型 5 任。所以我们有必要先进行一些变换以消除固定效应，进而对简化的模型进行估计，本小节和下一小节介绍的这两种方法都是基于此目的进行的。我们首先将所有观察值进行堆叠，于是模型 (8.1)可用矩阵形式表示为： y = Da+ Xβββ + εεε (8.6) 其中， y = (y′1, y′2, · · · , y′N )′ , εεε = (εεε1, εεε2, · · · , εεεN )′ , 均为 N T ×1 向量, D = IN ⊗1T , a = (a1, a2, · · · , aN )′ 。考虑到 D 矩阵的构造形式，它事实上对应着 N 个虚拟变量。因此，模型 (8.6)等价于给混合 OLS模型 y = Xβββ + εεε加入 N 个虚拟变量。在正式估计模型之前，我们先定义一些有用的矩阵运算，它们将在后面的分析中反复使用。定义 DD′ = IN ⊗ JT , 其中， JT = 1T 1′T 为 T ×T 维矩阵，每个元素均为 1。同时，我们定义 P = D(D′D)−1D′ = IN ⊗ J¯T , J¯T = (1/T )JT 是 T × T 维矩阵，每个元素均为 1/T ; Q = IN T − D(D′D)−1D′ = IN T − P。矩阵 P和 Q都具有如下性质： (1) 对称、幂等性: P′ = P ,且 P2 = P ; (2) 正交性: PQ = 0 ; (3) 和为单位矩阵: P+Q = IN T . 我们可以从上述三个性质中的任意两个推导出第三个。易于证明， QD = 0，因此，我们可以通过在等式 (8.6)两边同时左乘 Q以消除固定效应： Qy = QXβββ +Qεεε (8.7) 变换后的模型的 OLS估计量为：5 βˆββWG = (X′QX)−1X′Qy (8.8) 方差估计量为： Var(βˆββW G) = σ 2(X′QX)−1 (8.9) 显然， σ 2 的一致估计量为： σˆ 2 = 1 N T−N−K (Qy−QXβˆββWG) ′(Qy−QXβˆββWG) (8.10) 5事实上，模型 (8.7)并不满足 OLS的经典假设，因为 E[(Qεεε)(Qεεε)′] = σ 2Q 6= σ 2I，但其 GLS估计量与 (8.8)式相同。具体推导过程留给读者。 8.2. 静态面板数据模型 6 个体效应的估计值为： aˆi = y¯i − x¯i βˆββWG (8.11) 该估计量通常称为“组内估计量”，因为上述变换实质上是从每个观察值中减去其组内平均值，以去除组内不随时间变化的个体效应。变换后的模型 (8.8)的特定元素为： (yi t − y¯i ) = (x′i t − x¯i )βββ + (εi t − ε¯i ) (8.12) 其中, y¯i = (1/T )∑Tt=1 yi t , x¯i 和 ε¯i 的定义方式与此相同。所以，要得到 βˆββWG ，我们只需要从原始数据中间去其组内平均，然后对变换后的模型执行 OLS估计即可。需要注意的是，在模型 (8.6)中， Da项实际上对应着 N 个虚拟变量，所以为了避免共线性问题，解释变量 X中不应再包含常数项。6 一阶差分估计量除了上述通过“组内去心”的办法消除固定效应外，我们还可以通过一阶差分的方式去除固定效应。对 (8.1)式取一阶差分，得到 4yi2 = 4xi2βββ +4εεεi2 ... 4yiT = 4xiTβββ +4εεεiT (8.13) 采用矩阵形式可表示为 Byi = Bxi + Bεεεi (8.14) 其中， B =  −1 1 0 · · · 0 0 0 −1 1 · · · 0 0 ... ... . . . ... 0 0 0 · · · −1 1  (T−1)×T (8.15) 对所有观察值进行堆叠，得到 (IN ⊗ B)y = (IN ⊗ B)X+ (IN ⊗ B)εεε (8.16) 设 QB = IN ⊗ B，则相应的 OLS的估计量为： βˆββOLS = (X′QBX)−1X′QBy (8.17) 6当然，我们也可以在 X中加入常数项，但此时要同时加入约束条件：∑Ni=1 ai = 0。这样我们估计出的个体效应 aˆi 就应当解释为个体 i 的相对截距项，而不是前面得到的绝对截距项。STATA8.0就采取了在 X中包含常数项的处理方式。 8.2. 静态面板数据模型 7 根据假设 1可知，E[εεεX] = 0，所以 βˆββOLS 是 βˆ 的无偏估计量，在 N 较大的情况下， βˆββOLS 也是一致的。由假设 2可知， εεε满足同方差假设，且不存在序列相关。但变换后的干扰项 Bεεε却并不满足同方差的假设， Var(QBεεε) = σ 2QBQ′B (8.18) 但此时模型 (8.16)的 GLS估计量是 BLUE的， βˆββGL S = [XQB(QBQ′B)−1QBX]−1XQB(QBQ′B)−1QBy. (8.19) 易于证明 QB(QBQ′B)−1QB = Q。7 因此， βˆββGLS ∼ βˆββWG 也就是说，我们采用一阶差分去除“固定效应”后，再用 GLS估计差分后的模型以消除由于差分而导致的干扰项的序列相关问题得到的 GLS估计量与我们前面介绍的组内估计是等价的。由于 βˆββGLS 满足经典 OLS的基本假设，所以 βˆββWG 是 BLUE的。 8.2.2 随机效应模型模型的基本设定和 GLS估计当 N很大时，采用固定效应模型往往会使参数的个数迅速增加，自由度的损失往往较大。另一方面，固定效应模型的基本目的是在控制个体效应的前提下估计模型的参数，而我们采用面板数据模型的另一个重要的目的在于分离出方差中的长期成分和短期成分。此时，随机效应模型可能更为适用。模型的基本设定同 (8.1) : yi t = xi tβββ + ui t (8.20) ui t = ai + εi t (8.21) 随机效应模型可以视为固定效应模型的一个扩展，这需要我们在上一节中假设 1和假设 2 的基础上再增加如下假设： 7利用矩阵直乘的性质： (A⊗ F)(C⊗D) = (AC)⊗ (FD) , 我们可以得到 QB(QBQ′B)−1QB = IN ⊗ B′(BB′)−1B。进一步，我们可以证明 B′(BB′)−1B = IT − J¯T ：由于矩阵 H =  T−1/21′T (BB′)−1/2B  满足HH ′ = IT ,所以H ′H = IT ,即 1′T 1T /T + B′(BB′)−1B = IT 因此， QB(QBQ′B)−1QB = IN ⊗ (IT − J¯T ) = IN T − P = Q . 8.2. 静态面板数据模型 8 假设 3 : ai ∼ IID(0, σ 2a ) (8.22) 假设 4 : Cov(ai , xi t) = 0 (8.23) 假设 5 : ui |xi ∼ IID(0, σ 2IT + σ 2a 1T 1′T ) (8.24) 其中，假设 1将个体效应设定为服从均值为 0，方差为 σ 2a 的随机数，而我们在固定效应模型中没有对 E[ai ]作任何限制；假设 2非常显然，因为此时我们将 ai 视为随机干扰项的一部分，所以它不能与解释变量相关；假设 3表明 ai 与 εi t 相互独立。基于以上设定，我们可以写出模型的方差-协方差矩阵： = E[uu′] = IN ⊗ (σ 2IT + σ 2a 1T 1′T ) = IN ⊗666 (8.25) 其中，666 = σ 2IT + σ 2a 1T 1′T ，具体形式为： 666 =  σ 2a + σ 2 σ 2a · · · σ 2a σ 2a σ 2 a + σ 2 · · · σ 2a ... ... . . . ... σ 2a σ 2 a · · · σ 2a + σ 2  . (8.26) 那么， βββ 的 GLS估计量为： βˆββGLS = [X′−1X]−1X′−1y (8.27) 方差估计量为： Var( βˆββGLS) = [X′−1X]−1 (8.28) 这里，我们也可以像第四章那样将矩阵进行分解并转换原始数据，继而用 OLS估计转换后的数据。我们需要求得 −1/2 = [In ⊗666]−1/2，显然，我们只需要求出 666−1/2 即可， 666−1/2 = 1 σε [ I− θ T 1T 1′T ] 其中， θ = 1− σε√ σ 2ε + Tσ 2a 8.2. 静态面板数据模型 9 于是我们可以对原始数据作如下转换： 666−1/2yi = 1 σε  yi1 − θ y¯i yi2 − θ y¯i ... yiT − θ y¯i  (8.29) 按照同样的方法我们可以对 xi 进行转换。对转换后的数据执行 OLS回归即可得到与 (8.27)式相同的结果。我们注意到，如果 (8.29)式中的 θ = 1，则上述变换就是我们前面讲到的“去心变换”，得到的就是固定效应模型对应的组内估计量。事实上，我们可以证明 βˆββGL S 可以表示为组内估计量和组间估计量的加权平均，详细过程请参考 Greene(2002, pp.295-296)。 FGLS估计我们上面介绍的 GLS估计是在假设方差成分已知的前提下进行了,但多数情况下我们并不知道 σ 2ε 和 σ 2a ，因此需要先估计这两个未知参数，继而用它们去代替 (8.51)式中的真实值并采用 GLS估计即可。基本思路是：先估计固定效应模型，得到 σ 2ε 的估计值 σˆ 2ε ，继而估计混合 OLS模型，利用其残差和第一步得到的 σˆ 2ε 即可估计出 σˆ 2u 。由于组内估计量是无偏且一致的，所以我们可以利用固定效应模型的残差来估计 σ 2ε ，因为在估计固定效应模型的过程中我们已经去除了个体效应。设 ei t = (yi t − y¯i ) − (xi t − x¯i )′βˆββW G 为固定效应模型的残差，则 σˆ 2ε = ∑n i=1 ∑T t=1 e 2 i t nT − n − K (8.30) 接着我们看如何估计 σ 2a 。模型 (8.20)的 OLS估计仍然是一致的，多数情况下也是无偏的。设 e˜i t 为模型 (8.20)的 OLS残差，则 σˆ 2u = ∑n i=1 ∑T t=1 e˜ 2 i t nT − K − 1 = σˆ 2 ε + σˆ 2a (8.31) 由此，我们可以得到： σˆ 2a = σˆ 2u − σˆ 2ε 采用该估计量的一个问题是它有时可能是负值，此时我们可以略去 (8.30)式和 (8.31)式中队自由度的调整。这样就可以保证 σˆ 2u 一定是大于 σˆ 2ε 的，因为前者是后者的受限模型的估计量。这种处理方法的依据在于我们只需要 σ 2ε 和 σ 2a 的一致估计即可，至于是否无偏并不影响大样本性质。上述估计方法虽然简单易行，但是当随机效应模型中包含不随时间改变的变量，如性别、种族等，我们就无法通过估计固定效应模型来估计 σε 了。不过此时，我们可以沿袭上面的思 8.2. 静态面板数据模型 10 路，利用组间估计和混合 OLS估计的残差来估计 σ 2ε 和 σ 2a 。采用 OLS估计模型 y¯i = x¯′iβββ + ε¯εεi (8.32) 可以得到一致估计量 m∗ = σˆ 2a + (σˆ 2ε /T )，结合 m∗和 σˆ 2u 我们可以得到： σˆ 2ε = T T − 1(σˆ 2 u − m∗) σˆ 2a = T T − 1m ∗ − 1 T − 1 σˆ 2 u 那么以上介绍的各种 FGLS估计量哪个更为有效呢？我们知道，对于随机效应模型而言，针对方差成分的真实值进行 GLS 估计将得到 BLUE 估计量。而以上介绍的 FGLS 估计量在 N→∞或 T→∞或二者都成立的情况下，都是渐进有效的。Maddala和Mount(1973)采用蒙特卡罗模拟方法对各种 FGLS估计量的比较表明，在小样本下各种估计方法难分仲伯，所以建议采用简单易行的方法进行估计。 Taylor(1980)比较了小样本下随机效应的 FGLS估计和固定效应的 LSDV估计，结果表明： (1) 相对于 LSDV，FGLS更具有效性，且具有较小的自由度； (2) FGLS的方差不会大于 Cramer-Rao下限的 17%。 (3) 选择相对有效的方差成分估计量并不必然能够提高 FGLS估计量的有效性。序列相关性易于证明： Cov(ui t , u js) =  σ 2a + σ 2 for i = j, t = sσ 2a for i = j, t 6= s (8.33) 和 ρ = Corr(ui t , u js) =  1 for i = j, t = sσ 2a /(σ 2a + σ 2) for i = j, t 6= s (8.34) 不同截面间干扰项的协方差和相关系数都为 0。从 (8.34)式可以看出，由于随机效应的引入使得组内不同时期的观察值之间存在固定不变的自相关关系，相关系数为 ρ = σ 2a /(σ 2a + σ 2)。这很容易理解，因为尽管个体效应是随机的，但在组内并不随时间改变，组内不同期间固定的相关性也就很显然了。显然，在某些情况下这个假设并不合理。如在研究投资或消费时，我们往往会假设组内不同期间的相关性是随时间逐渐减弱的。关于序列相关更为一般性的设定将在 8.3.2小节中讲述。 8.2. 静态面板数据模型 11 8.2.3 假设检验检验固定效应在本章的 (8.2.1)小节中，我们已经提到，固定效应模型的设定是建立在如下假设基础之上的，即，我们认为个体间存在显著差异，但是对于特定的个体而言，组内不存在时间序列上的差异。但是，如果个体间（组间）的差异不明显，那么采用 OLS对混合数据（Pooled OLS）进行估计即可。检验的基本思路为，在个体效应不显著的原假设下，应当有如下关系成立： H0 : α1 = α2 = · · · = αn 我们可以采用F统计量来检验上述假设是否成立， F = (R 2 u − R2r )/(n − 1) (1− R2u)/(nT − n − K ) ∼ F(n − 1, nT − n − K ) (8.35) 其中， u 表示不受约束的模型，即我们的固定效应模型； r 表示受约束的模型，即混合数据模型，仅有一个公共的常数项。同理，我们可以构造相应的 F统计量来检验时间效应的显著性，以及个体效应和时间效应的联合显著性。检验随机效应 Breusch和Pagan（1980）则基于OLS估计的残差构造LM统计量，针对如下假设来检验随机效应， H0 : σ 2a = 0 v.s. H1 : σ 2a 6= 0 相应的检验统计量为： L M = nT 2(T − 1)  ∑n i=1 [∑T t=1 ei t ]2 ∑n i=1 ∑T t=1 e 2 i t − 1  2 (8.36) 在原假设下，LM统计量服从一个自由度为 1的卡方分布。如果拒绝原假设则表明存在随机效应。如果采用矩阵的形式，该 LM统计量可以表示为： L M = nT 2(T − 1) [ e′DD′e e′e − 1 ]2 (8.37) 需要说明的是,该检验假设模型的设定是正确的，即 ai 与解释变量不相关，而这一假设是否正确还需要作进一步的检验，这是我们下面要分析的内容。 8.2. 静态面板数据模型 12 固定效应还是随机效应？Hausman检验在前面的分析中，我们从不同角度比较了固定效应模型和随机效应模型的差别，但是在实际分析中应该使用哪个模型呢？某些学者指出，试图区分固定效应和随机效应本身就是错误的，二者似乎不具可比性。Mundlak（1978）指出，一般情况下，我们都应当把个体效应视为随机的。如果从单纯的实际操作角度来考虑，固定效应模型往往会耗费很大的自由度，尤其是对于截面数目很大的面板数据，随机效应模型似乎更合适。但另一方面，固定效应模型有一个独特的优势，我们无须做个体效应与其它解释变数不相关的假设，而在随机效应模型中，这个假设是必须的，在模型的设定中如果遗漏了重要的变量，就会导致参数估计的非一致性。因此，我们可以通过检验固定效应 ai 与其它解释变量是否相关作为进行固定效应和随机效应模型筛选的依据。Hausman检验就是这样一个检验统计量。其基本思想是，在 ai 与其他解释变量不相关的原假设下，我们采用 OLS估计固定效应模型和采用 GLS估计随机效应模型得到的参数估计都是无偏且一致的，只是前者不具有效性。若原假设不成立，则固定效应模型的参数估计仍然是一致的，但随机效应模型却不是。因此，在原假设下，二者的参数估计应该不会有显著的差异，我们可以基于二者参数估计的差异构造统计检验量。假设 b和 βˆββ 分别为固定效应模型的 OLS估计和随机效应模型的 GLS估计，则 Var[b− βˆββ] = Var[b]+ Var[βˆββ]− Cov[b− βˆββ]− Cov[b− βˆββ]′ (8.38) 基于上述 Hausman检验的思想，有效估计量与它和非有效估计量之差的协方差应当为零，即 Cov[(b − βˆββ), βˆββ] = Cov[b, βˆββ]− Var[βˆββ] = 0 (8.39) 由此我们可以得到： Cov[b, βˆββ] = Var[βˆββ] (8.40) 将 (8.40)式的结果代入 (8.38)式得到： Var[b − βˆββ] = Var[b]− Var[βˆββ] = 999 (8.41) Hausman检验基于如下Wald统计量： W = [b − βˆββ]′9ˆ99−1[b − βˆββ] ∼ χ2(K − 1) (8.42) 其中, 9ˆ99 采用固定效应和随机效应模型的协方差矩阵进行计算.如果拒绝了原假设，就表明个体效应 ai 和解释变量 xi t 是相关的，此时我们有两种处理办法：一是采用固定效应模型，某些情况下这是一种无奈的选择；8 二是采用工具变量法来处理内生问题。 8因为有时我们通过 B-P检验发现存在随机效应，但 Hausman检验又表明使用随机效应模型的前提假设得不到满足，而我们又往往很难找到合适的工具变量，所以只能采用固定效应模型。 8.2. 静态面板数据模型 13 序列相关检验考虑固定效应模型 yi t = ai + xi tβββ + εi t (8.43) 其一阶差分的形式为： 4yi t = 4xi tβββ +4εi t (8.44) 若我们设定 εi t = ρεi t−1 + ui t ,则 4εi t = ρ4εi t−1 +4ui t 。那么序列相关的原假设为： H0 : ρ = 0 v.s. ρ 6= 0 设 4εi t = ei t 在原假设 H0 下，我们易于证明有如下关系成立： Corr(ei t , ei t−1) = −0.5 (8.45) 由于在存在序列相关的情况下， (8.44)式的 OLS估计量仍然是其真实值的一致估计量，设用 eˆi t 对 eˆi t−1 进行 OLS回归的系数估计值为 θˆ ，那么上述序列相关检验就转化为检验 θˆ 是否显著异于 -0.5，这采用一般的 t检验即可完成。9 至于随机效应模型设定下的序列相关检验就要相对复杂一些，有兴趣的读者可以参考 Baltagi (2001)。10 异方差检验 see xttest2 and xttest3 8.2.4 STATA实现基本设定 Panel Data具有如下数据存储格式： company year invest mvalue 1 1951 755.9 4833.0 1 1952 891.2 4924.9 1 1953 1304.4 6241.7 1 1954 1486.7 5593.6 2 1951 588.2 2289.5 2 1952 645.5 2159.4 2 1953 641.0 2031.3 2 1954 459.3 2115.5 9对于这部分内容的详细介绍，请参考Wooldridge (2002,pp.282)，STATA中的 xtserial可以完成该检验。 10不过 STATA中的 xttest1可以完成这一任务，我们在下面会介绍该命令的使用。 mgr 高亮 8.2. 静态面板数据模型 14 3 1951 135.2 1819.4 3 1952 157.3 2079.7 3 1953 179.5 2371.6 3 1954 189.6 2759.9 . . . . . . . . . . . . 其中，变量 company和 year分别为截面变量和时间变量。显然，通过这两个变量我们可以非常清楚地确定 panel data的数据存储格式。因此，在使用 STATA估计模型之前，我们必须告诉它截面变量和时间变量分别是什么，所用的命令为 tsset，11命令为： tsset company year 输出结果为： panel variable: company, 1 to 5 time variable: time, 1 to 20 这里需要指出的是，由于 Panel Data本身兼具截面数据和时间序列二者的特性，所以对时间序列进行操作的运算同样可以应用到 Panel Data身上。这一点在处理某些数据时显得非常方便。如，对于上述数据，我们想产生一个新的变量 Lag invest，也就是 invest的一阶滞后，那么我们可以采用如下命令： gen Lag_invest = L.invest 得到的新的数据为： company year invest Lag_invest mvalue 1 1951 755.9 . 4833.0 1 1952 891.2 755.9 4924.9 1 1953 1304.4 891.2 6241.7 1 1954 1486.7 1304.4 5593.6 2 1951 588.2 . 2289.5 2 1952 645.5 588.2 2159.4 2 1953 641.0 645.5 2031.3 2 1954 459.3 641.0 2115.5 3 1951 135.2 . 1819.4 3 1952 157.3 135.2 2079.7 3 1953 179.5 157.3 2371.6 3 1954 189.6 179.5 2759.9 . . . . . . . . . . . . . . . 11 See help tsset,命令为［whelp tsset］。另外，如果想获得关于 Panel Data的所有帮助，可采用命令 [whelp xt]。 mgr 高亮 mgr 高亮 8.2. 静态面板数据模型 15 当然，按照这样的思路，我们还可以产生某个变量的移动平均、差分等。总之，凡是可以应用到时间序列上的命令，基本上都可以应用到 Panel Data中来。在完成了上述设定后，我们就可以进行基于Panel Data的数据描述性统计和模型的估计了。统计描述在正式进行模型的估计之前，我们必须对样本的基本分布特性有一个总体的了解。对于 Panel Data而言，我们至少要知道我们的数据中有多少个截面（个体），每个截面上有多少个观察期间，整个数据结构是平行的还是非平行的。进一步地，我们还要知道主要变量的样本均值、标准差、最大值、最小值等情况。这些都可以通过以下三个命令来完成：12 xtdes命令用于表 8-1: 面板数据描述统计命令命令用途 xtdes 对Panel Data截面个数、时间跨度的整体描述 xtsum 分组内、组间和样本整体计算各个变量的基本统计量 xttab 采用列表的方式显示某个变量的分布，较少使用初步了解数据的大体分布状况，我们可以知道数据中含有多少个截面，最大和最小的时间跨度是多少。在某些要求使用平行面板数据的情况下，我们可以采用该命令来诊断处理后的数据是否为平行数据。 xtsum命令事实上是我们经常使用的命令 summary的扩展，各个统计量都分别在样本总体、组内和组建三个层次上进行计算。需要指出的是，由于我们可以把面板数据简单地视为混合数据（pooled data），所以以往针对截面数据设定的命令，如 list、sum、des、tabstat、histogram、kdensity等命令也都可以用于 Panel data的样本描述。估计 STATA8.0主要提供了如下模型的估计方法，如表 8-2所示。其中多数模型的估计方法我们都会在随后的章节中陆续讲到。这里我们先介绍固定效应模型和随机效应模型的估计方法。二者都是采用 xtreg命令来估计的，差别在于选项的设定，基本命令格式如下： 12另外一些用于面板数据统计性描述的命令可以从网上下载，包括xtcount、xtlist、countby、xtpattern、xtcorr和 xtcorr2。 mgr 高亮 mgr 高亮 mgr 高亮 mgr 高亮 mgr 高亮 mgr 高亮 mgr 高亮 mgr 高亮 8.2. 静态面板数据模型 16 表 8-2: STATA8.0中用于估计 Panel Data模型的主要命令一览命令模型 xtreg Fixed-, between- and random-effects, and population-averaged linear models xtregar Fixed- and random-effects linear models with an AR(1) disturbance xtgls Panel-data models using GLS xtpcse OLS or Prais-Winsten models with panel-corrected standard errors xtrchh Hildreth-Houck random coefficients models xtivreg Instrumental variables and two-stage least squares for panel-data models xtabond Arellano-Bond linear, dynamic panel data estimator xtabond2 Arellano-Bond system dynamic panel data estimator(需要从网上下载) xttobit Random-effects tobit models xtintreg Random-effects interval data regression models xtlogit Fixed-effects, random-effects, population-averaged logit models xtprobit Random-effects and population-averaged probit models xtcloglog Random-effects and population-averaged cloglog models xtpoisson Fixed-effects, random-effects, population-averaged Poisson models xtnbreg Fixed-effects, random-effects, population-averaged negative binomial models xtfrontier Stochastic frontier models for panel-data xthtylor Hausman-Taylor estimator for error-components models xtreg depvar [varlist] [if exp] , model_type [level(#) ] 其中 model type选项用于指定需要估计的模型，对应关系如表 8-3所示：这里有三点需要说明：其一，，如果不填 model type项，则STATA默认采用GLS方法估计随机效应模型；其二， mle项事实上是估计随机效应模型的另一种方法而已；其三，我们上面给出的命令格式只是一个基本形式，对于不同模型的估计，还有一些相当灵活的控制选项，读者可以参考相应的帮助。 level(#)选项用于标明显著水平，默认值为 95%，如果需要将显著水平设定为 99%，那么可以将该选项设定为 level(99)即可。 mgr 高亮 mgr 高亮 8.2. 静态面板数据模型 17 表 8-3: xtreg命令中选项的含义 model type 模型 be Between-effects estimator fe Fixed-effects estimator re GLS Random-effects estimator pa GEE population-averaged estimator mle Maximum-likelihood Random-effects estimator 下面，我们通过一个具体实例来说明上述命令的使用方法。我们采用STATA8.0自带的范例数据，文件名为 grunfeld.dta。里面包含了六个变量，其中 company和 year分别表示样本公司的代码和观察的年份，相当于我们前面提到的截面变量和时间变量；invest表示公司的投资额；mvalue表示公司的市场价值；kstock表示公司的资本存量。我们的目的是看公司的投资额和资本存量如何影响公司的市场价值。第一步，声明截面变量和时间变量。命令为： tsset company year 命令执行后屏幕上会显示： panel variable: company, 1 to 10 time variable: year, 1935 to 1954 第二步，进行样本的描述性统计。首先我们看看样本的大体分布情况，命令为： xtdes 我们发现，我们的样本中包含10家公司（n=10），每家公司有 20 年的资料（T=20，1935- 1954），整体上为平行面板数据，因为各个百分位上的 T i均为20。接着，我们列示出样本中主要变量的基本统计量，命令为： xtsum invest mvalue kstock 命令执行后，屏幕上会显示： Variable | Mean Std. Dev. Min Max | Obs -----------------+--------------------------------------------+---------- mgr 高亮 mgr 高亮 mgr 高亮 8.2. 静态面板数据模型 18 invest overall | 145.9583 216.8753 .93 1486.7 | N = 200 between | 198.8242 3.0845 608.02 | n = 10 within | 106.1986 -204.3617 1024.638 | T = 20 | | mvalue overall | 1081.681 1314.47 58.12 6241.7 | N = 200 between | 1334.917 70.921 4333.845 | n = 10 within | 340.5421 -459.964 2989.536 | T = 20 | | kstock overall | 276.0172 301.1039 .8 2226.3 | N = 200 between | 200.9701 5.9415 648.435 | n = 10 within | 232.6603 -369.6179 1853.882 | T = 20 我们发现统计结果是按照“整体”、“组间”和“组内”三个层次进行的。当然，你也可以采用 sum命令来得到基本统计量，而且在正是写论文时，所需列示的结果并不要求像上面那么详细，此时 sum命令反而更实用。第三步，面板数据模型回归分析。我们先做固定效应模型，命令为： xtreg mvalue invest kstock , fe 其中，fe表明我们采用的是固定效应模型。执行上述命令后，屏幕显示结果为： Fixed-effects (within) regression Number of obs = 200 Group variable (i): company Number of groups = 10 R-sq: within = 0.4117 Obs per group: min = 20 between = 0.8078 avg = 20.0 overall = 0.7388 max = 20 F(2,188) = 65.78 corr(u_i, Xb) = 0.6955 Prob > F = 0.0000 ------------------------------------------------------------------------- mvalue | Coef. Std.Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------- invest | 2.856166 .3075147 9.29 0.000 2.249543 3.462789 kstock | -.5078673 .1403662 -3.62 0.000 -.7847625 -.2309721 _cons | 804.9802 32.43177 24.82 0.000 741.0033 868.9571 --------+---------------------------------------------------------------- sigma_u | 905.81517 sigma_e | 268.73329 rho | .91910377 (fraction of variance due to u_i) ------------------------------------------------------------------------- F test that all u_i=0: F(9,188) = 113.76 Prob > F = 0.0000 结果的前两行列示了模型的类别（本例中为固定效应模型）、截面变量、以及估计中使用的样本数目和个体的数目。第 3行到第 5行列示了模型的拟合优度，分为组内、组间和样本总 mgr 高亮 mgr 高亮 mgr 高亮 8.2. 静态面板数据模型 19 体三个层次。第6行和第7行分别列示了针对参数联合检验的F统计量和相应的 P值，本例中分别为 65.78和 0.0000，表明参数整体上相当显著。第 8-11行列示了解释变量的估计系数、标准差、t统计量和相应的P值以及 95%置信区间，这和我们在进行截面回归是得到的结果是一样的。最后四行列示了固定效应模型中个体效应和随机干扰项的方差估计值（分别为 sigma u和 sigma e）、二者之间的关系（rho）。最后一行给出了检验固定效应是否显著的 F统计量和相应的 P值，本例中固定效应非常显著。估计随机效应的命令为： xtreg mvalue invest kstock , re 读者可以比较一下执行该命令后的输出结果与固定效应模型的估计结果的差异。第四步，模型的筛选和检验。这是模型设定过程中最为关键同时也是最难的一步，在这方面功力的提高还需要大量的实践经验和对理论的深入理解。 1）检验个体效应的显著性。我们做固定效应模型时，F检验表明固定效应模型由于混合 OLS模型。下面我们说明如何检验随机效应是否显著，命令为： xttest0 输出结果为： Breusch and Pagan Lagrangian multiplier test for random effects: mvalue[company,t] = Xb + u[company] + e[company,t] Est

                    本文档为【STATA与面板数据回归(中文好)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

STATA与面板数据回归(中文好)

你可能还喜欢