1
第 15 章 分位数回归模型
15.1 总体分位数和总体中位数
15.2 总体中位数的估计
15.3 分位数回归
15.4 分位数回归模型的估计
15.5 分位数回归模型的检验
15.6 分位数的计算与分位数回归的 EViews 操作
15.7 分位数回归的案例分析
以往介绍的回归模型实际上是研究被解释变量的条件期望。人们当然也关心解释变量与被解
释变量分布的中位数,分位数呈何种关系。这就是分位数回归,它最早由 Koenker 和 Bassett(1978)
提出,是估计一组回归变量 X 与被解释变量 Y 的分位数之间线性关系的建模方法。
正如普通最小二乘 OLS 回归估计量的计算是基于最小化残差平方和一样,分位数回归估计
量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值
离差估计(LAD,least absolute deviations estimator)。它和 OLS 主要区别在于回归系数的估计方法
和其渐近分布的估计。在残差检验、回归系数检验、模型设定、预测等方面则基本相同。
分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分
析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数
等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。
另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而
且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数
估计量则更加稳健。
15.1 总体分位数和总体中位数
在介绍分位数回归之前先介绍分位数和中位数概念。
对于一个连续随机变量 y,其总体第 τ 分位数是 y(τ)的定义是:y 小于等于 y(τ)的概率是 τ,即
τ = P( y ≤ y(τ)) = F(y(τ))
其中 P()表示概率,F(y(τ)) 表示 y 的累积(概率)分布函数(cdf)。
比如 y(0.25) = 3,则意味着 y ≤ 3 的概率是 0.25。且有
y(τ) = F
-1
(y(τ))
即 F(y(τ))的反函数是 y(τ)。当 τ=0.5 时,y(τ) 是 y 的中位数。τ= 0.75 时,y(τ) 是 y 的第 3/4 分位数,
τ= 0.25 时,y(τ) 是 y 的第 1/4 分位数。若 y 服从
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
正态分布,y(0.5) = 0,y(0.95) =1.645,y(0.975) =1.960。
另外,如果随机变量 y 的分布是对称的,那么其均值与中位数是相同的。当其中位数小于均
值时,分布是右偏的。反之,分布是左偏的。
对于回归模型,被解释变量 yt对以 X 为条件的第 τ 分位数用函数 y(τ)tX 表示,其含义是:以
X 为条件的 yt小于等于 y(τ)tX 的概率是 τ。这里的概率是用 yt对 X 的条件分布计算的。且有
y(τ)tX = F
-1
(y(τ)tX)
其中 F(y(τ)tX) 是 yt在给定 X 条件下的累积概率分布函数(cdf)。则 y(τ)tX 称作被解释变量 yt对 X
的条件分位数函数。而F '(y(τ)tX)= f (y(τ)tX)则称作分位数概率密度函数。其中F
'
(y(τ)tX)表示F(y(τ)tX)
2
对 y(τ)tX 求导。
15.2 总体中位数的估计
在介绍分位数回归之前,先来看中位数的估计和中位数回归。下面以连续变量为例介绍定理
15.1。
定理 15.1
连续变量用 y 表示,其概率密度函数用 f(y)表示,累计概率密度函数用 F(y)表示,y 的中位
数用 y(0.5)表示,则 y 与任一值的离差绝对值的期望 )( yE 以 = y(0.5) 时为最小。
证明:
)( yE = dyyfydyyfy )()()()(-
-
= )()()()(-
-
ydFyydFy
(15.1)
根据莱布尼兹公式,若 dyyfF
b
a ),()( ,则有 dy
yf
F
b
a
),(
)( 。令 -),( yyf ,则
有
b
a
b
a
dydy
y
F -
)-(
)(
。运用于式(15.1),得
)( tyE
=
dyyfydyyfy )()()()(
- - =
)(-)(
-
ydFydF
= 1-)(2))(-(1-)(])(-[1-)(
-
FFFydFF
式(15.1)求极小的一阶条件是
)( tyE
= 0,即 1-)(2 F =0, 0.5)( F 。这意味着等
于中位数 y(0.5)。
= y(0.5)
与定理 15.1 等价的表述是 y 以 = y(0.5)(中位数)时为最小。因此,中位数回归估计
量可以通过最小绝对离差法(least absolute deviation, LAD)估计。其中 X 和分别为(k1)阶列向
量。
同理,对于线性回归模型 yt = X + ut,通过求 (0.5)βˆXty 最小,估计的中位数回归系
数估计量 (0.5)βˆ ,从而得到 yt的中位数回归估计量 (0.5))5.0( ˆ)ˆ( βXX ty 。
15.3 分位数回归
Koenker 和 Bassett(1978)证明,若用 ty )(ˆ 表示 yt 的分位数回归估计量,则对于以检查函数
(check function)w为权数,yt 对任意值的加权离差绝对值和 tyw 只有在 = ty )(ˆ 时取
得最小值。其中
tyw = )())(1(
::
T
yt
t
T
yi
t
ii
yy
(15.2)
3
(0, 1)。据此,分位数回归可以通过加权的最小绝对离差和法(weighted least absolute deviation,
WLAD)进行估计。
根据式(15.2),对于线性回归模型 yt = X + ut, 求第分位数回归方程系数的估计量 )(ˆ β 的
方法是求下式(目标函数)最小,
T
u
t
T
u
t
tt
uuQ
0ˆ
)(
0ˆ
)(
)()(
ˆˆ)1(
T
Xyt
t
T
Xyt
t
tt
yy
)()(
ˆ:
)(
ˆ:
)( )
ˆ()ˆ)(1(
βXβX (15.3)
其中 tu )(ˆ 表示第分位数回归方程对应的残差。(0, 1)。第分位数的回归方程表达式是
ty )(ˆ = )(
ˆ
βX
其中 X,都是 k1 阶列向量。 )(ˆ β 称作分位数回归系数估计量,或最小绝对离差和估计量,估
计方法称作最小绝对离差和估计法。
当=0.5 时,式(15.3)变为
T
t
t
T
Xyt
t
T
Xyt
t yyyQ
tt
1
)0 . 5(
ˆ:
)0 . 5(
ˆ:
)0 . 5(
ˆ0 . 5)ˆ(0 . 5)ˆ(0 . 5
)0 . 5()0 . 5(
βXβXβX
ty )0.5(ˆ = )0.5(βˆX 称作中位数回归方程, )0.5(βˆ 称作中位数回归系数估计量。
一旦得到估计的分位数回归方程,就可以计算分位数回归的残差 tu )(ˆ 。
tttt yyyu )()( ˆˆ - )(
ˆ
βX
对一个样本,估计的分位数回归式越多,对被解释变量 yt条件分布的理解就越充分。以一元
回归为例,如果用 LAD 法估计的中位数回归直线与用 OLS 法估计的均值回归直线有显著差别,
则表明被解释变量 yt的分布是非对称的。如果散点图上侧分位数回归直线之间与下侧分位数回归
直线之间相比,相互比较接近,则说明被解释变量 yt的分布是左偏倚的。反之是右偏倚的。对于
不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影
响是不同的。
15.4 分位数回归模型的估计
由于目标函数(15.3)不可微,因此传统的对目标函数求导的方法不再适用。估计分位数回
归方程参数 )(ˆ β 的一种较好的方法是线性规划方法。
基于 Barrodale 和 Roberts (1973,以下简写为 BR)提出的单纯形法(simplex algorithm),Koenker
和 D’Orey(1987)提出一种估计分位数回归系数的方法。EViews 中应用的是上述算法的改进形式。
BR算法由于其非有效性和大样本下的一些非优良特性曾备受批评。Koenker和Hallock(2001)
以及 Portnoy 和 Koenker(1997)通过模拟证实,与内点法(interior point method)等替代方法相比,
BR 算法的估计次数往往较多,大约是样本容量的平方次数。然而,改进的 BR 算法的估计次数
在一定程度上是可以接受的,大约是样本容量的线性倍次数,在实际中是可以使用的。
4
分位数回归方程的 BR 算法原理略。
下面讨论分位数回归系数估计量的渐近分布。
在弱条件下,分位数回归系数渐近服从正态分布(Koenker, 2005)。回归系数的方差协方差矩
阵的计算在分位数回归的系数估计中占有重要位置。其方差协方差矩阵的估计方法根据分位数密
度函数是否与解释变量相关分为三种方法:
①误差项独立同分布(i.i.d.)假设下的直接估计方法。由 Koenker 和 Bassett(1978)提出。
②误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。
③误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。
(1)独立同分布假设下的参数渐近分布
Koenker 和 Bassett(1978)在独立同分布假设下得出分位数回归系数渐近服从正态分布,可以
表述为在弱条件下:
)ˆ( )()( n ~ ))1(,0(
12
)(
JsN (15.5)
其中
)(lim)(lim
T
XX
T
XX
J
n
i
ii
n
(15.6)
))((/1)( 11)(
FfFs (15.7)
其中 s(τ) 称为稀疏函数(Sparsity function)或分位数密度函数(quantile density function)。s(τ)是分位数
函数的导数,或在第 τ 分位数条件下概率密度函数的倒数(见 Welsh,1988)。另外,模型误差项独
立同分布假设意味着 s(τ)与解释变量 X 无关,因此,分位数方程只和 X 在局部期间相关,即所有
的条件分位数平面互相平行。事实上,式(15.5)中的 ))1(( 12)(
Js 就是误差项独立同分布假设
下解释变量的回归系数估计量的渐近方差协方差矩阵表达式,而 2)()1( s 代表的是一般回归方
程中随机误差项的方差。
误差项独立同分布假设下,分位数回归参数估计量的渐近方差协方差矩阵表达式中含有 s(τ),
但 s(τ) 是未知分布的函数,而且必须要估计。
EViews 提供了三种估计 s(τ)的方法。两种是基于 Siddiqui(1960)的方法分别提出的差分商方法
(Siddiqui Difference Quotient)(Koenker(1994)以及Bassett和Koenker(1982)),一种是核密度(Kernel
Density)估计法。简述如下:
①Siddiqui 差分商法:
差分商方法是用实际的分位数函数构造一个简单的差分商,从而求得 s(τ)的估计量,表达式
如下:
n
nn
h
hFhF
s
2
)(ˆ)(ˆ
)(ˆ
11
(15.8)
其中带宽 hn 随着样本容量 n→∞而趋向于 0。要计算 ŝ(τ)需要做两件事,一是得到分位数函数
)(ˆ 1 F 在两个点上的值,二是确定带宽。EViews 中提供了两种 Siddiqui 差分商法。
计算分位数密度函数的第一种方法由 Bassett 和 Koenker (1982)提出,EViews 将其称之为
Siddiqui (mean fitted) 方法。这种方法需要重新估计两个分位数回归模型在 τ - hn 和 τ + hn 上的拟
和值,进而用不同的估计参数计算分位数函数的拟和值。最终 s(τ)的估计量的数学表达式如下,
5
对任意 X*有:
n
nn
h
hh
Xs
2
)(ˆ)(ˆ
*)(ˆ
(15.9)
独立同分布假设意味着 X*可以取任何值,Bassett 和 Koenker 建议取 X 的均值,其优点是:
估计的精度在该点达到最大;且估计的分位数函数对 τ 是单调的,因此对一个恰当的 hn,ŝ(τ)的
值总是正的。
另一种 Siddiqui 差分商法由 Koenker(1994) 提出。其计算量相对较小,只需计算原分位数回
归方程中残差的第 τ - hn和 τ + hn 实际分位数,计算时排除在估计中设为零的 k 个残差,并插入新
值以获得分位数的分段线性形式。EViews 中把这种方法叫做 Siddiqui (residual) 方法。
上述两种 Siddiqui 方法都需要估计带宽 hn。EViews 提供了三种估计带宽的方法:Bofinger
(1975) 法,Hall-Sheather (1988) 法和 Chamberlain (1994)方法。
Bofinger(1975)提出的估计带宽的表达式为:
5/1
221
41
5/1
]1))((2[
)))(((5.4
Thn (15.10)
可以近似最小化ŝ(τ)的均方误差(MSE)。
另外两个带宽的表达式中含有显著性水平,因此常常用来进行假设检验。其中Hall和
Sheather(1988)的表达式为:
3/1
21
21
3/23/1
1))((2
)))(((5.1
ZThn (15.11)
其中T表示样本容量,表示正态分布的积累分布函数,表示正态分布的密度函数,Z=
-1
(1-/2)
为选择的显著性水平对应的Z值。
Chamberlain(1994)的表达式为:
T
Zhn
)1(
(15.12)
图1是样本容量1~300时Hall和Sheather(1988)方法在第0.1、0.3、0.5、0.7、0.9分位数下得到
的带宽。图2是样本容量1~1000时三种方法在第0.5分位数下的带宽比较图 (α=0.05,MATLAB计
算)。
图1 图2
从图2可以看出随着样本的增加,三种带宽都减小,并且在小样本时,减小的速度较大,在
大样本情况下减小的速度较小。并且在大样本情况下,带宽的大小顺序为:Bofinger的最大,Hall
和Sheather的次之,Chamberlain的最小。
②核密度法(Kernel Density):
6
根据(15.7)式有 s(τ)= )(ˆ 1
F =1/f( )(ˆ 1 F ),Falk(1988)和 Welsh(1988)提出了用核密度法估计
)(ˆ 1
F 进而得到 s(τ)的方法。而 Powell(1986)、Jones(1992)以及 Buchinsky(1995)则通过估计
1/f( )(ˆ 1 F )来得到 s(τ)。EViews 中使用的方法属于后者,沿用了 Powell(1984,1989)中的计算方法,
其选项名称为 Kernel(residual):
T
i
TiT cuKcTs
1
)(
1 )]/ˆ()/1/[(1)(ˆ (15.13)
其中 û(τ)表示分位数回归的残差;cT为带宽;K 表示核密度函数。EViews 中可以选择的核密度函
数有 Epanechnikov 核函数、均匀 (Uniform) 核函数、三角(Triangular)核函数、二权(Biweight)核
函数、三权(Triweight)核函数、正态(Normal)核函数、余弦(Cosinus)核函数。
EViews 中使用了 Koenker(2005)提出的带宽,表达式为:
))()(( 11 TTT hhkc
(15.14)
其中 k 表示 Silverman(1986)的一个稳健估计量;hn 是 Siddiqui 带宽。
(2) 独立但不同分布假设下的参数渐近分布
当分位数密度函数独立但不同分布即与解释变量 X 相关时 ))()(ˆ( T 的渐近分布服从
Huber sandwich 形式:
)ˆ( )()( T ~ ))()()1(,0(
11 JHHN (15.15)
其中 J 同(15.6)式,H 的表达式如下:
)/))(((lim)( TqfXXH ii
i
ii
T
(15.16)
其中 ))(( ii qf 是个体 i 在第 τ 分位数上的条件密度函数。如果条件密度函数不依赖于观测值,式
(15.15)中的方差就退化为(15.5)式中的方差。
对于 H,EViews 提供了两种计算方法。第一种是 Hendricks 和 Koenker(1992)提出的 Siddiqui
差分法;另一种是 Powell(1984,1989)提出的核密度法。这两种方法与在独立同分布假设时计算
s(τ)的算法相同,因此在 EViews 选单中的名称相同,分别为 Siddiqui (mean fitted)和 Kernel
(residual)。
①Siddiqui 差分商法
这种方法需要对每个个体估计 τ - hn 和 τ + hn 两个分位数回归模型,将拟和值代入下式:
)))(ˆ)(ˆ(/(2
)))((ˆ))((ˆ/(2))((ˆ 11
TTiT
TiiTiiTii
hhXh
hqFhqFhqf
(15.17)
由于分位数密度函数非同分布,因此,我们需要为每一个个体估计 ))(( ii qf ,这时当取
XX i 时,不能保证(15.17)式为正,因此,Hendricks 和 Koenker 对其进行了修正:
)))(ˆ)(ˆ(/(2,0max())((ˆ TTiTii hhXhqf (15.18)
其中 δ 是一个很小的正数,避免上式中分母为零。将(15.18)式代入(15.16)式,得到 H 的估计量为
TXXqfH
i
iiii /))((
ˆ)(ˆ (15.19)
7
②核密度法
Powell(1984,1989)提出的用核密度法估计 H 的表达式为:
ii
T
i
TiT XXcuKcTH
1
)(
1 )/ˆ()/1()(ˆ (15.20)
其中 û(τ)表示分位数回归的残差;cn 为带宽;K 表示核密度函数;各参数含义与(15.13)式相
同。
(3)参数渐近分布的自举法
前面的方法都是先求出分位数密度函数,然后再得到参数的渐近分布。自举法则可以省略这
一步,直接得到参数的方差协方差阵。EViews 中给出了四种自举方法,分别为:残差自举,XY
对自举,以及两种马尔可夫链边际自举法 MCMB 和 MBMB-A。其中前两种方法见 Buchinsky
(1995)。
①残差自举法(residual bootstrap)
这种方法要求解释变量与随机误差项不相关。它是对残差和解释变量分别进行有放回的再抽
样,构造样本容量为 m 的新序列 u*和 X*(其中 m 可以小于原样本容量 T),然后运用初始参数估
计量构造被解释变量,即 *)(
** ˆ uXy ,最后用 X*和 Y*估计新的参数 β(τ).
如此重复 K 次,则参数方差协方差阵的估计量为:
))()(ˆ())()(ˆ(
1
)()ˆ(ˆ
1
j
B
j
j
BT
m
TV (15.21)
其中 )( 是自举参数估计量序列的均值。EViews 选单中称这种方法为 Residual。
②XY 对自举法(XY-pair or design bootstrap)
这是最常用的一种自举方法,它不要求随机误差项与解释变量相互独立。使用这种方法时,
我们从原始数据中有放回的抽取 K 次样本容量为 m 的子序列(y*, X*),然后用每个子序列计算
β(τ),最后运用(15.21)式计算参数方差协方差阵的估计量。EViews 选单中这种方法称为 XY-Pair。
③马尔可夫链边际自举法(Markov Chain Marginal Bootstrap)
以上两种自举法往往计算量过大,当方程中含有 p 个参数时,每次自举都需要解一个 p 维的
线性规划问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
。He 和 Hu(2002)提出了一种新的自举法,将一个 p 维的最优问题简化为求解一个
含 p 个元素的序列的一维问题。这个序列的一维解就构成了一个马尔可夫链,其样本方差协方差
阵可由(15.21)式计算,且当原序列样本容量 T 和自举次数 K 较大时具有一致性。EViews 选单中
把这种方法称为 MCMB 法。
然而,给定链长 B(即自举次数),上述方法计算的参数序列之间往往存在较强的自相关从而
导致参数方差协方差阵估计量的统计特性较差,有可能对任何链长 B,估计量都不能收敛。
Kocherginsky、He 和 Mu(KHM,2005)提出了一种修正的方法消除可能存在的自相关。即通过先对
参数空间进行某种转换,运用 MCMB 算法进行估计,然后再转换回原来的空间,这种方法叫做
MCMB-A。它要求独立同分布的假设条件,但它对异方差的情况表现的比较稳健。Kocherginsky、
He 和 Mu 还建议对于满足 Tmin(τ, 1-τ) > 5p 的情况,当 T ≤ 1000,p ≤ 10 时,B 应取在 100 至 200
之间。对于 Tp 在 10,000 到 2,000,000 之间的情况,建议 B 取在 50 至 200 之间,当然,还取决于
用户的耐心。
15.5 分位数回归模型的检验
评价分位数回归函数好坏的统计量主要有 3 个,拟合优度、拟似然比检验和 Wald 检验。
(1)拟合优度(Goodness-of-Fit)
8
Koenker 和 Machado(1999)提出了分位数回归的拟合优度的概念。它与一般回归分析中的 R2
很类似。
假设分位数回归直线为
)()(
ˆˆ Xy
将解释变量矩阵和参数向量都分为两部分,即 ),1( ZX 和 )ˆ,ˆ(ˆ )(1)(0)( ,且有
)(1)(0)(ˆ Zy
定义:
])ˆˆ()ˆˆ)(1(min[ˆ
)()(
ˆ:
)(1)(0
ˆ:
)(1)(0)(
T
Xyt
t
T
Xyt
t
tt
ZyZyQ
(15.22)
])ˆ()ˆ)(1(min[
~
)(ˆ:
)(0
)(ˆ:
)(0)(
T
Xyt
t
T
Xyt
t
tt
yyQ
(15.23)
式(15.22)和(15.23)分别表示无约束分位数回归目标函数(最小绝对离差和)和约束的分位数回归
目标函数(最小绝对离差和)的极小值。无约束目标函数中的减项既包含常数项也包含所有回归
因子。约束目标函数中的减项仅包含常数项,其他参数都约束为零。则 Koenker 和 Machado 拟
和优度准则表达式如下:
)(
)(
)(
*
~
ˆ
1
Q
Q
R (15.24)
很明显,上述统计量与传统的 R2非常相似。因为 )()(
~ˆ
QQ ,所以 R
*
(τ)的值在 0 和 1 之间,解
释变量的作用越强, )(ˆ Q 越远远小于 )(
~
Q , )(
* R 越接近 1。反之越接近 0。所以 )(* R 可用来
考察解释变量对被解释变量第 τ 分位数回归拟和的好坏。
(2)拟似然比检验(Quasi-Likelihood Ratio Tests)
Koenker 和 Machado(1999)根据目标函数在施加约束条件前后得到的两个极小值构造了两个
拟似然比检验统计量(QLR)。这两个拟似然比检验也称作分位数 ρ 检验(quantile-ρ tests)。两统
计量的表达式如下:
)()1(
)ˆ
~
(2
)(
)()(
s
QQ
LT
(15.25)
)
ˆ
~
log(
)()1(
ˆ2
)(
)(
)()(
Q
Q
s
Q
T
(15.26)
两个统计量都渐近服从自由度为 q 的 χ2分布,其中 q 是原假设目标函数中约束条件的个数。 )(
~
Q
和 )(ˆ Q 分别代表约束的和无约束目标方程的极小值。
另外,两个统计量的分母都含有稀疏项 s(τ),上面给出的稀疏项 s(τ)的 3 种计算方法都可在
式(15.25)和(15.26)中使用。EViews 估计的是其在备择假设下的估计量。
使用上述两统计量的前提是必须满足分位数密度函数 s(τ)与解释变量 X 不相关。然而,尽管
9
有时并不满足独立同分布的假设,EViews 在进行分位数回归的时候,不管选择何种估计参数渐
近分布的方法,总会估计稀疏函数 s(τ),从而构造拟似然比(QLR)检验统计量。因此,这种检
验方法与下面的 Wald 统计量相比稳健性较差。
(3)Wald 检验
给定分位数回归参数估计量的渐近方差协方差矩阵,我们就可以构造 Wald 形式的统计量进
行各种约束形式的参数检验。
31.3.5 系列分位数回归检验
前面的分析主要集中在单个分位数回归模型的假设检验上,而有些时候也需要对一系列分位
数回归的回归系数进行联合检验。比如,需要通过检验不同分位数模型的斜率是否相等来判断一
个模型是否具有位移特征。同时考虑多个分位数回归式称作系列分位数回归分析(quantile process
testing)。EViews 在做单方程分位数回归的同时,有专门命令执行系列分位数回归分析。
操作路径是在一个分位数回归估计结果窗口,点击 View 键,选 Quantile Process/Process
Coefficients 功能。
定义系列分位数回归系数列向量为,
)',','( )()()( 21
m
(15.27)
则有
)ˆ( n ~ ),0( ΩN (15.28)
其中 Ω 由如下形式的块矩阵 Ωij(km×km)组成:
)()(]),[ m i n ( 11 jijijiij JHH
Ω (15.29)
i, j=1, 2, … m. k 为方程待估参数个数。其中 J 的表达式见(4)式。H 的表达式见(15.19)或(15.20)式,
取决于选择的估计方法。特别的,当误差项独立同分布的假设成立时,Ω 简化为:
J 0ΩΩ (15.30)
其中 Ω0中的元素如下:
))(())((
),min(
11
ji
jiji
ij
FfFf
(15.31)
i, j=1, 2, … k.除了以上的方法以外,Ω 的估计量还可以由任何一种自举方法得到。
(1)斜率相等检验
Koenker 和 Bassett(1982a)提出了一种对异方差很稳健的判断不同分位数回归方程斜率是否
相等的检验。零假设如下:
)(1)(1)(10 21
:
m
H
其中 β1指常数项以外的解释变量所对应的(k-1)维参数列向量。因此,零假设共含有(k-1) (m-1)个
约束条件。接下来构造 Wald 形式的统计量检验零假设是否成立,它渐近服从自由度为(k-1) (m -1)
的 χ2分布。
(2)对称性检验
将 Newey 和 Powell(1987)检验最小二乘估计量对称性的方法扩展到分位数回归中。假设我们
要检验的分位数回归模型有 m 个,m 是奇数,且中间值 τ (m+1)/2是 0.5,其他 τ 都关于 0.5 对称,
即 τj=1− τm-j+1, j=1,…,(m-1)/2。参数估计量按照 τk的大小排序。则对称性检验的零假设为:
10
)0 . 5(
)()(
0
2
:
1
jmj
H
(15.32)
其中 j=1, …, (m−1)/2。m 是奇数,代表分位数回归个数。即关于 0.5 对称的分位数回归参数估计
量的两两平均值等于中位数回归参数估计量。
我们可以构造 Wald 形式的统计量检验上述 k(m-1)/2 个约束条件是否成立。该统计量服从自
由度为 k(m−1)/2 的 χ2分布。另外,Newey 和 Powell 指出,如果我们已知随机误差项服从独立同
分布,但不一定对称,则我们只需检验常数项的对称性。即
)0 . 5(0
)(0)(0
0
2
:
1
jmj
H
(15.33)
这时约束条件减少为(m-1)/2 个。
15.6 分位数的计算与分位数回归的 EViews 操作
(1)分位数的计算
对一个离散的随机变量 yt,取其容量为 T 的样本序列,计算第 τ 分位数的方法如下:
首先将数据从小到大排序,标号为 i,i =1, 2, …, T。然后利用下表所列的方法计算随机变量
yt的第 τ 分位数的排列序号的 i;如果 i 为整数,则随机变量 yt的第 τ 分位数即为 yi,如果 i 不是
整数,则随机变量 yt的第 τ 分位数为:
y(τ)= y[i] + (i − [i])( y[i]+1 − y[i])
其中[i]表示不大于 i 的最大整数。给定一个具体的随机变量 yt,对于一个容量为 T 的样本,
则 yt的第 τ 分位数的序号 i 的计算方法如下。在大样本情况下,各方法收敛到同一值。
Rankit Ordinary Vander Waerden Blom Tukey Gumbel
(τ−1/2)/T τ/T τ/(T+1) (τ−3/8)/ (T+1/4) (τ−1/3)/ (T+1/3) (τ−1)/ (T−1)
计算分位数的 EViews 6.0 的命令为:scalar q=@quantile(y, τ, s),其中 y 表示求分位数的序列;
τ 表示要取的分位数;s 取 1~6 依次表示上表中 6 种计算方法,计算所得结果存入标量 q 中。
例:打开 6garch-03 文件,在空白处键入命令:
scalar q=@quantile(DASH, .5,1)
scalar q=@quantile(DASH, .25,1)
意即对序列 DASH 求中位数。得结果 DASH (0.5)= -0.78,DASH 序列的中位数是-0.78。DASH (0.25)=
-13.33,DASH 序列的第 0.25 分位数是-13.33。
用 DASH 画分位数图如下。打开 DASHt 序列窗口,点击 View 键选 Graph 功能。在打开的
Graph Option 窗口,Type 选择页的 Specifi 选择框选 Distribution,在 Details 的 Distribution 选择
框中选 Emprical Quantile 如图。点击“确定”键,得分位数图如图。
11
-120
-80
-40
0
40
80
120
160
0.0 0.2 0.4 0.6 0.8 1.0
Q
u
a
n
ti
le
DASH
(2)分位数回归
主要包括 3 部分内容。(1)介绍怎样进行分位数回归。(2)对输出结果的分析。(3)对分位
数回归相关功能键的介绍。
在 EViews 中进行分位数回归的路径有两个,分别是
(1)点击主选单中的 Quick 键,选 Equation Estimation,弹出 Equation Estimation 窗口。
或者
(2)点击主选单中的 Object 键,选 New Object,Equation,弹出 Equation Estimation 窗口。
在该窗口的 Method 下拉选单中,选择如图所示的选项 QREG-Quantile Regression(including
LAD),EViews 将打开如图所示的分位数回归对话框(Equation Estimation)。
图 1
Equation Estimation(方程估计)窗口包括两个选项模块,一个是 Specification(设定方程),
一个是 Options(选项)。
可以在 Equation specification(方程设定)框中输入要估计的表达式。同一般线性回归模型
一样,它可以是一行用空格隔开的被解释变量和解释变量(如图 1 所示),也可以是一个明确的
参数为线性的表达式。
Equation Estimation(方程估计)窗口与 OLS 估计的 Equation Estimation(方程估计)窗口相
比,只多了对话框 quantile to estimate 的选项。在该处填入要估计的分位数。系统默认为 0.5,即
做中位数回归(LAD)。用户可以选择任意一个 0 和 1 之间的数(当数值接近 0 和 1 时估计会变
得困难)。
激活 Options(选项)模块(点击对话框上的 Options(选项))。得到如图 2 的 quantile regression
Options(分位数回归选择)选择框、Iteration control(迭代控制)选择框和 Bootstrap settings(自
举设定)选择框。
12
quantile regression Options 对话框中的选择主要包括三部分。
图2
(1)Coefficient covariance(系数估计量方差协方差矩阵)选项框
其下拉选单中包括三个选项:Ordinary (IID),Huber-Sandwich 和Bootstrap,代表了可选的估
计回归系数估计量方差协方差矩阵的方法(具体介绍见15.4节)。EViews 默认的是
Huber-Sandwich方法。
(2)Weight(权数)选项框
可以输入作为权重的序列或者一个序列的表达式,从而对估计式加权。(用于 WLS 估计)
(3)Sparsity Estimation(稀疏函数估计)选项区
其中包括 5 种选择框。稀疏函数的介绍见 15.4 节。
◇ Method(方法)选项框。
当第一个选项框 Coefficient covariance 中选项为 Ordinary (IID)或 Bootstrap 时,Method(方
法)选项框中包括三个选项:Siddiqui (mean fitted), Kernel (residual)和 Siddiqui (residual)。
当 Coefficient covariance 选项框中选项为 Huber-Sandwich 时,这里的 Method 选项框中只包
括 Siddiqui (mean fitted)和 Kernel (residual)两种选择。
◇ Bandwidth Method(带宽)选项框。
其下拉选单中包括四个选择,即 Bofinger (1975),Hall-Sheather (1988)和 Chamberlain (1994)
计算带宽方法,或者你自己给出一个特定的带宽。
◇ Size(置信尺度)选项框。
当选择 Hall-Sheather 和 Chamberlain 方法时,置信度的选择默认为 0.05。
◇ Quantile Method(分位数方法)选项框。
EViews 提供了六种求解经验分位数的方法。
◇ Kernel(核函数)选项框。
表示核函数的选用种类。EViews 中可以选择的核密度函数有 Epanechnikov 核函数、均匀核
函数(Uniform)、三角核函数(Triangular)、二权核函数(Biweight)、三权核函数(Triweight)、正态核
函数(Normal)和余弦核函数(Cosinus)。
注意,不管系数方差协方差矩阵(Coefficient covariance)是否会用到,每次进行分位数回归
时,系统都会自动给出一个稀疏函数估计值。
Iteration control(迭代控制)选项框包括3个选项。
(1)Max(最大)。迭代的最大次数,默认为 500。
(2)Starting(初始值)。表示迭代的初始值,默认为 0,也可以选择其他选项,如下拉选单
中的 OLS,即用 OLS 估计量作为初始值进行迭代。
(3)Display settings(设定显示)。选择是否需要在输出结果中给出这些设置。
13
Bootstrap settings(自举设定)
(1)Method(方法)。代表不同的自举方法。EViews提供了四种方法,分别是Residual, XY-pair,
MCMB, MCMB-A。默认方法为XY-pair方法。
(2)Replications(循环次数)。EViews 默认为100次。用户可以自己设定次数。
(3)No. of obs(自举样本容量)。空白表示与原样本容量一致。Koenker(2005)的研究表明,
选择自举样本容量小于数据样本容量时,能够获得更加准确的结果,特别是当数据样本容量较大
时。
(4)output(输出)。在这里键入一个名称可以得到自举的样本矩阵。
(5)Random generator(生成随机数)和seed(种子)。本选项用于控制产生随机数。其中
前者用于选择随机数产生方法,seed用于选择随机数种子,Clear(清除)按钮用于清空以往选定
的随机数种子。
估计结果。
按照 EViews 默认设置得到的一个分位数回归估计结果如下:
输出结果上部给出的是估计设定,其中包括(按顺序)被解释变量(DASH)、方法:分位数回
归(中位数)、操作日期、样本范围、样本容量(421)、标准误差和方差协方差矩阵估计方法
(Huber-Sandwich 方法)、稀疏函数的估计方法(Kernel 方法)、带宽方法(Hall-Sheather 方法,带
宽=0.12963)以及对估计结果的评价。
输出结果中部给出的是回归系数估计量、标准差、t 统计量及其相应 p 值,这与 OLS 估计完
全一样。可以看出,上述回归系数估计量都具有显著性。在中位数回归关系条件下,B 股收益
DBSH 每增加一个单位,A 股收益 DASH 平均增加 3.38 个单位。
输出结果下部给出的是对分位数回归估计式的评价统计量。分别为
Pseudo R-squared:伪拟合优度(伪 R2),
Adjusted R-squared:调整的伪拟合优度,
S.E. of regression:分位数回归式的标准误差,
Quantile dependent var:分位数回归式中只有常数项存在的系数估计值(也即被解释变量的
分位数估计值)。
Objective:目标函数极小值,
Objective (const. only):分位数回归式中只有常数存在的目标函数极小值,
Sparsity:分位数密度函数(稀疏函数)估计值(本例是用核估计法计算的)。
Quasi-LR statistic:准似然比估计量的值
14
Prob (Quasi-LR stat):准似然比估计量的值所对应的概率值。
此外,由于这里使用的是 Huber-Sandwich 方法,因此稀疏函数值(Sparsity)并没有用来计算
参数估计量标准差。
与上述结果类似,我们也可以通过改变估计设定,运用自举方法获得参数估计量的方差协方
差矩阵。例如选择 MCMB-A 方法进行自举,并且将自举次数增加至 500。对于稀疏函数的计算
方法,选择 Siddiqui(mean fitted),点击 OK 键,得到新设定所对应的估计结果。
分位数回归中的 Views 和 Procs 功能键。
分位数回归方程窗口中的大部分 Views 和 Procs 功能都与 OLS 回归相同,下面对一些计算
细节其进行必要的补充说明。
使用上述功能时需要注意以下计算细节:
(1)这里的残差是指某一特定分位数回归函数条件下的残差,计算公式为
tt yu )(ˆ - )(
ˆ
βX ;
标准化残差指用自由度调整过的残差的标准误差。而在计算 QLR 统计量时则使用的是 Koenker
和 Machado(1999)给出的目标函数极小值的平均值,即 )(
1 ˆ)(ˆ QT
。
(2)构造 Wald 检验和置信椭圆时使用的是参数估计量方差协方差矩阵的稳健估计量。
(3)进行遗漏和多余变量检验(omitted and redundant tests)以及 Ramsey RESET 检验时,报
告的都是特定约束下的 QLR 统计量,因此它只有在满足稀疏函数的独立同分布假设时才是有效
的。
(4)在默认状态下,EViews 在