第 28 卷 第 4 期 吉首大学学报 (自然科学版) Vol . 28 No. 4
2007 年 7 月 Journal of Jishou University (Natural Science Edition) Jul . 2007
文章编号 :1007 - 2985 (2007) 04 - 0027 - 03
加权最小二乘估计中选择权数的迭代算法
Ξ
游 华
(福州大学数学与计算机科学学院 ,福建 福州 350002)
摘 要 :介绍了加权最小二乘估计的性质及其常见权数选择的方法 ,并给出评判一个好的二乘估计的
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
,由此提出
选择权数的迭代算法.
关键词 :加权最小二乘估计 ;权数 ;迭代算法
中图分类号 :O212. 1 文献标识码 :A
1 问题的提出
对于线性回归模型参数的估计通常采用最小二乘法 ,该方法要求模型满足 :
(1) 随机误差具有零均值 ,即 Eε = 0 ;
(2) 随机误差具有同方差性 ,即 Var (ε) = σ2 In ;
(3) 各随机误差项之间相互独立 ,即 Cov(εi ,εj ) = 0 ( j ≠ i) .
当上述假设合理时 ,才能适用普通最小二乘法并对回归模型作进一步的推断. 若不满足上述假设 ,普通最小二乘估计
法就不再适用. 它的估计不再具有最小方差的特性 ,回归系数的显著检验也就失去意义 ,因此预测将无效 . 此时 ,必须使用
改进的最小二乘法进行回归估计. 改进的最小二乘法比较常用的有加权最小二乘法.
考虑一般线性回归模型
y = Xβ+ e ,
E( e) = 0 ,
Cov( e) = σ2 V.
其中 : y = ( y1 , y2 , ⋯, yn ) T 是因变量 Y的 n 次观测值 ; X为 n ×p的设计阵 , V 为半正定阵 , X和V 都是具有任意的秩 , X的
第 1列对应于模型的常数项 ,因而所有元素皆为1 ,其余各列分别为自变量在 n次试验中的取值 ;β= (β0 ,β1 , ⋯,βp- 1 ) T为未
知的回归参数向量 ; e = ( e1 , e2 , ⋯, en ) T 表示 n 次试验的随机误差.
设 W为一个半正定阵 ,记 β( W) = ( XT WX) - XT Wy. 令 W = W1 ω
Wn
,当 rank( X) = p时 ,称 β( W) 为β的加
权最小二乘估计 (WLSE) . 在一般情况下 ,称 μ( W) = Xβ( W) = X( XT WX) - XT Wy 为μ = Xβ的加权最小二乘估计.
若取 W = I , μ( I) = Xβ = X( XT X) - XT y 就是μ的最小二乘估计 (LSE) .
在假定 W ≥0 的条件下 ,加权最小二乘估计有如下性质 [1 ] :
定理 1 μ( W) 为μ = Xβ的无偏估计当且仅当存在矩阵 C ,使得 X = CWX.
定理 2 μ( W) 为μ的无偏估计当且仅当 rank( X) = rank( XT WX) .
定理 3 μ( W) 为μ的最佳方差无偏估计当且仅当 rank( X) = rank( XT WX) ,μ( VWX) < μ( X) .Ξ 收稿日期 :2007 - 04 - 04
基金项目 :福建省教育厅科学研究项目 (JB04033) ;福州大学发展基金资助项目 (2005 - XQ - 21)
作者简介 :游 华 (1968 - ) ,女 ,福建罗源人 ,福州大学数学与计算机科学学院副教授 ,主要从事多元统计
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
研究.
2 权数的确定
采用加权回归估计方法 ,其中的关键问题是权数的确定. 怎样确定权数 ,目前还没有统一的标准和方法 ,比较常用的参
见文献[2 ] .
文献[2 ] 认为最佳权函数是针对某个模型而言的 ,即模型不同 ,其最佳权函数也不同 . 在实际应用中自变量个数较多 ,
一方面如何选择哪些自变量作权函数 ,另一方面这些变量的权函数形式是什么样 ,最后确定下来的权函数是否具有优良性
能 ,这两方面都应考虑到 . 基于以上分析 ,选择原函数的倒数作为权函数 :
Wi =
1
f 2 ( xi ) .
可以证明 ,以此模型作数据变换 ,可使得到的新模型满足等方差的要求 . 因此此方法不失为一种较好的方法. 但在回归
估计过程中 ,普通最小二乘法估计的参数的变动系数普遍大于加权回归估计 ,而参数的变动系数是衡量模型稳健性的一个
很重要的指标 [3 ] . 建模的目的是进行预测 ,对于不同的预测对象 ,模型的参数应该是比较稳定的 ,预测结果是可控制的 . 因
此 ,在加权回归估计考虑权函数时应使模型的稳健性较好 . 而且 ,普通最小二乘估计以残差平方和最小为原则 ,在这个原则
支配下 ,模型拟合时较多考虑样本值比较大的点 ,较少考虑样本值比较小的点. 而加权最小二乘估计则是以加权残差平方
和最小为原则 ,所谓的加权残差平方和实际上是一种相对误差 ,即给与所有样本点以同等的重视程度 . 虽然对残差平方和
(RSS) 而言 ,普通二乘法估计优于加权二乘估计 ,但是一个好的估计要求残差平方和不能增加太多 ,因此提出相对残差平方
和 ,其定义如下 :
定义 1 设ΔRSS = RSS( W) - RSS( I) ,则和η = ΔRSSRSS( I) 为相对残差平方和.
由于β^的均方误差MSE(β^( W) ) = E ‖^β - β‖2 ,残差平方和MSR(β^( W) )
Δ
E(RSS(β^( W) ) ) ,因此这 2 个部分在求
权数过程中要考虑到. 要求做到 :
(1) 先取权数 W ,要接近于普通最小二乘估计.
(2) 用迭代方法逐步改变 Wi 的取值 ,求得的标准回归系数与前次进行比较 ,至少连续 2 次的标准回归系数相差不大.
一个较好的估计应该是保证预测较好 ,同时要求模型较稳定 ,且残差平方和的增量ΔRSS不能增加太多. 其标准是 :若
ΔRSS
RSS( I) < δ,δ一般取 0. 1 或 0. 5.
基于以上的要求 ,提出以下的计算步骤 :
(1) 计算 W = I 时的残差平方和 RSS.
(2) 取步长 k ,一般可选取 k0 = 0. 001 ,0. 002 或 0. 005.
(3) 循环计算 Wi = lk0 的标准系数β^( l)i 及相互的残差平方和RSS( Wi ) ,其中 l表示循环计算次数. 如果对一切的 l ,都有
| β^( l)i (Wi ) - β^
( l - 1)
i ( Wi ) | < S , (1)
且残差平方和 RSS( Wi ) 的相对增长率
η = RSS( Wi ) - RSS( I)RSS( I) < δ, (2)
那么认为经过 l 次循环计算后 ,可使β^i ( Wi ) 达到稳定 ,且残差平方和不会增加太多 ,一般 S 可取0. 01 ,δ取 0. 1. 如果 (1) , (2)
式不能同时满足 ,可将步长 k0 取得更小一些 ,然后重复计算.
3 实际应用
例 1 上海某烟囱的累计沉降量实测记录如表 1 所示 .
表 1 上海某烟囱的累计沉降量实测记录
次序 时间间隔 XΠd 累计沉降 YiΠmm
1 50 13. 0
次序 时间间隔 XΠd 累计沉降 YiΠmm
16 490 23. 9
2 66 13. 0 17 522 25. 0
3 82 13. 4 18 548 25. 7
4 107 16. 2 19 630 27. 1
5 128 17. 6 20 672 29. 0
82 吉首大学学报 (自然科学版) 第 28 卷
续表
次序 时间间隔 XΠd 累计沉降 YiΠmm
6 144 17. 5
次序 时间间隔 XΠd 累计沉降 YiΠmm
21 705 29. 6
7 171 17. 7 22 729 29. 6
8 263 19. 0 23 763 29. 6
9 301 19. 7 24 796 29. 7
10 320 20. 1 25 841 30. 5
11 343 21. 0 26 890 31. 1
12 372 21. 2 27 921 31. 1
13 397 21. 5 28 1 002 31. 1
14 428 22. 7 29 1 047 31. 2
15 460 23. 4 30 1 076 31. 4
从表 1 中取前 25 个数据 ,分列用普通最小二乘法和加权最小二乘法确定回归方程 ,普通最小二乘法为 Y = 13. 304 6 +
0. 021 89 x ,加权最小二乘法为 Y = 18. 463 8 + 0. 014 5 x .
用上述两方程预测后 5 个数据的结果见表 2.
表 2 用 2 种回归方程预测后 5 个数据的结果
次序 原始数据 YiΠmm 普通最小二乘法 加权最小二乘法 [2 ] 加权最小二乘迭代算法
26 31. 1 32. 79 35. 335 2 31. 56
27 31. 1 33. 46 36. 150 3 31. 81
28 31. 1 35. 24 38. 280 6 32. 98
29 31. 2 36. 22 39. 464 1 33. 63
30 31. 4 36. 86 40. 226 8 34. 05
预报余下 5 个数据
的残差平方和 81. 51 240. 24 17. 40
由表 2 可知 ,文中提出的加权最小二乘法拟合效果更好 .
4 结语
在实际问题不满足普通最小二乘法应用的前提假设时 ,可以用加权最小二乘法 ,并用文中提出的迭代算法来计算权函
数 ,从而得到更好的预报结果 .
参考文献 :
[1 ] 陈希孺 ,王松桂 . 线性模型中的最小二乘法 [M] .上海 :上科科学技术出版社 ,2003.
[2 ] 曾伟生 . 再论加权最小二乘法中权函数的选择 [J ] .中南林业调查规划 ,1998 , (3) :9 - 11.
[3 ] 张会儒 . 关于生物模型中的异方差问题 [J ] .林业资源管理 ,1999 , (1) :46 - 49.
Iteration Algorithm of Choosing the Weighted Function in the
Weighted Least Squares Estimate
YOU Hua
(College of Mathematics and Computer Science ,Fuzhou University ,Fuzhou 350002 ,China)
Abstract :This paper introduces the quality of the weighted least squares estimate and the method to choose the com2
mon weighted function choose ,gives a standard of judging a good least squares estimate ,and proposes the iteration algo2
rithm of choosing weighted function.
Key words :weighted least squares estimate ;weighted function ;iteration algorithm
(责任编辑 向阳洁)
92第 4 期 游 华 :加权最小二乘估计中选择权数的迭代算法