首页 第3章 双变量回归模型:估计问题

第3章 双变量回归模型:估计问题

举报
开通vip

第3章 双变量回归模型:估计问题nullnull第3章 双变量回归模型:估计问题null§3.1普通最小二乘法 普遍最小二乘法(Method of ordinary least squares,简记OLS)的发明要归功于德国数学家高斯(Carl Friedrich Gauss) 我们知道,双变量的PRF: (2.4.2) 这个PRF是不能直接观测到的。我们必须通过SRF去估计它: (2.6.2) ...

第3章 双变量回归模型:估计问题
nullnull第3章 双变量回归模型:估计问题null§3.1普通最小二乘法 普遍最小二乘法(Method of ordinary least squares,简记OLS)的发明要归功于德国数学家高斯(Carl Friedrich Gauss) 我们知道,双变量的PRF: (2.4.2) 这个PRF是不能直接观测到的。我们必须通过SRF去估计它: (2.6.2) (2.6.3) 但是,SRF又如何决定呢?高中课本都有OLS,我们会很快地回顾一下。null首先,把(2.6.3)写成: (3.1.1) 残差是Y的实际观测值与估计值之差,亦即拟合误差 如果有n对Y和X的观测值,想要确定合适的样本回归方程(SRF),使Y的估计值尽可能地接近其实际值,即拟合的直线为“最佳” ,有三种方法:一、使剩余总和(残差和) 达到最小。 由于残差有正有负,可能出现相互抵消的现象,即使其代数总和很小甚至等于零,只能说明直线的拟合程度,但不能说明散点对直线的离散(偏离)的程度 null —— 最小化. 其中 及 得到的权重和 及 得到的权重一样多,所有残差都受到同样的重视。结果,很可能离开SRF而散布的很远,但代数和却很小。 见下页图——null最小化得到的SRF曲线null二、 最小的原则 这种方法能避免剩余项的正负值相互抵消的缺陷,但其中的绝对值符号给数学处理带来不便。 三、使剩余平方和 达到最小 也就是采用使拟合误差的平方和为最小作为选择“最佳”参数和的准则。这样求出的参数,称作最小二乘解,求解过程称作最小二乘法 OLS法的推导: 最小二乘准则通过最小化下式实现的: (3.1.2)null上式分别对 和 求偏导数得: 令以上两式等于零,可得: 以上方程组称为正规方程组或正规方程,n为样本容量。 式乘以 , 式乘以n,得请大家自己推导一次null(2)-(1)得 :(3.1.6) 见注 其中 和 是X和Y的样本均值,并且定义 和 。从此以后,小写字母都 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示对均值的离差(deviation) 返回null(3.1.7) 可做如下的变换: 上面得到的估计量 和 是用最小二乘原理推算得出的,因此叫最小二乘估计量(least-squares estimators)第二步可以直接从(*)式得到null注:其中返回nullOLS估计量的数值性质: Ⅰ.OLS估计量是纯粹可以用可观测的样本量(指X和Y)表达的,因此,这些量是比较容易计算的 Ⅱ.这些量是点估计量(point estimators),不同于区间估计量(interval estimators) Ⅲ.一旦从样本数据得到OLS估计值,便易于画出样本回归线。这样得到的回归线有如下性质: 1.它通过Y和X的样本均值 由(3.1.7)式: 得: null 2.估计的Y的均值(即 的均值)等于实测的Y均值(Y实际观测值的均值): 又∵ ∴将上式两边对样本值求和并使两边同除以n得(对i求和,再除以n得): (注: 即 ,我们是把 记作 )直观含义?null也可以这样证: 3.残差的均值为零 求解最小二乘估计量的过程中,出现过下式: 而 所以有: 见图null样本回归模型: (2.6.2) 可以表达为离差形式(deviation form): (3.1.13) 证明: 我们已知有: (3.1.12) (2.6.2)式减去(3.1.12)式得: 即: 离差形式的好处:好记,运算简便 null4.残差和预测的Yi值不相关。 证: null5.残差 和 不相关,就是说 在求解最小二乘估计量的过程中,曾经有: null§3.2经典线性回归模型:最小二乘法的基本假定 回归 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 的目的不仅在于估计 和 ,而且还要对真实的 和 进行推断(draw inferences) PRF说明 即 依赖于 和 因此,先明确Xi和ui是如何产生的(它们的分布情况)才能对Yi作出统计推断,从而才能对 和 作出统计推断。也就是说,为了回归估计的有效解释,对解释变量和误差项作出假定是非常重要的 null经典(又称高斯或标准)线性回归模型(记CLRM)(The Gaussian, standard, or classical linear regression model)有10个假定: 假定1:线性回归模型 即回归模型对参数而言是线性的。如 回归子Y(regressand)和回归元X(regressor)本身可以是非线性的 null 假定2:在重复抽样中X值是固定的 即假定X是非随机的(no stochastic)。这涉及到抽样问题。 假定每次我们把X固定在某个值上(比如80$),随机抽取一个样本点进行观测,可以得到一个Y值;再按这固定的X值(X还是80$),抽取一个Y值。在每次抽取中(即重复抽样),X值都固定在80$。采用这个方法可以对所有的X值重复这一过程。(P48表2.4和表2.5的样本数据就是这样从P38表2.1中抽取出来的)。 这意味着我们的回归分析是条件回归分析(conditional regression analysis),就是以回归元X的给定值为条件的 null 假定3:干扰项ui的均值为零 即ui的条件均值为零: 对于给定X的每一个Y总体,都是围绕其均值而分布的。有的Y值位于均值之上,有的位于其下,离开均值的上方和下方的距离就是ui 参见P67 Figure 3.3 是说,凡是模型不显含的并因而归属于ui的因素,对Y的均值都没有系统的影响。正的ui抵消了负的ui,以致它们对Y的平均影响为零 等价于 假定4:同方差性(homoscedasticity or equal variance of ui )或ui的方差相等 即ui的条件方差(variances)是恒定的:null 上式代表同方差性,或者说相同的(homo)散布(scedasticity),或相等的方差 如果Y总体的条件方差随X而变化,就是异方差性(heteroscedasticity),或者说非相同的散布,或非相等的方差。即: 假定4定味着Yi的条件方差也是同方差: Y的无条件方差一般表示为 nullnullnull 假定5:各个干扰之间无自相关 给定任意两个X值,Xi和Xj,ui和uj之间的相关为零 cov代表协方差(covariance) ui和uj之间不相关,也就是无序列相关(no serial correlation),或无自相关(no anto-correlation)假定。 假定!nullnull 假定6: ui和Xi之间的协方差为零,或 这个假定是说,干扰u和解释变量X是不相关的 若X和u相关,就不可能把它们各自对Y的影响(贡献)分解开来 其实,只要Xi和ui无关,即使X是随机的,回归分析理论仍然是成立的 来自:null 假定7:观测次数n必须大于所估计的参数个数 或者说,观测次数n必须大于解释变量的个数。 假定8:X值要有变异 在一个给定的样本中,X值不可以全是相同的。 必须是一个有限的正数 如果全部X值都相等,即 , 会全为零。就不能从(3.1.6)式估计出 ,从而也就无法估计 在家庭消费支出的例子中,如果家庭收入极少变化,它就不能成为解释消费支出的变化的变量。 变量必须在变!!null 假定9:正确地设定了回归模型。或者说,在经验分析中所采用的模型不存在设定偏误(specification bias or error) 模型的设定问题包括: ①该包括哪些变量? ②模型的函数形式如何?是否线性? ③进入模型的 , 和 需做哪些概率上的假定?null 例子: (3.2.7) (3.2.8) 其中,Yi为货币工资变化率,Xi为失业率。 如果模型(3.2.8)是“正确的”或“真实的”模型,而我们却采用了模型(3.2.7)去拟合散点图,就会导致错误的预测。 null 对于A、B两点之间的任给的Xi,模型(3.2.7)都过高估计了真实的Y均值;而对于A以左和B以右的Xi,则过低地估计了真实的Y均值。null 虽然我们假定 ,但从样本中我们未必能得出。这须要其它技术来处理自相关和异方差的情况 假定10:不存在完全的多重共线性(multicollinearity) 也就是说,解释变量之间不存在完全的线性关系(no perfect linear relationships) ——出现在多元线性回归模型 上述假定的真实性如何? 在任何科学研究中,假定都未必是真实的,符合现实的,而是在于它们使我们可以方便地展开我们的研究。我们先深入研究CLRM的性质,然后再放松一些假定深化这一研究 nullnull 其中, 为ui的方差。(下一节一起证明) 而 是由以下公式来估计的: 是 的OLS估计量,n-2为自由度df(degrees of freedom)的个数, 为残差平方和(the sum of the residnal squared),或叫做剩余平方和RSS(the residual sum of squares) 而 可以由(3.1.2)式算出: (3.1.2)null 或者由下式算出: 证明见§3.5节 (3.3.6) 由于 ∴ (3.3.7) 叫做估计的标准误(standard error of the estimate)。它是Y对估计的回归线的离差的标准差。常用来衡量所估计的回归线的“拟合优度(goodness of fit)” null 例题:在家庭可支配收入-消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表进行。 null因此,由该样本估计的回归方程为: nullnullnull 可见, 是 的一个线性函数,所以,它是一个线性估计量(linear estimator) (*) ∴ 也是一个线性估计量 权重ki的一些性质: (1) ∵Xi非随机   ∴ki非随机。 (2) (3) null (4) 2.无偏性。 先证 : 上式两边求数学期望得: (ki非随机)(**)null 再证 : 由(*)式得: 其中, ∴上式 null3.最小方差性: 根据假定,ui是互不相关的,而且 ; 当 时, 。从而 null下面求 : null根据方差的定义有:nullnull为使 无偏,必有: 和 (后面要利用) 的方差为: (利用方差的性质) (而 ) (数学技巧!) null其中: nullnull(注:对总体有: ,对样本则为: ) (9)式减去(10)式得: (11) 再回顾: (12) 把(11)式代入(12)式得: (13) 两边平方,再求和得: (14) nullnull 根据假定 求第三项: 于是有 ( ) null 如果定义 则 , 这表明 是真实方差 的无偏估计(量)。nullnullnullnull两边平方并对样本求和(即对i求和)得: ( , ) (3.5.2) 注: (2.6.1) 减去 得: 其中 , 为总平方和(TSS:total sum of squares),表示实测的Y值围绕其均值的总变异 , 称为解释平方和(ESS:explained sum of squares),它是由回归解释的平方和null 称为残差(剩余)平方和,表示未被解释的由随机因素引起的变异,(RSS:residual sum of squares)。 于是有: TSS=ESS+RSS (3.5.3) TSS=ESS+RSS表明,Y的观测值围绕其均值的总变异可分解为两部分,一部分来自回归线,而另一部分来自随机势力。几何意义见图null(3.5.3)两边同时除以TSS得: (3.5.4) 我们定义 为: (3.5.5) 或者写成另一形式: (3.5.5a) null 这里定义的 就是判定系数,它是对回归线拟合优度的最为常见的度量。 测度了在Y的总变异中由回归模型解释的那部分所占的比例或百分比。 的两条性质: 1.它是一个非负量 2.它的界限为0≤ ≤1。 =1代表一个完美的拟合,针对每一个i 都有 。 =0表示回归子与回归元之间无任何关系(即 )。这时有: ,这说明,对任一Y值的最优预测值都是它的均值。从而回归线平行于X轴。nullnullnull r 表示的是样本相关系数,总体的用 表示。 利用 和 的定义, 就可以视为实测的 与估计的 (即 )之间的相关系数的平方:由(3.5.13)有: 即 (3.5.14)null 证明: 代入(3.5.14)有: 上式解释了为什么把 作为拟合优度的一个度量:它告诉我们Y的估计值和它的真实值相靠多近。 例子: P88-89nullnullnullnullnull问题:拟合优度 很高是否代表模型设定是正确的?null本章结束, 谢谢 !nullnull返回
本文档为【第3章 双变量回归模型:估计问题】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_469216
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:经济学
上传时间:2011-09-22
浏览量:87