购买

¥30.0

加入VIP
  • 专属下载券
  • 上传内容扩展
  • 资料优先审核
  • 免费资料无限下载

上传资料

关闭

关闭

关闭

封号提示

内容

首页 49第二章 最小二乘法和线性回归

49第二章 最小二乘法和线性回归.ppt

49第二章 最小二乘法和线性回归

中小学精品课件
2019-04-27 0人阅读 举报 0 0 0 暂无简介

简介:本文档为《49第二章 最小二乘法和线性回归ppt》,可适用于高等教育领域

第二章最小二乘法(OLS)和线性回归模型本章要点最小二乘法的基本原理和计算方法经典线性回归模型的基本假定BLUE统计量的性质t检验和置信区间检验的原理及步骤多变量模型的回归系数的F检验预测的类型及评判预测的标准好模型具有的特征第一节最小二乘法的基本属性一、有关回归的基本介绍金融、经济变量之间的关系大体上可以分为两种:()函数关系:Y=f(X,X,…,XP)其中Y的值是由Xi(i=,…p)所唯一确定的。()相关关系:Y=f(X,X,…,XP)这里Y的值不能由Xi(i=,…p)精确的唯一确定。图货币供应量和GDP散点图图表示的是我国货币供应量M(y)与经过季节调整的GDP(x)之间的关系(数据为年第一季度到年第二季度的季度数据)。但有时候我们想知道当x变化一单位时y平均变化多少可以看到由于图中所有的点都相对的集中在图中直线周围因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线我们就可以用直线的斜率来表示当x变化一单位时y的变化程度由图中的点确定线的过程就是回归。对于变量间的相关关系我们可以根据大量的统计资料找出它们在数量变化方面的规律(即“平均”的规律)这种统计规律所揭示的关系就是回归关系(regressiverelationship),所表示的数学方程就是回归方程(regressionequation)或回归模型(regressionmodel)。图中的直线可表示为()根据上式在确定α、β的情况下给定一个x值我们就能够得到一个确定的y值然而根据式()得到的y值与实际的y值存在一个误差(即图中点到直线的距离)。如果我们以u表示误差则方程()变为:即:其中t(=,,,…,T)表示观测数。()()式()即为一个简单的双变量回归模型(因其仅具有两个变量x,y)的基本形式。其中yt被称作因变量(dependentvariable)、被解释变量(explainedvariable)、结果变量(effectvariable)xt被称作自变量(independentvariable)、解释变量(explanatoryvariable)、原因变量(causalvariable)α、β为参数(parameters),或称回归系数(regressioncoefficients)ut通常被称为随机误差项(stochasticerrorterm),或随机扰动项(randomdisturbanceterm),简称误差项在回归模型中它是不确定的服从随机分布(相应的yt也是不确定的服从随机分布)。为什么将ut包含在模型中?()有些变量是观测不到的或者是无法度量的又或者影响因变量yt的因素太多()在yt的度量过程中会发生偏误这些偏误在模型中是表示不出来的()外界随机因素对yt的影响也很难模型化比如:恐怖事件、自然灾害、设备故障等。二、参数的最小二乘估计(一)方法介绍本章所介绍的是普通最小二乘法(ordinaryleastsquares,简记OLS)最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小也可表述为距离的平方和最小。假定根据这一原理得到的α、β估计值为、则直线可表示为。直线上的yt值记为称为拟合值(fittedvalue),实际值与拟合值的差记为称为残差(residual)可以看作是随机误差项的估计值。根据OLS的基本原则使直线与各散点的距离的平方和最小实际上是使残差平方和(residualsumofsquares,简记RSS)最小即最小化:RSS==()根据最小化的一阶条件将式分别对、求偏导并令其为零即可求得结果如下:()()(二)一些基本概念总体(thepopulation)和样本(thesample)总体是指待研究变量的所有数据集合可以是有限的也可以是无限的而样本是总体的一个子集。、总体回归方程(thepopulationregressionfunction简记PRF)样本回归方程(thesampleregressionfunction简记SRF)。总体回归方程(PRF)表示变量之间的真实关系有时也被称为数据生成过程(DGP)PRF中的α、β值是真实值方程为:()样本回归方程(SRF)是根据所选样本估算的变量之间的关系函数方程为:注意:SRF中没有误差项根据这一方程得到的是总体因变量的期望值()于是方程()可以写为:()总体y值被分解为两部分:模型拟合值()和残差项()。线性关系对线性的第一种解释是指:y是x的线性函数比如y=。对线性的第二种解释是指:y是参数的一个线性函数它可以不是变量x的线性函数。比如y=就是一个线性回归模型但则不是。在本课程中线性回归一词总是对指参数β为线性的一种回归(即参数只以一次方出现)对解释变量x则可以是或不是线性的。有些模型看起来不是线性回归但经过一些基本代数变换可以转换成线性回归模型。例如()可以进行如下变换:()令、、则方程()变为:()可以看到模型即为一线性模型。估计量(estimator)和估计值(estimate)估计量是指计算系数的方程而估计值是指估计出来的系数的数值。三、最小二乘估计量的性质和分布(一)经典线性回归模型的基本假设()即残差具有零均值()var<∞,即残差具有常数方差且对于所有x值是有限的()cov即残差项之间在统计意义上是相互独立的()cov即残差项与变量x无关()ut~N,即残差项服从正态分布(二)最小二乘估计量的性质如果满足假设()-()由最小二乘法得到的估计量、具有一些特性它们是最优线性无偏估计量(BestLinearUnbiasedEstimators简记BLUE)。估计量(estimator):意味着、是包含着真实α、β值的估计量线性(linear):意味着、与随机变量y之间是线性函数关系无偏(unbiased):意味着平均而言实际得到的、值与其真实值是一致的最优(best):意味着在所有线性无偏估计量里OLS估计量具有最小方差。(三)OLS估计量的方差、标准差和其概率分布OLS估计量的方差、标准差。给定假设()-()估计量的标准差计算方程如下:其中是残差的估计标准差。()()参数估计量的标准差具有如下的性质:()样本容量T越大参数估计值的标准差越小()和都取决于s。s是残差的方差估计量。s越大残差的分布就越分散这样模型的不确定性也就越大。如果s很大这意味着估计直线不能很好地拟合散点()参数估计值的方差与成反比。其值越小散点越集中这样就越难准确地估计拟合直线相反如果越大散点越分散这样就可以容易地估计出拟合直线并且可信度也大得多。比较图-就可以清楚地看到这点。图-直线拟合和散点集中度的关系()项只影响截距的标准差不影响斜率的标准差。理由是:衡量的是散点与y轴的距离。越大散点离y轴越远就越难准确地估计出拟合直线与y轴的交点(即截距)反之则相反。.OLS估计量的概率分布给定假设条件()即~则也服从正态分布系数估计量也是服从正态分布的:()()需要注意的是:如果残差不服从正态分布即假设()不成立但只要CLRM的其他假设条件还成立且样本容量足够大则通常认为系数估计量还是服从正态分布的。其标准正态分布为:()()但是总体回归方程中的系数的真实标准差是得不到的只能得到样本的系数标准差(、)。用样本的标准差去替代总体标准差会产生不确定性并且、将不再服从正态分布而服从自由度为T的t分布其中T为样本容量即:~()~()正态分布和t分布的关系图正态分布和t分布形状比较从图形上来看t分布的尾比较厚均值处的最大值小于正态分布。随着t分布自由度的增大其对应临界值显著减小当自由度趋向于无穷时t分布就服从标准正态分布了。所以正态分布可以看作是t分布的一个特例。第二节一元线性回归模型的统计检验一、拟合优度(goodnessoffitstatistics)检验拟合优度可用R表示:模型所要解释的是y相对于其均值的波动性即(总平方和thetotalsumofsquares简记TSS)这一平方和可以分成两部分:=()是被模型所解释的部分称为回归平方和(theexplainedsumofsquares简记ESS)是不能被模型所解释的残差平方和(RSS),即=TSS、ESS、RSS的关系以下图来表示更加直观一些:图-TSS、ESS、RSS的关系拟合优度=因为TSS=ESSRSS所以R=()()()R越大说明回归线拟合程度越好R越小说明回归线拟合程度越差。由上可知通过考察R的大小我们就能粗略地看出回归线的优劣。但是R作为拟合优度的一个衡量标准也存在一些问题:()如果模型被重新组合被解释变量发生了变化那么R也将随之改变因此具有不同被解释变量的模型之间是无法来比较R的大小的。()增加了一个解释变量以后R只会增大而不会减小除非增加的那个解释变量之前的系数为零但在通常情况下该系数是不为零的因此只要增加解释变量R就会不断的增大这样我们就无法判断出这些解释变量是否应该包含在模型中。()R的值经常会很高达到或更高所以我们无法判断模型之间到底孰优孰劣。为了解决上面第二个问题我们通常用调整过的R来代替未调整过的R。对R进行调整主要是考虑到在引进一个解释变量时会失去相应的自由度。调整过的R用来表示公式为:其中T为样本容量K为自变量个数()二、假设检验假设检验的基本任务是根据样本所提供的信息对未知总体分布某些方面的假设做出合理解释假设检验的程序是先根据实际问题的要求提出一个论断称为零假设(hypothesis)或原假设记为H(一般并列的有一个备择假设(alternativehypothesis),记为H)然后根据样本的有关信息对H的真伪进行判断做出拒绝H或不能拒绝H的决策。假设检验的基本思想是概率性质的反证法。概率性质的反证法的根据是小概率事件原理。该原理认为“小概率事件在一次实验中几乎是不可能发生的”。在原假设H下构造一个事件(即检验统计量)这个事件在“原假设H是正确的”的条件下是一个小概率事件如果该事件发生了说明“原假设H是正确的”是错误的因为不应该出现的小概率事件出现了应该拒绝原假设H。假设检验有两种方法:置信区间检验法(confidenceintervalapproach)和显著性检验法(testofsignificanceapproach)。显著性检验法中最常用的是t检验和F检验前者是对单个变量系数的显著性检验后者是对多个变量系数的联合显著性检验。(一)t检验下面我们具体介绍对方程()的系数进行t检验的主要步骤。()用OLS方法回归方程()得到β的估计值及其标准差。()假定我们建立的零假设是:备则假设是(这是一个双侧检验)。则我们建立的统计量服从自由度为T的t分布。()选择一个显著性水平(通常是),我们就可以在t分布中确定拒绝区域和非拒绝区域如图。如果选择显著性水平为则表明有的分布将落在拒绝区域图双侧检验拒绝区域和非拒绝区域分布()选定显著性水平后我们就可以根据t分布表求得自由度为T的临界值当检验统计值的绝对值大于临界值时它就落在拒绝区域因此我们拒绝的原假设而接受备则假设。反之则相反。可以看到t检验的基本原理是如果参数的假设值与估计值差别很大就会导致小概率事件的发生从而导致我们拒绝参数的假设值。(二)置信区间法仍以方程的系数β为例置信区间法的基本思想是建立围绕估计值的一定的限制范围推断总体参数β是否在一定的置信度下落在此区间范围内。 置信区间检验的主要步骤(所建立的零假设同t检验)。()用OLS法回归方程()得到β的估计值及其标准差。()选择一个显著性水平(通常为)这相当于选择的置信度。查t分布表获得自由度为T的临界值。()所建立的置信区间为()()()如果零假设值落在置信区间外我们就拒绝的原假设反之则不能拒绝。需要注意的是置信区间检验都是双侧检验尽管在理论上建立单侧检验也是可行的。(三)t检验与置信区间检验的关系在显著性检验法下当的绝对值小于临界值时即:()时我们不能拒绝原假设。对式()变形我们可以得到:()可以看到式()恰好是置信区间法的置信区间式()因此实际上t检验法与置信区间法提供的结果是完全一样的。(四)第一类错误和第二类错误如果有一个零假设在%的显著性水平下被拒绝了有可能这个拒绝是不正确的这种错误被称为第一类错误它发生的概率为%。另外一种情况是我们得到%的一个置信区间落在这个区间的零假设我们都不能拒绝当我们接受一个零假设的时候也可能犯错误因为回归系数的真实值可能是该区间内的另外一个值这一错误被称为第二类错误。在选择显著性水平时人们面临抉择:降低犯第一类错误的概率就会增加犯第二类错误的概率。(五)P值P值是计量经济结果对应的精确的显著性水平。P值度量的是犯第一类错误的概率即拒绝正确的零假设的概率。P值越大错误地拒绝零假设的可能性就越大p值越小拒绝零假设时就越放心。现在许多统计软件都能计算各种统计量的p值如Eviews、Stata等。第三节多变量线性回归模型的统计检验一、多变量模型的简单介绍考察下面这个方程:t=,,…T()对y产生影响的解释变量共有k(xt,xt…,xkt)个系数(β’β’…βk)分别衡量了解释变量对因变量y的边际影响的程度。方程()的矩阵形式为这里:y是T×矩阵X是T×k矩阵β是k×矩阵u是T×矩阵()在多变量回归中残差向量为:()残差平方和为:()可以得到多变量回归系数的估计表达式()同样我们可以得到多变量回归模型残差的样本方差()参数的协方差矩阵()二、拟合优度检验在多变量模型中我们想知道解释变量一起对因变量y变动的解释程度。我们将度量这个信息的量称为多元判定系数R。在多变量模型中下面这个等式也成立:TSS=ESSRSS()其中TSS为总离差平方和ESS为回归平方和RSS为残差平方和。与双变量模型类似定义如下:即R是回归平方和与总离差平方和的比值与双变量模型唯一不同的是ESS值与多个解释变量有关。R的值在与之间越接近于说明估计的回归直线拟合得越好。()可以证明:()因此()三、假设检验(一)、t检验在多元回归模型中t统计量为:……()均服从自由度为(nk)的t分布。下面的检验过程跟双变量线性回归模型的检验过程一样。(二)、F检验F检验的第一个用途是对所有的回归系数全为的零假设的检验。第二个用途是用来检验有关部分回归系数的联合检验就方法而言两种用途是完全没有差别的下面我们将以第二个用途为例对F检验进行介绍。为了解联合检验是如何进行的考虑如下多元回归模型:()这个模型称为无约束回归模型(unrestrictedregression)因为关于回归系数没有任何限制。假设我们想检验其中q个回归系数是否同时为零为此改写公式()将所有变量分为两组第一组包含kq个变量(包括常项)第二组包含q个变量:()如果假定所有后q个系数都为零即建立零假设:则修正的模型将变为有约束回归模型(restrictedregression)(零系数条件):()关于上述零假设的检验很简单。若从模型中去掉这q个变量对有约束回归方程()进行估计的话得到的误差平方和肯定会比相应的无约束回归方程的误差平方和大。如果零假设正确去掉这q个变量对方程的解释能力影响不大。当然零假设的检验依赖于限制条件的数目即被设定为零的系数个数以及无约束回归模型的自由度。检验的统计量为:()在这里分子是误差平方和的增加与零假设所隐含的参数限制条件的个数之比分母是模型的误差平方和与无条件模型的自由度之比。如果零假设为真式()中的统计量将服从分子自由度为q分母自由度为NK的F分布。对回归系数的子集的F检验与对整个回归方程的F检验做法一样。选定显著性水平比如%或%然后将检验统计量的值与F分布的临界值进行比较。如果统计量的值大于临界值我们拒绝零假设认为这组变量在统计上是显著的。一般的原则是必须对两个方程分别进行估计以便正确地运用这种F检验。F检验与R有密切的联系。回想,则()两个统计量具有相同的因变量因此将上面的两个方程代入()检验的统计量可以写成:()第四节预测一、预测的概念和类型(一)预测的概念金融计量学中所谓预测就是根据金融经济变量的过去和现在的发展规律借助计量模型对其未来的发展趋势和状况进行描述、分析形成科学的假设和判断。(二)预测原理条件期望(conditionalexpectations)在t期Y的t期的条件期望值记作它表示的是在所有已知的t期的信息的条件下Y在t期的期望值。假定在t期我们要对因变量Y的下一期(即t期)值进行预测则记作。在t期对Y的下一期的所有预测值中Y的条件期望值是最优的(即具有最小方差)因此我们有:()(三)预测的类型:()无条件预测和有条件预测所谓无条件预测是指预测模型中所有的解释变量的值都是已知的在此条件下所进行的预测。所谓有条件预测是指预测模型中某些解释变量的值是未知的因此想要对被解释变量进行预测必须首先预测解释变量的值。()样本内(insample)预测和样本外(outofsample)预测所谓样本内预测是指用全部观测值来估计模型然后用估计得到的模型对其中的一部分观测值进行预测。样本外预测是指将全部观测值分为两部分一部分用来估计模型然后用估计得到的模型对另一部分数据进行预测。()事前预测和事后模拟顾名思义事后模拟就是我们已经获得要预测的值的实际值进行预测是为了评价预测模型的好坏。事前预测是我们在不知道因变量真实值的情况下对其的预测。()一步向前(onestepahead)预测和多步向前(multistepahead)预测所谓一步向前预测是指仅对下一期的变量值进行预测例如在t期对t期的值进行预测在t期对t期的值进行的预测等。多步向前预测则不仅是对下一期的值进行预测也对更下期值进行预测例如在t期对t期、t期、…tr期的值进行预测。二、预测的评价标准1、平均预测误差平方和(meansquarederror简记MSE)平均预测误差绝对值(meanabsoluteerror,简记MAE)。变量的MSE定义为:MSE=()其中―的预测值―实际值T―时段数变量的MAE定义如下:MAE=变量的定义同前()可以看到MSE和MAE度量的是误差的绝对大小只能通过与该变量平均值的比较来判断误差的大小误差越大说明模型的预测效果越不理想。、Theil不相等系数其定义为:()注意U的分子就是MSE的平方根而分母使得U总在与之间。如果U=则对所有的t完全拟合如果U=则模型的预测能力最差。因此Theil不等系数度量的是误差的相对大小。Theil不等系数可以分解成如下有用的形式:其中分别是序列和的平均值和标准差是它们的相关系数即:()定义不相等比例如下:()()()偏误比例表示系统误差因为它度量的是模拟序列与实际序列之间的偏离程度。方差比例表示的是模型中的变量重复其实际变化程度的能力。协方差比例度量的是非系统误差即反映的是考虑了与平均值的离差之后剩下的误差。理想的不相等比例的分布是。比例分别称为U的偏误比例方差比例协方差比例。它们是将模型误差按特征来源分解的有效方法()。第五节:模型选择一、“好”模型具有的特性、节省性(parsimony)一个好的模型应在相对精确反应现实的基础上尽可能的简单。、可识别性(identifiability)对于给定的一组数据估计的参数要有唯一确定值。、高拟合性(goodnessoffit)回归分析的基本思想是用模型中包含的变量来解释被解释变量的变化因此解释能力的高低就成为衡量模型好坏的重要的标准。、理论一致性(theoreticalconsistency)即使模型的拟合性很高但是如果模型中某一变量系数的估计值符号与经济理论不符那么这个模型就是失败的。、预测能力(predictivepower)著名经济学家弗里德曼(MFriedman)认为:“对假设(模型)的真实性唯一有效的检验就是将预测值与经验值相比较”。因此一个好的模型必须有对未来的较强的预测能力。二、用于预测的模型的选择因为R将随着模型解释变量的增多而不断增加按照此标准我们将不会得到最佳的预测模型。因此必须对由于解释变量增多而造成自由度丢失施加一个惩罚项其中的一个标准就是:对自由度丢失惩罚更为严格的标准:Akaike的信息准则(Akaikeinformationcriterion,简记为AIC)和Schwarz的信息准则(Schwarzinformationcriterion,简记为SC)其中是方程随机误差项方差的估计值k是解释变量的个数T是样本容量。可以看到AIC和SC的惩罚项、比更为严厉而且相对来说SC标准对自由度的惩罚比AIC更为严厉。无论是AIC标准还是SC标准从预测的角度来看度量值越低模型的预测会更好。本章小节本章内容在计量经济学中是最基础也是最重要的部分。在这一章中我们首先介绍了最小二乘法及其估计量的性质和分布。在此基础上我们对一元线性回归模型的统计检验进行了详细讨论接着将模型扩展讨论了多元线性回归模型。在用模型进行预测时主要有两种情况:即有条件预测和无条件预测。最后一小节我们简单介绍了模型的选择。

用户评价(0)

关闭

新课改视野下建构高中语文教学实验成果报告(32KB)

抱歉,积分不足下载失败,请稍后再试!

提示

试读已结束,如需要继续阅读或者下载,敬请购买!

评分:

/90

VIP

在线
客服

免费
邮箱

爱问共享资料服务号

扫描关注领取更多福利