首页 计量经济学课件全

计量经济学课件全

举报
开通vip

计量经济学课件全计量经济学课件全 第一章:绪论 什么是计量经济学, 计量经济学的研究对象 计量经济学的内容体系 计量经济学的应用 计量经济学研究经济问题的步骤 计量经济学软件 一、什么是计量经济学 计量经济学又名经济计量学 英文名称:Econometrics。这个词是在1926年由挪威经济学家、第一届诺贝尔经济学奖获得者之一拉格纳?费瑞希(Ragnar Frish)仿照“生物计量学”(Biometrics)一词提出。 一、什么是计量经济学 费瑞希:“对经济的数量研究有好几个方面,其中任何一个就其本身来说都不...

计量经济学课件全
计量经济学课件全 第一章:绪论 什么是计量经济学, 计量经济学的研究对象 计量经济学的内容体系 计量经济学的应用 计量经济学研究经济问题的步骤 计量经济学软件 一、什么是计量经济学 计量经济学又名经济计量学 英文名称:Econometrics。这个词是在1926年由挪威经济学家、第一届诺贝尔经济学奖获得者之一拉格纳?费瑞希(Ragnar Frish)仿照“生物计量学”(Biometrics)一词提出。 一、什么是计量经济学 费瑞希:“对经济的数量研究有好几个方面,其中任何一个就其本身来说都不应该和经济计量学混为一谈。因此,经济计量学与经济统计学绝不是一样的。它也不等于我们所说的一般经济理论,即使这种理论中有很大部分具有确定的数量特征,也不应该把经济计量学的意义与在经济学中应用数学看成是一样的。 一、什么是计量经济学 经验表明,统计学、经济理论和数学三个方面观点的每一种都是实际理解现代化经济生活中数量关系的必要条件,但任何一种观点本身都不是充分条件。这三者的统一才是强有力的工具;正是由于这三者的统一才构成了经济计量学。” 一、什么是计量经济学 丁伯根:“计量经济学的范围包括用数学表示那些从统计检验的观点所做的 经济假设和对这些假设进行统计检验的实际过程。” 萨缪尔森:“经济计量学的定义为:在理论与观测协调发展的基础上,运用相应的推理方法,对实际经济现象进行数量 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 。” 一、什么是计量经济学 兰格:“经济计量学是经济理论和经济统计学的结合,并运用数学和统计方法对经济学理论所确定的一般规律给予具体的和数量上的表示。” 克莱茵:“经济计量学是数学方法、统计技术和经济分析的综合。就其字义来讲,经济计量学不仅是指对经济现象加以测量,而且包含根据一定的经济理论进行计算的意思。” 一、什么是计量经济学 计量经济学是利用经济理论、数学、统计推断等工具对经济现象进行分析的一门社会科学。 计量经济学运用数理统计知识分析经济数据,对构建于数理经济学基础之上的数学模型提供经验支持,并得出数量结果。 计量经济学是以经济理论为前提,利用数学、数理统计方法与计算技术,根据实际观测资料来研究带有随机影响的经济数量关系和规律的一门学科。 计量经济学构成要素 三大要素 经济理论 数据 统计推断 经济理论、数据和统计理论这三者对于真正了解现代经济生活中的数量关系都是必要的,但本身并非是充分条件。三者结合起来就是力量,这种结合便构成了计量经济学。 经济理论 经济理论的作用是对经济现象进行分析和解释,描述在一定条件下经济变量之间的相互关系。体现在计量经济学模型之中。 经济理论对于计量经济学是建立计量经济模型的依据和出发点。 计量经济学对于经济理论而言是理论到实际的桥梁和检验工具。 经济理论 理论是抽象的,在实证分析时,需要具体化。 计量经济的方法和统计方法一样,本质上是归纳法,是将实事归纳成理论的一个有效的辅助工具。计量经济学可以结合实际观测数据对经济理论进行验证,检验理论的正确性,提供进一步改进理论的方向。 数据 观测数据:主要是指统计数据和各种调查数据。是所考察的经济对象的客观反映和信息载体,是计量经济工作处理的主要现实素材。 经济数据是计量经济分析的材料。 经济数据是经济规律的信息载体。 1、数据类型 时间序列数据(time series data) 截面数据(cross-section data) 平行数据(panel data) 虚拟变量数据(dummy variable data) 时间序列数据(time series data) 按照时间的顺序,每隔一定的时间观测经济变量的取值,所得到的统计数据。 观测对象是一个单位:一国,一地区,某企业 时间间隔:可以是一年,一个季度,一个月,一天,甚至更短,要视问题的性质和重要性而定。 时间序列数据(time series data) 这类变量反应了变量的动态特征,即在时间上的变动趋势。 一般可由统计年鉴、公报得到,是计量经济模型使用得最多的一类数据。 例 、中国的GDP(1952,2000当年价,亿元) 截面数据(cross-section data) 在某一时刻所观察到的一组个体的数据。 这类数据反应个体在分布或者结构上的差异。 例:某班计量经济学的考试成绩。六十个学生,有六十个成绩,这是一个容量为60的截面数据。 时序数据和截面数据的区别 前者:同一个体在不同时间的数据; 后者:一组个体在同一个时刻的数据。 例如,一名学生的体重,被连续的 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 了十年,得到一个容量为10的时间序列数据;在某一时间,记录一个班级所有30个学生的体重,得到一个容量为30的截面数据。 平行数据(panel data) 是时间序列数据和截面数据的结合。是一组个体在一段时间上的数据,既研究某段时间内的数据又研究某个时刻上的数据。 例 从1997年到2000年,我国各省的GDP 虚拟变量数据(dummy variable data) 或者称为二进制数据,一般取0和1两个值(也可以取其他两个不同的值)。 这类变量往往用来表示性质和状态的差异,也可以表示分组 取0还是1:研究者按照实际情况来确定 例 时间序列型的虚拟变量 例 截面数据型虚拟变量 2、数据采集和处理 来源:统计、调查 质量:非实验,历史数据残缺,各种偏误(观测误差、选择性、随机性问题、处理方法问题) 加工:加总、指数运算、季节调整,随变量作变换 结论:研究结果的质量不可能高于数据的质量。不管方法多么科学。 统计推断 统计理论:是指各种数理统计方法,包括参数的估计,假设检验等内容。是计量经济的主要数学基础,很多计量经济学方法都是在数理统计的基础上发展起来的。 计量经济学与经济理论、统计学和数学的联系和区别 是经济学,统计学,数学构成的一门交叉学科和边缘学科。 1、计量经济学与经济理论 经济学是计量经济学的服务对象,计量经济学是提高经济学科科学性和实用性的工具。 一般经济理论(定性)是计量经济学的基础。 例:关于失业问题的数量实证分析(1)菲利普斯曲线(工资和失业率);(2)资本和技术变化的影响;(3)人口和移民的影响(供给方面);(4)经济增长和产业结构(需求方面、结构性失业)。 1、计量经济学与经济理论 一般经济理论是修正计量经济分析模型、方法的依据。 一般经济理论是解读计量分析结果的工具。 定性、定量 2、计量经济学与统计学 计量的参数估计、模型检验、数据收集和处理、方法设计,应用分析中的置信区间分析等,都与统计有关,以统计为基础。 3、计量经济学与数学 数学(微积分、线性代数、概率统计)是计量分析(级数、矩阵、方差、期望,,,)的基础和工具。 数学知识(函数性质等)对计量建模的作用。 计量经济学不是数学,是经济学。 二、研究对象 计量经济学是利用数学的方法,根据统计测定的经济数据,对反映经济现象本质的经济数量关系进行研究。 计量经济学研究的对象是经济现象,是研究经济现象中的具体数量规律。 三、内容体系 1、从学科发展角度划分 2、从内容角度划分 3、从程度角度划分 4、从模型类型角度划分 5、从估计方法角度划分 6、从数据类型角度划分 1、从学科发展角度划分 经典计量经济学 广义计量经济学:包括投入产出分析方法、时间序列分析方法等 2、从内容角度划分 理论计量经济学:也称经济计量方法,以介绍、研究计量经济学的理论与方法为主要内容,侧重于理论与方法的数学证明与推导。包括计量经济学的数学理论基础,计量经济模型的估计和检验方法等内容。 应用计量经济学:以建立与应用计量经济模型为主要内容,强调应用模型的经济学和统计学基础,侧重于建立与应用模型过程中实际问题的处理。 理论计量经济学与应用计量经济学 3、从程度角度划分 初级计量经济学 中级计量经济学 高级计量经济学 4、从模型类型角度划分 经典线性模型 非经典线性模型 非线性模型 动态模型 无参数回归模型 5、从参数估计方法角度 最小二乘法 最大似然法 贝叶斯估计方法 广义矩方法 最小二乘法 最小二乘法是一类依赖样本信息,从最小二乘原理出发的参数估计方法。 概念清楚、方法简单,是经典线性计量经济模型的最主要的估计方法。 最小二乘法 普通最小二乘法(OLS):模型满足基本假设时采用 加权最小二乘法:模型存在异方差 广义最小二乘法:模型存在序列相关 二阶段最小二乘法:估计联立方程 最大似然法 最大似然法是一类依赖样本信息,从最大似然原理出发的参数估计方法。 坚实的理论基础、数学描述复杂 最大似然法——普通最小二乘法 有限信息最大似然法——二阶段最小二乘法 完全信息最大似然法——三阶段最小二乘法 贝叶斯估计方法 在计量经济模型参数估计中,它的主要特点是利用了非样本信息,包括前验信息和后验信息。 在一些特殊的计量经济应用模型中,由于样本量不足,使得最小二乘法和最大似然法无法应用,这时贝叶斯估计方法是无可替代的。 广义矩方法 广义矩(Generalized method of moments,GMM)方法是矩方法( Method of moments ,MM)的一般化,也是一类依赖样本信息的参数估计方法,具有广泛的适用性。 最小二乘法和最大似然法等可以看作是广义矩方法的特例。 6、从数据类型角度划分 截面数据分析 时序数据分析 平行数据分析 离散被解释变量数据计量经济模型 受限被解释变量数据计量经济模型 持续被解释变量数据计量经济模型 四、计量经济模型的应用 结构分析 经济预测 政策 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 检验与发展经济理论 1、结构分析 经济学中的结构分析是对经济现象中变量之间相互关系的研究。它研究的是当一个变量或几个变量发生变化时会对其他变量以至经济系统产生什么样的影响。 结构分析采用的主要分析方法:弹性分析、乘数分析、比较静态分析。 2、经济预测 计量经济模型作为一类经济数学模型,是从用于经济预测,特别是短期预测而发展起来的。 计量经济模型是以模拟历史,从已经发生的经济活动中找出变化规律为主要技术手段。 3、政策评价 政策评价是指从许多不同的政策中选择较好的政策予以执行,或者说是研究不同的政策对经济目标所产生的影响的差异。 经济计量模型充当“经济政策实验室”。 政策评价方法 工具——目标法:给定目标变量的预期值即我们所希望达到的目标,通过求解模型可以得到政策变量值。 政策模拟法:即将各种不同的政策代入模型,计算各自的目标值,比较其优劣,决定政策的取舍。 最优控制法:将经济计量模型与最优化方法结合起来,选择使得目标最优的政策或政策组合。 4、经济理论的检验与发展 经济理论的检验:首先根据某种经济理论建立模型,然后用已经发生的经济 活动的样本数据去拟合,如果拟合效果好,则这种经济理论通过检验。 经济理论的发现与发展:用所采集的样本数据拟合各种模型,拟合最好的模 型所表现出来的数量关系就是经济活动所遵循的经济规律。 应用示例1 例子: 各种产品和服务的供给和需求关系 厂商欲估计广告对销售和利润的影响 将股票价格和厂商的特征联系起来 宏观政策,国家,地方税收收入预测 应用示例2 例子: 广告战是否成功地增加了销售? 需求对价格变化是富有弹性的,还是缺乏弹性的, 政府的宏观政策是否有效, 确实存在工资的性别差异吗, 应用示例3 例子: 厂商需要预测销售、利润、生产成本、所需的存货 城市发展对交通、能源、通讯的需求 国家的税收、支出、通货膨胀、失业、预算和贸易等方面的预测 汽车厂商对中国轿车市场的预测 五、研究经济问题的步骤 1、理论或假说的陈述 2、收集数据 3、建立数学模型 4、建立统计或经济计量模型 5、估计计量经济模型参数 6、检查模型的准确性:模型的假设检验 7、检验来自模型的假说 8、运用模型进行预测 五、研究经济问题的步骤 模型 设计 数据 收集 模型 检验 参数 估计 应用 1、模型设计 模型设定(理论模型设计):依据一定的经济理论,先验地用一个或一组数学 方程式来表示被研究经济系统内经济变量之间的关系。 需要做以下工作: 研究有关经济理论 确定函数形式 确定参数的符号和理论期望值 研究有关经济理论 根据经济理论分析所研究的经济现象,找出经济变量之间的因果关系及相互 之间的联系,把目标或者经济问题作为因变量,影响问题的主要因素作为自变量,非主要因素归入随机项,按照它们之间的结构关系和经济理论,建立方程。 需求函数:Q=f(P1,P2,Y,T„„) - ? + + 消费函数:C,f(Y) 按照凯恩斯的绝对收入假说,“平均说来,当人们收入增多时,消费倾向于增加,但其增长的程度并非和收入增加的程度一样多。” 按照凯恩斯的观点, 边际消费倾向 MPC,b=dc/dy ,0<b<1。 一般形式 y:因变量,被解释变量;是被研究对象。 “果” x’s:自变量,解释变量;是影响因素。 “因” 变量选择要注意: 变量的选择要以经济理论为基础,要有明确的经济解释 要突出主要的影响因素,把握主要矛盾,从而使模型凝练、简明。 确定函数形式 设定模型的函数形式,是线性的,还是非线性的,如果是非线性的话,是对数的,还是指数的,还是倒数的,„„ 例 Q,a+bP+cPr+dI+eN+fPe Q,aPb PrcIdNePef 例:某商品的市场需求量 Q=b0+b1P1+b2P2+b3Y+b4T+u Q:该商品需求量 P1:该商品的价格 P2:其他相关商品的价格 Y:消费者收入 T:消费者偏好 2、数据的收集整理 数据的来源: 官方公布的统计年鉴、公报等; 各种调查,包括抽样、典型和问卷等调查。 对样本数据的要求: 完整性 准确性 可比性 完整性 经济数据作为系统状态和外部环境的数量描述,必须是完整的。 文革10年中,很多经济数据是残缺不全的 比如,1000个企业中,只有100个企业有完整的数据 准确性 必须是模型中所要求的数据 必须准确反映被研究对象的状态,否则经济模型将被扭曲,不能客观反映经 济的实际状况。 炕头上点羊 怀揣报表开统计会议,比着填数字 美国匹兹堡大学经济学家托马斯?罗斯基 2000年《中国GDP统计发生了什么,》 罗斯基认为1997年,1999年中国经济增长率在正负2.2,之间。 可比性 统计口径的可比性 如价格的可比性 当年价,可比价 指标内涵的可比性 社会总产值,GDP 工业总产值,工业增加值 口径问题 (1)价格上的口径,一般使用可比价; (2)指标内涵的口径 比如在我国,反应经济活动总规模的总产值被国民生产总值所代替,而这两 个指标的含义是不同的,因此在使用时要进行数据的调整。 不变价和当年价 数据整理中变量的构造 在计量经济建模中,数据变量未必是原始观测变量,而是通过某种变换,把 原始数据转变为符合于某种统计或经济概念的新的变量 。 常用变换: 取对数 LGDP=Log(GDP) 取倒数 AFC=TFC/Q 常用变换 比值 恩格尔系数,食品支出,总支出 乘积 名义GDP,实际GDP*GDP指数 和 狭义货币,通货,活期存款, 即M1=Cu+D 差 实际利率,名义利率,通涨率 等等 数据收集的困难 某些变量无法直接测得,只好用“替代”变量。不能直接观测的变量有如技术进步、消费者嗜好、企业信心等 等,如何取代,难有完美的方法。还有一些变量的数据属于“保密范围”,如有关个人财富的数字,财富持有人往往不愿透 露真情。 数据缺落。 数据不足,样本太小。 数据不准确,有内在予盾。不同机构,不同时期发表的数字不一致。诸如按加值计算的部分之和不等于总数;不同时期的数列不衔接;如此等等,均有待于修补。 3、估计参数 建立计量经济模型后,需要根据统计资料估计出模型的参数。 在这个过程中,首先要有详实、客观的统计数据,然后利用相应的经济计量方法如OLS、最大似然估计法等对参数进行估计。 Q=b0+b1P1+b2P2+b3Y+b4T+u 4、模型检验 参数估计以后,模型便已确定。但模型是否符合实际,能否解释实际经济过程,还需要进行检验。 运用数理统计中关于假设检验的原理,验证已经估计出的参数与理论上的预期是否一致,验证所建立的模型是否符合实际,否则就有必要对模型进行适当的修正。经过检验之后,模型才可以被使用。 4、模型检验 检验分四方面内容: 经济意义检验 统计检验 计量经济学检验 预测检验 4、模型检验 经济意义检验:检验各个参数是否与经济理论和实际经验相符; 统计假设检验:利用统计推断的原理,对模型和参数的可靠性进行检验。包括拟合优度检验、变量和模型的显著性检验等内容。 4、模型检验 计量经济学检验:计量经济学所特有的统计检验方法,包括: 自相关检验 异方差检验 多重共线性检验等内容 预测检验:用预测来检验模型的稳定性。 内插预测(解释历史) 外推预测(外推到研究范围之外) 4、模型检验 计量经济学研究是一个动态过程。模型通过上述各项检验之后,才能实际应 用,检验不能通过,则需修正模型,再设计,再估计,再检验。 5、模型应用 计量经济模型需要接受实践的检验,如果检验结果较好,我们就可以利用模型来解决实际问题。 经济计量模型主要用于结构分析,政策评价(仿真经济系统)、经济预测和理论验证与发展等四个方面。 六、计量经济学软件 TSP Eviews SPSS SAS PC-GIVE GAUSS MATLAB TSP TSP?:时间序列分析软件包 DOS下的计量经济学应用软件。简单、灵活、功能强大。我国曾流行 V4.2.....,V 6.5。 EViews EViews(Econometrics Views ) 计量经济学软件包 是TSP的For Windows版本。它是由经济学家采用面向对象程序语言Basic设计开发的。 EViewsV1.0,V4.0 EViewsV3.1是目前应用较多的版本。 简单易学 ,适合于教学和科研 SPSS SPSS?:社会科学统计分析软件包。目前的流行版本:V10,V11 是功能强大的广谱性的统计分析软件,并非计量经济学分析专用软件。 在进行联立方程系统估计方面存在局限。 但并不影响使用它进行计量经济学的教学和研究。 SAS 统计分析系统 为我国应用最为广泛的通用统计分析软件。 目前最高版本SAS V8.2,流行版本是V6.12 SAS,ETS模块提供了强大的计量经济分析工具。 PC-GIVE 根据Hendry理论方法研制的独具特色的计量经济学分析软件,主要用于动 态计量经济学分析。 参考书目 【1】李子奈,计量经济学,清华大学出版社,1992 【2】李长风,计量经济学,上海财经大学,1996 【3】林少宫等,简明经济统计与计量经济,上海人民出版社,1993 【4】D.N.Gujarati,经济计量学精要,机械工业出版社,2000 【5】D.N.Gujarati,计量经济学(上、下),中国人民大学出版社,2000 参考书目 【6】罗伯特 S.平狄克,丹尼尔,L.鲁宾费尔德著,钱小军等译,《计量经 济模型与经济预测》,机械工业出版社,1999 【7】经济计量学, 张寿, 于清文 编著,上海交通大学出版社, 1984 【8】于俊年,计量经济学,对外经济贸易大学出版社,2000 计量经济学主要刊物 Econometrica, 双月刊,美国经济计量学会主办,1933年创刊。 Journal of Econometrics, 双月刊,瑞士出版,1973年创刊。 Journal of Applied Econometrics,双月刊,美国John Wiley&Sons 出版社,1986年创刊。 Econometric Theory, 每年五期,英国剑桥大学出版社,1985年创刊。 Oxford Bulletin of Econometrics and Statistics, 季刊,牛津大学经济与统计研究所主办,1936年创刊。 计量经济学主要刊物 Journal of the American Statistical Association, 季刊,美国统计协会主办,1888年创刊。 The Japanese Economic Review, 季刊,日本经济与计量经济协会主办,1950年创刊。 《数量经济技术经济研究》,月刊,中国数量经济学会主办。 《经济研究》,月刊,中国社会科学院经济研究所主办。 第二章 概率论与数理统计基础 研究不确定现象的规律性数学学科 概率论、数理统计 概率论:是从数量关系的角度研究自然界和社会生活中普遍存在的不确定性现象,即随机现象的规律性。 数理统计:从理论与实际相结合的角度研究随机现象的统计规律性。根据试验或观察得到的数据研究随机现象,对研究对象的客观规律性作出正确的估计和推断。 第二章 概率论与数理统计基础 概率论的基本概念 随机变量的数字特征 重要的概率分布 统计推断 一、概率论的基本概念 确定性现象:自然界和社会上发生的现象是多种多样的,有一类现象在一定条件下必然发生,这类现象称为确定性现象。 统计规律性:自然界和社会上还存在着另一类现象,在一定的条件下,可能出现这样或那样的结果,在试验或观察前无法预知确切的结果,但人们经过长期实践并深入研究之后,发现这类现象在大量重复试验或观察下,它的结果却呈现出某种规律性。 例如:抛硬币 随机现象:在个别试验中结果呈现出不确定性,在大量重复试验中其结果又具有统计规律性的现象。 概率论与数理统计是研究和揭示随机现象统计规律性的一门数学学科。 随机试验(statistical or random experiment): 1)可在相同的条件下重复地进行 2)每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果; 3)进行一次试验之前不能确定哪一个结果会出现 随机试验 将一枚硬币掷三次,观察出现正面H及反面T的情况 抛一颗骰子,观察出现的点数 将一枚硬币抛掷三次,观察出现正面的次数 在一批灯泡中任意抽取一只,测试它的寿命 样本空间(population or sample space) 样本空间:随机试验的所有可能结果组成的集合称为样本空间。 将一枚硬币掷三次,观察出现正面H及反面T的情况{HHH,HHT,HTH,THH,HTT,THT,TTH,TTT}} 抛一颗骰子,观察出现的点数 {1,2,3,4,5,6} 将一枚硬币抛掷三次,观察出现正面的次数{0,1,2,3} 在一批灯泡中任意抽取一只,测试它的寿命{t??t>=0} 样本空间(population or sample space) 注意:样本空间的元素是由试验的目的所确定。 例如:抛掷硬币三次 样本点(sample point):样本空间的元素,即随机试验的每一个结果。 事件(events) 事件:随机试验E的样本空间S的子集称为E的随机事件,简称事件。 例如:规定某种灯泡的寿命(小时)小于500小时为次品,则寿命大于等于500小时的灯泡寿命的样本空间A={t??t>=500}是S={t??t>=0}的子集,则A为上述试验的一个随机事件。 事件(events) 在每次试验中,当且仅当代表该事件的子集中的一个样本点出现时,称这一事件发生。 不可能事件:空集Ф 不包含任何样本点,它作为样本空间的子集,在每次试验中都不发生,称为不可能事件。 必然事件:样本空间S本身为必然事件,它包含所有的样本点,是自身的子集,在每次试验中都会发生。 事件(events) 基本事件:由一个样本点组成的单点集,称为基本事件。 互斥事件:如果两个事件不能同时发生,则这两个事件是互斥的或互不相容的。 等可能事件:如果一个事件的发生与另一个事件的发生的可能性相同,则这两个事件称为等可能事件。 穷举事件:如果可穷举试验的所有可能结果,则事件称为穷举事件。 频率与概率 人们认可的一个常识,或叫“公理”是:多次试验中,事件A发生的次数多,说明一次试验事件A发生的可能性大。 人们还发现随着试验的次数增多,事件A发生的频率越来越接近一个常数p。 频率与概率 在相同条件下,进行了n次试验,在这n次试验中,事件A发生的次数m称为事件A发生的频数;比值m/n称为事件A发生的频率。 频率具有随机波动性,即对于同样的n,所得到的频率不尽相同,当n趋于无穷大时,频率的大小会呈现出稳定性。 概率:频率趋于稳定时的值。事件A发生的概率记为P(A)。 概率性质 0 ? P(A) ? 1 若事件A、B、C为互斥事件,则事件和的概率等于事件概率之和 P(A+B+C)=P(A)+P(B)+P(C) 若事件A、B、C为相互独立事件,则事件积的概率等于事件概率的积 P(ABC)=P(A)P(B)P(C) 如果事件A、B不是互斥事件,则: P(A+B)=P(A)+P(B)-P(AB) 概率性质 例如:掷骰子点数大于3点的概率 P(4+5+6)=p(4)+P(5)+P(6)=1/6+1/6+1/6=1/2 P(1+2+3+4+5+6)=P(1)+P(2)+P(3)+P(4)+P(5)+P(6)=1(完备 事件组) 概率性质 例:假设同时抛掷两枚硬币,两枚硬币均正面朝上的概率是多少, A:第一枚硬币正面朝上 B:第二枚硬币正面朝上 A、B两事件独立 P(AB)=P(A)P(B)=(1/2)(1/2)=1/4 概率性质 从一副扑克中抽取一张,它是红心或皇后的概率是多少, :红心 B:皇后 A A、B不是互斥事件 P(A+B)=P(A)+P(B)-P(AB) =13/52+4/52-1/52=4/13 等可能概型 如果随机实验E具有以下特点: 1?样本空间S中所含样本点为有限个 2?一次试验,每个基本事件发生的可能性相同 则称这类随机试验为等可能概型。 随机变量 随机变量:设E是随机试验,它的样本空间是S={e1,e2,e3,„„},如果对 于每一个ei?S,有一个实数X(ei)与之对应,这样就得到一个定义在S上的单 值实值函数X=X(e),称X为随机变量。 离散型随机变量(如抛掷硬币) 连续型随机变量(如体重、温度) 随机变量 抛掷两枚硬币,统计正面朝上的硬币个数。H:正面;T:反面 样本空间S={HH,HT,TH,TT} X= 2 1 1 0 X为离散型随机变量 离散型随机变量的概率分布 P{X=xk}=Pk为离散型随机变量X的概率分布或分布律。 分布律表格形式 X x1 x2 „„.. xn Pk p1 p2 „„.. pn 离散型随机变量的分布函数 设X是一个随机变量,x是任意实数,函数F(x)=P{X ? x}称为X的分布 函数。 例如:掷骰子点数小于3点的概率 F(3)=P{X < 3}= P(1+2)=p(1)+P(2)=1/6+1/6=1/3 连续型随机变量的概率密度及分布函数 随机变量 相互独立的随机变量:对于随机变量X,Y的所有可能取值(xi,yj),有 P{X= xi ,Y= yj}=P{X = xi }P{Y= yj} 二、随机变量的数字特征 数学期望(expected value):设离散型随机变量X的分布律为 P{X=xk}=Pk , k=1、2、3„.. 若级数?xk Pk绝对收敛,则称级数?xk Pk为随机变量X的数学期望, 记为E(X),简称期望,又称为均值。 数学期望是对随机变量集中趋势的度量。 数学期望 例:甲、乙两人进行打靶,所得分数分别记为X1、X2,它们的分布律分别 为 X1 0 1 2 X2 0 1 2 P1 0 0.2 0.8 P2 0.6 0.3 0.1 试评定他们成绩的好坏 E( X1 )=0*0+1*0.2+2*0.8=1.8 E( X2 )=0*0.6+1*0.3+2*0.1=0.5 数学期望性质 E(b)=b, b为常数 E(X+Y)=E(X)+E(Y) E(aX)=aE(X), a为常数 E(XY)=E(X)E(Y),其中X、Y相互独立 一般情况下, E(XY) ? E(X)E(Y) E(aX+b)=aE(X)+E(b) 方差(Variance) 方差:设X是一个随机变量, 若E{[X-E(X)]2 }存在,则称E{[X-E(X)]2 }为,的方差,记为D(X)或 Var(X),即 D(X)= Var(X)= E{[X-E(X)]2 } 令σ (X)= D(X),称为 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差或均方差。 方差(Variance) 方差D(X)是随机变量离散程度的度量。 表达了X的取值与其数学期望的偏离程度。若X取值比较集中,则D(X)比较小;反之,若X取值比较分散,则D(X)比较大。因此, D(X)是刻画X取值分散程度的一个量,是衡量X取值分散程度的一个尺度。 方差的性质 D(b)=0 b为常数 D(X+b)=D(X) D(aX)=a2 D(X) a为常数 如果X、Y相互独立,则D(X+Y)=D(X)+D(Y) D(X-Y)=D(X)+D(Y) 数学期望与方差 数学期望与方差是描述单变量概率密度函数(分布律)最常用的数字特征,前者给出随机变量中心值,后者描述了单个值围绕该中心值分布的离散程度。 协方差与相关系数 考虑多维随机变量的数字特征 协方差(covariance): E{[X-E(X)][Y-E(Y)]}称为随机变量X与Y的协方差,记为cov(X,Y),即: cov(X,Y)= E{[X-E(X)][Y-E(Y)]} PXY= cov(X,Y)/ D(X) D(Y) 称为随机变量X与Y的相关系数(correlation)。 协方差 一般而言,协方差可正可负。 如果两个变量同方向变动,则协方差为正;如果两个变量反方向变动,则协方差为负。 cov(X,Y)=cov(Y,X) cov(X,X)=D(X) cov(aX,bY)=abcov(X,Y) a、b为常数 cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y) 相关系数 相关系数PXY是刻画两变量之间的相关程度的数字特征,亦即表明两变量之 间线性相关程度的大小。 定理:| PXY | ? 1 | PXY |=1的充要条件是:存在常数a、b,使得P{Y=a+bX}=1 相关系数的性质 相关系数可正可负。它与协方差同号。 -1? PXY ? 1 PXY=1,表示两变量完全正相关 PXY=-1,表明两变量完全负相关 0,表明两变量负相关 PXY, PXY,0,表明两变量正相关 样本均值 样本均值:X= ?Xi/n 样本均值是总体均值(期望E(X))的估计量。 估计量可以简单地理解为估计总体的规则或公式。 例:对从业十年的汽车销售商每月前十天出售汽车的平均数量(9,11,11, 14,13,9,8,9,14,12) X=(9+11+11+14+13+9+8+9+14+12)/10=11 样本方差 样本方差(sample variance): S2= ?(X-X) 2/(n-1) n-1为自由度 S2 =[(9-11)2+(11-11)2+„(12-11)2]/(10-1)=4.89 样本协方差、偏度、峰度 样本协方差:?[(X-X)(Y-Y)]/(n-1) 偏度(样本三阶矩):?[(X-X) 3]/(n-1) 峰度(样本四阶矩):?[(X-X) 4]/(n-1) 三、重要的概率分布 正态分布(normal distribution) X 2分布 t分布 F分布 正态分布 “钟型” 经验表明:对于其值依赖于众多微小因素且每一因素均产生微小的或正或负 影响的连续型随机变量而言,正态分布是一个相当好的描述模型。 体重、身高、考试分数 X,N(u, σ 2) 正态分布性质 正态分布曲线:以均值u为中心,对称分布 正态分布的概率密度函数呈中间高,两边低,在均值u处达到最高。 正态曲线下的面积约有68%位u ? σ于之间,约有95%的面积位于u ?2 σ 之间,99.7% 在u ? 3σ之间。 两个(或多个)正态分布的随机变量的线性组合仍服从正态分布。 标准正态分布 标准(单位)正态变量:Z=(X-u)/ σ 其中: X,N(u, σ 2) Z,N(0, 1) 简化计算 X 2分布(Chisquare distribution) X,N(u, σ 2) Zk,N(0, 1),k=1、2、3„.. ?Zk 2 =Z1 2 +Z2 2 +„..+Zk 2 ?Zk 2服从自由度为k的X 2分布 X 2分布的性质 X 2分布只取正值 X 2分布是斜分布,其偏度取决于自由度的大小。 X 2分布的期望为k,方差为2k,k是X 2的自由度。 若E1,E2分别为自由度k1,k2的两个相互独立的X 2变量,则E1+E2也是 X 2变量,自由度是k1+k2 。 t分布 t分布又称为学生t分布 X,N(u, σ 2 /n) Z=(X-u)/(σ /n 1/2) ,N(0, 1) t= (X-u)/(S /n 1/2)服从自由度为(n-1)的学生t分布。S为样本标准差。 t分布的性质 t分布具有对称性 K为30时, t分布的方差已与标准正态分布方差相差无几。 F分布 定义:令随机样本X1, X2,„. Xm来自均值为ux、方差σ x 2为的正态总 体,其样本容量为m;随机样本Y1, Y2,„. Yn为来自均值uy、方差σ y 2的正态总体,样本容量为n;两个随机样本相互独立;则 F=Sx 2 /Sy 2 = ?(X-X) 2 /(m-1) ?(Y-Y) 2 /(n-1) 其中Sx 2 、 Sy 2分别为两个随机样本样本方差。 F分布 F分布常用于比较两总体的方差。 F分布又称为方差比分布。 两总体方差相差越大,F值就越大。 自由度考虑分子和分母的自由度(m-1)和(n-1) F分布的性质 F分布是斜分布,只为正值 分子分母自由度越大,F分布越接近正态分布。 若分母自由度充分大,F值的m倍(m为分子的自由度)近似自由度为m的X 2分布。 四、统计推断 总体、样本 统计推断研究的是总体与来自总体的样本之间的关系。 统计推断是根据来自总体的样本对总体(概率密度函数)的种种统计特征作出判断。 统计推断 估计 假设检验 估计量的评选标准 无偏性 有效性 一致性 无偏性(unbiasedness) 估计量是随机变量 无偏性:如果重复使用某种方法,得到的估计量的均值与真实参数值一致, 那么这个估计量就是无偏估计量,亦即该估计量具有无偏性。 E(X)= ux 有效性(efficiency) 有效性:如果在样本容量相同的情况下,E1、E2都是E的无偏估计量,若 有 D(E1) , D(E2) 则E1较E2更有效。 一致性(consistency) ,当样本数量n趋于无穷一致性:设E为参数E的估计量,若对于任意的E时,E都依概率收敛于E,则称E为E的一致估计量。 一致性是大样本的性质,它考察当样本容量越来越大时,估计量是否趋于真 值。 n = 20 n = 100 n = 20 n = 100 n = 20 n = 1000 置信区间 第三章:一元线性回归模型 回归的含义 一元线性回归方程 模型参数的最小二乘估计 样本的决定系数及回归直线拟合优度的检验 回归系数估计量的显著性检验 方程的显著性检验 第一节 回归的含义 回归的含义 回归分析的用途 回归关系与确定性关系 回归关系与因果关系 回归分析与相关分析 一、回归的含义 回归分析是研究关于一个叫做被解释变量的变量对另一个或多个叫做解释 变量的依赖关系。其用意在于通过后者(在重复抽样中)的已知或被设定值去估 计和(或)预测前者的(总体)均值。 回归分析构成计量经济学的方法论基础,主要内容包括: 根据样本观察值对经济计量模型参数进行估计,求得回归方程 对回归方程、参数估计值进行显著性检验 利用回归方程进行分析、评价及预测。 二、回归分析的用途 通过自变量的值来估计应变量的值。 对独立性进行假设检验——根据经济理论建立适当的假设。 通过自变量的值对应变量进行预测。 上述多个目标的综合。 三、回归关系与确定性关系 回归关系(统计关系):研究的是非确定现象随机变量间的关系。 确定性关系(函数关系):研究的是确定现象非随机变量间的关系。 四、回归关系与因果关系 回归关系研究一个变量对另一个变量的统计依赖关系,从逻辑上说,统计关系式本身并不意味着任何因果关系。 因果关系:理论关系。 “一种统计关系,无论多么的强有力,(其自身)总不能成为因果关系,因果关系最终来自于理论而不是统计”。 几个荒谬的关系 中国人口和美国个人收入 1980,1995年中国人口(亿人)和美国的个人收入(亿美元) 多么好的相关关系~ 但决不是因果关系~~ 中国农村用电量与美国消费者价格指数 中国农村用电量和美国消费者价格指数(1980,1996) 五、回归分析与相关分析 回归分析/相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。 有相关关系并不意味着一定有因果关系。 相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。 第二节 一元线性回归模型 线性回归模型的形式 随机干扰项u的意义 一元线性回归模型 对ui分布的假定 一、线性回归模型形式 称为K元线性回归模型 如果K=1,一元线性回归模型 u为随机干扰项(误差项) t——观测值下标,若是时间序列数据,则表示时间下标,表示第t期;若 是截面数据,则表示观测序号,表示第t个观测。 n——样本容量 ut——(第t期的)随机干扰项。 变量的称谓 参数及其经济解释 ——为回归参数(系数) 经济解释: 表示在其他条件不变时,自变量xj变化一个单位y将变化 个单位 例:参数的经济意义 需求函数:Q=20-0.5P+2I 消费函数:C=200+0.7Y 线性生产函数:Q=aK+bL 成本函数:C=a+bQ 收益函数:TR=a+bQ 线性 变量线性 参数线性 变量线性 指模型中的变量之间呈线性关系 例 VL,PL VL,PNL VNL,PNL 参数线性 指模型中的参数之间呈线性关系 一般,从估计的角度看,我们总是对参数线性感兴趣 例: VL,PL VNL,PL VNL,PNL 例:消费函数 一个国家消费支出与可支配收入之间的关系: c=a+by 其中 c——消费支出 y——可支配收入 a,b为参数,b称为边际消费倾向,0<b<1 例:消费函数 考虑到影响消费的随机因素,在模型中加入随机干扰项u,使之成为计量经 济模型 c=a+by+u 模型分成两部分: 系统部分:a+by,反应自变量—可支配收入y对因变量—消费支出c的影响, 是主要且可观测到的影响; 随机干扰部分:u,反应随机、不控制和不可预测因素对消费的影响。 例:消费函数 如果我们得到连续n年的数据(即一个样本):(ct,yt),t=1,2,„„,n 假定模型可以解释这组数据,则有 ct=a+byt+ ut t=1,2,„„,n 其中ut 表示第t年的随机干扰 例:生产函数 研究某行业同类企业产出和投入要素之间的关系。Y——产出,K——资本, L——劳动。 假设生产函数是科布—道格拉斯型的,则 Y=AKaLbu 其中u为随机干扰项,即系统部分AKaLb不能解释的部分 特点: 非线性 随机干扰项是乘性的 例:生产函数 若得到n个企业的一组数据:(Yi,Ki,Li),i=1,2,„..,n,结合到上式中模 型可以写为 Yi=AKiaLibui i=1,2,„„,n 其中ui表示对第i个企业的随机干扰。 例:生产函数 这个模型是非线性的,取对数 可以线性化 例:生产函数 新变量是原变量的自然对数 例:成本曲线 c——总成本,Q——产量。成本曲线可用多项式函数表示: 例:成本曲线 令: 成本函数化成线性形式 模型的矩阵表示 令 模型的矩阵形式为 二、随机干扰项u的意义 随机项又称随机干扰项,是从模型中省略下来的而又集体的影响着因变量y的全部变量的替代物。 主要包括: 模型中被省略的变量:理论的含混不清;数据的不可得性;省略一些次要变量(基于节俭原则保留主要变量) 一些随机因素:众多微小的随机因素或者偶然因素。一般,这些因素不可控制、不可预测、不可测量,但影响是存在的。 测量误差 确定的数学模型形式的误差 随机干扰项u 在回归模型中引入随机项u是非常重要的。正是由于随机项u才导致因变量y的随机性。这也正是计量经济模型与数理统计学的区别之处。计量经济学对模型的研究也正是由此开始。 三、一元线性回归模型 一元线性回归模型:也称双变量线性回归模型,亦即一个自变量的线性回归模型。 多元线性回归模型:多个自变量的线性回归模型。 一元线性回归模型 总体线性回归模型:y=b0+b1x+u中,x、y是对总体而言的。 给定x、y的n次观测值(样本值) (x1,y1)、(x2,y2)„„(xn,yn) 代入一元线性回归模型 总体线性回归模型 一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。 为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。 分析 (1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同; 2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,( 即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的,如: P(Y=561|X=800=1/4。 因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation): E(Y|X=Xi) 该例中:E(Y | X=800)=605 0 500 1000 1500 2000 2500 3000 3500 500 1000 1500 2000 2500 3000 3500 4000 每月可支配收入X(元) 每 月 消 费 支 出 Y (元) 总体回归线 描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条 件均值均落在一根正斜率的直线上。这条直线称为总体回归线。 定义:在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线(population regression line),或更一般地称为总体回归曲线(population regression curve)。 相应的函数: 称为(双变量)总体回归函数(population regression function, PRF)。 总体回归函数 含义:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。 函数形式:可以是线性或非线性的。 上例中,将居民消费支出看成是其可支配收入的线性函数时: 为一线性函数。其中,??0,??1是未知参数,称为回归系数(regression coefficients) 样本回归函数 总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。 问题:能从一次抽样中获得总体的近似的信息吗,如果可以,如何从抽样中获得总体的近似信息, 上例总体中有如下一个样本 样本的散点图: 样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本 取自总体,可以该线近似地代表总体回归线,该线为样本回归线(sample regression lines)。 记样本回归线的函数形式为: 称为样本回归函数(sample regression function,SRF) 四、对ui分布的假定 为了假设检验,假定随机项u服从均值为0,方差为σ u 2的正态分布,即 u,N(0, σ u 2) 对ui分布的假定 零均值假定:E(ui)=0,i=1,2,„.n 对x的每个观测值,u可以取不同的值,考虑u的所有可能值,它们的总体平均值等于0。 对ui分布的假定 u 2, i=1,2,„n 同方差假定:Var(ui)= σ 上式表明,各次观测值中u具有相同的方差,即各次观测所受到的随机影响的程度相同,称为等方差性。 对ui分布的假定 无自相关假定: Cov(ui, uj)=0, i ? j, i,j=1,2„..n 表明任意两次观测的ui, uj是不相关的,即u在某次的观测值与任何其它次观测中的值互不影响,称为无序列相关性。 等方差性和无序列相关性称为高斯—马尔柯夫(Gauss-Markov)假定。 对ui分布的假定 随机项与自变量不相关:Cov(ui, xi)=0 区分随机项u与自变量x各自对y的影响。 如果x是非随机变量,即x是在重复抽样中取某固定值,该条件自然满足。 其它假设 在进行模型回归时,还有两个暗含的假设: 假设1:随着样本容量的无限增加,解释变量X的样本方差趋于一有限常数。即 假设2:回归模型是正确设定的 假设1旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据使大样本统计推断变得无效。 假设2也被称为模型没有设定偏误(specification error) 第二节:模型参数的最小二乘估计 回归参数(系数)的最小二乘估计 最小二乘估计量的统计性质 一、回归参数(系数)的最小二乘估计 样本回归线 残差 最小二乘法 最小二乘估计量的计算 样本回归线 定义:假定自变量X与因变量Y满足一元线性回归模型 Y=b0+b1X+u, 其n次样本观测值(Xi,Yi) 假设Y’= b0’+b1’X是根据已知样本观测值得到的对上面回归模型最好的估计方程,其中b0’是b0的估计量, b1’是b1的估计量。根据Y’= b0’+b1’X得到的直线是对回归模型和已知样本观测值拟合最好的直线,称为样本回归 线。 样本回归直线 根据给定的样本观测值(Xi,Yi) i=1,2,3„.n,在直角坐标系里作出它们的对应点,构成散点图: 散点图的走向大致是一条直线。 残差 定义:观测值Yi与它的拟合值Yi’之差记作: ei= Yi - Yi’ = Yi - (b0’+b1’Xi) 称为残差。 残差反映拟合误差的大小。 残差平方和 Q(b0’,b1’)=? ei 2 = ?[Yi - (b0’+b1’Xi)]2 最小二乘法(Ordinary Least Squares) 样本回归直线的确定就是对b0’ ,b1’的确定。 确定b0’ ,b1’的准则就是使全部观测值的残差平方和最小。亦即使: Q(b0’,b1’)=?ei 2 = ?[Yi -(b0’+b1’Xi)]2 最小,这就是最小二乘原则。 这种确定b0’ ,b1’的方法就是最小二乘法。(OLS) 最小二乘估计量b0’ 、b1’的计算 Q(b0’,b1’)=?ei 2 = ?[Yi - (b0’+b1’Xi)]2是b0’ ,b1’二次函数、非负——极值存在。 极值原理——如果要使Q(b0’,b1’)最小,应使之对b0’ ,b1’的一阶偏导数为零。 b1’ = n ?XiYi-?Xi?Yi n?Xi 2 -(?Xi)2 b0’=(1/n)(?Yi- b1’?Xi) 最小二乘估计量b0’ 、b1’的计算 令:Xp=(1/n)?Xi, Yp=(1/n)?Yi b1’ = ?XiYi –nXpYp ?Xi 2 –nXp 2 b0’ =Yp- b1’Xp 最小二乘估计量b0’ 、b1’的计算 另:Xci=Xi-Xp, Yci=Yi-Yp 则: b1’=?Xci Yci ?Xci 2 b0’ =Yp- b1’Xp 例 计算Y对X的线性回归方程 Y’= b0’+b1’X 例 X 的平均数, 4 Y 的平均数,14 例 ?Xci Yci =186 ?Xci 2 =62 b1’ =3 b0’ =Yp- b1’Xp =14-3*4=2 例 Y=2+3X 拟合结果(图) 二、最小二乘估计量的统计性质 线性 无偏性 有效性 高斯—马尔可夫定理 线性 线性:指估计量b0’ ,b1’为Yi的线性函数。 b1’=?Ki Yi b0’ = ?{[(1/n)-KiXp]Yi} Ki= Xci /?Xci 2 因为Y为随机变量,所以b0’ ,b1’也为随机变量,从而有均值和方差。 无偏性 ’ ,b1’的均值等于总体回归参数值b0 ,b1。 无偏性:指估计量b0 E(b0’ )= b0 E(b1’)= b1 含义:平均地看,参数估计和参数真值相一致。 有效性 有效性(最小方差性):指估计量b0’ ,b1’具有最小方差性质。 含义:在所有无偏估计中,OLS估计最有效。虽然用别的方法也能得到线性 无偏估计,但是用OLS能够更准确地估计参数。 最优线性无偏(BLUE)性质 综上得出:OLS估计量b0’ ,b1’具有线性、无偏性、有效性,简化记为具 有最优线性无偏BLUE(Best Linear Unbiased Estimator)性质。 b0’ ,b1’称 为BLUE估计量。 线性无偏 全部估计 线性估计 高斯—马尔可夫定理 高斯—马尔可夫(Gauss-Markov)定理: 假设线性回归模型满足基本假设,则参数的OLS估计是最优(佳)线性无偏 估计,记为BLUE。 在线性无偏估计量中,具有BLUE性质的估计量就是OLS估计量。 第三节:样本决定系数及回归直线拟合优度的检验 总离差平方和的分解 样本决定系数:“拟合优度”的度量 样本相关系数 问题的提出 X对Y的说明能力如何,即用解释变量X解释Y是否合适,一般,对Y的说 明由系统部分和随机干扰两部分构成: Yi =Yi’+ei 其中 Yi’是系统部分的解释,残差ei是随机干扰项的解释,前一部分占的 越大,就说明模型拟合的越好,那么,如何定量地表示呢, 拟合好坏的差异 左图的拟合较好,Y的变化主要由模型来解释,随机因素解释的比例较小 X Y X Y 总离差平方和的分解 离差:Y的第i个观测值Yi与Y的样本平均值Yp之差叫做Yi的离差。记 为: yi= Yi - Yp yi=Yi’-Yp+Yi-Yi’ yi =yi’+ei,其中yi’=Yi’-Yp ; ei =Yi-Yi’ yi’利用回归直线计算的值与平均值之差,是由回归直线解释的部分 ei为实际观测值与回归值之差,即残差,是由回归直线所不能解释的部分。 总离差平方和的分解 显然,由回归直线所解释的部分yi’=Yi’-Yp的绝对值越大,则残差ei =Yi-Yi’的绝对值越小,回归直线与样本点拟合的越好。 总离差平方和分解公式 总离差平方和分解公式:TSS=ESS+RSS 其中TSS=?yi2 ,ESS=?yi’2 ,RSS=?ei 2 推导 ESS= ?yi’2叫做回归平方和,是由回归直线所解释的部分,表示了解释变量X对Y的线性影响。 RSS= ?ei 2叫做残差平方和,它是未被回归直线解释的部分。是由解释变量X对Y的影响以外的一切因素对Y作用而造成。 二、样本决定系数:“拟合优度”的度量 总离差平方和中 回归平方和所占的比重越大,则线性回归效果越好,即回归直线与样本观测值拟合优度越好。 如果残差平方和所占的比重越大,则线性回归效果越差,即线性回归直线与样本观测值拟合优度越差。 样本决定系数 样本决定系数(复相关系数):回归平方和与总离差平方和之比定义为样本决定系数。记为R2 R2=ESS/TSS= ?yi’2 / ?yi2 0? R2 ? 1 如果R2越接近于1,表示回归直线与样本观测值拟合越好,称“拟合优度越好”。 R2 =1时,表示完全拟合。 如果R2越接近于0,表示回归直线与样本观测值拟合越差,称“拟合优度越差”。 R2 =0时,表示被解释变量与解释变量没有线性关系。 样本决定系数R2 R2是衡量一个回归直线与样本观测值“拟合优度”的数量指标,即利用R2来度量回归直线与样本观测值的拟合优度。 它的解释是:总平方和能用回归模式解释的百分比。 R2 = {?[(Xi-X)(Yi-Y)]}2 ?(Xi-X)2 ?(Yi-Y)2 样本修正决定系数R2 R2有一个缺点,即R2随着解释变量个数的增加而增加,无论增加的解释变量在经济上是否有意义,情况总是如此。 给人一种感觉,似乎增加解释变量就会增加拟合优度。 为了避免这个问题,需要对决定系数进行自由度调整 样本修正决定系数R2 定义 或 称为修正决定系数(adjusted determination coefficient) 避免了R2随着解释变量增加而增加的问题 样本修正决定系数R2 但是,有时 会取负值,因此从新定义 为 Eviews回归结果 R2与模型选择 在建立计量经济模型时,人们往往将R2或者R2作为评选模型的一个重要标准。 当然,如果能够兼顾其他的评选标准和模型的经济解释, R2或者R2越高越好。 但有时也会为了模型有一个明确的经济解释必须放弃对高的判决系数的要求,这一点在宏观计量经济模型中是常见的。 样本相关系数 PXY= cov(X,Y)/ D(X) D(Y) 称为随机变量X与Y的相关系数(correlation)。 当X、Y分布未知时, PXY无法计算,只有利用样本观测值给出PXY的一个估计量。这个估计量就是样本相关系数R。 样本相关系数 R=SXY/(SXSY) SXY=?[(Xi-X)(Yi-Y)]/(n-1):X、Y的样本协方差 SX2=?(Xi-X) 2 /(n-1):X的样本方差 SY2=?(Yi-Y) 2 /(n-1):Y的样本方差 SXY、SX2、 SY2分别是cov(X,Y),D(X),D(Y)的无偏估计量 样本决定系数与样本相关系数的联系 R=??R2 -1? R ?+1 |R|越接近于1,则说明X与Y可能有高度的正相关或负相关。 样本决定系数与样本相关系数的区别 但两者是不同的概念。 样本决定系数是对变量X与Y作回归分析得出的,它是判定回归方程与样本观测值拟合优度的一个数量指标。 相关系数是对变量X与Y作相关分析得出的,是判定X与Y线性相关密切程度的一个数量指标。 回归分析与相关分析 回归分析通常有因果关系。因变量是随机变量,具有一定的概率分布,解释变量则假定在重复抽样中取固定的值。 相关分析中,两个变量是同等看待的,即因变量和自变量不加区别,不考虑因果关系,并且两个变量都假定为随机变量。 相关系数与回归系数的关系 b1’=R(SY/SX) 如R=0,则b1’=0 因为R是PXY的估计值, b1’是b1的估计值,所以检验b1 =0或者PXY =0是考察X和Y之间有无线性关系的两种等价方法。 第四节:回归系数估计量的显著性检验 考虑一元模型Yt=b0+b1Xt+ut, t=1,2,„n 其中b1反映了自变量X对Y的影响 如果b1=0,则表明X对Y没有影响;否则,如果b1显著地不等于0,则表明X对Y有显著影响,因此有必要用数理统计的方法对b1是否为0进行检验。 这样的检验称为系数的显著性检验。 参数显著 如果b1=0,则称参数是不显著的。 如果b1显著地不等于0,则称参数b1是显著的。 提出假设 模型为 要检验 bj的显著,提出假设: H0:bj=0 (原假设或者称为零假设) H1:bj?0 (备择假设) 参数显著性检验的三种方法 |t|与临界值做比较 “2倍”检验法 P值检验法 检验统计量—t统计量 在基本假设下: 在H0成立下 t统计量检验显著性原理 如果H0成立, P{,t,>t ??/2}, ?? {,t,>t ??/2}是小概率事件,如果该事件在一次抽样中就出现,说明 假设H0值得怀疑,应当拒绝H0 0 bj -t??,2 t??,2 ??,2 ??,2 接受H0 拒绝H0 拒绝H0 检验步骤 (1)计算 | t | (2)查表求临界值 t??,2(n-k-1) (3)比较,下结论 如果 | t | ?t??,2 ,则接受H0,认为在显著性水平为??的意义下, bj 不显著; 如果| t | ,t??,2 ,则拒绝 H0,认为在显著性水平为??的意义下, bj 显 著。 例 估计结果: Yt = 7.193 - 1.39 X1 + 1.47 X2 se (1.595) (0.205) (0.956) t (4.510) (-6.780) (1.538) n=13 ,k=2, ??=0.05 t??,2(n-k-1)= t0.025(10)=2.228 结论:常数项和X1的系数是显著的, X2的系数不显著 Eviews回归结果 简易“2倍”检验法 当??=0.05,n-k-1>8 时, t??,2(n-k-1)?2 将,t,和2比较,就可得出参数的显著性 检验可以化简为:当估计值的绝对值大于标准差的2倍时,则认为参数是显 著的,反之是不显著的。 P值检验法(P-Value Test) p 值的概念:为了方便,将 t 统计量的值记为 计算 p,P{,t,>t 0}称为p 值(p,value ) 通常的计量经济学软件都可自动计算出p 值 P值检验法原理 如果p> ??,则p/2> ??/2, t0落入接受域,应接受H0 bj 0 -t??,2 t??,2 ??,2 ??,2 接受H0 拒绝H0 拒绝H0 t0 p,2 p,2 P值检验法原理 如果p< ??,则p/2<??/2, t0落入拒绝域,应拒绝H0 0 bj -t??,2 t??,2 ??,2 ??,2 接受H0 拒绝H0 拒绝H0 t0 p,2 p,2 P值检验法准则 当P 值小于显著性水平时,系数在显著性水平下是显著的 当P 值大于显著性水平时,系数在显著性水平下是不显著的。 Eviews回归结果 解释 p-value: 确切的(或观测的)显著性水平 p-value:零假设H0被拒绝的最低显著性水平 P值检验法的优点 在使用上更简单,不用查临界值表 不将?? 固定在某个武断的水平上是一个更可取的办法,最好是让使用者自己去决定在给定的p-value,到底是否拒绝零假设。 参数显著性检验和建模 如果某个变量估计值没有通过显著性检验,经过进一步分析后,可以把它从方程中删去,建立更为简单的模型。 第五节:方程的显著性检验 F检验法 P值检验法 F检验法 模型: 问题: y 与 x’s 之间的线性关系是否成立,或者这种线性关系是否存在, 如果各个 x 前的系数都等于0,那么这种线性关系就不存在,或称方程不显著 只要一个 x 前的系数不等于0,那么这种线性关系就存在,或称方程是显著的。 假设 H0:b1, b2,„, bk =0 (零假设) H1:b1,b2,„,bk至少有一个不等于0 (备择假设) 检验统计量—F统计量 F统计量: 含义:其意义是与残差平方和相比,回归平方和越大,方程越显著 n-1 TSS n-k-1 RSS k ESS F统计量 自由度 平方和 F统计量检验原理 如果H0成立, P{F>F ??}, ?? {F>F ??}是小概率事件,如果该事件在一次抽样中就出现,说明假设H0 值得怀疑,应当拒绝H0 F??(k,n-k-1) ?? 接受H0 拒绝H0 检验步骤 1)计算 F (2)查表求临界值 F??(k,n-k-1) (3)比较下结论: F > F?? ,则拒绝H0,认为方程是显著成立的 F?F?? ,则接受H0,认为方程是不显著的(无意义) 例 回归结果见下页 其中,n=27,k=4,??,0.05 F??(k,n-k-1), F0.05(4,22),4.55<<F,132.0525 所以,方程是高度显著的。 Eviews回归结果 P值检验法(P-Value) P值: 准则: 当P 值小于显著性水平时,系数在显著性水平下是显著的 当P 值大于显著性水平时,系数在显著性水平下是不显著的 第六节:利用回归方程进行预测 预测:所谓预测,就是给定解释变量X的一个特定值,利用回归方程对因变 量Y的值进行估计。 预测是计量经济分析的主要目的之一。 预测的根据是经济规律具有的连续性。 预测的问题是规律的变化,规律的稳定性、可靠程度等。 预测分点预测和区间预测 点预测 点预测:用一个数值预测被解释变量 考虑多元线性回归模型: Yt=b0+b1X1t+b2X2t+„.+bkXkt+ut t=1,2,„,n 其回归方程: Yt’=b0’+b1’X1t+b2’X2t+„.+bk’Xkt 点预测 给定X0=(1,X10,X20,„.Xk0),预测Y0 Y0’=b0’+b1’X10+b2’X20+„.+bk’Xk0 Y0’就是对Y0的单个值进行预测 例 某城市人均收入(记X元)与耐用消费品销售额(记Y万元)之间的回归方 程为 11.33+0.24X Y’=- 假定2007年人均收入为7000元,耐用消费品销售额预测值为 Y’=-11.33+0.24*7000=1668.67(万元) 点预测不足之处 利用回归方程进行点预测,所得预测值Y’与真值Y会有一定的误差。 一方面,回归方程系数b0’,b1’是由样本观测值求得的,这就自然受到抽 样误差的影响,因而直接影响预测值。 另一方面,在进行上述预测时,使模型中的随机项u的均值为0,实际上它 是不等于0。 区间预测 y0的100(1-α),置信区间是 其中 是点预测 t??,2,t??,2(n-k-1) 是 t 分布的临界值 是预测误差的标准差 区间预测 预测误差的标准差 反映了随机因素和抽样误差对预测的影响 其中 特例:一元线性模型 此时,区间预测为: 例 回归方程:??= 24.45 + 0.509X 因此,对于 X0 = 100, 点预测:??0 =24.45+0.509(100) = 75.36 = 42.16 ={42.16[1 + 1/10 + (100-170)^2/33,000]}^1/2 = 7.255 取 ??=0.05 ,df=n-k-1,8, t??/2 = 2.306 对于 X0=100, y0 的95% 的区间预测为 75.36 ?? 2.306(7.255) 即( 58.635 , 92.095) 预测精度的影响因素 ——干扰项的方差越大,预测误差也就越大 n——样本容量越大,预测误差越小 —— x的方差越大,预测误差越小 x0 ——x0 距 x的平均数越近,预测误差越小 内插预测和外推预测 内插预测:也称内插检验或者模拟,即自变量跑遍它在样本期内的观测值所做的预测(事后预测)。 目的在于检验模型的稳定性或者对数据的说明能力。 外推预测:自变量取实际值以外的其他一组数值所做的预测。是真正意义上的预测(事前预测) 。 图示 有条件预测和无条件预测 预测还分为有条件预测和无条件预测。 对于无条件预测,预测式中所有解释变量的值都是已知的。所以事后预测应该属于无条件预测。当一个模型的解释变量完全由滞后变量组成时,事前预测也有可能是无条件预测。 第四章:多元线性回归方程 多元回归模型 三变量线性回归模型 多元线性回归模型的若干假定 多元线性回归模型的估计与假设检验 一、多元回归模型 多元回归模型(Multiple Regression Model): 包含多个解释变量的回归模型。 多元指有多种因素(即变量)对因变量有影响。 实际上,许多回归模型都是多元回归模型,因为很少有经济现象能够仅用一 个解释变量能解释清楚。 多元回归模型 对多元回归模型的假设过程与双变量有何不同, 如何估计多元回归模型,多元回归模型的估计过程与双变量模型有何不 同, 多元回归有没有一些在双变量模型中未曾遇到过的独特的特性, 既然一个多元回归模型能够包括任意多个解释变量,那么对于具体的情况, 我们如何决定解释变量的个数, 二、三变量线性回归模型 形式:Y=b0+b1X1+b2X2+u Y:因变量;X1 ,X2 :解释变量 u :随机扰动项 b0为截距,表示当X1 ,X2 =0时, Y的平均值 b1,b2为偏斜率系数、偏回归系数或也称回归系数 三变量线性回归模型 上式表明任何一个Y值可以表示成为两部分之和 系统成分或决定成分b0+b1X1+b2X2 非系统成分u,是由除X1 ,X2以外其他因素决定的。 偏回归系数的含义 b1,b2称为(偏)回归系数或偏斜率系数 意义 b1度量X2在不变的情况下,X1每变动一单位,Y的估计值Y’的改变量。 b2度量在X1不变的情况下, X2每变动一单位,Y的估计值Y’的改变量。 这是多元回归的一个特殊性质。 例 Y’=15-1.2X1+0.8X2 令X2值为10,则Y’ =15-1.2X1+0.8*10 =23-1.2X1 这里b1 =-1.2表示当X2为常数时,X1每增加一个单位, Y的估计值Y’将减少1.2个单位,这个斜率就是偏回归系数。( X2取其他常数也是一样) 令X1=5,得Y’ =15-1.2*5+0.8X2=9+0.8X2 偏回归系数的含义 简言之,偏回归系数反映了当模型中的其中一个解释变量为常量时,另一个解释变量对因变量的影响。 多元回归的这个独特性质不但能使我们引入多个变量,而且能够“分离”出每个解释变量X对因变量Y的影响。 三、多元线性回归模型的若干假定 利用最小二乘法(OLS)对参数进行估计。 为了假设检验,假定随机项u服从均值为0,方差为σ u 2的正态分布,即 u,N(0, σ u 2) 假定1 零均值假定:E(ui)=0,i=1,2,„.n 对X1 ,X2的每个观测值,u可以取不同的值,考虑u的所有可能值,它们的总体平均值(期望值)等于0。 假定2 同方差假定:Var(ui)= σ u 2, i=1,2,„n 上式表明,各次观测值中u具有相同的方差,即各次观测所受到的随机影响的程度相同,称为等方差性。 假定3 无自相关假定: Cov(ui, uj)=0, i ? j, i,j=1,2„..n 表明任意两次观测的ui, uj是不相关的,即u在某次的观测值与任何其它 次观测中的值互不影响,称为无序列相关性。 等方差性和无序列相关性称为高斯—马尔柯夫(Gauss-Markov)假定。 假定4 随机项与自变量不相关: Cov(ui, x1i)=0; Cov(ui, x2i)=0 区分随机项u与自变量x1、x2各自对y的影响。 如果x是非随机变量,即x是在重复抽样中取某固定值,该条件自然满足。 假定5 解释变量X1 ,X2之间不存在线性相关关系,即两个解释变量之间无确切的 线性关系。 用统计学语言,称为非共线性或非多重共线性。 非完全共线性是指变量不能完全表示为其他变量的完全线性函数。 X1 =3+2 X2 ;X1 =4 X2 完全共线性 若X1 =4 X2 将其代入Y’=b0 ’ +b1 ’ X1+b2 ’ X2 Y’=b0 ’ +b1 ’* 4 X2 +b2 ’ X2 = b0 ’ +(4 b1 ’ + b2 ’ ) X2 = b0 ’ +A X2 双变量模型 无法从A值中得到b0 ’ 、b1 ’的值 完全共线性 结论:在存在完全共线性的情况下,不能估计回归系数的值,换句话说,不 能估计解释变量各自对因变量Y的影响。 事实上,也没有区分的必要,因为并没有两个独立的变量。 在实际中,很少有完全共线性的情况,但是存在高度完全共线性或近似完全共线性的情况很多。 四、多元线性回归模型的估计与假设检验 普通最小二乘估计量的计算 最小二乘估计量的方差与标准差 多元回归方程的拟合优度 假设检验 OLS估计量b0 ’ 、b1 ’ 、b2 ’的计算 原理:为了使残差平方和 Q(b0’,b1’,b2’)=? ei 2 = ?[Yi - (b0’+b1’X1+ b2’X2)]2 最小, b0’,b1’,b2’应该满足分别将对Q(b0’,b1’,b2’)它们求偏导数均等于0。 OLS估计量的方差与标准差 多元回归方程的拟合优度 多元回归方程的拟合优度: 多元决定(判定)系数R2 一元回归方程中R2的概念对多元回归方程也同样适用 多元判定系数 在多元回归模型中,将度量解释变量对被解释变量影响大小的解释程度的量称为多元决定(判定)系数,仍用R2表示。 R2 =ESS/TSS 其中TSS=ESS+RSS TSS=总离差平方和; ESS=回归平方和;RSS=残差平方和 修正的决定系数R2 R2有一个缺点,即R2随着解释变量个数的增加而增加,无论增加的解释变量在经济上是否有意义,情况总是如此。 三变量回归模型R2的往往要比双变量回归模型R2值大。 这是因为R2的定义中没有考虑自由度问题。为了避免这个现象,需要对决定系数进行自由度调整 修正的决定系数R2 若k>1,则R2 ?R2 ,即:随着模型中解释变量的增加,修正决定系数越来越小于非修正决定系数R2 ,这似乎是对增加解释变量的“惩罚”。 多元相关系数 R= ? R2 度量了Y与所有解释变量的线性相关程度。 一元线性回归模型中的相关系数R可正可负,但在多元回归中,R只能为正值。 假设检验 参数显著性检验 方程显著性检验 参数显著性检验 模型为Y=b0+b1X1+b2X2 +u 要检验 bj的显著,提出假设: H0:bj=0 (原假设或者称为零假设) H1:bj?0 (备择假设) 参数显著性检验的三种方法 |t|与临界值做比较 “2倍”检验法 P值检验法 检验统计量—t统计量 在基本假设下: 在H0成立下 t统计量检验显著性原理 如果H0成立, ,t,>t ??/2}, ?? P{ {,t,>t ??/2}是小概率事件,如果该事件在一次抽样中就出现,说明 假设H0值得怀疑,应当拒绝H0 0 bj -t??,2 t??,2 ??,2 ??,2 接受H0 拒绝H0 拒绝H0 检验步骤 (1)计算 | t | (2)查表求临界值 t??,2(n-k-1) (3)比较,下结论 如果 | t | ?t??,2 ,则接受H0,认为在显著性水平为??的意义下, bj 不显著; 如果| t | ,t??,2 ,则拒绝 H0,认为在显著性水平为??的意义下, bj 显 著。 例 估计结果: Yt = 7.193 - 1.39 X1 + 1.47 X2 se (1.595) (0.205) (0.956) t (4.510) (-6.780) (1.538) n=13 ,k=2, ??=0.05 t??,2(n-k-1)= t0.025(10)=2.228 结论:常数项和X1的系数是显著的, X2的系数不显著 简易“2倍”检验法 当??=0.05,n-k-1>8 时, t??,2(n-k-1)?2 将,t,和2比较,就可得出参数的显著性 检验可以化简为:当估计值大于标准差的2倍时,则认为参数是显著的,反 之是不显著的。 P值检验法(P-Value Test) p 值的概念:为了方便,将 t 统计量的值记为 计算 p,P{,t,>t 0}称为p 值(p,value ) 通常的计量经济学软件都可自动计算出p 值 P值检验法原理 如果p> ??,则p/2> ??/2, t0落入接受域,应接受H0 bj 0 -t??,2 t??,2 ??,2 ??,2 接受H0 拒绝H0 拒绝H0 t0 p,2 p,2 P值检验法原理 如果p< ??,则p/2<??/2, t0落入拒绝域,应拒绝H0 0 bj -t??,2 t??,2 ??,2 ??,2 接受H0 拒绝H0 拒绝H0 t0 p,2 p,2 P值检验法准则 当P 值小于显著性水平时,系数在显著性水平下是显著的 当P 值大于显著性水平时,系数在显著性水平下是不显著的。 解释 p-value: 确切的(或观测的)显著性水平 p-value:零假设H0被拒绝的最低显著性水平 在使用上更简单,不用查临界值表 方程的显著性检验 F检验法 P值检验法 F检验法 模型:Y=b0+b1X1+b2X2 +u 问题:Y与X1、X2之间的线性关系是否成立,或者这种线性关系是否存在, 如果各个 X前的系数都等于0,那么这种线性关系就不存在,或称方程不显 著 只要一个 X前的系数不等于0,那么这种线性关系就存在,或称方程是显著 的。 假设 H0:b1, b2 =0 (零假设) H1: b1,b2至少有一个不等于0 (备择假设) 检验统计量—F统计量 F统计量:F=ESS/2 RSS/(n-2-1) 服从F(2,n-3)分布 含义:其意义是与残差平方和相比,回归平方和越大,方程越显著 F统计量检验原理 如果H0成立, P{F>F ??}, ?? {F>F ??}是小概率事件,如果该事件在一次抽样中就出现,说明假设H0 值得怀疑,应当拒绝H0 F??(k,n-k-1) ?? 接受H0 拒绝H0 检验步骤 (1)计算 F (2)查表求临界值 F??(2,n-3) (3)比较下结论: F > F?? ,则拒绝H0,认为方程是显著成立的 F?F?? ,则接受H0,认为方程是不显著的(无意义) P值检验法(P-Value) P值: 准则: 当P 值小于显著性水平时,系数在显著性水平下是显著的 当P 值大于显著性水平时,系数在显著性水平下是不显著的 例:税收政策会影响公司资本结构吗, Y=C+2.4X1+0.3X2+1.4X3-1.2X4-2.4X5 Y :杠杆利率(债务/产权) X1:公司税率 X2:资本利得税率 X3:通货膨胀率 X4:个人税率 X5:非债务避税 例:牙买加对进口的需求 为了解释牙买加对进口的需求,J.Gafar根据19年的数据得到下面回归结 果: Y=-58.9+0.20X1-0.10X2 se=(0.0092) (0.084) t=(21.74) (-1.1904) R2 =0.96 Y :进口量;X1:个人消费支出; X2:进口价格/国内价格 美国对酒精饮料的需求 为了解释美国对酒精饮料的需求,T.McGuinness根据20年的年数据得到下 面结果: Y=-0.014-0.354X1+0.0018X2+0.657X3+0.0059X4 se=(0.012)(0.2688)(0.0005)(0.266)(0.0034) t=(-1.16)(1.32)(3.39)(2.47)(1.73) R2=0.689 美国对酒精饮料的需求 Y :每一个成年人酒精消费的年变化 X1:酒精饮料的真实价格指数的年变化 X2:个人真实的可支配收入的年变化 X3:许可证颁发数量年变化量/成年人人口 X4:在酒精饮料上的广告支出费用的年变化 建模中注意的问题 依照经济理论以及对具体经济问题的深入分析初步确定解释变量 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符 建模中注意的问题 谨慎对待异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经 济规律 改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不 会影响统计检验结果 建模中注意的问题 在作F与t检验时,不要把自由度和显著性水平用错(正确查临界值表) 利用回归模型预测时,解释变量的值最好不要离开样本范围太远 回归模型的估计结果应与经济理论或常识相一致 建模中注意的问题 解释变量应具有外生性,与误差项不相关 异方差、自相关、多重共线性 应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变 量较少的一个 建模中注意的问题 模型的结构稳定性要强,超样本特性要好 世界是变化的,应该随时间的推移及时修改模型 第五章 线性回归模型的扩展 对数线性模型 半对数模型 线性对数模型 双曲函数模型 多项式回归模型 特征:参数线性,变量不一定线性 包含虚拟变量的回归模型 第一节 对数线性模型:度量弹性 双对数线性模型 对数线性模型的假设检验 多元对数线性回归模型 一、双对数线性模型 考虑函数:Y=AXb1 变量X非线性 恒等变换:lnY=lnA+b1lnX ln表示自然对数(以e为底的对数) lnY=lnA+b1lnX+u 令b0=lnA lnY= b0 +b1lnX+u 将形式如上式的模型称为双对数模型。 双对数线性模型 令y=lnY,x=lnX 则有y=b0 +b1 x +u 若上式满足古典线性回归模型的基本假定,则很容易用普通最小二乘法估计 它,并且得到的估计量是BLUE估计量。 双对数线性模型 双对数模型特性:斜率b1度量了Y对X的弹性,即给X一个很小的变动所引起Y变动的百分比。 弹性=Y变动百分比/X变动百分比 双对数模型又称为不变弹性模型 例:对《widget》教科书的需求 二、双对数模型的假设检验 在随机误差项u满足假定的情形下,线性模型与双对数模型的假设检验方法相同。 三、多元对数线性回归模型 将双变量对数线性回归模型推广到模型中解释变量多于一个的情形 如三变量双对数模型 lnY= b0 +b1lnX1+ b2lnX2+u 在这个模型中,偏斜率系数b1、b2又称为偏弹性系数。 b1是Y对X1的弹性(X2不变) b2是Y对X2的弹性(X1不变) 多元对数线性回归模型 在多元对数线性模型中,每一个偏斜率系数度量了在其他变量保持不变的条件下,因变量对某一个解释变量的偏弹性。 例:柯布—道格拉斯生产函数 lnY= b0 +b1lnX1+ b2lnX2+u 令X1表示劳动投入,X2表示资本投入 柯布—道格拉斯生产函数(C-D函数) Y:1955~1974年间墨西哥产出(GDP,百万比索) X1:劳动投入(总就业人数,千人) X2:资本投入(固定资本,百万比索) 柯布—道格拉斯生产函数 lnY=-1.6524+0.3397lnX1+0.8640lnX2 se=(0.6062) (0.1857) (0.09343) t=(-2.73) (1.83) (9.06) R2 =0.995 对回归方程解释 b1:产出对劳动投入的弹性 b2:产出对资本投入的弹性 以上两个弹性系数相加(b1+b2)得到规模报酬系数,反映产出对投入的比例 变动。 规模报酬系数=1:规模报酬不变 规模报酬系数>1:规模报酬递增 规模报酬系数<1:规模报酬递减 对回归方程解释 b1= 0.3397 b2=0.8640 规模报酬系数(b1+b2)=1.2037 墨西哥经济特征是规模报酬递增 资本投入对产出影响大于劳动对产出的影响。 例:对能源需求 数据:1960~1982年间7个OECD国家(美国、加拿大、德国、英国、意大 利、日本、法国)的总最终能源需求指数Y;实际GDP(X1);实际能源价格(X2) 所有指数均以1970年为基准(1970=100) 回归结果 lnY=1.5495+0.9972lnX1-0.3315lnX2 se=(0.0903) (0.0.0191) (0.0243) t=(17.17) (52.09) (13.61) R2 =0.97><94 回归结果分析 能源需求与收入(GDP)正相关,与实际能源价格负相关 收入弹性:0.9972 价格弹性:-0.3315,缺乏弹性(基本消费品) 第二节:半对数模型:测度增长率 政府根据预计的GDP增长率指标确定预算赤字规划 美联储根据未偿付消费者信贷的增长率指标监视其货币政策的运行效果 例:美国未偿付消费者信贷的增长 数据:1973~1987年间未偿付消费者信贷 Y:未偿付消费者信贷 复利计算公式:Yt=Y0(1+r) t Y0——Y的初始值 Yt——第t期的Y值 r ——复利率 例:美国未偿付消费者信贷的增长 求对数:lnYt=lnY0+tln(1+r) 令b0= lnY0 ; b1=ln(1+r) 引进随机误差项u,得到: lnYt= b0 + b1t+u 半对数模型:仅因变量以对数出现 OLS回归结果 lnYt= 12.007 + 0.0<946t se=(0.0319) (0.0035) t=(376.4) (26.03) R2 =0.9824 未偿付信贷增长率0.0<946( 9.46 %) 半对数模型中,斜率度量了给定解释变量的绝对变化所引起的被解释变量的 相对变动 线性趋势模型 Yt= b0 + b1t+u 将因变量对时间t回归,其中t 按时间先后顺序计算,这类模型称为线性 趋势模型。 时间t称为趋势变量 若斜率为正,则称Y有向上的趋势; 若斜率为负,则称Y有向下的趋势 例:美国为偿付消费者信贷 Yt= 98084 + 35289t se=(23095) (2540.1) t=(4.247) (13.893) R2 =0.9369 因变量不同,不能比较R2 回归结果分析 在样本区间内,未偿付消费者信贷的年绝对增加值为35289百万美元。 在此期间,未偿付消费者信贷有一个向上趋势。 第三节:线性对数模型 线性对数模型:解释变量是对数形式,而因变量不是对数形式。 例:美国GNP与货币供给 考虑模型:Y=b0+b1lnX+u 其中:Y=GNP;X=货币供给 回归结果: Y’=-16329.0+2584.8lnX t= (-23.4<94) (27.549) R2 =0.9832 第四节:双曲函数模型 双曲函数模型: Y=b0+b1(1/X)+u 参数线性 变量非线性(X以倒数形式进入模型) 特征:X无限增大时,1/X趋近于0,Y逐渐接近b0渐近值。 双曲函数模型 平均固定成本 恩格尔消费曲线 菲利普斯曲线 例:美国菲利普斯曲线 数据:美国1958~1969年间小时收入指数(Y)和城市失业率(X) 回归结果:Y’=-0.25<94+20.588(1/X) t=(-0.2572) (4.3996) R2 =0.65<94 线性模型:Y’=8.0147-0.7883X t=(6.4625) (-3.2605) R2 =0.5153 第五节:多项式回归模型 多项式回归模型:在模型等式右边只有一个解释变量,但却以不同的次幂出现,可将它们看作多元回归模型。 多项式回归模型在生产与成本函数领域中被广泛应用。 多项式回归模型 形式: 变量非线性,参数线性 变量之间不完全共线性 三次多项式函数 形式:c=a0+a1Q+a2Q2+a3Q3 又称为立方函数 变量Q的最高次幂代表了多项式函数的次,上式最高次为3。 例:成本—产出 数据 Y=141.7667+63.4776X-12.961X2+0.9396X3 第六节 包含虚拟变量的回归模型 虚拟变量:定性的或者反映质的差别的或者分组的信息结合到回归模型中。比如性别、种族、宗教、季节、战争/和平、有自然灾害/无自然灾害、南方/北方。我们可以用只取0和1的变量来表示这些定性或者分组的因素。称为虚拟变量。 指标变量、二元变量、分类变量、二分变量 虚拟变量 (1)D=1 表示男,0表示女 (2)D=1 表示生活在南方,0 表示不生活在南方 一般地 D= 虚拟变量 季节 i=1、2、3、4 四个变量合起来可以表示各个季度 虚拟变量的性质 如果定性变量有m种情形,则应引进m -1个虚拟变量。否则就会陷入虚拟变量陷阱,即完全多重共线性。 虚拟变量赋值是任意的。赋值依习惯而定。 赋值为0的一类称为基准类、控制类、对比类。基准类的选择根据研究目的确定。 虚拟变量D 的系数称为差别截距系数,表明赋值为1的类和基准类截距值的差距。 1、方差分析模型 虚拟变量和定量变量一样可以用于回归分析。 模型中的解释变量可以同时包含定量变量和虚拟变量。 若回归模型中的变量仅仅只有虚拟变量,这样的模型称为方差分析模型(ANOVA)。 例:大学毕业生的初职年薪 模型:Y=b0+b1D1+u Y:初职年薪 D1=1:大学毕业 D1=0:其他(非大学毕业) 毕业生初职年薪的期望为: E(Y|D1=0)= b0+b1*0 = b0 E(Y|D1=1)= b0+b1*1 = b0 +b1 大学毕业生的初职年薪 截距b0表示非大学毕业生的平均初职年薪 “斜率” b1表明大学毕业生的平均初职年薪与非大学毕业生的初职年薪的差距 b0 +b1表示大学毕业生的平均初职年薪 例:回归结果/图形 例:工作权利法对工会会员的影响 为了研究工作权利法的效果(该法使工会的劳资谈判合法化),Brennan等人建立了工会会员(属于工会的工人占所有工人的百分比)对工作权利法(1980年)的函数模型,这项研究包括了50个州,其中19个州制定了工作权利法,31个州允许有工会会员 制度 关于办公室下班关闭电源制度矿山事故隐患举报和奖励制度制度下载人事管理制度doc盘点制度下载 (即允许进行劳资谈判) 工作权利法对工会会员的影响 回归结果: Y’=26.68-10.51D Se=(1.00) (1.58) t=(26.68) (6.65) R2 =0.497 Y—工会会员占工人的比例(1980) D=0,制定工人工作权利法的州 D=1,未制定工作权利法的州 2、协方差模型 在许多的经济研究中,回归模型中的解释变量有些是定量的,有些是定性的, 我们将这种模型称为协方差模型(ANCOVA)。 包含一个定量变量,一个定性变量的回归模型 包含一个定量变量,两个定性变量的回归模型 例:教师年薪与教龄、性别的关系 考虑ANCOVA模型: Y=b0+b1D+b2X+u Y:大学教师的年薪,X:教龄 D=1:男教师,D=0:女教师 男教师平均年龄:E(Y|X,D=1)= b0+b1+b2X 女教师平均年龄:E(Y|X,D=0)= b0+b2X 例:教师年薪与教龄、性别的关系 虚拟变量多种分类的情况 个人假期旅游的年支出对其收入与受教育水平的回归 教育变量是定性变量,假设本问题有三种分类:未达到中学水平、中学水平、 大学水平 假期旅游支出与教育水平 模型:Y=b0+b1D1+b2D2+b3X+u Y:用于假期旅游的年支出 X:年收入 D1=1:中学教育,D1=0:其他 D2=1:大学教育,D2=0:其他 基准类:未达到中学水平 假期旅游支出与教育水平 未达到中学水平平均旅游支出 E(Y| D1 =0, D2 =0,X)= b0 +b3X 中学水平的平均旅游支出 E(Y| D1 =1, D2 =0,X)= b0 +b1 +b3X 大学毕业的平均旅游支出 E(Y| D1 =0, D2 =1,X)= b0 +b2 +b3X 回归结果 包含一个定量、两个定性变量的模型 教师年薪一例中,假定除教龄、性别外,肤色也是一个重要的决定因素。 模型: Y=b0+b1D1+b2D2+b3X+u Y:年薪,X:教龄 D1=1:男教师,D1=0:女教师 D2=1:白种, D2=0:非白种 、回归模型中的结构稳定性:虚拟变量法 3 美国储蓄—收入关系是否在严重萧条之后于1982年经历了一个结构变动。 模型: 1970~1981年:Y=A1+A2X+u 1982~1995年:Y=B1+B2X+u Y—个人储蓄;X—个人可支配收入 美国储蓄—收入关系 四种可能结果: 一致回归:A1 = B1 , A2 = B2 平行回归:A1 ? B1 , A2 = B2 并发回归:A1 = B1 , A2 ? B2 相异回归:A1 ? B1 , A2 ? B2 美国储蓄—收入关系 虚拟变量法: Y=M1+M2D+M3X+M4 ( DX ) +u Y—个人储蓄;X—个人可支配收入 D=0:观察值是从1970年到1981年 D=1:观察值是从1982年到1995年 E(Y|D=0,X)= M1+ M3X E(Y|D=1,X) =(M1+M2 )+ (M3+M4 ) X 美国储蓄—收入关系 M2 :差别截距;M4:差别斜率 回归结果 Y=1.02+152.48D+0.0803X-0.0655(DX) se=(20.16) (33.08) (0.0145) (0.0159) t=(0.05) (4.61) (5.54) (-4.10) R2 =0.822 ; F=54.78 例:美国菲利普斯曲线失灵了吗, 回顾1958~1969年菲利普斯曲线 数据:美国1958~1969年间小时收入指数(Y)和城市失业率(X) 回归结果:Y’=-0.25<94+20.588(1/X) t=(-0.2572) (4.3996) R2 =0.65<94 美国菲利普斯曲线失灵了吗, 样本区间:1958~1977年 回归方程: Y=M1+M2D+M3 (1/X)+M4 D(1/X ) +u Y:小时工资指数的年变化率 X:失业率 D=1:1969年以前观察值 D=0:1970~1977年观察值 回归结果 Y’=10.078-10.337D –17.549(1/X)+38.137 D(1/X ) se=(1.4024) (1.6859) (8.3373) (9.3999) t=(7.1860) (-6.1314) (-2.1049) (4.0572) R2 =0.8787 1958~1969:Y’=-0.259+20.588(1/X) 1970~1977: Y’=10.078-17.549(1/X)(失灵) 4、虚拟变量在季节分析中的应用 许多用月度或季度数据表示的经济时间序列,呈现出季节变化的规律性(季 节模式) 例如: 春节前后商场的销售量; 节假日期间家庭对货币的需求; 夏天对冰激凌、软饮料的需求 虚拟变量在季节分析中的应用 通常可以从时间序列中将季节因素或成分剔除,进而将注意力集中在其他成 分上。 把季节成分从时间序列中剔除的过程称为消除季节成分或季节调整时间序 列。 美国政府公布的一些重要的经济时间序列数据就是经过季节调整后得到的。 例:澳大利亚支出—消费关系 数据:澳大利亚从1977年第一季度到1980年第四季度的个人消费支出Y(衣 服、硬件、电器、家具的零售价),个人可支配收入X 模型:Y=b0+b1D1+b2D2+b3D3+b4X+u D1=0:第二季度数据;D1=1:其他 D2=0:第三季度数据;D2=1:其他 D3=0:第四季度数据;D3=1:其他 回归结果 例:不同规模报酬对产出的影响 为了研究对于同一资本条件下,企业经营不同的产品是否会带来不同的收益 率,根据48个企业的数据,得到如下回归结果 Y=1.339+1.490D+0.246X1-9.507X2-0.016X3 Se= (1.38) (0.056) (4.244) (0.017) t= (1.079) (4.285) (-2.24) (-0.<941) R2 =0.26 不同规模报酬对产出的影响 Y:规模报酬率 D=1:企业的产品有差别 X1=市场份额 X2=企业数目 X3=行业增长率 第六章:多重共线性 多重共线性的性质 多重共线性的原因 多重共线性的后果 多重共线性的诊断 多重共线性的补救措施 回顾多元线性回归模型的若干假定 零均值假定 同方差假定 无自相关假定 随机项与自变量不相关 非多重共线性 假定1 零均值假定:E(ui)=0,i=1,2,„.n 对X1 ,X2的每个观测值,u可以取不同的值,考虑u的所有可能值,它们 的总体平均值(期望值)等于0。 假定2 同方差假定:Var(ui)= σ u 2, i=1,2,„n 上式表明,各次观测值中u具有相同的方差,即各次观测所受到的随机影响 的程度相同,称为等方差性。 违反假定:异方差 假定3 无自相关假定: Cov(ui, uj)=0, i ? j, i,j=1,2„..n 表明任意两次观测的ui, uj是不相关的,即u在某次的观测值与任何其它 次观测中的值互不影响,称为无序列相关性。 等方差性和无序列相关性称为高斯—马尔柯夫(Gauss-Markov)假定。 违反假定:自相关 假定4 随机项与自变量不相关: Cov(ui, x1i)=0; Cov(ui, x2i)=0 区分随机项u与每个自变量各自对y的影响。 如果x是非随机变量,即x是在重复抽样中取某固定值,该条件自然满足。 假定5 解释变量之间不存在线性相关关系,即任意两个解释变量之间无确切的线性 关系。 用统计学语言,称为非共线性或非多重共线性。 非完全共线性是指变量不能完全表示为其他变量的完全线性函数。 违反假定:多重共线性 完全多重共线性 完全共线性(Perfect collinearity)的例子 : X1 X2 X3 10 50 52 15 75 75 18 90 97 24 120 129 X1 和 X2 是完全线性相关的: X2 = 5X1 完全多重共线性 若X2 = 5X1 将其代入Y’=b0 ’ +b1 ’ X1+b2 ’ X2 +b3 ’ X3 Y’=b0 ’ +b1 ’ X1 +b2 ’ * 5X1 +b3 ’ X3 = b0 ’ +(b1 ’ + 5b2 ’ ) X1 +b3 ’ X3 = b0 ’ +A X1 +b3 ’ X3 三变量模型 无法从A值中得到b1 ’ 、b2’的值 接近完全多重共线性的情形 多重共线性是一个极端的情形 在实际中,很少遇到完全多重共线性的情况,常常是接近或高度多重共线性。 亦即解释变量是接近线性相关的。 例:《widget》教科书 问题 多重共线性的性质是什么, 多重共线性产生的原因是什么, 多重共线性的理论后果是什么, 多重共线性的实际后果是什么, 在实际中,如何发现多重共线性, 消除多重共线性的弥补措施有哪些, 多重共线性的性质 可以获得原始系数的一个线性组合的估计值。 当解释变量之间存在完全线性相关或完全多重共线性时,不可能获得所有参 数的唯一估计值。 既然我们不能获得它们的唯一估计值,也就不能根据某一样本做任何统计推 论(也即假设检验) 多重共线性的原因 例:消费函数 Y = b0 + b1X1 + b2X2 X1 = income ; X2 = wealth X2 = 5X1 Y = b0 + b1X1 + b2 5X1 Y = b0 + (b1 + 5b2)X1 多重共线性的原因 所用的数据收集方法 例:在X的一个限定的范围内抽样 有关被抽样总体的约束: 例:具有高收入的人倾向于有更多的财富 也许有关低收入的富有的人和高收入的没钱人的数据不够充足。 多重共线性的原因 模型设定: 例: 在模型中加入多项式项,特别是当X的取值范围很小的时候。 变量之间有共同的时间趋势 模型的过定( overdetermined) 解释变量的数目多于观测的数目。 多重共线性的理论后果 在存在高度多重共线性的情形下,即使多元回归方程的一个或者多个偏回归系数是统计不显著的,普通最小二乘估计量仍然是最优线性无偏估计量。 注意 无偏性是一个重复抽样的性质,即:保持X不变,如果得到一些样本并用OLS计算这些样本估计量,则其平均值收敛于估计量的真实值。但这并不是某个样本估计值的性质,在现实中,我们经常无法得到大量的重复样本。 注意 接近共线性并未破坏最小二乘估计量的最小方差性:在所有线性无偏估计量中,OLS估计量的方差最小。 最小方差并不意味着方差值本身也比较小。 注意 即使变量总体之间不线性相关,但却可能与某一样本线性相关 多重共线性本质上是一个样本(回归)现象。 原因:大多数经济数据不是通过试验获得。如:国民生产总值、价格、失业 率、利润、红利等,是以其实际发生值为依据,而并非试验得到。 多重共线性的实际后果 OLS估计量的方差和标准差较大。也就是说,OLS估计量的精确度下降。 置信区间变宽。 t值不显著, R2较高。 OLS估计量及其标准差对数据的微小变化非常敏感,也就是说它们趋于不稳 定。 回归系数符号有误。 难以衡量各个解释变量对回归平方和(ESS)或R2的贡献。 例:消费函数 消费函数的结果: Y = 24.77 + 0.<94X1 - 0.04X2 t (3.67) (1.14) (-0.53) R2=0.96, F = 92.40 X1 是收入 X2 是财富 高的 R2 表明收入和财富可以解释消费变化的96% 结果分析 没有任何一个斜率系数是显著的。 财富变量的符号是错误的。 高的 F 值意味着系数都等于0的联合假设不成立 两个变量是如此地高度相关,以至于不能将二者的效应分离出来。 例:消费函数 如果将 X2 对 X1 回归,得到: X2 = 7.54 + 10.19X1 (0.26) ( 62.04) R2 =0 .99 表明,在 X1 和 X2之间有近乎完全的线形关系 例:消费函数 Y 只对收入回归: Y = 24.45 + 0.51X1 (3.81) (14.24) R2= 0.96 收入变量是高度显著的,但是在前一个模型中是不显著的 例:消费函数 Y 只对财富回归: Y = 24.41 + 0.05X2 t (3.55) (13.29) R2 = 0.96 财富变量也是高度显著的,但是在前一个模型中是不显著的 多重共线性真的是一个问题吗, 取决于研究目的 如果是为了预测,多重共线性未必是坏事 如果是为了估计参数(比如弹性、边际值等),多重共线性必定是坏事 多重共线性的检验 多重共线性是一个程度问题而不是存在与否的问题。 由于多重共线性是在假定解释变量是非随机的条件下出现的问题,因而它是 样本的特点,而不是总体的特征。 检验方法1 R2较高但t值显著的不多。这是多重共线性的“经典”特征。 检验方法2 解释变量两两高度相关。 逐对检查解释变量之间的相关系数 这些仅仅是一些有用的指示,经过这些探查后可能还会有多重共线性 解释变量的组合或许具有相关性 检验方法3 辅助或从属回归:将每个变量对其他剩余变量回归并计算相应的R2 值,其 中每一个回归都被称作是从属或者辅助回归。 然后用F test 检验 R2 是否显著地区别于0 F = [R2/(k-1)] /[(1-R2)/(n-k)] k 是 X的数目 如果F大于临界值,则 R2 是显著区别于0的 计算较繁琐 例 考虑Y对X1,X2,X3,X4,X5、X6这6个解释变量的回归 辅助回归:用R12表示X1对其余X的回归的判决系数„„ 检验方法4 方差膨胀因素(Variance inflation factor ) 其中 R2j 是Xj对其他X的辅助回归的判决系数 这个指标度量方差增加的速度 R2 和 VIF 当 R2 增加时, VIF也随着增加 如果大于10 ,就表明有问题 注意 R2较高,标准差未必一定大。也就是说它不一定扩大估计量的标准差。 辅助回归方程的R2可能只是多重共线性的一个“表面指示器”。 更正规的表述为:“较高的R2既不是较高标准差的必要条件也不是充分条 件,多重共线性本身并不必然导致较高的标准差。” 总结 检验多重共线性有许多种不同的方法,但却没有一种检验方法能够使我们彻 底解决多重共线性问题。 多重共线性是一个程度的问题,它是与样本相关的一种现象。 有时我们必须综合运用以上各种手段来诊断多重共线性的严重程度。 总之,没有一个简单的办法判断多重共线性问题。 补救措施 如果t统计量大于2,就不用担心 如果回归的 R2大于任何一个 X对其余 Xs回归的R2 ,就不用担心 如果仅仅是对预测感兴趣,并且解释变量的线性组合在未来仍然延续,就不 用担心 补救措施(经验法则) 从模型中删除不重要的解释变量 获取额外的数据或者新的样本 重新考虑模型 先验信息 变量变换 其他补救措施 1、从模型中删除不重要的解释变量 对待严重的多重共线性问题,最简单的解决方法就是删除一个或多个共线性 变量。 导致“模型设定误差”,参数估计量可能是有偏的。 建议不要仅仅因为共线性很严重就从一个经济上可行的模型中删除变量。所 选模型是否符合经济理论是一个重要的问题。 2、获取额外的数据或者新的样本 有些情况下,通过获得额外的数据(增加样本容量)就能削减共线性的程度。 获取额外的数据或者新的样本 既然多重共线性是一个样本特征,那么在包括同样变量的另一样本中,共线 性也许不象第一个样本那样高。 关键是能否获得另一个样本,因为收集数据的费用很高。 Y:消费支出;X1:收入;X2:财富 10个观察值: Y=24.337+0.87164 X1 -0.0349 X2 se=(6.2801) (0.31438) (0.0301) t= (3.875) (2.7726) (-1.1595) R2 =0.9682 消费支出对于收入和财富的回归方程 消费支出对于收入和财富的回归方程 40个观察值: Y=2.0907+0.7299 X1 +0.0605 X2 t= (0.8713) (6.0014) (2.0641) R2 =0.9672 3、重新考虑模型 模型的不恰当设定可能是回归模型存在共线性的原因。 省略一些重要的变量 没有正确选择模型的函数形式 例:需求函数 Q=b0+b1p+b2pr+b3income+u 变形成 Q=b0+b1(p/pr)+b2income+u 4、先验信息 根据以往的研究,我们或许知道有关参数值的某些信息,可以将这些信息用 于当前的样本。 假设先验信息是“正确”的,就“解决”了共线性问题。 例 对《wideget》需求函数 假设在过去估计过的对《wideget》需求函数中,收入系数为0.9,并且是 统计显著的。如果收入系数的过去值没有多少改变的话,我们可以重新估计方程 需求量=b0+b1*价格+b2*收入+u = b0+b1*价格+0.9*收入+u 需求量- 0.9*收入= b0+b1*价格+u 先验信息的缺陷 获得外生的或先验的信息并不总是可行的。 即使我们能够获得这一信息,但要假设先验信息在当前研究的样本中依然有 效这个要求“太高”。 5、变量变换 有些情形,通过对模型中变量的变换能够降低共线性程度。 例如:在对美国总消费支出的研究中(总消费支出作为总收入和总财富的函 数),我们可以采取人均的形式,也就是说,作人均消费支出对人均收入和人均 财富的函数,有可能在总消费函数中存在严重的共线性问题,而在人均消费函数 中其共线性问题并没有那么严重。 不能保证这样的一个变换总能够有助于问题的解决。 例 假设我们具有消费、财富和收入的时间序列 将会出现严重的多重共线性,因为这些变量随着时间作同方向的运动 我们意欲估计 Yt = b0 + b1X1t + b2X2t + ut 在时间t-1处的模型: Yt-1 = b0 + b1X1t-1 + b2X2t-1 + ut-1 两个方程相减 Yt-Yt-1=b1(X1t-X1t-1)+b2(X2t-X2t-1)+vt 例 这样做有时会解决问题,因为和原始变量相比,变量的差分也许不再共线 但由此产生的问题是新的误差项v或许不再满足干扰项序列不相关的假设 例 在多项式回归中,常常会遇到多重共线性 我们可以将解释变量减去它的平均值,往往会减小多重共线性的程度 6、其他补救措施 时间序列数据和截面数据的结合 要素分析或主成分分析 岭回归法 逐步回归法 第七章 异方差 同方差假定:Var(ui)= σ u 2, i=1,2,„n 上式表明,各次观测值中u具有相同的方差,即各次观测所受到的随机影响 的程度相同,称为等方差性。 违反假定:异方差 假设方差随着观测数据而变化 就得到异方差性(heteroskedasticity) var(ui) = (σi)2 随着观测数据而变化 问题 异方差的性质是什么, 异方差的后果是什么, 如何检验异方差的存在, 如果存在异方差,有哪些补救措施, 异方差的性质 异方差的性质 异方差问题多存在于横截面数据中,在时间序列中出现较少。 规模效应:如果截面数据来自于一组规模差异很大的对象,在数据中就会存 在异方差性。比如,小公司、中等的公司、大公司;低收入家庭、中等收入家庭、 高收入家庭。 在时间序列数据中,变量趋于具有相似的数量等级。 例:工资与企业规模 平均工资随着厂商规模的增加而增加。见下表: 工资与企业规模 我们能指望工资的方差是不变的吗, 方差随着厂商规模的增加而增加 因此,厂商越大,支付的工资越多,但工资的变异性也更大(variability) 例:储蓄与收入 储蓄随着收入增加而增加,储蓄和支出的变异性也随着增加 随着收入增加,人们具有更多的可以自由支配的收入,因此具有处置收入的 更大的选择余地。 例:学习 由于学习,人们的行为误差越来越小,方差将逐渐减小。 随着打字时间的增加,每小时的打字错误逐渐减小。 错字率 时间 异方差的后果 OLS估计量仍然是线性的 OLS估计量仍然是无偏的 但无论是对大样本,还是小样本,OLS估计量不再具有最小方差性。也就是 说,OLS估计量不再是有效的。 根据常用估计OLS估计量方差的公式得到的方差通常是有偏的。 因此,建立在t分布和F分布之上的置信区间和假设检验是不可靠的。 异方差的检验 根据问题的性质 残差的图形检验 Park test Glejser test Goldfeld-Quandt test White检验 1、根据问题的性质检验 所考察问题的性质往往提供是否存在异方差的信息。 例如:根据Paris和Houthakker关于家庭预算的开创性著作,发现在消费对收入的回归中,残差方差随收入的增加而增加。现在一般相类似的调查研究通常假设不同随机干扰项的方差不等。 根据问题的性质检验 事实上,在涉及不均匀单位的横截面数据中,异方差可能是常有的情况而不是例外。 例如:在与销售、利率等相关的投资支出的横截面数据分析中,如果把小、中、大型公司聚集在一起加以抽样,就很可能存在异方差。 在对与产出相关的平均成本的横截面数据研究中,如果样本包括小、中和大型公司,也可能存在异方差。 2、残差的图形检验 干扰项方差是不可观测的,但是我们可以用残差平方来“代理”它。这是一种通过对残差进行分析得到有用信息的一种方法,称为残差分析法。这种方法在计量经济学中有着重要的应用。 将残差平方对一个或多个解释变量描图,或者对Y的估计值Y’描图,根据这样的残差图可以为判断异方差的存在提供线索。 残差平方模式 残差平方模式 a图:变量与残差平方之间没有可观察到的系统模式,表明数据中可能不存在异方差。 b~e图:数据中可能存在异方差 问题 对于多元回归方程,将残差平方对每个解释变量描图,可能只有一个变量表 现出b~e图的某个模式。 这时,我们可以将残差平方对Y的估计值Y’描图,而不必对每个解释变量描图。由于Y’是各个X的线性组合,残差平方和对Y’的散点图可能会出现b~e某种模式,表明数据中可能存在异方差。避免将残差平方对每个解释变量描图的繁琐过程。 Park test 如果通过考察残差发现了异方差性的证据,我们可以作一个检验 将方差对X变量回归 ln(??i)2=b1 + b2lnXi + vi Park test 方差未知 使用残差的平方作为代理变量(proxy) 作回归: ln(ei)2=b1 + b2lnXi + vi 如果是多元模型,则将残差的平方对每个X变量回归,或者对Y的预测值回归 如果 b2 是显著区别于0的,则表明模型有异方差性 Glejser test 与 Park test类似 将残差 ei 的绝对值对 X回归 回归的函数形式可以有所变化 可以对X的平方根或者倒数1/X 等进行回归 如果具有显著的t统计量,则表明有异方差性 Glejser建议的函数形式 | ei |=b0+b1Xi+vi | ei |=b0+b1 ( Xi )1/2 +vi | ei |=b0+b1 (1/ Xi ) +vi Glejser test注意 在Glejser所建议的回归方程中,误差项本身可能就存在异方差和序列相关问题。 对于大样本,上述模型能够很好的检测异方差问题。 Glejser检验可用作大样本的检测工具 Goldfeld-Quandt test 例 30个家庭的收入和消费支出的截面数据。假设消费与收入有线性关系,但数据中存在形式为 的异方差。 为了进行Goldfeld-Quandt 检验,用收入对数据排序,去掉中间的c=4个观测 : 分别对前13个和后13个数据进行回归,得到 由此结果,得到 在5%的显著性水平下拒绝同方差的零假设 Goldfeld-Quandt test 1、流行的检验方法,可用于小样本 2、去掉中间的C 个观测是为了强调大方差组(RSS2)和小方差组(RSS1)之间的差别。检验的效力(即如果零假设是不真实的而拒绝零假设的概率)依赖于C的选择。Goldfeld 和 Quandt 建议如果 n = 30, C=8 ,如果n = 60 C=16 (然而 Judge 等建议如果 n 分别是 30 和 60 , C 取 4 和10) White检验 假定模型:Y=b0+b1X1+b2X2+u White检验步骤: 用OLS估计回归方程,得到残差ei 然后作如下回归: ei 2 =A0+A1X1+A2X2+A3X1 2 +A4X2 2 +A5X1X2+v 求辅助回归方程的R2值。满足零假设,则不存在异方差。 White检验 White证明辅助回归方程的R2值与样本容量n的乘积服从X2分布,自由度等于辅助回归方程中解释变量的个数(不包括截距项) 如果X2值超过了所选显著性水平下的X2临界值,或者说X2值的p值很低,则可以拒绝不存在异方差的零假设,也就是说原回归方程存在异方差。 White检验 White检验的缺陷:过于一般化,如果有多个变量,则要在辅助回归方程中要包括这些变量、变量的平方(或者更高次幂)以及它们的就交叉乘积项,这会迅速降低自由度。 因此,必须谨慎地引入太多的变量,有时可以去掉交叉乘积项。 异方差的其他检验方法 Spearman秩相关检验 Bartlett方差同质性检验 Peak检验 Breusch-Pagan检验 CUSUMSQ检验 异方差的补救措施 (??i)2已知的加权最小二乘法(WLS) (??i)2未知时的变换 重新设定模型 加权最小二乘法(WLS) 假定(??i)2已知 考虑上述厂商的例子,假设模型具有异方差性 工资随着企业规模增加而增加,但是方差也随着增加 加权最小二乘法(WLS) 从一个基本的模型开始: Yi = b0 + b1Xi + ui Y = 工资 , X = 企业规模 假设干扰项的真实方差(??i)2 是已知的 在模型两边除以标准差: Yi/ ??i = b0(1/ ??i) + b1Xi/ ??i + ui/??i 令 : vi = ui/??i 加权最小二乘法(WLS) 考察干扰项 Var(vi)= E[(vi)2] = E[(ui)2/(??i)2 ] = E(ui)2/(??i)2 = 1 因此,vi 是同方差的,对变换后的模型使用OLS 会得到参数的BLUE 估计 加权最小二乘法(WLS) 变换后的模型: Yi/ ??i = b0(1/ ??i) + b1Xi/ ??i + ui/??i 是一个无常数项回归~ Eviews命令: Ls Y/ ?? 1/ ?? X/ ?? 加权最小二乘法(WLS) 从直观上看,加权最小二乘法很简单,但是有一个重要的问题:如何知道或者如何找出真实的误差方差(??i)2 , 在经济计量学的研究中,有关误差方差的信息是极少的,因此,如果想要使用WLS方法,常借助于似乎可靠的关于(??i)2的假设,把原来的回归模型变换为能够满足同方差假定的模型,然后运用OLS法估计该模型。 (??i)2未知时的变换 情形1:误差与Xi 成比例:平方根变换 情形2:误差与Xi 2成比例 情形1:误差与Xi 成比例:平方根变换 将残差平方对 Xi作散点图,发现为一个锥形 (??i)2 =K Xi 这表明干扰项方差与Xi线性相关 用Xi的平方根除模型,对模型进行变换 情形1:误差与Xi 成比例:平方根变换 这是一个没有常数项的回归。可以证明,该模型的干扰项是同方差的,因此可以使用OLS进行估计(实际上是WLS) 情形1:误差与Xi 成比例:平方根变换 如果模型中包括多个解释变量,可以根据图形找出合适的解释变量。 如果有多个解释变量都可以,就不使用任何解释变量,而是利用Y的估计值Y’作为变换变量,因为Y’是解释变量的线性组合。 情形2:误差与Xi 2成比例 残差平方对X作散点图,发现一个喇叭形 这表明干扰项方差与X的平方成比例 在模型的两边除以X,对模型进行变换 情形2:误差与Xi 2成比例 斜率变成了截矩,截矩变成了斜率。但是我们在估计出上面方程后还可以乘以Xi,回到原始模型 重新设定模型 除了“推测”以外,还可以重新设定回归函数,即选择一个不同的函数形式,这样也可以消除异方差。 例如:用双对数模型代替线性回归模型,常常能够消除异方差。 因为对数变换压缩了测定变量的尺度,从而把两个变量值之间10倍差异缩小为2倍差异。 90是9的10倍,但ln90(=4.4998)只有ln9(=2.1972)的两倍 实例:规模经济 纽约股票交易所(NYSE)最初极力反对经纪佣金率放松管制。在引入放松管制以前(1975年5月),NYSE向股票交易委员会(SEC)提交了一份经济计量研究报告,认为在经纪行业中存在着规模经济,因此(由垄断决定的)固定佣金率是公正的。NYSE所提交的经济计量分析基本上是围绕着以下回归函数进行: 规模经济 Y’=476000+31.348X-(1.083*10 -6)X2 t= (2.98) (40.39) (-6.54) R2 =0.934 其中,Y’=总成本,X=股票交易的数量 从模型中可以看出,总成本与交易量正相关。但是由于交易量的二次方项系数为负,并且统计显著,这意味着总成本是以一个递减的速率增加。因此,NYSE认为在经纪行业中存在着规模经济,从而证明NYSE的垄断地位是正当的。 规模经济 然而美国司法部反托拉斯局认为上述模型中所声称的规模经济只是幻想。因为上面函数存在异方差问题。这是因为在估计成本函数时,NYSE并未考虑到样本中所包括的小公司和大公司的差别,也就是说,NYSE没有考虑到规模因素。假设误差项与交易量成比例,反托拉斯局重新估计方程得到如下结果 规模经济 Y’=342000+25.57X+(4.34*10 -6)X2 t= (32.3) (7.07) (0.503) 二次项系数不仅统计不显著,而且其符号也发生了变化,因此在经纪行业中不存在规模经济,这就推翻了NYSE的垄断佣金结构的论点。 第八章:自相关 无自相关假定: Cov(ui, uj)=0, i ? j, i,j=1,2„..n 表明任意两次观测的ui, uj是不相关的,即u在某次的观测值与任何其它 次观测中的值互不影响,称为无序列相关性。 违反:自相关 问题 自相关的性质是什么, 自相关的原因是什么, 自相关的理论与实际后果是什么, 如何诊断自相关, 如果自相关的后果比较严重,如何采取措施加以补救, 自相关的性质 自相关问题通常是与时间序列数据有关 在横截面数据中也可能产生自相关问题,称为空间相关 某一季度工人罢工对本季度及下一季度产出影响 某一家庭消费支出与另一家庭的消费支出 自相关产生的原因 惯性 模型设定误差 蛛网现象 数据加工 惯性 大多数经济时间序列的一个显著特征就是惯性或者说是迟缓性。 经济变量中表现出的一种持续的趋势 许多经济变量都表现出商业循环 比如:国民生产总值、就业、货币供给、价格指数 比如:在经济复苏时,在这些变量中,具有某种内在的力量,使得前后期的数值之间相互依赖,后一期数据倾向于高于前一期数据,直到发生某些事件使增长停下来为止 一个高的正的干扰之后会在下一期跟着一个高的正的干扰 因此,在涉及时间系列数据的回归方程中,连续的观察值之间很可能是相关的 模型设定误差 模型的不恰当设定意味着由于本应包括在模型中的重要变量未包括进模型中(过低设定的情形),或者是模型选择了错误的函数形式。 由于模型设定误差,从不正确的模型中得到的残差将会呈现系统模式。 假设我们在考察牛肉的需求,并将牛肉的价格和收入包括在模型中,但是不包括猪肉的价格 如果猪肉的价格确实影响牛肉的需求,干扰项将包括这个系统效应,从而表现出自相关 蛛网现象 农产品供给:Yt=b0+b1Xt-1+u t 数据加工 在实证分析中,通常需要加工原始数据 季度数据是由月度数据加总后平均得到。 自相关的后果 最小二乘估计量仍然是线性和无偏的 但不再是有效的。 OLS估计量的方差是有偏的。有时候,用来计算方差和OLS估计量标准差的 公式会严重低估真实的方差和标准差,从而导致t值变大,这会使的从表面上看 某个系数显著不为0,但事实并非如此。 因此,通常所用的t检验和F检验一般来说是不可靠的。 通常计算的R2不能测度真实R2 自相关的诊断 残差图形法 游程检验 杜宾—瓦尔森检验 残差图形法 作残差对时间的散点图 检查残差随时间的变动模式 作残差对滞后残差(lagged residuals)的散点图 检查在一个和两个象限中的散点分布串 残差图形法 残差图形法 自相关可以分为: 正自相关:相邻的误差项倾向于共同上升,或共同下降 负自相关:相邻误差项呈现出一增一减的运动模式 零自相关:误差项之间不相关,也称序列不相关,此时满足基本假设 残差图形法 游程检验 是一种正式的非参数检验的方法 游程:同一符号或属性的不间断历程 游程长度:游程中正负交替的个数。 如果你预期残差是随机的,那么正负残差是随机混合在一起的 如果残差是相关的,那么,就可能出现一组正的残差跟着一组负的残差的情况 例 例子:(,,,,,,,)(,)(,,,)(―――――)(,,,,) 共有5个游程:一个7个正值的游程,一个1个负值的游程,一个3个正值的游程,一个5个负值的游程,一个4个正值的游程 问题 与预期相比,从这20个观察值中所观察到的5个游程是太多了还是太少了, 如果游程太多,意味着残差在频繁地变换着符号,表明存在着负序列相关。 如果游程太少,意味着正的自相关。 游程检验 N—观察值的总个数(= N1 + N2 ) N1—+号(正的残差)个数 N2—-号(负的残差)个数 k—游程个数 游程临界值:在残差是独立的假设下,Swed和Eisenhart建立了一些特殊的表格,给出在N个观察值的随机次序下预期游程的临界值。 例 N=20, N1 =14, N2 =6,k=5 对于5%的游程临界值为5 如果实际游程个数等于或者小于5,则拒绝假设(即残差是随机的),存在自相关。 本例中,实际游程个数是5,因此拒绝残差随机的假设,换言之,本例存在自相关 杜宾—瓦尔森检验(Durbin-Watson Test) 这是一个使用得最多、而且简单易行的检验 DW统计量: 杜宾—瓦尔森检验 几乎所有的计量经济学软件都提供DW统计量的数值 比如,在Eviews的回归报告中 Eviews回归结果 DW统计量的基本假设 回归模型需包括一个截距项。因此,DW统计量无法用来判定通过原点的回 归模型的自相关问题。 变量X是非随机变量,也就是说,X是在重复抽样中固定的值。 DW统计量的基本假设 随机干扰项的产生机制是: ut = ????ut-1 + vt 其中, -1< ???? < 1,称为自相关系数(coefficient of autocorrelation) v t:服从基本假设,不存在自相关 干扰项在第t期的数值依赖于第t-1期的误差项的数值加上某个随机项 对过去的依赖由自相关系数??表示 DW统计量的基本假设 该过程称为马尔可夫一阶自回归或一阶自回归,记为AR(1) 一阶是指只有一期的滞后(lagged one period) 在许多计量经济工作中,都假设 AR(1) 过程,因为它较容易处理 DW统计量的基本假设 在回归方程中,没有把因变量的滞后值作为解释变量。换言之,该检验对下 面的模型不适用: Yt=b0+b1X+b2Yt-1+ut h统计量 杜宾—瓦尔森检验 D统计量的数值在 0 和 4之间 越靠近0,越表示有正自相关 越靠近4,越表示有负自相关 越靠近2,越表示无自相关 杜宾—瓦尔森检验 可以查DW临界值表,进行更准确的检验 对于N = 27, 4个解释变量,查表的上下两个临界值: dl,1.08, du,1.76 0 2 4 dl du 4-dl 4-du 零自相关 负自相关 无结论 无结论 正自相关 自相关补救措施 假设干扰项服从 AR(1)过程 ut = ????ut-1 + vt v t:服从基本假设,不存在自相关 原模型为: Yt = b0 + b1Xt + ut (1) 滞后一期的模型为 : Yt-1 = b0 + b1Xt-1 + ut-1 用 ??乘两边 ??Yt-1 = ??b0 + ??b1Xt-1 + ??ut-1 (2) 模型变换 两个式子相减(1),(2) : Yt- ??Yt-1 =b0(1- ??) + b1(Xt-??Xt-1)+ ut- ??ut-1 其中, vt = ut ,??ut-1,服从基本假设,不存在自相关 因此,可以采用 OLS 估计该模型 这个方程称为广义差分方程 可以将这个方法用于更高阶的过程. 如何估计??, 几种估计??的方法 一阶差分法 用 DW 统计量估计?? 用最小二乘残差估计 Hildreth-Lu搜索法 其他估计方法 一阶差分法 假设 ?? = 1 这个假设对许多经济时序数据是成立的 误差项是完全正自相关的 广义差分方程退化成了一阶差分方程 模型变为:Yt- Yt-1 = b1 (Xt - Xt-1) + vt 该模型没有截矩项 因此,原来的常数项无法估计 用DW统计量估计?? 用 DW 统计量估计?? d = 2(1-??) ?? = 1-(d/2) 用最小二乘残差估计 用最小二乘残差估计 et = ??et-1 + vt 作该回归,估计?? Hildreth-Lu搜索法 设 ??取某些数值,并用这些值估计广义差分过程 挑选一个使残差平方和(RSS)最小的??值 其他估计方法 Cochrane-Orcutt迭代法 Cochrane-Orcutt两步法 Durbin两步法 最大似然法 例 US的数据( 1970-1987),估计以下模型 : Yt = b0 + b1Xt + ut Yt 是NYSE的股票价格指数 Xt 是 GNP ( 十亿美元) 估计结果: Y = 10.78 + 0.025 X t (1.17) (7.47) R2 = 0.77 DW = 0.4607 数据 分析 查DW 临界值 n=18, k=1 5% 的临界值是:dl,1.158 ,du,1.391. 因为 dw 统计量的计算值低于这两个值,所以存在正自相关 补救措施 从dw 统计量计算 ?? 的数值 : ?? =1-(d/2) = 1-(0.4618/2) = 0.7691 估计广义差分方程 : Yt-0.77Yt-1=b0(1-0.77)+b1(Xt-0.77Xt-1) +vt 需要定义新变量:Y-0.77Y(-1), X-0.77X(-1) Eviews命令: Genr LY,Y-0.77Y(-1) Genr LX,X-0.77X(-1) Ls LY C LX 因为有一期滞后,所以失去了第一期的数据 结果 结果: Y = -26.901 + 0.038X t (-0.89) (4.48) R2 = 0.572 d = 1.362 从d的数值看,自相关要好多了 其他补救措施 可以用残差来估计?? 估计: et = ?? et-1 + vt 结果: et = 0.8923et-1 所以, ??的估计为0.8923 然后,代入广义差分方程,回归 分析 估计广义差分方程 : Yt-0.89Yt-1=b0(1-0.89)+b1(Xt-0.89Xt-1) +vt 需要定义新变量:Y-0.89Y(-1), X-0.89X(-1) Eviews命令: Genr LY,Y-0.89Y(-1) Genr LX,X-0.89X(-1) Ls LY C LX 因为有一期滞后,所以失去了第一期的数据 补救措施 一阶差分法 LS y c x ar(1) 小结 在存在自相关情形下的OLS估计量,尽管是无偏的,但不是有效的,换言之, 它们不是最优线性无偏估计量 在马尔可夫一阶自回归,AR(1)假定下,通常计算的OLS估计量的方差和 标准差可能存在严重偏差。 标准显著性检验可能存在严重误导性 小结 诊断自相关的方法: 残差图形检验 游程检验 杜宾—瓦尔森检验 小结 补救措施:(估计?? ) 一阶差分法 用 DW 统计量估计?? 用最小二乘残差估计 Hildreth-Lu搜索法 其他估计方法 第九章:滞后变量模型 外生滞后变量模型(分布滞后模型) 内生滞后变量模型(自回归模型) 滞后变量模型 滞后变量:回归模型中被解释变量或解释变量的时间滞后(前期)量。 如解释变量X的现期记Xt,则Xt-1,Xt-2„称为的Xt滞后变量 被解释变量Y的现期记Yt,则Yt-1,Yt-2„称为的Yt滞后变量 滞后变量模型:若回归模型中包含滞后变量作为解释变量,则此回归模型叫 做滞后变量模型。 滞后变量模型 外生滞后变量模型:又称分布滞后模型 例如:Y=a0+b0Xt+b1Xt-1+b2Xt-2+„+ut 内生滞后变量模型或自回归模型: 例如: Y=a0+b0Xt+b1Yt-1+b2Yt-2+„+ut 滞后变量样本 分布滞后模型 如果s是有限数,称为有限分布滞后模型; 如果s是无限数,称为无限分布滞后模型 自回归模型 如果在模型的右端包含因变量的滞后值,则模型称为自回归模型 例如: 分别称为一阶自回归模型和二阶自回归模型 例:滞后消费函数 称为分布滞后消费函数。 含义: 本期的消费Yt不仅依赖于本期的收入Xt,还依赖于过去s个时期 的收入:Xt,1、Xt,2,„„ Xt,s 这样,就将时间因素引入了模型,使模型具有了动态的特征。 例:固定资产存量 其中,Kt——固定资产存量,It——投资 例:蛛网模型 农产品的生产决策和产出之间有滞后,供给量是上一期价格的函数: 如果农场主的是按照前几年的价格来决策,则有 问题 由于存在滞后值,所以要损失若干个自由度。 如果滞后时期长,而样本较小的话,自由度损失就较大,有时甚至无法进行 估计 通常一个变量的滞后变量之间共线问题严重,影响估计量的精度 解决办法:对系数施加约束条件,减少待估参数的数目 时间滞后效应 例子:考察分布滞后模型(t,1950,1990) y=10+2*x+x(-1)+0.5*x(-2)+0.25*x(-3)+0.125*x(-4) +0.0625*x(-5)+0.03125*x(-6) 这里,假设X的系数按照:2、1、 0.5、 0.25、 0.125、 0.0625、 0.03125 递减,表示距离现在越近,X的影响越大 作以下两个模拟试验 模拟1:1960年X增加1,其他年份为0 结论: 在某一年(60年)的一个冲击,要经过若干期(6年)才能减退。 分布模型中,各个X的系数正好就是分布滞后的效应。 模拟2:1960年以前X为0,以后为1 结论: X在某一年(60年)突然上涨到一个新的水平。但这种变化在Y上并没有马 上体现出来,而是要经过若干年(6年) 分布模型中,各个X系数的和恰好是Y的总的变化。 总乘数,3.96875,平均滞后时间=0.<944882 有限分布滞后模型的估计 模型: 宗旨是对分布滞后参数b1„„bs施加约束,减少待估变量的个数 对b施加约束的方法 经验权数法 等权滞后 递减滞后 倒V形滞后 ALMON多项式法——一种灵活的方法 经验权数法 经验权数法:从经验出发为滞后变量指定权数,即指定滞后变量的系数以权 数值,使滞后变量按权数线性组合,构成新的变量W,进而对其使用OLS估计参 数。 、等权滞后形式 1 等权滞后形式:也称矩形滞后形式,在这种形式中假定权数都相等,也就是 说X的逐次滞后值对Y的影响相同。 例如:指定权数为1/3 Wt=1/3Xt+ 1/3Xt-1+ 1/3Xt-2 „+ 1/3Xt-s 2、递减滞后形式 假定权数是递减的,即X的近期对Y的影响较远期大。 例如消费需求函数中,现期收入对消费需求的影响大,越滞后影响越小。 比如指定递减权数为1/2,1/4,1/6,1/8„ Wt=1/2Xt+ 1/4Xt-1+ 1/6Xt-2 + 1/8Xt-3+ „ 3、倒V型滞后形式 假定权数先递增后递减形成^型,即倒V型。 如指定权数1/10,1/6,1/4,1/2,1/7,1/12„ Wt=1/10Xt+ 1/6Xt-1+ 1/4Xt-2 + 1/2Xt-3 + 1/7Xt-4 + 1/12Xt-5 „ 得到Wt后 将模型 变为Yt=a0+a1Wt+ut 对之使用OLS ALMON多项式法基本步骤 第一步:对参数b项作ALMON多项式变换,即用一个多项式表示b bk=a0+a1k+a2k2 +„+arkr (r<s) 一般,r=3或r=4 得到各参数b的线性函数,称为b方程组 如果知道a值,就很容易得到b ALMON多项式法基本步骤 第二步: Yt=a+a0Xt+(a0+a1+„+ar)Xt-1 +(a0+2a1+a2*22 +„+ar*2r )Xt-2 +„+ (a0+s*a1+a2*s2 +„+ar*sr ) Xt-s + ut 整理: Yt=a+a0(Xt+Xt-1+Xt-2 „+Xt-s)+ a1(Xt-1+2Xt-2 „+sXt-s)+ a2(Xt-1+ 22 *Xt-2 „+ s2 Xt-s)+„+ ar (Xt-1+ 2r *Xt-2 „+ sr Xt-s) + ut ALMON多项式法基本步骤 记: W0t= Xt+Xt-1+Xt-2 „+Xt-s W1t= Xt-1+2Xt-2 „+sXt-s W2t= Xt-1+ 22 *Xt-2 „+ s2 Xt-s „„„ Wrt= Xt-1+ 2r *Xt-2 „+ sr Xt-s ALMON多项式法基本步骤 Yt =a+a0W0t+a1W1t+a2W2t+„+arWrt+ ut 第三步:对上式用OLS估计各a值 根据bk=a0+a1k+a2k2 +„+arkr进一步求得各b值 几种方法的优缺点 优点: (1)减少了待估参数,因此减小了多重共线的程度。经验权数法减少了 s 个,almon 多项式法减少了s,r个。 (2)方程的变换并没有改变干扰项的形式,没有引入自相关的问题,可以 用 ols 法直接估计变换以后的方程。 ,k)个观测可以用于估计。 缺点:样本的损失并没有减少,只有(n 内生滞后变量模型 外生滞后变量模型经过变换后往往成为内生滞后变量模型。 Koyck变换模型 局部调整模型 适应性期望模型 1、Koyck变换模型 内生变量模型X的滞后期有时无法确定,是无限的,模型的形式为 显然,观测数据是有限的,要直接估计模型中的无限个参数是不可能的,必 须对参数进行限制。 Koyck变换 Koyck假设:bi随着i按照几何级数递减 相当于假设本期的影响最大,越往后的影响越小。在多数情况下,这样的假 设是合理的。 Koyck变换 Koyck变换特点 以一个滞后被解释变量Yt-1代替了大量的滞后解释变量Xt-i,(i=1,2,„), 解决了滞后期长度难以确定的问题。 滞后一期的被解释变量Yt-1与Xt的线性相关程度,可以肯定小于X的各期 滞后量之间的相关程度,从而大大降低了多重共线性。 新问题 λut-1存在一阶自相关 新模型的干扰项Vt=ut- 滞后被解释变量Yt-1与随机项Vt存在相关性 局部调整模型 适应性期望模型 三种模型产生的问题 Koyck模型、局部调整模型和适应期望模型,形式上都是自回归模型: Yt=a+bXt+cYt-1+vt Koyck模型: vt=ut-??ut-1 局部调整模型: vt=??ut 适应期望模型: vt=ut- (1-??) ut-1 三种模型产生的问题 (1)Koyck模型和适应期望模型的干扰项变成了移动平均的形式,产生了 自相关的问题; (2)方程的右端有滞后因变量,它与干扰项相关,采用 ols 会造成估计值 的不一致性和有偏性。 局部调整模型可以采用OLS估计 Koyck模型和适应期望模型则需采用工具变量法(主要克服问题(2)) 工具变量法 Yt=a+bXt+cYt-1+vt 问题:Yt-1和vt相关,使得OLS估计有偏,且 不一致。 解决办法:找一个变量Zt,和vt不相关,但和Yt-1高度相关,用Zt代替 Yt,1: Yt=a+bXt+cZt+vt 用OLS估计,可得到a,b,c的一致估计 工具变量法 Zt的一个例子: Zt=b0+b1Xt-1+„+bsXt-s 是对X滞后值的回归 其中s适当选取 第十章:模型选择:标准与检验 隐含假定模型是“对现实的真实反映” 专业地说,假定所选模型中不存在设定偏差或者设定误差 问题 “好的”或者“正确”的模型有哪些性质, 存在哪几种类型的设定误差, 设定误差的后果是什么, 如何诊断设定误差, 一、“好的”模型具有的特性 经济计量学家哈维(A.C.Harvey)列出如下标准: 节省性: 可识别性: 拟合优度 理论一致性 预测能力 1、节省性 节省性:一个模型永远也无法完全把握现实,在任何模型的建立过程中,一定程度的抽象或者简化是不可避免的。 2、可识别性 可识别性:即对给定的一组数据,估计的参数必须具有唯一值,或者说每个参数只有一个估计值。 、拟合优度 3 拟合优度:回归分析的基本思想是用模型中所包括的解释变量来尽可能地解释被解释变量的变化。 4、理论一致性 理论一致性:无论拟合优度有多高,一旦模型中的一个或多个系数的符号有误,该模型就不能说是一个好的模型。 5、预测能力 预测能力:“对假设(模型)的真实性唯一有效的检验就是将预测值与经验值比较” 二、设定误差的类型 遗漏相关变量:“过低拟合”模型 包括不相关变量:“过度拟合”模型 不正确的函数形式 1、遗漏相关变量:“过低拟合”模型 假定“真实”模型如下: Yt=b0+b1X1t+b2X2t+ut 估计方程: Yt=a0+a1X1t+vt 遗漏变量偏差 动态设定偏误(dynamic mis-specification):遗漏相关变量表现为对Y 或X滞后项的遗漏 。 遗漏变量X2产生的后果 如果遗漏变量X2与模型中的变量X1相关,则是a0 ,a1有偏的,用符号表 示: E(a0) ? b0, E(a1) ? b1 E(a0) = b0 +b2 (X2p- b21 X1p) E(a1) = b1 +b2 b21 b21是遗漏变量X2对变量X1的斜率系数 遗漏变量X2产生的后果 a0 和a1是不一致的,也就是说,无论样本容量有多大,偏差都不会消失 如果X2和X1不相关,即b21为0,则a1是无偏和一致的。 误差的方差是有偏的 估计量的方差是有偏的 通常的假设检验不再有效 例:进口支出函数 “真实”模型: Y’=-859.92+0.6470X1t-23.195X2t se=(111.96) (0.0745) (4.2704) t= (-7.6806) (8.6846) (-5.4316) R2 =0.9776 Y:进口支出 X1:个人可支配收入(PDI) X2:时间或趋势变量,取值从1开始 例:进口支出函数 错误设定的模型: Y’=-261.09+0.2452X1t se=(31.327) (0.0148) t= (-8.334) (16.5676) R2 =0.9388 结果分析 错误设定模型低估了真实的边际进口支出倾向 X2t=-25.817+0.0173X1t t= (-23.999) (34.177) R2 =0.9848 b21 =0.0173 结果分析 截距有偏,高估真实值 斜率和截距的标准差不同 2、包括不相关变量:“过度拟合”模型 非相关变量:指没有具体的理论表明应该把该变量包括到模型中的变量。 研究人员不确定某些变量在模型中的作用 经济理论不完善 包括不相关变量:“过度拟合”模型 正确设定模型: Yt=a0+a1X1t+vt 过度拟合的模型 Yt=b0+b1X1t+b2X2t+ut 过度拟合的后果 错误设定模型的OLS估计量仍然是无偏的。其中,E(b2)=0。(因为X2t不应属于正确模型) 误差方差的估计值是正确的 置信区间和假设检验仍然是有效的 但过度拟合模型中的估计量不是有效的。通常,它们的方差比真实模型中估计量的方差大。简言之,OLS估计量是线性无偏估计量,但不是最优线性无偏估计量。 思考 包括不相关变量比排除相关变量要好一些, 不必要变量的增加会减少估计量的有效性(更大的标准差),也可能导致多重共线性问题,同时还会引起自由度的损失。 3、不正确的函数形式 在建立模型时,不仅要把理论上相关的变量包括到模型中,而且要选择适当的函数形式。 例:进口支出函数 ln Yt=b0+b1lnX1t+b2X2t+ut 回归结果: 回归结果 lnY’=-23.727+3.8975lnX1t-0.0526X2t se=(4.4314) (0.6031) (0.0167) t= (-5.3542) (6.4623) (-3.154) R2 =0.9763 Y:进口支出 X1:个人可支配收入(PDI) X2:时间或趋势变量,取值从1开始 三、诊断设定误差:设定误差的检验 检验是否含有无关变量 检验是否有相关变量的遗漏或函数形式设定偏误 1、检验是否含有无关变量 可用t 检验与F检验完成。 检验的基本思想:如果模型中误选了无关变量,则其系数的真值应为零。因 此,只须对无关变量系数的显著性进行检验 t检验:检验某一个变量是否应包括在模型中; F检验:检验若干个变量是否应同时包括在模型中 2、检验是否有相关变量的遗漏或函数形式设定偏误 残差图示法 一般性设定偏误检验 同期相关性的Hausman检验 线性模型与双对数线性模型的选择 1、残差图示法 残差序列变化图 残差序列变化图 (左图)模型变化:模型设定时可能遗漏了一随着时间的推移而持续上升的 变量 (右图)循环变化:模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量 函数设定偏误 模型函数设定偏误时,残差序列呈现正负交替变化。 如图:一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。 2、一般性设定偏误检验:RESET检验 RESET检验: 更准确更常用的判定方法 拉姆齐(Ramsey)于1969年提出 基本思想:如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不为零即可; 问题是不知道遗漏了哪个变量,需寻找一个替代变量Z,来进行上述检验。 RESET检验中,采用所设定模型中被解释变量Y的估计值??的若干次幂来充当该“替代”变量。 RESET检验 先估计Y=a0+a1X1+u得: RESET检验 RESET也可用来检验函数形式设定偏误的问题。 例如:在一元回归中,假设真实的函数形式是非线性的,用泰勒定理将其近似地表示为多项式: RESET检验函数设定偏误 因此,如果设定了线性模型,就意味着遗漏了相关变量X12、 X13 ,等等。 因此,在一元回归中,可通过检验上式中的各高次幂参数的显著性来判断是 否将非线性模型误设成了线性模型。 3、同期相关性的Hausman检验 由于在遗漏相关变量的情况下,往往导致解释变量与随机扰动项出现同期相关性,从而使得OLS估计量有偏且非一致。 Hausman检验的基本思想:对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代。 4、线性模型与双对数线性模型的选择 无法通过判定系数来决策,因为两模型中的被解释变量不同。 可以使用Box-Cox变换来比较 Box-Cox变换步骤 计算被解释变量Y的样本的几何均值Y’ 用几何均值Y’去除原被解释变量Y得到被解释变量的新序列Y*(Y*=Y/Y ’ ) 用Y*代替Y,分别对线性模型和双对数线性模型进行估计,通过比较它们的残差平方和是否有显著差异来判断。 Box-Cox变换 Zarembka提出的检验统计量为: 其中,RSS1和RSS2分别为较大和较小的残差平方和,n为样本容量 可以证明:该统计量在两个平方和无差异的假设下,服从自由度为1的X2分布 因此,拒绝原假设时,选择RSS2的模型
本文档为【计量经济学课件全】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_569018
暂无简介~
格式:doc
大小:210KB
软件:Word
页数:0
分类:金融/投资/证券
上传时间:2017-10-15
浏览量:44