第四章_从数理统计到古典回归模型

第四章_从数理统计到古典回归模型第四章从数理统计到古典回归模型案例4-1：人类天生的统计本能在基因上，我们仍和未开化的土著人很接近。我们信念的形成，充满着迷信——即使今天也不例外，甚至尤以今天为甚。某一天，原始部落的某个人摸鼻子后不久，天开始下雨，于是他煞费苦心地发展出一套抓鼻子祈雨的方法。同样地，我们会把经济的繁荣归功于中央银行降低利率。或者一家公司的经营成功和新总裁走马上任有关。类似风马牛不相及的事件屡屡被我们扯上联系，并导致我们在人生的重要抉择关头步步踏错，先机尽失。我们所受的教育和文化，骗我们去相信科学和逻辑进入现代生活时，迷信就...

第四章从数理统计到古典回归模型案例4-1：人类天生的统计本能在基因上，我们仍和未开化的土著人很接近。我们信念的形成，充满着迷信——即使今天也不例外，甚至尤以今天为甚。某一天，原始部落的某个人摸鼻子后不久，天开始下雨，于是他煞费苦心地发展出一套抓鼻子祈雨的方法。同样地，我们会把经济的繁荣归功于中央银行降低利率。或者一家公司的经营成功和新总裁走马上任有关。类似风马牛不相及的事件屡屡被我们扯上联系，并导致我们在人生的重要抉择关头步步踏错，先机尽失。我们所受的教育和文化，骗我们去相信科学和逻辑进入现代生活时，迷信就会自然消除。但是随着我们的智力与日俱增，随机现象却源源不绝而来，我们变得越来越迷信。哈佛大学心理学家Skinner做过一个关老鼠和鸽子的笼子，笼子有个开关，鸽子可以用喙去操作。此外，有个电动装置会把食物送进笼子里。1948年，他以随机的方式送食物给非常饥饿的鸽子。随后他观察到鸽子表现出相当惊人的行为。它们根据内在根深蒂固的统计机制，发展出极其复杂、有如祈雨般的舞蹈行为；有只鸽子会对着笼中特定的一角有规律地摇头，另一只鸽子会以逆时钟方向转头。几乎每一只鸽子都发展出一种与获取食物联结起来的特别仪式，慢慢地固定到它们心里。有那么一段时间，我迷上了炒股，每天早上搭黄色出租车去证券公司，有一天，不幸却搭上一辆红色出租车，司机还不知道他要去的地方，我试着要他从央行门口往南走，但他顽固地再往南多走了一个街区，我被逼得只好利用后门口进入证券公司，那一天，我操作的投资组合赚了很多钱，那是我年轻时最美好的一天。隔天，一切如常，我在校门口等那辆出租车，前一天的红色出租车和那个顽固的家伙却不见踪影。真是不巧，因为我有个无法解释的念头，想要谢谢那天他对我做的好事，还想多给他一点钱。我好不容易等到一辆红色的出租车，上车后我告诉新司机载我绕到证券公司的后门，也就是前一天下车的那个地方。。。。进了公司，迎面有个镜子，看着自己，发现仍然装着昨天那件沾了污渍的衬衣。我体内有另一个我，显然相信从这个入口上楼、装这件脏衣服、坐与前一天一样的车、走同样的入口与股票的市场走势之间有强烈的因果关系存在。我为自己的行为举止像个骗子，犹如扮演别人角色的演员一样而哑然失笑。有些赌徒相信赌博的结果和某些身体动作之间有一些不自然的关联，据而发展出一些扭曲的行为。我出现了所谓的“赌徒的迷信”。虽然细微且难以察觉，却正在迅速累积。我们的心似乎一直想找出某种统计上的关联，在理性上我们知道这种统计关联是骗人的，因为样本很小。但是这种天生的统计本能，并没有因为我在假说检验上的专长而有所抑制。 ——纳西姆。塔勒布，《随机致富的傻瓜》，中信出版社概率论是已知总体，即已知DGP或者分布函数，求随机变量取特定值或者落在特定区域内的可能性。而数量统计是未知DGP或分布函数，面对一个黑箱，根据从黑箱中取出的东西来推测黑箱中的DGP或者分布函数的类型以及未知参数的取值。 SHAPE \* MERGEFORMAT 案例4-2：统计小史 1085年，《末日审判》（Domesday）统计了田地名称、拥有者、面积、可耕地面积、牛群数量、土地价值…….，但国王威廉没有将这些数据用于任何地方，900年来，他一直是研究的对象。英国的格朗特（Graunt,1620-1674）对这样一个问题很感兴趣“谁活着？谁死了，为什么死了？”，他研究了死亡公告，分析了1604-1661年的数据（），书中写道：“大多数人只是找找奇怪的事，看看离奇的死亡，仅此而已”。谋杀很受关注，但是格发现，在229250例死亡中，只有86人死于谋杀，谋杀不是残废的主要原因。人们还认为，“瘟疫伴随着一个新王朝的开始”，格证明这种看法是错误的。国王查理三世出面举荐他加入皇家学会。哈雷预言哈雷慧星将于1758年返回，他对天文着迷，个人的拥有的仪器足以成立一个天文台。它没毕业就到南大西洋的一个小岛上，准确地测量了300多颗恒星，他描绘了第一张世界海洋地图，标明了风向，其中包含的信息对每一位船长都有重要价值。他提问“40岁的男人再活7年的概率是多大”？并编出了第一年生命表，资助牛顿出版了科学史上最有影响的著作《自然哲学的数学原理》。费希尔（Fisher,1890-1962）是现代统计学的奠基人，1925年出版《研究工作者用的统计方法》，提出随机化的实验设计。休哈特（Shewhart,1891-1967）提出质量控制，戴明（Deming）将其发扬光大。应用于流行病学、斯诺（Snow,1813-1858）发现霍乱与水源的关系。另用于人口普查，民意调查等。一、问题的提出天安门城楼到底有多高，其“真实”的高度究竟是多少？恐怕没有人能够给出完全精确的答案，即使给出来也未必令人信服。尽管实践是检验真理的唯一标准，然而如果我们去测量，每次测量的结果都会不同，应该相信哪一次的结果呢？测量很多很多次是否有帮助？如何来处理这很多次的测量结果，以便最好地逼近真实高度？上述问题可以转化为如下的数学模型：其中为天安门城楼的高度，当然是一个客观存，有唯一精确值的未知数。而u为测量误差，是一个随机变动的随机数。y为测量结果。显然只有y是能够观察到的，而真实高度与误差却无法观察到的，核心问题就是如何用观察到的y来求得未知的？总体是任何一种定义良好的一种对象的全体，如全部人民大学的学生不是一个定义良好的总体，而全部人民大学学生的高考成绩是一个定义良好的总体。天门安城楼高度的所有测量结果也是一个定义良好的总体（无限总体）。总体也是一种数据生成机制（DGP，data generating process），如天门安城楼高度的测量结果由这一机制生成，既然u为随机变量，则它有相应的矩，假设其方差为。二、样本最容易理解的抽样是从有限总体中抽取一个样本，比如从100个混有红球和黑球的暗箱中摸出8个球来。有限样本的抽样又分为放回和不放回两种，如果放回，则同一个球可能被抽中两次。从无限总体中抽取一个样本可被视为某个数据生成过程（DGP）的一次实现。比如天门安城楼高度的测量结果y是一个无限总体，某一次的测量结果可视为按照公式所确定的数据产生机制生成一个数据yi。相应地n次测量的结果可被视为一个n维随机向量（样本）表格 4‑1：随机抽样：抽得任何一个样本的概率相同 y y1 y２ … yn 第一次抽样y1 y11 y12 … y1n 第二次抽样y1 y21 y22 … y2n … … … 第m次抽样ym ym1 ym2 … ymn 样本联合概率密度：已知随机变量Y,从该总体中随机的取一个容量为n的样本，其联合概率密度为fJ(Y1,Y2,Y3,…,Yn)。同分布：指总体服从同一种分布。想象一下，箱子中既有不同重量的红球（假设重量服从正态分布f1(Y)），也有不同重量的绿球（假设其重量服从指数分布f2(Y)），于是从这个箱子里随机抽取的球不是同分布的。如果箱子中只有红球，则是同分布的。简单随机抽样：是指每个样本被抽取的可能性等同，也就是事前不知道会抽中哪个样本，每个样本都有同样的可能被抽中，否则，就不能算做随机抽样。想像上面的例子，不论是很重的球还是很轻的球，也不论是红球还是绿球，更不论服从什么分布，反正每个球被抽中的概率都一样。比如箱中共有100个球，则每个球被取出的可能都为0.01。再如街头拦访，老出门在外的或老在家的人被抽中的概率就不一样，是一个明显的非随机样本。独立：独立，指的是各个试验或观察得到的样本间是相互独立的。独立和随机是两回事，随机样本并不一定相互独立，而相互独立的两个样本并不一定随机。独立性要求每一次取球的结果不影响另一次取球的结果，如果取出一个红球，下一次总是又取出一个红球，则不独立。同样，如果取出一个很重的球，下一次总取出一个很轻的球，再下一次又取出一个很重的球，这种的样本不独立。案例4-3：独立性与Polya过程阿瑟提出波利亚过程（polya process），假设有个盒子，起初装有等量的黑球和红球，每次取球之前，得先猜测取出来的是哪个颜色，而猜对的概率取决于前面猜对的记录，先前猜对的话，后来继续猜对的概率会提高，仿真这种结果，可以看出结果变异非常大，有极多的成功，也有极多的失败。在常见的模式中，玩家是把取出的球放回去后再猜下一次会取到哪种颜色的球，假设你这次猜对了，这会提高你下次赢的概率吗？不会，但波利亚过程会，为什么这在数学上极难处理？原因出在独立性的观念被破坏。独立性是指每一次取球时，都不受先前的结果影响，它是处理概率数学的必要条件。沙堆现象不断地把沙加到顶端来盖座沙堡，我想知道我的沙堡能盖到多高，我的沙堡终于跨了，所有的沙又变成海滩上的一部分。最后一粒沙破坏了整座结构。线性的力量加在一个物体上，结果产生了非线性的效果。一粒沙竟然产生不成比例的后果。“一根稻草压垮一头骆驼”。生命是以非线性的方式呈现不公平。假想等候室里有一大堆学生等着试演测验，最终录用者将住进豪宅还可能染上吸毒恶习，而其他绝大多数人，他们将终生在附近的咖啡店端茶倒水。名气的形成有其自身的动态过程，演员因为某一群人认识他而被另一群人认识，名气像螺旋一样动个不停，起点可能就在试演室。他会被选上，可能是某个可笑的细节恰好投合主试者当天的心情。要是主试者前一天对某个人产生好感，而这个受试者的名字听起来和眼前这个人很像，那么从那个特殊的样本历史中选出来的这位演员，可能就必须在另一个样本历史中端送咖啡。独立同分布：从服从同一分布的总体中随机独立地抽取样本。独立同分布样本的联合概率密度满足公式： clear mata （回看第二讲） u=uniform(8,1) J=J(8,1,1) y=J*10+u n=row(y) //①样本容量 end 三、最小二乘估计OLS （一）最小二乘估计量取得样本后，我们有了多个数据，如何处理这些数据呢？同样的问题曾困惑着18世纪和19世纪初的许多天文学家和数学家。那个时代的人热衷于测量天体的轨道长度，他们在很多地方建立天文台，反复测量，得到大量的数据。比如测量慧星的轨道，“每次测量都有误差，次数越多，误差累积越多，但把次数减少并不是解决问题的办法，用什么办法来恰当地使用大量的数据呢”？勒让德（Legendre,1752-1833）解决了如何从数据中得出准确结论的问题，他提出了“最小二乘法”。而著名的数学家高斯（1777-1855）也声称他发明了最小二乘法。拉普拉斯在1812年写出《解析概率论》，他是拿破仑的朋友，但后来又背叛了拿破仑，他讨论了误差理论，提出土星是太阳质量的1/3512，估计偏离真实的1%的可能性是1/11000。他还提出了中心极限定理。最小二乘法的核心思想是：寻求样本点与总体参数的距离最小。这种距离通常以平方和来表示，因此称为最小二乘估计。根据这个式子，我们就可以计算出 b称之为β的最小二乘估计量（OLS）。 mata C=invsym(J’J)*J’ b=C*y b //②回归系数Coef. end 运用其他的原理，能得到其他估计量，比如矩估计量和极大似然估计量（见第九小节）。根据最小二乘法估计原理，我们得到如下的估计量：上式右边显然是一个函数，是样本随机变量的函数g(Y1,Y2,…,Yn)。实际上，估计量是一个处理随机样本的法则，这个法则是抽样进行之前就已制定好的，不管实际上得到的是什么数据，这个法则都不变。而当这个法则改变了，我们就得到另一个估计量，比如将样本减均值得到另一个估计量残差e. 残差的平方和（即样本随机向量的某个二次型）是另一个估计量既然估计量是随机变量的函数，它也是一个随机变量，它的随机性由样本决定，随着样本而变，代入不同的样本，同一个估计量会得到不同的估计值。估计量与估计值 sysuse auto, clear sample 10 sum price 反复执行上面的三行命令，每一次我们都得到不同的均值。 drawnorm u,n(8) clear g y=10+u reg y 同样，反复执行上述命令，每一次我们得到不同的估计值（二）线性无偏估计量对同一个样本，可以定义无穷多的估计量，这些估计量仅依赖于总体的性质和定义估计量的函数，我们不能控制总体的特征，它是由客观分布规律所决定的，而客观分布规律又是由自然规律或社会力量来决定,不是我们所能控制的。但是我们可以选择定义估计量的函数。问题是我们该选择什么样的函数来处理观察到的样本值呢？潜在的函数既可以是线性的也可以是非线性的，但线性的往往比较容易处理。线性估计量是样本的线性函数（组合）。比如对样本Y，给定任意非随机矩阵A，AY便是一个线性估计量。其次，既然估计量是随机变量，它也就具有期望等数字特征，而估计量的期望既取决于样本特征，也取决于我们所选择的函数形式（数据处理法则）。无偏估计量是一类特殊的估计量，无偏估计量的期望等于总体参数真值。注意估计量的无偏性评价的是估计法则的特性，而不是特定样本。再次重申，一个估计量的无偏性和可能偏误的大小依赖于Y的分布和函数g（），通常Y的分布是我们不能选择的，但法则g（）的选择操纵在我们手中，如果我们想要得到一个无偏估计量，我们就要对g（）做相应的选择。无偏性反映的是有限样本的性质，它可以理解为执行无穷次抽样(抽样次数m趋于无穷，但样本容量n为一个有限值)，然后利用每个样本计算得到的估计值的期望等于总体参数真值。线性无偏估计量是同时满足线性和无偏性的估计量。在测量的例子中，估计量b是线性的吗？是无偏估计量吗？是线性无偏估计量吗？如果不是，需要满足什么条件才是一个线性无偏估计量？从下式可以看出b是一个线性估计量如果要使b成为一个无偏估计量，必须满足假设1：即当时，b为线性无偏估计量。如果假设不成立，则b是有偏的，在什么情况下，误差为零的假设不成立呢？比如测量时用的工具并不准确，总是偏大。再比某测量员总是倾向于高估测量结果等。（三）有效估计量除了上述线性无偏估计量外，考虑另一个线性无偏估计量，因为显然他们都是线性无偏估计量，我们又如何在这两个法则中间选择最好的一个呢？结论是进一步比较估计量的方差，选择方差最小的那一个。如果两个无偏估计量Ｗ１和Ｗ２，总有Var(W1)5) *统计没有包括总体均值的子样本95%置信区间个数 table tsign *图示 tw rcapsym thigh tlow n, yline(5) || rcapsym thigh tlow n if thigh<5 | tlow>5 在通常的研究中，我们只进行一次抽样，只构造出一个区间，并推测这一个区间有95%的可能属于包含总体参数的区间簇，有5%的可能属于不包含总体参数的区间簇。五、假设检验真正的总体参数β是一个常数，但具体等于多少，却是未知的。我们假设总体参数等于一个值β0=10，然而这个值却是我们假设出来的，它也是一个常数。然后我们抽取一个样本，计算后得到一个估计值b，这个估计值b是一个随机变量。注意区别三个值β、β0，b。原假设为β=β0，对立假设为β！=β0。也就是说，我们的假设值可能正好等于原总体的参数值，也可能不等。想一想，你能准确猜测出真正的总体值吗？另外，注意到在原假设与对立假设中，并不涉及到估计量。第一类错误：如果原假设正好成立，即原假设为真，则β=β0。然而即使我们做出了完全正确的假设，我们也只抽得了一个样本，从这一个样本中估计得到了样本均值，并进一步得到了T值，这个T值可能落在发生概率非常小（2.5%）的两个端点之外。这个小概率事件如果发生，我们就拒绝原假设，认为β！=β0，反之如果T值在95%的概率区间中间，则不能拒绝原假设。由于抽样的偏误，我们可能恰好在一次抽样中得到一个过大或过小的T值，从而否定正确的原假设，这种错误叫做弃真错误，但是在原假设为真的前提下，发生这种错误的可能性只有5%。第二类错误：由于原假设只是我们的一个假设，我们并不真正知道总体参数的真实值，因此可能从一开始，我们的假设就错误了。由于这个错误的假设，我们会犯取伪的错误。若显著性水平为，当真值的确为假设值时，就是作出正确判断（即H0为真时接受H0，取真）的概率，此时有。而则为弃真的概率。而当假设为错误，即真值不等于假设值时，为犯第II类错误（即原假设为误，接受原假设，取伪）的概率。则为作出正确判断的概率（即原假设为假时，拒绝原假设的概率），又称为检验的功效。以真值为横轴，以为纵轴，可以得到一条曲线。这条曲线反映了当假设值偏离真值时，检验的功效如何变动：当参数的真值在假设值附近时，检验法的功效很低。犯第二类错误的概率很大。当n趋于无穷时，曲线成为T形，此时，纳伪的的概率为0，检验的功效达到最高100%。情形1：总体均值已知，为u=10。但我们假装不知道，却做出了对总体均值正确的原假设，认为它等于u0=10，则抽样进行假设检验如下 drawnorm x,n(100) m(10) sds(10) d clear *生成一个均值u=10,标准差o=10的正态随机变量，作为研究总体 quietly sum x di "从样本计算t统计值为：" (r(mean)-10)/(sqrt(100)*r(sd)) di "根据t统计量临界值为：" as error invttail(99,0.025) di as result "对这次实验，拒绝还是接受？" 由于我们通常只取一次样，所以有可能碰巧得到的样本正好是导致我们拒绝真的原假设的样本。这时我们就会犯错误。然而，弃真错误的可能性比较小。在100次这样的抽样研究中，大概有5次左右。将上述试验进行100次，统计一下有多少次拒绝，多少次接受？ capt prog drop bb prog bb drawnorm x,n(100) m(10) sds(10) d clear quietly sum x scalar ref=(abs(sqrt(100)*(r(mean)-10)/r(sd))>invttail(99,0.025)) *如果样本统计量（t）值大于临界值，则拒绝原假设一次jud=1,否则为0 end simulate ref,reps(100):bb tab _sim //其中的1表示在100次中拒绝原假设的次数。情形2：总体均值已知，为u=10。但我们假装不知道，并做出了对总体均值错误的原假设，如认为它等于u0=5，则抽样进行假设检验如下 capt prog drop bb prog bb drawnorm x,n(100) m(10) sds(10) d clear quietly sum x scalar ref=(abs(sqrt(100)*(r(mean)-5)/r(sd))>invttail(99,0.025) ) end simulate jud,reps(100):bb tab _sim 这时，我们100次地拒绝了原假设，认为原总体的均值不可能为5。 drawnorm u,n(100) sds(10) d clear g Y=10+u reg y 显著性：你和朋友来进行横跨西伯利亚的越野车比赛，一个月后，你以一秒之差击败他，显然你不能吹嘘自己比他快。你可能受助于某些东西，或者只是随机因素使然，别无其他。那一秒不够显著，没有办法据此得出什么结论。“自行车骑手A比B优秀，因为他平常吃菠菜，而B吃豆腐，所在A在3000里的比赛中比B快了1秒”。六、计量模型的本质案例4-5：我们生来就偏好因果关系我们生来不会把不同的事情独立开来看待，观察A和B两件事时，我们很难不假设是A造成B、B造成A，或者两者彼此影响。我们会立即在其间建立因果关系。在感情上拒绝一项假说比接受它更难（即所谓的第一类错误和第二类错误）。候让以前常和索罗斯打网球，有个周末，索罗斯在谈话中表示非常看坏后市，还讲出一连串复杂的道理，索罗斯显然在市场中做空。几天后，市场激涨，频创新高。候让担心索罗斯可能赔钱，下次打球时就问他是否有所损失，索罗斯说：“我们大赚了一票，我改变了主意，不但回补空头头寸，而且还建立起很大的多头头寸”。20世纪80年代末，索罗斯给候让2000万美金去投机，候让借此创立了一家交易公司。几天后，索罗斯与候让在共进午餐时聊到市场，索罗斯的态度变得相当冷谈。之后索罗斯把钱全部撤回，没做任何解释。索罗斯这种真正的投机者与别人不一样的地方，在于他们缺乏路径依赖，完全不受过去行为的束缚，每一天都是一张白纸。要测试信念是否路径依赖，有个简单的方法。假设你拥有一幅画，当初是以2万美金买进的。由于艺术品市场欣欣向荣，现在这幅画值4万美金，如果你手头上没有这幅画，你会依目前的市场价格买进吗。如果一连串的观念都以第一个观念马首是瞻，我们便称其有路径依赖。（一）因果关系与计量经济学的任务人类对自己周围的一切事物都充满了好奇，孜孜不倦地探索和理解着这个神奇的世界。可以说，人类的认识是一个逐步深化的过程。首先是概念的辨识，从纷纭复杂的大千世界中抽离出一些关键的概念，在明确其内涵及外延的基础上，使我们今天有了一个分类无比细致的世界，概念和名词也因此多得要极厚的百科字典才能存载。比如性别是一个概念，年薪是一个概念，受教育年限是一个概念。而这些概念在数学公式中则被抽象为一些简单的符号x、y、z。光有概念是远远不够的，人们希望能够对同一个概念有更深入的把握，因此概念需要量化，比如性别有男有女，工资有高有低，教育有文盲到博士的区别。在数学中，便表现为x和y的不同取值，如x=1表示男，x=0表示女，y=10000表示年薪1万元。有了不同的概念，也有了对各种概念在量和程度上的不同认识，人们就希望能举一反三，见一叶落而知天下秋。在这个探索过程中，函数是一个核心，它把多个变量联系起来，使人可以由此及彼，见微知著；可能通过操控一些可控的变量来对不可控或难以直接操控的变量（往往目标）施加影响。比如未来的高收入是我们的目标，现在可以操控的是提高自己的能力和受教育水平，而受教育是要付出成本的，投入多少是最佳的呢？初中毕业？大学毕业？要不要上研究生？如果要做出定量的回答，显然需要对于教育及教育回报的定量关系的深入认识。这种探索在数学上表现为函数y=f(x)。有了函数，人类的认识就有了很大的飞跃，追寻因果关系也因此成为研究的最主要任务，所谓因果关系探求，实质上是想要明白f(x)究竟是怎样的？打开f(x)这个黑匣子并不容易，纯粹从理论上的工作属于数量经济学的范畴，本文不再展开。我们仅假设有一个在理论上存在的函数关系：Y=f(x，β)，其中β为常参数。函数关系Y=f(X，β)刻画了Y如何伴随着另一个变量X的变化而变化。假设x与y的关系是普遍存在的，但是在不同的环境条件下，β是不同的，在同样的环境条件下β是真实存在的一个确定的常参数值。回归分析的任务就是通过在某个特定环境下收集数据，获得β的最接近的一个估计值。换言之，就是要得到计量经济学的总目标：得到一个最佳的估计量(估计量是一个函数，是一个对样本进行运算的法则)。所谓最佳是针对这个法则而言的。这意味着，对于我们想探索的未知函数g(X，Y，|β)中的常参数而言，我们可以根据样本得到最逼近β的估计值。估计量的最优性质在一系列的假设下得到，当这些假设不成立时，相应的特性也不成立，此时，需要退而求其次，获得在放松后的条件下（通常更符合现实），更逼近未知常参数的估计值。（二）概率因果模式及计量模型的实质借用大家都熟悉的物理学例子，炮弹以初速度x和与水平轴成θ角离开地面，从发射点到落点的距离为d，根据牛顿定律可以得到（1）这似乎是一个不受限制的满足因果律的函数关系，其中g为常参数，即重力加速度：固定发射角，给定一个初速度，就得到一个确定的距离。然后根据试验得到的三个数据v，θ，d，我们就可以计算出重力加速度g=d/(v2sin2θ) 然而实践并非如此简单，上述模型只是一个近似公式，是人类思维的发明，是一个理想化模型。这个理想化模型忽略了空气阻力、气压变化以及初速度和发射角的不精确性。因此只能在一定限制条件下应用，即忽略掉的诸因素在我们可以接受的范围内，我们才可以放心地进行这种简化推测。但是无论无何，在现实中，我们通过某次实验所计算出的g并不会正好等于9.8。同样，如果做很多次实验，根据每次的实验结果来测算g，我们会得到许多不同的g。由于v和θ的不精确，以及炮弹在空气中受到的扰动，在一次确定的发射中，测定的着弹点与发射点的距离记为di。这个di与按（1）式计算的理论结果必然存在不一致，换言之，单次实验的结果看似确定的，但这种确定是事后的，事前它是不确定的，是随机现象。因此，第i次实验的事后结果可表达为：如果我们提出另外一个问题，既然单次实验结果是随机的，是事前不能确定的，当我们用同一个大炮在同一地点打出许多有相同初速度和发射角的炮弹时（注意，这也只是理想化状态），这些炮弹落入第j个洞的概率是多少？或者问，这些炮弹的落点到发射点的距离的测量均值是多少？则这一问题不再有因果答案，只能给出一个随机性的解释，表现为概率因果模式。在这种情况下，看似随机的结果却又表现出确定性，其确定性表现为：“如果试验次数足够多，平均特性具有高度的确定性”。因此，同一个问题既可用确定的因果方式也可用概率的方式进行分析。有人可能会说，这本来就是个确定性的问题，尽管我们不知道，但炮弹总有其精确初速度和发射角，如果我们知道它，就能准确知道它落入洞的位置，因此，我们之所以需要概率解释是因为我们对一些因素的无知。对这一争议的回答是：科学家并不关心什么是真实的，只关心什么是他们能够观测到的。这也是后现代关于真实的观点。爱因斯坦说：“数学定律不能百分之百地确实地用在现实生活里,能百分之百确实地用数学定律描述的,就不是现实生活.”，如果我们接受，事实上我们必须接受，科学理论不是自然规律的发现，而是人类思维的发明，那么，因果性和随机之间，或者确定性和或然性之间是没有抵触的。由于Y=d在事前无法预测，因此它是随机的。通常我们将X也视为随机的（当然在控制实验中是非随机的，但计量经济学处理的社会经济变量通常都是非试验非可控的）。而模型的实质是制约因变量Y与自变量X的联合分布的集合。模型是满足假定条件的联合分布。在这一章中我们先假设X为非随机的。令得到在上述模型中，X为非随机变量，是事先给定的，u和y为随机变量，其中y是可观测的，而ε也为随机变量，但是不可观测的，β为未知常参数，是我们想估计的未知参数。（三）模拟实验现在，给定初速度vi,发射角θ，在同样的条件下发射n次炮弹。每一次都会受到微小因素的干扰而产生误差ui。这些误差将服从某种分布，设其分布的密度函数为f(u|x=x0），因为则给定初速度x1和发射角θ,落点距离y1服从以x1和θ为条件的分布f（y|x1,θ）。如右图如果初速度改变为xk,保持发射角不变，得到不断改变初速度，将得到若干y对应于x的分布如图。我们希望通过观察（实验）来确定出两个常参数，并获得这个函数。于是，我们固定发射角做实验，通过不断改变初速度(改变10次，x=1-10)，得到10000个数据（模拟数据bomb。并对每个x求y求条件均值E(d|v),得到下表。 clear set obs 10000 gen x=int((_n-0.5)/1000)+1 gen u=9*invnorm(uniform()) gen y=x^2/9.8*sin(_pi/6)+u table x, c(mean y) format(%5.2f) 1 2 3 4 5 6 7 8 9 10 m(y|x) .13 .47 .76 .58 1.15 2.53 2.61 3.44 4.43 5.35 下面，我们来做进一步的模拟实验。首先，作为一个基准，考虑一种最理想状态，当发射角为45度，初速度取（1，10）之间的正整数，没有测量误差，重力加速度恒定，空气阻力等炮弹飞行中的扰动产生的条件误差服从均值为零，方差为0.09的正态分布，于是可以根据牛顿定律，可生成一个总体如下。七、古典线性回归模型（一）期望与方差先把X看做是非随机的，则X为一个固定的常矩阵，这种情形通常在设计实验中出现，比如第一块地施1kg化肥，第二块实验地施2kg化肥，…。当X为固定的常数矩阵时，也为一矩阵，不妨设为因此有 clear mata u=invnormal(uniform(1,8)) uniformseed(1) //生成伪随机变量的种子 X=uniform(2,8) beta=(2,10) y=X*beta:+u C= invsym(X’X)X’ b=C*y 可见b为一随机向量，其期望为要使b为无偏估计量，则必须满足条件Eu=0,即随机向量b的方差阵为显然，要获得b的方差阵，必须首先假定误差u的方差，在一个非常严格的假设，即误差两两不相关，而且同方差的条件下，有（二）估计量的分布仅假设误差的期望和方差还无法确定最小二乘估计量b的分布，要获得其分布，必须对误差的分布做出假设（即限制条件），当误差向量服从正态分布，并且前述的期望和方差假设也成立时，因为正态分布由期望和方差确定，并且正态随机向量的线性组合仍然服从正态分布，因此随机向量b也服从如下的正态分布：由于正态分布具有断尾性，因此服从正态分布的随机向量，其任意一个元素也服从正态分布，（三）t统计量与T检验根据点估计的值，可以计算出Y的拟合值将观察值与拟合值相减，得到的值定义为残差e（注意与误差相区别），即因为M为确定的常矩阵，My是样本的线性组合，因此e实际上也是一个估计量，进一步，我们将残差的平方和除以一个常参数σ2，得到显然，上式也是一个估计量，可以证明，该估计量服从自由度为n-k的卡方分布。证明：证明非常简单，因为由于bj服从均值为βj的正态分布，根据t分布的定义，可以得到（四）F统计量与F检验在上述估计量中，只有一个唯一的未知常参数βj，而相应的t分布却是唯一确定的，因此可以构造出置信区间，该置信区间将以一定的可能性能够将未知常参数覆盖在内。如果我们假设模型没有任何解释力，即所有的β=0，则可以利用F检验，推理如下：从X为非随机变量到X为随机变量，只需要将X视为条件，反复运用重期望定理即可得到上述结论。附：矩估计与极大似然估计（一）矩估计矩法的核心思想：总体矩=样本矩总体矩，如正态分布的总体一阶原点矩为u，二阶中心矩为σ2，二点分布的期望为p,泊松分布的期望为λ。总体矩由随机变量的取值及其对应的概率PDF加权求和得到。样本矩，对于IID，均值对应于一阶原点矩。由于是IID，而且是简单随机抽样，因此，概率高的取值被抽中的可能性高，概率低的被抽中的可能性低，而且其频率近似等于其概率，因此对样本取值依频率加权求和得到的结果，就近似等于期望。^u=-x。另一方面，样本值的经验分布EDF是CDF的一致估计，因此，总体矩=样本矩。 EDF是随机变量X的CDF的一致估计。当xi独立同分布时，由于随机变量Y=I(Xi

                    本文档为【第四章_从数理统计到古典回归模型】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第四章_从数理统计到古典回归模型

你可能还喜欢