【数学建模】国家财政收入的影响因素的评价及预期收入的预测

【数学建模】国家财政收入的影响因素的评价及预期收入的预测国家财政收入的影响因素的评价及预期收入的预测【摘要】国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先，我们根据所给数据，对数据进行描述性分析。之后，我们对数据进行了回归分析，构造了预测模型，并获得了模型的回归系数估计值及其置信区间。然后，考虑到每个回归系数置信区间包含零点与否的情况，我们对模型进行了改进，并得到了其交互式画面。考虑到数据的时间序列属性，我们对模型进行了自相关性诊断，作出残差散点图，初步判定其大部分点落在1,3象限，随机误差表现出正自相关趋势...

国家财政收入的影响因素的评价及预期收入的预测【摘要】国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先，我们根据所给数据，对数据进行描述性分析。之后，我们对数据进行了回归分析，构造了预测模型，并获得了模型的回归系数估计值及其置信区间。然后，考虑到每个回归系数置信区间包含零点与否的情况，我们对模型进行了改进，并得到了其交互式画面。考虑到数据的时间序列属性，我们对模型进行了自相关性诊断，作出残差散点图，初步判定其大部分点落在1,3象限，随机误差表现出正自相关趋势。但在之后的D-W检验中，我们计算出了DW值，自相关系数估计值，依照样本容量和回归变量数目，查阅了D-W分布表，得到检验的临界值dL和dU。在分析DW所在区间时，我们发现模型的自相关状态不能确定。之后，我们代入所给数据1952年-1980年的各项经济指标，得出的预测值与实际值相当吻合。最后，我们根据网络上查到的数据，利用该模型对1990年和2000年的财政收入作出预测，并对结果进行了分析。关键词：MATLAB 财政收入回归模型自相关性诊断自相关系数 D-W检验一、问题重述国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关，根据所给数据，对数据进行分析，构造预测模型，并利用该模型对1990年和2000年的财政收入作出预测。二、问题假设 1. 财政收入只与问题重述中提到的6个因素有关； 2. 所给数据真实准确，无录入错误。三、符号说明 y：财政收入； x1：国民收入； x2：工业总产值； x3：农业总产值； x4：总人口； x5：就业人口； x6：固定资产投资； β0，β1，β2，β3，β4，β5，β6：回归系数； ε：随机误差。四、问题分析、模型的建立与求解 1.问题的分析首先对数据作初步分析。分别作出财政收入与6个因素的散点图，并用Excel自带的回归分析求出了各自自变量对y的R2（决定系数，越接近1则拟合程度越好）：图1 x1-y散点图图2 x2-y散点图图3 x3-y散点图图4 x4-y散点图图5 x5-y散点图由该图可以明显看出，最右边有一个异常点：1981年就业人口攀升为73280，较之前有大幅度增长，但财政收入明显地低于预测值，为使个别数据不致影响整个模型，我们将该异常数据去掉。去掉后的x5-y散点图如下：图6 去掉异常点后的x5-y散点图图7 x6-y散点图 2.模型的建立从以上的散点图及y对x1~x6初步的回归分析，我们再引入一个常量回归系数β0，作出了初步的模型：（1） 3.模型的求解首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点（见图6），之后利用MATLAB统计工具箱中命令regress求解，得到模型（1）的回归系数估计值及其置信区间（置信水平α=0.05）、检验统计量R2，F，p的结果见表1。参数参数估计值参数置信区间 β0 -15.5344 -366.5816 335.5127 β1 0.5100 0.2301 0.7898 β2 -0.0259 -0.0769 0.0251 β3 -0.5905 -0.9901 -0.1908 β4 0.0113 -0.0028 0.0254 β5 -0.0230 -0.0492 0.0032 β6 0.3419 -0.0387 0.7225 R2=0.9840，F=225.8953，p=0.0000 表1 模型（1）的计算结果表1显示，R2=0.9840指因变量y（财政收入）的98.40%可由模型确定，F值远远超过F检验的临界值，p=0远小于α，因而模型（1）从整体来看是可用的。表1的回归系数给出了模型（1）中β0，β1，β2，β3，β4，β5，β6的估计值，即，，，，，，。检查它们的置信区间发现，β0，β2，β4，β5，β6的置信区间包含零点。常数项的置信区间相当地大，故可以剔掉。 4.模型的改进由以上的分析，我们剔掉了常数项β0。得到模型（2）：（2）再次检验相关参数：参数参数估计值参数置信区间 β1 0.5146 0.2609 0.7683 β2 -0.0250 -0.0703 0.0204 β3 -0.5958 -0.9675 -0.2241 β4 0.0108 0.0027 0.0188 β5 -0.0223 -0.0428 -0.0018 β6 0.3320 0.0317 0.6323 R2=0.9840，F=283.1784，p=0.0000 表2 模型（2）的计算结果现在可以看到，只有β2一项的置信区间包含零点。我们加入了x22,log(x2)2,x1*x2,x2*x5等项，包含零点的置信区间不降反升，且目前R2=98.40%，目前的模型从整体上来看是可用的。将参数估计值代入模型（2）得到：（3）使用rstool命令得到交互式画面（图8）：图8 交互式画面 5.结果分析从表面上看，模型（2）的拟合度已经达到了R2=0.9840，但这个模型并没有考虑到我们的数据是一个时间序列。很明显随机误差ε会出现（自）相关性。残差可以作为随机误差的估计值，画出et~et-1的散点图（图9）能够从直观上判断ε的自相关性。残差数据见表3。年份 1952 1953 1954 1955 1956 1957 1958 残差 -12.733 21.4793 -5.7026 6.2455 -21.6053 3.0334 11.4851 年份 1960 1961 1962 1963 1964 1965 1966 残差 -37.4752 -1.1597 -16.6442 -7.4787 17.2235 32.156 15.043 年份 1967 1968 1969 1970 1971 1972 1973 残差 32.9908 -22.6918 -41.1525 5.4142 15.7714 28.7123 10.6054 年份 1974 1975 1976 1977 1978 1979 1980 残差 5.5024 -24.5628 -36.9943 -14.2323 1.0951 86.3319 1.8876 表3 模型（3）的残差图9 模型（3）et~et-1的散点图从图9可以看出，大部分点落在第1,3象限，表明ε存在正得自相关。为了对ε的自相关性作定量诊断，并在确诊后得到新的结果，我们考虑如下的模型：，（4）利用表3给出的残差，根据DW检验公式计算得出DW=1.6082. 根据公式计算得出 . 要根据DW的具体数值确定εt是否存在自相关，应该在给定的检验水平下，一招样本容量和回归变量数目，查D-W分布表[2]，得到检验的临界值dL和dU，然后由DW所在的区间来决定。对于显著性水平α=0.05，n=29，k=6，查D-W分布表，得到检验的临界值dL=0.98，和dU=1.94。图10 与DW值对应的自相关状态现在DW>dL，由图10中DW所在区间，我们可以看到DW落在不能确定的区间。如前文所述，模型（2）经过了增加二次项，对数项的努力，依然存在置信区间包含零点的情况，我们分析原因可能是在1959-1962年，1966-1976年的重大历史事件对几项因素，以及财政收入产生了特殊的影响，使数据的规律性降低，变得难以预测。但若是剔除这些年份，数据量将显得过少，以及发生年代断代。下面，我们将使用模型（3）对之前数据进行评价：年份 1952 1953 1954 1955 1956 1957 1958 实际值 184 216 248 254 268 286 357 预测值 197.499 195.303 254.508 248.576 290.446 283.830 346.393 年份 1959 1960 1961 1962 1963 1964 1965 实际值 444 506 271 230 266 323 393 预测值 482.371 508.040 288.511 238.365 249.688 291.775 378.918 年份 1966 1967 1968 1969 1970 1971 1972 实际值 466 352 303 447 564 638 658 预测值 433.998 375.702 345.188 442.649 549.325 610.413 648.546 年份 1973 1974 1975 1976 1977 1978 1979 实际值 691 655 692 657 723 922 890 预测值 686.677 680.765 730.215 672.467 723.153 836.937 889.400 年份 1980 实际值 826 预测值 880.373 表4 财政收入的预测值与实际值对比可以看到，预测值与实际值还是相当吻合的。之后，我们查阅了1990年及2000年的国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资，代入模型（2）。结果如下：年份国民收入工业总产值农业总产值总人口就业人口固定资产投资 1990 11412.96 22452.27 5146 112954 63931.9 4517 2000 98000.5 75710.69 13873.6 126743 72116.77 32917.7 年份财政收入（预测值）财政收入（实际值） 1990 3539.68 2821.86 2000 50961.7 13395.23 表5 1990年和2000年财政收入预测值与实际值对比 [3]数据来源自《CNKI中国统计年鉴数据库》从表5可以看到，1990年预测值与实际值相差大概25.4%，而2000年的预测值则偏差较大。在查阅数据时，我们就发现了2000年的工业总产值数据注明了“1990年不变价格”，而其余数据没有此说明项。并且，在固定资产投资一栏，我们查到了非常详细的分类，固定资产投资资金来源中国家预算内资金，固定资产投资资金来源中国内贷款，固定资产投资资金来源中自筹和其他资金等备注，而题目并未给出，这给我们筛选数据带来了极大的困难。总的来说，几十年来，统计方法或许都有变化，并且人民币的币值也发生了极大的变化（这是可以来源于直观的生活经验的），模型对1990年和2000年预测值与实际值的匹配程度有限，但对于1952-1980年的经济数据来说，依然有一定的参考价值。五、模型的评价优点模型的决定系数R2=0.9840较高，且都是一次项，计算简便。缺点自相关性未能判定，对1981年之后的数据预测值逐渐产生偏差。六、模型的推广与改进从前文的分析来看，我们认为1981年后，物价、通货膨胀、人民币币值等因素极大地影响了我们的预测数据，若补充上物价衡量指数，消费水平指数（CPI）等数据，模型的拟合度应该会更高。

                    本文档为【【数学建模】国家财政收入的影响因素的评价及预期收入的预测】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

【数学建模】国家财政收入的影响因素的评价及预期收入的预测

你可能还喜欢