国家财政收入的影响因素的评价
及预期收入的预测
【摘要】
国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。首先,我们根据所给数据,对数据进行描述性
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
。之后,我们对数据进行了回归分析,构造了预测模型,并获得了模型的回归系数估计值及其置信区间。
然后,考虑到每个回归系数置信区间包含零点与否的情况,我们对模型进行了改进,并得到了其交互式画面。考虑到数据的时间序列属性,我们对模型进行了自相关性诊断,作出残差散点图,初步判定其大部分点落在1,3象限,随机误差
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
现出正自相关趋势。但在之后的D-W检验中,我们计算出了DW值,自相关系数估计值
,依照样本容量和回归变量数目,查阅了D-W分布表,得到检验的临界值dL和dU。在分析DW所在区间时,我们发现模型的自相关状态不能确定。
之后,我们代入所给数据1952年-1980年的各项经济指标,得出的预测值与实际值相当吻合。
最后,我们根据网络上查到的数据,利用该模型对1990年和2000年的财政收入作出预测,并对结果进行了分析。
关键词:MATLAB 财政收入 回归模型 自相关性诊断 自相关系数 D-W检验
一、 问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
重述
国家的财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关,根据所给数据,对数据进行分析,构造预测模型,并利用该模型对1990年和2000年的财政收入作出预测。
二、 问题假设
1. 财政收入只与问题重述中提到的6个因素有关;
2. 所给数据真实准确,无录入错误。
三、符号说明
y:财政收入;
x1:国民收入;
x2:工业总产值;
x3:农业总产值;
x4:总人口;
x5:就业人口;
x6:固定资产投资;
β0,β1,β2,β3,β4,β5,β6:回归系数;
ε:随机误差。
四、问题分析、模型的建立与求解
1.问题的分析
首先对数据作初步分析。分别作出财政收入与6个因素的散点图,并用Excel自带的回归分析求出了各自自变量对y的R2(决定系数,越接近1则拟合程度越好):
图1 x1-y散点图
图2 x2-y散点图
图3 x3-y散点图
图4 x4-y散点图
图5 x5-y散点图
由该图可以明显看出,最右边有一个异常点:1981年就业人口攀升为73280,较之前有大幅度增长,但财政收入明显地低于预测值,为使个别数据不致影响整个模型,我们将该异常数据去掉。去掉后的x5-y散点图如下:
图6 去掉异常点后的x5-y散点图
图7 x6-y散点图
2.模型的建立
从以上的散点图及y对x1~x6初步的回归分析,我们再引入一个常量回归系数β0,作出了初步的模型:
(1)
3.模型的求解
首先我们剔除掉因为1981年就业人口对财政收入影响异常的特殊点(见图6),之后利用MATLAB统计工具箱中命令regress求解,得到模型(1)的回归系数估计值及其置信区间(置信水平α=0.05)、检验统计量R2,F,p的结果见表1。
参数
参数估计值
参数置信区间
β0
-15.5344
-366.5816 335.5127
β1
0.5100
0.2301 0.7898
β2
-0.0259
-0.0769 0.0251
β3
-0.5905
-0.9901 -0.1908
β4
0.0113
-0.0028 0.0254
β5
-0.0230
-0.0492 0.0032
β6
0.3419
-0.0387 0.7225
R2=0.9840,F=225.8953,p=0.0000
表1 模型(1)的计算结果
表1显示,R2=0.9840指因变量y(财政收入)的98.40%可由模型确定,F值远远超过F检验的临界值,p=0远小于α,因而模型(1)从整体来看是可用的。
表1的回归系数给出了模型(1)中β0,β1,β2,β3,β4,β5,β6的估计值,即
,
,
,
,
,
,
。检查它们的置信区间发现,β0,β2,β4,β5,β6的置信区间包含零点。常数项的置信区间相当地大,故可以剔掉。
4.模型的改进
由以上的分析,我们剔掉了常数项β0。得到模型(2):
(2)
再次检验相关参数:
参数
参数估计值
参数置信区间
β1
0.5146
0.2609 0.7683
β2
-0.0250
-0.0703 0.0204
β3
-0.5958
-0.9675 -0.2241
β4
0.0108
0.0027 0.0188
β5
-0.0223
-0.0428 -0.0018
β6
0.3320
0.0317 0.6323
R2=0.9840,F=283.1784,p=0.0000
表2 模型(2)的计算结果
现在可以看到,只有β2一项的置信区间包含零点。我们加入了x22,log(x2)2,x1*x2,x2*x5等项,包含零点的置信区间不降反升,且目前R2=98.40%,目前的模型从整体上来看是可用的。
将参数估计值代入模型(2)得到:
(3)
使用rstool命令得到交互式画面(图8):
图8 交互式画面
5.结果分析
从表面上看,模型(2)的拟合度已经达到了R2=0.9840,但这个模型并没有考虑到我们的数据是一个时间序列。很明显随机误差ε会出现(自)相关性。
残差
可以作为随机误差的估计值,画出et~et-1的散点图(图9)能够从直观上判断ε的自相关性。残差数据见表3。
年份
1952
1953
1954
1955
1956
1957
1958
残差
-12.733
21.4793
-5.7026
6.2455
-21.6053
3.0334
11.4851
年份
1960
1961
1962
1963
1964
1965
1966
残差
-37.4752
-1.1597
-16.6442
-7.4787
17.2235
32.156
15.043
年份
1967
1968
1969
1970
1971
1972
1973
残差
32.9908
-22.6918
-41.1525
5.4142
15.7714
28.7123
10.6054
年份
1974
1975
1976
1977
1978
1979
1980
残差
5.5024
-24.5628
-36.9943
-14.2323
1.0951
86.3319
1.8876
表3 模型(3)的残差
图9 模型(3)et~et-1的散点图
从图9可以看出,大部分点落在第1,3象限,表明ε存在正得自相关。为了对ε的自相关性作定量诊断,并在确诊后得到新的结果,我们考虑如下的模型:
,
(4)
利用表3给出的残差,根据DW检验公式
计算得出DW=1.6082.
根据公式
计算得出
.
要根据DW的具体数值确定εt是否存在自相关,应该在给定的检验水平下,一招样本容量和回归变量数目,查D-W分布表[2],得到检验的临界值dL和dU,然后由DW所在的区间来决定。对于显著性水平α=0.05,n=29,k=6,查D-W分布表,得到检验的临界值dL=0.98,和dU=1.94。
图10 与DW值对应的自相关状态
现在DW>dL,由图10中DW所在区间,我们可以看到DW落在不能确定的区间。如前文所述,模型(2)经过了增加二次项,对数项的努力,依然存在置信区间包含零点的情况,我们分析原因可能是在1959-1962年,1966-1976年的重大历史事件对几项因素,以及财政收入产生了特殊的影响,使数据的规律性降低,变得难以预测。但若是剔除这些年份,数据量将显得过少,以及发生年代断代。
下面,我们将使用模型(3)对之前数据进行评价:
年份
1952
1953
1954
1955
1956
1957
1958
实际值
184
216
248
254
268
286
357
预测值
197.499
195.303
254.508
248.576
290.446
283.830
346.393
年份
1959
1960
1961
1962
1963
1964
1965
实际值
444
506
271
230
266
323
393
预测值
482.371
508.040
288.511
238.365
249.688
291.775
378.918
年份
1966
1967
1968
1969
1970
1971
1972
实际值
466
352
303
447
564
638
658
预测值
433.998
375.702
345.188
442.649
549.325
610.413
648.546
年份
1973
1974
1975
1976
1977
1978
1979
实际值
691
655
692
657
723
922
890
预测值
686.677
680.765
730.215
672.467
723.153
836.937
889.400
年份
1980
实际值
826
预测值
880.373
表4 财政收入的预测值与实际值对比
可以看到,预测值与实际值还是相当吻合的。
之后,我们查阅了1990年及2000年的国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资,代入模型(2)。结果如下:
年份
国民收入
工业总产值
农业总产值
总人口
就业人口
固定资产投资
1990
11412.96
22452.27
5146
112954
63931.9
4517
2000
98000.5
75710.69
13873.6
126743
72116.77
32917.7
年份
财政收入(预测值)
财政收入(实际值)
1990
3539.68
2821.86
2000
50961.7
13395.23
表5 1990年和2000年财政收入预测值与实际值对比
[3]数据来源自《CNKI中国统计年鉴数据库》
从表5可以看到,1990年预测值与实际值相差大概25.4%,而2000年的预测值则偏差较大。在查阅数据时,我们就发现了2000年的工业总产值数据注明了“1990年不变价格”,而其余数据没有此说明项。
并且,在固定资产投资一栏,我们查到了非常详细的分类,固定资产投资资金来源中国家预算内资金,固定资产投资资金来源中国内贷款,固定资产投资资金来源中自筹和其他资金等备注,而题目并未给出,这给我们筛选数据带来了极大的困难。
总的来说,几十年来,统计
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
或许都有变化,并且人民币的币值也发生了极大的变化(这是可以来源于直观的生活经验的),模型对1990年和2000年预测值与实际值的匹配程度有限,但对于1952-1980年的经济数据来说,依然有一定的参考价值。
五、模型的评价
优点
模型的决定系数R2=0.9840较高,且都是一次项,计算简便。
缺点
自相关性未能判定,对1981年之后的数据预测值逐渐产生偏差。
六、模型的推广与改进
从前文的分析来看,我们认为1981年后,物价、通货膨胀、人民币币值等因素极大地影响了我们的预测数据,若补充上物价衡量指数,消费水平指数(CPI)等数据,模型的拟合度应该会更高。