大学生数学建模
承 诺 书
我们仔细阅读了数学建模的规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
所属班级(请填写完整的全名): 2009级数学与应用数学班
队员 (打印并签名) :1.
2.
3. )
小组负责人 (打印并签名):
日期: 2012 年 4 月 7日
教师评阅:
目录
摘 要
1
一、问题的提出
1
二、符号
说明
关于失联党员情况说明岗位说明总经理岗位说明书会计岗位说明书行政主管岗位说明书
与假设
2
三、问题分析
2
四、模型的建立与求解
2
4.1 模型I的建立与求解
2
4 .2 模型II的建立与求解
4
4 .3 模型III的建立与求解
8
五、结果分析
9
六、模型的评价
11
七、模型的改进与推广
12
八、参考文献
12
九、附录
13
题目:保险额与年平均收入和风险偏好度的回归分析
摘要:
为了更好地了解人寿保险额,经理年平均收入,风险偏好度的关系,利用18位35岁~44岁经理的数据,建立数学模型,并通过模型建立他们之间的关系,来判断它们有什么关系,利用 MATLAB 软件的统计工具箱结合题中所给数据对各参数的值与其置信区间进行了估计,并很好地通过了回归的检验。在通过对原模型进行改进的基础上 ,以一预测模型各参数的置信区间不应有零点作为该预测模型可行的原则,验证了经理的人寿保险额与其风险偏好度之间存在二次效应,经理的年均收入和风险偏好度对其人寿保险额不存在交互效 应,运用软件对我们的模型进行验证,分析结果然后综合得到。
关键词:保险额 年平均收入 风险偏好度
回归系数 置信区间 统计回归方法
一、问题提出:
下表列出了某城市18位35岁~44岁经理的年平均收入(千元),风险偏好度和人寿保险额(千元)的数据,其中风险偏好度是根据发给每个经理的
问卷
关于教学调查问卷关于员工内部调查问卷员工内部调查问卷基药满意度调查问卷论文问卷调查格式
调查表综合评估得到的,它的数值越大,就越偏爱高风险。研究人员想研究此年龄段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系。研究者预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。
请你通过表中的数据来建立一个合适的回归模型,验证上面的看法,并给出进一步的分析。
序号
y
x1
x2
1
196
66.290
7
2
63
40.964
5
3
252
72.996
10
4
84
45.010
6
5
126
57.204
4
6
14
26.852
5
7
49
38.122
4
8
49
35.840
6
9
266
75.796
9
10
49
37.408
5
11
105
54.376
2
12
98
46.186
7
13
77
46.130
4
14
14
30.366
3
15
56
39.060
5
16
245
79.380
1
17
133
52.766
8
18
133
55.916
6
(表一)
二、符号说明与假设:
——人寿保险额
——经理的年平均收入
——风险偏好度
——回归系数(
=0、1、2、3,4)
——随机误差
——回归方程的决定系数
——统计量值
——与统计量对应的概率值
基本假设:
eq \o\ac(○,1)、风险偏好度对人寿保险额有二次效应;
eq \o\ac(○,2)、风险偏好度和经理年平均收入对人寿保险额有交互效应。
三、问题分析:
在现实生活中,35岁~44岁之间的经理很关心他们的人寿保险额跟风险偏好度和年平均收入有怎样的关系,本问题研究的是35岁~44岁经理的年平均收入与风险偏好度和人寿保险额之间的关系,通过调查发现人寿保险额受经理的年平均收入与风险偏好度的影响,依次来研究它们之间的关系。
基于上面的分析,我们利用x1和x2来建立y的预测模型:
四 、模型建立
4.1 基本模型 І:
通过大概的分析并根据题意得y与x1和x2的关系,利用表一的数据分别作出了y与x1和x2的散点图(如下图所示)。
图一(y对x1的散点图)
图二(y对x2的散点图)
通过(图一)我们发现,随着x1的增长,y有明显向上弯曲增加的趋势,图中的曲线可以用二次函数模型
y=β0+β1x1+β2x12 +ε (1)
拟合的 (其中ε是随机误差)。而在图二中,当x2的增大时,y有明显增长趋势,图中的直线用线性模型
y=β0+β1x2 +ε (2)
拟合的(其中ε是随机误差)。
综合以上的分析,结合模型(1)和(2)建立如下模型:
y=β0+β1x1+β2x12+β3x22+ε (3)
(3)式右端的x1和x2称为回归变量(自变量),β0+β1x1+β2x12+β3x22 是给定经理的年平均收入x1、风险偏好度x2时,人寿保险额y的平均值,其中的参数β0,β1,β2,β3称为回归系数,由表1的数据估计,影响y的其他因素作用都包含在随机误差ε 中,如果模型选择得合适,ε 应大致服从均值为零的正态分布。
模型求解:直接利用MATLAB统计工具箱中的命令regress求解,使用格式为:
【b,bint,r,rint,stats】=regress(y,x,alpha) 其中输入y 为模型(3)中y的数据(n维向量,n=30),x为对应于回归系 β=(β0,β1,β2,β3)的数据阵【1 x1 x2 x22】(n×4矩阵,其中第1列为全1向量),alpha为置信水平α(缺省时α=0.05);输出b为β的估计值,常记做٨β,bint,为b的置信区间,r为残差向量y-x٨β,rint为r的置信区间,stats为回归模型的检验统计量,有三个值第一个是回归方程的决定系数R2(R是相关系数),第二个是F统计量值,第三个是与F统计量对应的概率值p。
得到模型(3)的回归系数估计值及其置信区间(置信水平α=0.05),的结果
见表2.:
参数
参数估计
参数置信区间
β0
-62.3486
[-73.5025 -51.1947]
β1
0.8396
[0.3951 1.2840]
β2
5.6846
[5.2604 6.1089]
β3
0.0371
[0.0330 0.0412]
R2=1 F=8.2737 p=0
(表二)
结果分析; 表2显示检查他们置信区间得到,β0,β1,β2,β3都未包含零点,表明回归变量x1, x2 都是显著的。表2的回归系数给出了模型(3)中β0,β1,β2,β3估计值 , 即β0=-62.3486,β1=0.8396,β2= 5.6846,β3= 0.0371。因此,该模型还是可用的,为了更好地理解风险偏好度和经理年平均入对人寿保险额的关系,对此进行改进。
4.2 模型改进II:
模型(3)中回归变量x1和x2对因变量y的影响是相互独立的,即经理的年平均收入x1和人寿保险额y之间存在二次关系,并风险偏好度与人寿保险额y有线性关系,
根据经验可以猜想,风险偏好度对人寿保险有二次关系,于是将模型(3),增加一项即:
y= β0+β1x1+β2x2+β3 x22 +β4 x12 +ε (5)
对y 和x12散点图如下图所示:
(y 和x12散点图)
下面让我们用表一的数据估计模型的系数,利用matlab的统计得到表三:
参数
参数估计
参数置信区间
β0
-60.9101
[-72.6072 -49.2130]
β1
0.9303
[ 0.4389 1.4218]
β2
4.4529
[ 1.6910 7.2149]
β3
0.0359
[ 0.0310 0.0408]
β4
0.1159
[ -0.1409 0.3727]
R2=1 F=8.2737 p<0.0033
(表三)
用模型(5)对人寿保险额做预测,经理的年平均收入x1和风险偏好度x2,表3的回归系数给出了模型(5)中的估计值β0,β1,β2,β3 , 即-60.9101,0.9303,4.4529,0.0359,β4=0.1159,则人寿保险额的估计值y =-60.9101+0.9303x1+4.4529x2+0.0359x22 +0.1159x12, 与模型(3)的结果相比,与表3检查它们的置信区间发现只有β4的置信区间包含零点,表明回归变量x12不是太显著的,因此,β4的估计值是不可靠的,要对模型(5)进行残差分析,首次回归所得图2.1
图2.1
图2.1个异常数据,剔除第3第5数据后再次回归,得到回归分析图2.2。
图2.2
再次踢出第五个数据再次得到回归分析图2.3
2.3
再次踢出第9,10数据后的回归分析图2.4
图2.4
结果如表四:
参数
参数估计
参数置信区间
β0
-63.2111
[-69.8785 -56.5438]
β1
1.0998
[0.8367 1.3630]
β2
3.4542
[1.7941 5.1142]
β3
0.0340
[0.0311 0.0368]
β4
0.2450
[0.0759 0.4140]
R2= 1 F= 2.7735 p<0.0001
表(四)
在经过几组数据的踢出,使得模型的各估计值更为有了提升,无异常数据,该模基本可用。所以通过模型二的建立,其各计值-63.2111,1.0998,3.4542,0.0340,β4=0.2450,则其预测方程为:
y =-63.2111+1.0998x1+3.4542x2+0.0340x22 +0.2450x12
从中我们可知人寿保险额y与风险偏好度x1有二次关系,该模似乎可以使用了,但是为了得到人寿保险额y是否与风险偏好度x1和经理年收入x2有交互效应,我们将对模型(5)进行再次改进。
4.3 模型Ш
为进一步的了解人寿保险额y与风险偏好度x1和经理的年平均收入x2是否有交互效应,不妨简单的用x1, x2的乘积表示风险偏好度x1和经理的年平均收入x2交互效应,于是将模型(5) 进一步改进得到:
y= β0+β1x1+β2x2+β3 x22 +β4 x12 +β5 x1x2 + ε (6)
在这模型中,假设风险偏好度x1和经理的年平均收入有关,下面我们通过分析作出了y跟x1,x2乘积的散点图,见如下表六和表七所示:
(y1与x1x2散点图)
利用matlab统计工具箱中的命令求解,得到表(4)的回归系数估计值及其置信区间(置信水平a=0.05)结果见表(5):
参数
参数估计
参数置信区间
β0
-65.3853
[-78.7266 -52.0440]
β1
1.0172
[0.5202 1.5141]
β2
5.2172
[ 2.2785 8.1559]
β3
0.0358
[0.0310 0.0406]
β4
0.1661
[ -0.0956 0.4279]
β5
-0.0196
[-0.0501 0.0109]
R2= 1 F= 7.1099 p<0.0030
表(五)
用模型(5)对人寿保险额做预测,经理的年平均收入x1和风险偏好度x2,与模型(3)的结果相比,表3的回归系数给出了模型(5)中的估计值β0,β1,β2,β3 ,β4,
即β0= -65.3853,β1= 1.0172,β2=5.2172,β3= 0.0358,β4=0.1661, β5=-0.0196
则人寿保险额的预测方程为
y=-65.3853+1.0172x1+5.2172x2+0.0358x22+0.1661x12-0.0196x1x2
根据表(3)检查它们的置信区间发现有β4, β5的置信区间包含零点,表明回归变量x12,x1x2不是显著的,对此不能正确判断,需对模型(6)作残差分析,首次进行得到图3.1
图3.1
踢出第3,5个数据后的回归分析图3.2如下所示:
图3.2
再出第5个数据后的回归分析图3.3下所示:
图3.3
通过残差分析得到数据如表所示:
参数
参数估计
参数置信区间
β0
-64.7757
[-72.7253 -56.8261
β1
1.1075
[0.8381 1.3768]
β2
3.8722
[1.7990 5.9454]
β3
0.0347
[0.0321 0.0374]
β4
0.2917
[0.0962 0.4871]
β5
-0.0160
[-0.0332 0.0011]
R2=0.0001 F= 2.0635 p<0.0001
(表七)
通过这三次的残差回归分析,踢出几组数据后,各数据都能表示人寿保险额y与风险偏好度x1和经理年平均收入x2的关系,可通过残差回归分析检查得到,
最后的数据发现β5的置信区间包含零点,表明回归变量x1x2(对变量y的影响)不是太显著地,我们将变量x1x2从模型(6)中去掉。
五、结果分析:
模型(5):表三显示,p远小于α,发现存在问题,通过残差回归分析,几次数据的踢出,得到的使数据更有说服力,模型从整体看上去还是可用的。表明人寿保险额y与风险偏好度x1有二次关系;
所以,型(5)的预测方程为:
y =-63.2111+1.0998x1+3.4542x2+0.0340x22 +0.2450x12
模型(6):表七显示,发现β5的置信区间包含零点,并通过残差回归分析,得到最后的数据,还是包含零点,得到最后的结论是去除模型(6)的变量x1x2 ,
可知经理当中经理年平均收入x2和风险偏好度x两个自变量与人寿保险额y没有交互效应。
六、模型的评价
(1) 本文的模型在建立的过程中充分考虑到经济收入方面重要相关因素,得出了对本题的最佳模型。
(2) 充分利用MATLAB等软件进行画图求证,所以误差较小,数据准确合理。本文在解决问题中使用的数据大部分为实验值,本身存在误差,我们没有使用实际数据进行检验。
(3)在应用过程中,结合问题实际背景,在由假设的经理的人寿保险额只与其年均收入和风险偏 好度之间分别存在着二次效应和线性效应的前提下 ,我们利用混合线性回归模型
(4)建立起了这三变量之间的函数关系式,并通过对该模型进行改进,验证了经 理的人寿保险额与其风险偏好度之间存在二次效应 ,经理的年均收入和风险偏 好度对其人寿保险额不存在交互效应。
七、模型的改进与推广
1.该模型不仅可用于人寿保险额与风险偏好度和年平均收入,也可用于其它方面,比如说。
2. 由于题目给出的统计数据不是很精确,如果我们能对统计的方法进行改进,估计时间可以更加精确。
3. 这个模型比较接近现实,它很有实用价值,可以为以后其他新药的推广提供参考。
4.考虑到保险行业的特殊性 ,尽管结合调查数据,我们利用混合回归模型建立 起了有关经理的人寿保险额与其年均收入和风险偏好度之间 的函数关系式,然而调查数据量很少,且我们并不能肯定经理的风险偏好度与其平均收入之间没有相关性,所建立的模型也并不能准确的对结果进行预测。
八、参考文献
(1)数学模型(第三版).姜启源,谢金星,叶俊.北京,高等教育出版社,2012
(2)MATLAB7.X程序
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
.王建卫,曲中水,凌滨.北京,中国水利水电出版社,2007
九、附录
模型I第一次分析:
① %未踢出前的 一
y=[196 63 252 84 126 14 49 49 266 49 105 98 77 14 56 245 133 133]' ;
x0=[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ]';
x1=[66.290 40.964 72.996 45.010 57.204 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916]';
x2=[7 5 10 6 4 5 4 6 9 5 2 7 4 3 5 1 8 6]';
x3=[4394.36 1678.05 5328.42 2025.90 3272.30 721.03 1453.29 1284.51 5745.03 1399.36 2956.75 2133.15 2127.98 922.09 1525.68 6301.18 2784.25 3126.60]';
x4=[49 25 100 36 16 25 16 36 81 25 4 49 16 9 25 1 64 36]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha);
rcoplot(r,rint)(图略)
b =
-60.9101
0.9303
4.4529
0.0359
0.1159
bint =
-72.6072 -49.2130
0.4389 1.4218
1.6910 7.2149
0.0310 0.0408
-0.1409 0.3727
r =
0.7270
0.4326
-2.2943
-0.5397
-3.3788
-1.1024
2.6367
-0.4088
0.8087
-0.2602
-0.1297
2.5586
-1.0201
-0.8249
0.6707
1.4165
1.8852
-1.1770
rint =
-2.5610 4.0149
-3.4379 4.3031
-4.1867 -0.4018
-4.3744 3.2951
-6.2877 -0.4699
-3.9695 1.7647
-0.8425 6.1158
-4.1858 3.3682
-2.2604 3.8777
-4.1121 3.5916
-2.9567 2.6972
-0.8788 5.9961
-4.7723 2.7321
-4.1082 2.4584
-3.1819 4.5233
-0.3912 3.2242
-1.4489 5.2193
-4.7434 2.3893
stats =
1.0e+003 *
0.0010 8.2737 0 0.0033
②%踢出5数据后 一
x4=[49 25 36 25 16 36 81 25 4 49 16 9 25 1 64 36]';
y=[196 63 84 14 49 49 266 49 105 98 77 14 56 245 133 133]' ;
x3=[4394.36 1678.05 2025.90 721.03 1453.29 1284.51 5745.03 1399.36 2956.75 2133.15 2127.98 922.09 1525.68 6301.18 2784.25 3126.60]';
x1=[66.290 40.964 45.010 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916]';
x2=[7 5 6 5 4 6 9 5 2 7 4 3 5 1 8 6]';
x0=[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha)
rcoplot(r,rint);
③%踢出3,5数据后 一
x4=[49 25 36 25 36 81 25 4 16 9 25 64 36]';
y=[196 63 84 14 49 266 49 105 77 14 56 133 133]' ;
x3=[4394.36 1678.05 2025.90 721.03 1284.51 5745.03 1399.36 2956.75 2127.98 922.09 1525.68 2784.25 3126.60]';
x1=[66.290 40.964 45.010 26.852 35.840 75.796 37.408 54.376 46.130 30.366 39.060 52.766 55.916]';
x2=[7 5 6 5 6 9 5 2 4 3 5 8 6]';
x0=[1 1 1 1 1 1 1 1 1 1 1 1 1 ]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha)
rcoplot(r,rint)
模型II第一次回归分析:
①%踢出3,5,后的 二
x4=[49 25 36 25 16 36 81 25 4 49 16 9 25 1 64 36]';
y=[196 63 84 14 49 49 266 49 105 98 77 14 56 245 133 133]' ;
x3=[4394.36 1678.05 2025.90 721.03 1453.29 1284.51 5745.03 1399.36 2956.75 2133.15 2127.98 922.09 1525.68 6301.18 2784.25 3126.60]';
x1=[66.290 40.964 45.010 26.852 38.122 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916]';
x2=[7 5 6 5 4 6 9 5 2 7 4 3 5 1 8 6]';
x0=[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ]';
x5=[ 464.0300 204.8200 270.0600 134.2600 152.4880 215.0400 682.1640 187.0400 108.7520 323.3020 184.5200 91.0980 195.3000 79.3800 422.1280 335.4960]'
x=[x0,x1,x2,x3,x4,x5];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha);
rcoplot(r,rint)
②%踢出5后的 二
x4=[49 25 36 25 36 81 25 4 49 16 9 25 1 64 36]';
y=[196 63 84 14 49 266 49 105 98 77 14 56 245 133 133]' ;
x3=[4394.36 1678.05 2025.90 721.03 1284.51 5745.03 1399.36 2956.75 2133.15 2127.98 922.09 1525.68 6301.18 2784.25 3126.60]';
x1=[66.290 40.964 45.010 26.852 35.840 75.796 37.408 54.376 46.186 46.130 30.366 39.060 79.380 52.766 55.916]';
x2=[7 5 6 5 6 9 5 2 7 4 3 5 1 8 6]';
x0=[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ]';
x5=[ 464.0300 204.8200 270.0600 134.2600 215.0400 682.1640 187.0400 108.7520 323.3020 184.5200 91.0980 195.3000 79.3800 422.1280 335.4960]'
x=[x0,x1,x2,x3,x4,x5];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha);
rcoplot(r,rint)
_1234567893.unknown
_1234567895.unknown
_1394910130.unknown
_1394910145.unknown
_1394910101.unknown
_1234567897
_1234567894.unknown
_1234567891.unknown
_1234567892.unknown
_1234567890.unknown