首页 多元线性回归模型

多元线性回归模型

举报
开通vip

多元线性回归模型多元线性回归模型 ​ 小组编号:63 多元线性回归模型 ——对于爱知世博会日人流量因素分析 组长:夏 天 组员:李 程 组员:周园园 目录 1、​ 摘要 2、​ 问题的提出 3、​ 背景的分析 4、​ 问题的分析 5、​ 模型参数的假设 6、​ 模型的分析与建立 7、​ 模型的改进 8、​ 模型的检验 9、​ 运用模型求解 1、​ 摘要 本文提出要求分析中国上海世博会期间的人流量因子问题,我们在分析解决这个问题上,经过仔细的考虑最终确立了多元线性回归模型。在解决这个问题中最关键的地方是如何找出主要影响人流量的因子...

多元线性回归模型
多元线性回归模型 ​ 小组编号:63 多元线性回归模型 ——对于爱知世博会日人流量因素分析 组长:夏 天 组员:李 程 组员:周园园 目录 1、​ 摘要 2、​ 问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的提出 3、​ 背景的分析 4、​ 问题的分析 5、​ 模型参数的假设 6、​ 模型的分析与建立 7、​ 模型的改进 8、​ 模型的检验 9、​ 运用模型求解 1、​ 摘要 本文提出要求分析中国上海世博会期间的人流量因子问题,我们在分析解决这个问题上,经过仔细的考虑最终确立了多元线性回归模型。在解决这个问题中最关键的地方是如何找出主要影响人流量的因子,进而建立模型。因此在处理整个人流量的问题上我们分两步进行,一是找出主要的影响因子,二是建立回归模型,确定回归系数,确定出各个因子与人流量的函数关系。下面我们做一下详细解释。 题目中所给出的因子有几个,但是一些条件都是运用文字来表达的,这个时候,我就先运用数据处理的办法,利用虚拟参数将现实中的问题数据化,之后来进行分析,运用数学的方法,达到解决问题的第一步。 哪些有用那些无用?到底怎样取舍?经过仔细的分析和推敲,我们发现了需要通过显著性差异来区别我们所选取的各类因子,删除显著性不好的因子,比如,学生假期这一因子,在进行了详细的分析与操作过程后,对于这个因子及相关数据我们将其剔除,在这一处理过程中,我们很灵活的用到了虚拟参数,对于我们接下来的分析及相关过程都提供了一定的便利条件。 将主要的影响因子提取出来后,我们通过建立回归模型来确定自变量与因变量的回归关系,并通过回归分析过程中所得出的一系列数据来说明模型的可信度与参考价值。 最后,我们对所建立的模型提出了建议,并从和客观方面对模型有针对性得提出了改进的方法。主要是通过对残差项的相关分析来反映实质性的问题。 二、问题的提出 该题中所设置的问题是基于2010年中国一个大事件的环境背景下,今年在上海所举办的世博会所吸引了全世界的目光。题目给出了一系列有具体值与具体意义的环境等条件下人流量的具体数目,要求我们根据这些数据来分析世博会中影响人流量的主要因子。之后,通过对这些因子进行各种分析,得出该因子对于人流量的影响机制,建立出基本的数学模型,分析该数学模型的可行性。 我们针对这些给出的详细数据,展开了一系列的讨论,商量出我们的基本思路。在分析之后,我们一致认为,应先筛选出对于人流量影响较大的因子,然后再对筛选出来的因子进行个别或总体的数学分析,进行一定的分析与研究,这样初步简化模型建立中繁琐的数据,同时对于减小模型的误差也起到了一定的作用。在分析的过程中,会运用到回归系数建立回归方程,样本的选取来分析周期性的规律,样本显著性分析等方法来实现我们解决问题的目的。 在建模的过程中,为了做出最合理的结果,我们对于自己的分析过程做出了约束条件:在分析的过程中,尽量剔除用不上,并且很繁杂没有规律性的数据,来减少工作量以及分析的确切度;在模型建立之后,也会通过检验来验证模型的可行度。 三、背景的分析 回归分析就是研究两个或多个变量之间关系的统计方法,通过确定某一变量对另一个变量的影响强度来揭示变量之间的内在数量关系。数理统计诸方法中以回归分析应用最为广泛,早在19世纪回归分析就以最小二乘法的面貌出现,并以矩阵代数为主要数学工具,在实际中开始应用,100多年来它的理论和方法日益丰富,应用面越来越广,并且回归分析的思想已经渗透到数理统计的其他分支之中,如时间序列分析、主成分分析、判别分析等。 回归分析中应用最为广泛,理论上业已经成熟的是多元线性回归,很多非线性的回归问题业可以通过变换转化为线性回归或运用分段回归、多项式回归等来实现,但是在经济领域中的多元回归问题中,诸如自变量之间普遍存在多重共线性,这也是影响回归模型稳定的重要因素,使所得的回归模型中出现了不符合经济学原理的现象。本文在试图建立变量之间的多元回归模型时,也出现了此种情况,为此采用主成分分析回归分析来消除这种多重共线性,建立主成分回归模型。 4、​ 问题的分析 经过小组的讨论与商议,我们认为这是个多元线性回归模型。下面我们就把我们的分析过程做一下陈述。 题目中给出的数据很多,我们经过分析发现有一些数据只是让我们了解一些情况,并不是所有的数据都要用于世博人流量的分析。我们需要对这些数据做一些剔除,比如,经过初步的分析,我们会发现学生节假日对于人流量的影响并不是非常的明显,在之后的进一步分析中,我们会用科学的知识来得出结论。 其次,经过我们的分析与思考,对于题目中所给出的具体文字性的条件,如星期几等都是由文字给出的条件,我们决定纳入虚拟变量进行相关的求解,这样使文字数字化使得结果更具有代表性,加强特征性。 再次,我们又从中发现了许多不明显但可能对人流量具有较大影响的潜在的影响因子,例如时间序列中,随着时间的累加,总的人数也呈现着一个总体上升的趋势,这在之后的分析过程之后也需要用统计数学的方法来求解。 经过这三个方面数据的分析过程,使得我们考虑的方向明确了很多。但是在所有的因子中,每个因子对于总的结果作用的显著性,或者该因子是否对于人流量作用都需要做进一步的研究。 在接下来的研究分析过程中,我们集中精力对这些数据进行处理。在EXCEL中输入参加分析的数据,然后利用SPSS软件,运用主成分分析的得到投入自变量的主成分,找出了综合变量,达到最终压缩变量的目的。再根据得到的综合变量运用SPSS进行回归分析,进一步求得函数表达式,进而确立了影响多元线性回归模型。 5、​ 模型参数的假设 1、日期对于人流量的分析来说,可以看为时间序列的分析,日期从第一天增加,数量上是累加的,同时可以看到相应的人流量是有一种上升趋势的,设日期从第一天开始累积到最后的参数为X1, 即X1=日数,且X1∈{1,2,3,4……186}; 2、对于虚拟参数的设定,可以看出,节假日对于人流量具有一定的影响,这个时候,为了方便分析,我们对于这个因子进行了虚拟参数的设定,对于节假日性质的划分,我们将其区分为学生节假日和全国公休日两种情况,采用了两个虚拟变量来实现划分, 设某天是否为学生节假日为虚拟参数X2,其值只有0和1两种情况, 即X2=某天是否为学生节假日,且X2={ ; 设某天是否为全国公休日为虚拟参数X3, 即X3=某天是否为全国公休日,且X3={ 3、同时,通过对一个星期中工作日与双休日也是不能忽略的因素,工作日人们都需要进行正常的工作学习与生活。在双休日中,人们便可以利用休息的时间去看世博,同时增加了人流量,因此,我们同样可以设定某天是工作日还是双休日这一选择结果作为虚拟参数X4, 即X4=某天为工作日还是双休日,且X4={ ; 4、在天气对于人流量的影响中,我们也进行了同样的处理方式,设定天气状况为虚拟参数X5, 即X5=天气状况,且X5={ ; 5、设置因变量为Y,即Y=人流量。 6、​ 模型的分析与建立 (一)、确定主要影响因子 通过以上分析,我们根据我们的思路做出了以下的数据处理。 基于对数据的分析,我们首先对题中的自变量进行了处理,设置了虚拟参数等能够将信息数据化的方法,这样做简化了分析的复杂程度,使得我们对问题的研究更有针对性,目的性更强,方向更明确,也使得结果能够更加清晰,具有一定的条理性。 我们把模型的自变量分成了以上的四类,人流量为因变量,绘制出了一张表,先输入了EXCEL中,再用SPSS软件对粮食投入与产出分析表进行数据的导入,得到导入表。其中数据输入EXCEL中后如下图: X1 X2 X3 X4 X5 Y 1 1 0 1 1 43023 63 0 0 1 0 101675 125 0 0 1 0 99628 2 1 0 0 1 46115 64 0 0 1 0 117894 126 0 0 1 0 94437 3 1 0 0 0 56597 65 0 0 0 1 153112 127 0 0 1 0 95709 4 1 0 1 1 61763 66 0 0 0 0 131225 128 0 0 0 1 107148 5 1 0 1 0 75091 67 0 0 1 1 125982 129 0 0 0 1 102623 6 1 0 1 0 74946 68 0 0 1 0 98840 130 1 0 1 0 84043 7 1 0 1 1 68554 69 0 0 1 1 105732 131 1 0 1 0 90997 8 0 0 1 0 60361 70 0 0 1 1 85363 132 1 0 1 0 96937 9 0 0 0 1 74900 71 0 0 1 1 120303 133 1 0 1 0 100386 10 0 0 0 1 61255 72 0 0 0 1 143626 134 1 0 1 0 93786 11 0 0 1 0 77401 73 0 0 0 0 137856 135 1 0 0 0 101052 12 0 0 1 0 63223 74 0 0 1 0 139001 136 1 0 0 0 114609 13 0 0 1 1 55393 75 0 0 1 0 109635 137 1 0 1 0 128664 14 0 0 1 1 43314 76 0 0 1 0 105056 138 1 0 1 0 127443 15 0 0 1 1 50933 77 0 0 1 0 106494 139 1 0 1 0 133889 16 0 0 0 0 78538 78 0 0 1 1 120620 140 1 0 1 0 143523 17 0 0 0 1 60225 79 0 0 0 1 145752 141 1 0 1 1 139624 18 0 0 1 1 52972 80 0 0 0 0 147967 142 1 0 0 0 131952 19 0 0 1 1 53668 81 0 0 1 0 129835 143 1 0 0 1 136851 20 0 0 1 0 69527 82 0 0 1 1 103801 144 1 0 1 0 166356 21 0 0 1 0 72682 83 0 0 1 1 93675 145 1 0 1 1 143744 22 0 0 1 0 74714 84 0 0 1 1 103659 146 1 0 1 0 130449 23 0 0 0 0 91914 85 0 0 1 0 134196 147 1 0 1 0 145222 24 0 0 0 0 84401 86 0 0 0 0 171860 148 1 0 1 0 127152 25 0 0 1 0 85657 87 0 0 0 0 143243 149 1 0 0 0 141152 26 0 0 1 0 85056 88 0 0 1 0 128836 150 1 0 0 1 122488 27 0 0 1 1 67827 89 0 0 1 1 97156 151 1 0 1 1 111996 28 0 0 1 0 78378 90 0 0 1 1 103401 152 1 0 1 1 126162 29 0 0 1 0 83421 91 0 0 1 1 105233 153 1 0 1 0 134039 30 0 0 0 0 112332 92 0 0 1 1 118811 154 1 0 1 1 85089 31 0 0 0 0 107468 93 0 0 0 0 165415 155 1 0 1 0 142220 32 0 0 1 0 88614 94 0 0 0 1 128448 156 1 0 0 0 184275 33 0 0 1 1 76466 95 0 0 1 0 99975 157 1 0 0 0 175649 34 0 0 1 0 89538 96 0 0 1 1 91810 158 1 0 1 0 173545 35 0 0 1 0 79661 97 0 0 1 1 100370 159 1 0 1 1 154253 36 0 1 1 0 102186 98 0 0 1 1 89879 160 1 0 1 1 148138 37 0 1 0 0 111740 99 0 0 1 1 92439 161 1 0 1 0 177708 38 0 1 0 1 78524 100 0 0 0 1 145729 162 1 0 1 0 168324 39 0 0 1 0 113801 101 0 0 0 1 116056 163 1 0 0 0 249873 40 0 1 1 0 146203 102 0 0 1 1 82567 164 1 0 0 1 193447 41 0 1 1 0 149214 103 0 0 1 0 93207 165 1 0 1 1 134804 42 0 1 1 0 68340 104 0 0 1 1 101019 166 1 0 1 1 124058 43 0 0 1 1 60406 105 0 0 1 1 97356 167 1 0 1 1 155915 44 0 0 0 1 71013 106 0 0 1 1 119250 168 1 0 1 0 192661 45 0 0 0 0 78465 107 0 0 0 1 155476 169 1 0 1 0 196299 46 0 0 1 0 98327 108 0 0 0 1 122892 170 1 0 0 1 250694 47 0 0 1 0 92785 109 0 0 1 1 89492 171 1 0 0 1 219292 48 0 0 1 0 105450 110 0 0 1 0 91185 172 1 0 1 0 197408 49 0 0 1 1 79842 111 0 0 1 0 108271 173 1 0 1 0 202711 50 0 0 1 0 100069 112 0 0 1 0 109249 174 1 0 1 0 218721 51 0 0 0 0 135649 113 0 0 1 0 108322 175 1 0 1 0 211477 52 0 0 0 0 115606 114 0 1 0 0 141587 176 1 0 1 0 209310 53 0 0 1 0 105603 115 0 1 0 0 215976 177 0 1 0 0 224538 54 0 0 1 1 106462 116 0 1 1 0 116231 178 0 1 0 0 281441 55 0 0 1 1 91723 117 0 0 1 0 82727 179 0 1 1 0 222935 56 0 0 1 0 97874 118 0 0 1 0 79056 180 1 0 1 0 203515 57 0 0 1 0 113711 119 0 0 1 0 75055 181 1 0 1 0 192502 58 0 0 0 0 131534 120 0 0 1 0 83781 182 1 0 1 1 207347 59 0 0 0 1 102983 121 0 0 0 1 103043 183 0 1 1 0 234031 60 0 0 1 1 124214 122 0 0 0 1 108132 184 0 1 0 1 213657 61 0 0 1 0 99494 123 0 0 1 1 86463 185 0 1 0 0 244052 62 0 0 1 1 106513 124 0 0 1 1 63529 我们现在集中对以上这些数据先进行处理,用EXCEL中的这些数据,导入到SPSS中通过对自变量与因变量的分析来进行处理,进行回归分析,进而确定各个因子影响显著化的数据性说明,分析该因子是否为影响人流量变化的主因子。为进一步做出模型打好基础。 数据导出的结果如下: 如图中所示可以发现,可以发现X2在各个因素都逐步考虑进去的同时,sig值虽然发生了一定的变化,但是总体都偏大,依次下来的sig值为0.269、0.638、0.503、0.726,都是大于0.05的,例如,0.726说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等,我们认为平均值相等的几率还是比较大的,说明差异是不显著的,故我们因此决定排除学生节假日X2这一因子。 以上,通过我们的分析,我们得出影响模型建立中重要的自变量,同时也是影响爱知世博会主要的影响因子有:日数、是否为全国公休日、某日为双休日还是工作日与天气四类因子。 (二)、回归模型的初步建立 在排除了X2这一因子后,改进输入SPSS的数据,可以得出以下相关性及结果: 可以看出,在排除了X2之后,各类因子的sig值都趋向于零,并且很大一部分都是等于零的,这说明这些因子的回归性很好,显著性水平是很高的,可以进行回归模型的建立,之后我们便利用筛选出来的因子着手进行回归模型的建立。 我们现在建立人流量Y与日数X1,全国公休日X3,星期几X4,天气X5之间的多元线性回归模型为: Y= + X1+ X3+ X4+ X5+ 其中,(1)X1、X3、X4、X5为自变量,Y为因变量; (2) 、 、 、 、 为待估计的回归系数,且是与X1、X3、X4、X5无关的未知参数; (3) 为随机误差,。 之后,我们需要求解出该模型中的回归系数,利用SPSS软件算出,来将模型实际化、具体化。 得到的数据如图所示: 在这个表中,从上到下列出了各个因子的回归系数的具体数据,同时,我们可以看到,该表也说明了因子的回归性很好,所以得出了结果为 =80624.557, =609.200, =33769.434, =—21901.4, =—13131.3。 即具体的模型为: Y=80624.557+609.200X1+33769.434X3—21901.4X4—13131.3X5+ 然后我们对这个结果进行具体的检验与分析,通过软件中导出数据的相关指标如下: 在本题中,对应上表,可以得出,当所有因子都作用的时候,可以看到R =0.660,Adjusted R =0.653,拟合优度较好,说明因变量可由该模型确定的可信度,自变量的变化对回归效应的影响。 同时,导出的指标相关数据表还有: 通过上表,可以发现F值也满足了一定的条件,且p远小于0.05,是较为理想的数值。 通过以上分析,说明了模型从整体上来看是可用且是有效的。 7、​ 模型的改进 在经过以上的操作步骤后,我们又进行了进一步的讨论,寻找改进的方向,通过以下的一张表,我们得出了回归系数的置信区间,如下: 根据上图可以得出: 参数 参数估计值 置信区间 80624.557 [69509.633,91739.481] 609.200 [534.658,683.741] 33769.434 [18777.025,48761.843] —21901.4 [—30766.834,—13035.894] —13131.3 [—21354.397,—4908.277] 从数据可以看出来,参数估计值都存在在置信区间中,且置信上限和置信下限都同为正或者同为负,说明所有回归系数的解释都是合理的且可靠的。 为了对残差进行分析,我们也运用数学软件做出了模型Y 与各类因子的关系图,图表组如下所示: 通过以上图表组可以看出,回归系数都较为均匀的分布在零线上下,表示各类组合在模型中处理得当。 对于上述步骤的残差分析,我们都是为了在模型建立的基础上,通过残差分析的各类方法来发现模型中的缺陷,引入交互作用项对结果进行改善。如果在分析的过程中发现了异常值,进行剔除,有助于结果的合理性。 在残差分析的过程中,我们没有发现较为异常的现象与数据,结果科学,模型合理。 通过改进,我们所得出来的回归模型为: Y=80624.557+609.200X1+33769.434X3—21901.4X4—13131.3X5 8、​ 模型的检验 模型建立与改进之后,我们通过随机抽取一百八十五个数据中的几个样本来检验人流量数据,通过模型计算得出的人流量数据与实际的人流量数据进行对比,来检验该回归模型的可行性,我们采取随机抽样选取十组数据的方式来检验,具体结果如下: (1)X1=1,X3=0,X4=1,X5=1 得出的结果Y=46201,实际的值为43063。 (2)X1=18,X3=0,X4=1,X5=1 得出的结果Y=56558,实际的值为52972。 (3)X1=70,X3=0,X4=1,X5=1 得出的结果Y=88236,实际的值为85363。 (4)X1=116,X3=0,X4=1,X5=1 得出的结果Y=116260,实际的值为116231。 (5)X1=157,X3=0,X4=0,X5=0 得出的结果Y=176269,实际的值为175649。 (6)X1=160,X3=0,X4=1,X5=1 得出的结果Y=143604,实际的值为148138。 (7)X1=167,X3=0,X4=1,X5=1 得出的结果Y=147329,实际的值为155915。 (8)X1=177,X3=1,X4=0,X5=0 得出的结果Y=222222,实际的值为224538。 (9)X1=179,X3=1,X4=1,X5=0 得出的结果Y=201540,实际的值为222935。 (10)X1=184,X3=1,X4=0,X5=1 得出的结果Y=213356,实际的值为213657。 9、​ 运用模型求解 综上所述,我们计算结果时采用的回归模型为 Y=80624.557+609.200X1+33769.434X3—21901.4X4—13131.3X5 根据表中所给出的有关数据,通过时间序列也可以得出次日为第186天,得出X1的值, 即X1=186; 通过查阅资料也发现,次日并不是公休日,所以也可以得出X3的值, 即X3=0; 同时,我们发现第186天为工作日,而非双休日,所以得出X4的值, 即X4=1; 但是对于天气这个并不确定的因素,我们没办法预测,因此对于X5的取值我们采用了晴天和非晴天两种是否利于人群出行的情况来进行分开的分析和数值计算。 通过对以上的内容进行分析后,我们运用EXCEL中的运算功能对于次日人流量进行测算。 天气为晴,即X5=0时的数据如下: 80624.557 6009.2 33769.434 —21901.4 —13131.3 X1 186 X3 0 X4 1 X5 0 Y= + X1+ X3+ X4+ X5=172034.357 同理,我们可以算出天气不为晴,即X5=1时的数据如下: 80624.557 6009.2 33769.434 —21901.4 —13131.3 X1 186 X3 0 X4 1 X5 1 Y= + X1+ X3+ X4+ X5=158903.057 综上所述,结合实际,人数不可能为小数,且天气状况只能预测,是不能准确的知道的,所以作为预测次日即第186天的人流量,我们采用将天气分为晴天和非晴天的预测方法来计算,进行整理分析计算处理出: 1、​ 次日即第186天为晴天时,人流量为172034.357; 2、​ 次日即第186天为非晴天时,人流量为158903.057。 该结果通过对比分析,可以看出该模型是可行且具有一定准确性的。
本文档为【多元线性回归模型】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_499801
暂无简介~
格式:doc
大小:912KB
软件:Word
页数:17
分类:
上传时间:2011-09-08
浏览量:127