首页 数学建模缺失数据补充及异常

数学建模缺失数据补充及异常

举报
开通vip

数学建模缺失数据补充及异常数学建模缺失数据增补及异常数学建模缺失数据增补及异常数学建模缺失数据增补及异常数学建模缺失数据增补及异常数据修正题目:数据的预办理问题大纲数据办理贯穿于社会生产和社会生活的各个领域。数据办理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进度。数据增补,异常数据的鉴别及修正,在各个领域也起到了重要作用。对于第一问,我们采纳了多元线性回归的方法对缺失数据进行增补,我们将1960-2015.xls(见附表一)中的数据导入matlab。第一作出散点图,设定y(X59287)与x1(X54511)、x2(X574...

数学建模缺失数据补充及异常
数学建模缺失数据增补及异常数学建模缺失数据增补及异常数学建模缺失数据增补及异常数学建模缺失数据增补及异常数据修正 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 目:数据的预办理问题大纲数据办理贯穿于社会生产和社会生活的各个领域。数据办理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进度。数据增补,异常数据的鉴别及修正,在各个领域也起到了重要作用。对于第一问,我们采纳了多元线性回归的 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 对缺失数据进行增补,我们将1960-2015.xls(见附表一)中的数据导入matlab。第一作出散点图,设定y(X59287)与x1(X54511)、x2(X57494)的关系为二元线性回归模型,即y=b0+b1x1+b2x2。以后作多元回归,求出系数b0=18.014,b1=0.051,b2=0.354,所以多元线性回归多项式为:Y=18.014+0.051*x1+0.354*x2。再作出残差解析图考据拟合成效,残差较小,说明回归多项式与源数据切合得较好。若x1=30.4,x2=28.6时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=29.6888。近似地,若x1=40.6,x2=30.4时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=30.8462,即可增补缺失数据。对于第二问,我们使用了异常值检验中 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差未知的t检验法。将除可疑测定值xd之外的其余测定值当成一个整体,并假设该整体遵从正态分布。由这些测定值计算均匀值x与标准差s,而将可疑值xd当成一个样本容量为1的特别整体。假如xd与其余测定值同属于一个整体,则它与其余测定值之间不该有显著性差异。检测统计量为:kxdx,假设可由标准差s代替来进行检验,则检测统计量可视为:kxdxs。若统计量值大于相应置信度下的t检验法的临界值T(该临界值经过查表法得出),则将xd判为异常值。由此算法即可鉴别出相应的异常数据。对于第三问,对于问题三,我们采纳了分段线性插值,近来方法插值,三次样条函数插值以及三次多项式方法插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异常。经过各种插值方法的比较,发现三次样条方法较为正确,并较好的对异常数据进行修正。要点词:多元线性回归,t检验法,分段线性插值,近来方法插值,三次样条插值,三次多项式插值C38姓名学号专业队长康伟振20141387032应数长望队员一卜维新20141346033网络工程队员二李兰馨20141302059应用气象一、问题重述1.1背景在数学建模过程中总会遇到大数据问题。一般而言,在供给的数据中,不行防备会出现许多的检测异常值,如何判断和办理这些异常值,对于提升检测结果的正确性意义重要。1.2需要解决的问题(1)给出缺失数据的增补算法;(2)给出异常数据的鉴别算法;(3)给出异常数据的修正算法。二、模型解析2.1问题(1)的解析属性值数据缺失常常发生甚至不行防备。(一)较为简单的数据缺失(1)均匀值填补假如空值为数值型的,就依据该属性在其余全部对象取值的均匀值来填补缺失的属性值;假如空值为非数值型的,则依据众数原理,用该属性在其余全部对象的取值次数最多的值(出现频率最高的值)来补齐缺失的属性值。热卡填补(就近补齐)对于包含空值的数据集,热卡填补法在完好数据中找到一个与其最相似的数据,用此相似对象的值进行填补。删除元组将存在遗漏信息属性值的元组删除。(二)较为复杂的数据缺失多元线性回归当出缺失的一组数据存在多个自变量时,可以考虑使用多元线性回归模型。将全部变量包含因变量都先转变成标准分,再进行线性回归,此时获取的回归系数就能反响对应自变量的重要程度。2.2问题(2)的解析属性值异常数据鉴别很重要。我们可以采纳异常值t检验的方法比较前后两组数据的均匀值,与临界值对比较即可鉴别数据异常并剔除异常数据。将除可疑测定值xd之外的其余测定值当成一个整体,并假设该整体遵从正态分布。由这些测定值计算均匀值x与标准差s,而将可疑值xd当成一个样本容量为1的特别整体。假如xd与其余测定值同属于一个整体,则它与其余测定值之间不该有明显性差异。检测统计量为:kxdx,假设可由标准差s代替来进行检验,则检测统计量可视为:kxdxs。若统计量值大于相应置信度下的t检验法的临界值T(该临界值经过查表法得出),则将xd判为异常值。2.3问题(3)的解析对于数据修正,我们采纳各种插值算法进行修正,这是一种卓有收效的方法。(1)分段线性插值将每两个相邻的节点用直线连起来,这样形成的一条折线就是分段线性插值函数,记作Inx,它满足Inxiyi,且Inx在每个小区间xi,xi1上是线性函数Inxi0,1,,n。Inx可以表示为Inx有优异的收敛性,即对于xa,b有,用Inx计算x点的插值时,只用到x左右的两个节点,计算量与节点个数n没关。但n越大,分段越多,插值偏差越小。实质上用函数表作插值计算时,分段线性插值就足够了,如数学、物理顶用的特别函数表,数理统计顶用的概率分布表等。三次多项式算法插值当用已知的n+1个数据点求出插值多项式后,又获取了新的数据点,要用它连同原有的n+1个数据点一起求出插值多项式,从原已计算出的n次插值多项式计算出新的n+1次插值多项式很困难,而此算法可以战胜这一弊端。(3)三次样条函数插值[4]数学大将拥有必定圆滑性的分段多项式称为样条函数。三次样条函数为:对于a,b上的分划:ax0x1xn=b,则,利用样条函数进行插值,即取插值函数为样条函数,称为样条插值。三、模型假设假设只有因变量存在数据缺失,而自变量不存在缺失。利用t检验法时,将除可疑测定值xd之外的其余测定值当成一个整体,并假设该整体遵从正态分布。四、问题(1)的解析与求解4.1问题解析本题需要对缺失数据进行增补,状况可分为数据集中单一元素缺失及某一元组缺失两种状况。所以,对数据办理采纳同上模型解析2.1的办理方法。4.2问题办理我们将1960-2015.xls(见附表一)中的数据导入matlab(程序见附录一)。第一作出散点图。设定y(X59287)与x1(X54511)、x2(X57494)的关系为二元线性回归模型,即y=b0+b1x1+b2x2。以后作多元回归,求出系数b0=18.014,b1=0.051,b2=0.354,所以多元线性回归多项式为:Y=18.014+0.051*x1+0.354*x2。由matlab编程所得结果图以下4-2所示。图4-2再作出残差解析图考据拟合成效,残差较小,说明回归多项式与源数据切合得较好。若x1=30.4,x2=28.6时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=29.6888。近似地,若x1=40.6,x2=30.4时,y的数据缺失,则将x1,x2带入回归多项式,算出缺失值y=30.8462,即可增补缺失数据。五、问题(2)的解析与求解5.1问题解析本题需要对给定缺失数据进行鉴别,可以采纳的方法为t检验检测法。T检验用t分布理论来推论差异发生的概率,从而比较两个均匀数的差异能否明显。5.2问题办理(一)随机产生数据由R系统随机产生数据对其进行缺失数据鉴别,代码如附录四所示,结果图以下5-1,5-2,5-3所示。图5-1图5-2图5-3(二)给定相应数据对于问题二,在数据完好但出现异常的状况下,可以考虑使用异常值检验中标准差未知的t检验法。将除可疑测定值xd之外的其余测定值当成一个整体,并假设该整体遵从正态分布。由这些测定值计算均匀值x与标准差s,而将可疑值xd当成一个样本容量为1的特别整体。假如xd与其余测定值同属于一个整体,则它与其余测定值之间不该有明显性差异。检测统计量为:kxdx,假设可由标准差s代替来进行检验,则检测统计量可视为:kxdxs。若统计量值大于相应置信度下的t检验法的临界值T(该临界值经过查表法得出),则将xd判为异常值。详尽数据见附表二,详尽程序详见附录二,结果图以下5-4所示。图5-4六、问题(3)的解析与求解6.1问题解析对于问题三,我们采纳了分段线性插值,近来方法插值,三次样条函数插值以及三次多项式方法插值法来修正数据异常。同时也需利用外插法修正最后一个数据的异常。详见2.3对问题三的办理原理。详尽代码见附录三。附录一多元线性回归matlab程序clear;data1=xlsread('C:\Users\Lenovo\Desktop\1960-2005.xls');%做出散点图figure(1)scatter3(data1(:,4),data1(:,5),data1(:,6),'r');x=[ones(262,1),data1(:,4),data1(:,5)];y=data1(:,6);[b,bint,r,rint,stats]=regress(y,x);xlabel('X54511(x1)');ylabel('X57494(x2)');zlabel('X59287(y)');text(0.1,0.06,0.2,'回归方程式为:y=18.014+0.051x1+0.352x2','color','b');title('x1,x2,y的关系:','color','m');%做残差解析图figure(2)reoplot(r,rint);xlabel('数据');ylabel('残差');title('残差绘制图');%补缺失数据x1=[32.6,31.3];y1=x1*b;x2=[33.2,26.5];y2=x2*b;附录二t检验spss代码GETDATA/TYPE=XLS/FILE='C:\Users\bwx\Desktop\2.xls'/SHEET=name'Sheet1'/CELLRANGE=full/READNAMES=on/ASSUMEDSTRWIDTH=32767.EXECUTE.DATASETNAME数据集2WINDOW=FRONT.T-TEST/TESTVAL=0/MISSING=ANALYSIS/VARIABLES=y/CRITERIA=CI(.95).附录三插值修正数据matlab代码clearT=0:5:65T=50556065X=2:5:57X=5257>>F=[3.2015,2.2560,879.5,1835.9,2968.8,4136.2,5237.9,6152.7,6725.3,6848.3,6403.5,6824.7,7328.5,7857.6];F1=interp1(T,F,X)F1=1.0e+003*Columns1through100.00280.35321.26212.28913.43584.57695.60386.38176.77456.6704Columns11through126.57207.0262F1=interp1(T,F,X,'nearest')F1=1.0e+003*Columns1through100.00320.00230.87951.83592.96884.13625.23796.15276.72536.8483Columns11through126.40356.8247>>F1=interp1(T,F,X,'nearest')%近来方法插值F1=1.0e+003*Columns1through100.00320.00230.87951.83592.96884.13625.23796.15276.72536.8483Columns11through126.40356.8247>>F1=interp1(T,F,X,'spline')%三次样条方法插值F1=1.0e+003*-0.17020.30701.25602.26983.43964.58965.63706.42296.85936.65356.48177.0441>>F1=interp1(T,F,X,'cubic')%三次多项式方法插值F1=1.0e+003*0.00250.22321.24842.27363.43654.59135.63626.43626.79786.69176.50777.0186附录四随机数据缺失鉴别R语言代码set.seed(2016)>x<-rnorm(100)>summary(x)Mean3rdQu.Max.2.6860>summary(x)Mean3rdQu.Max.0.18672.6860#outliersboxplot.stats(x)#out$stats$n[1]100$conf$out>boxplot.stats(x)$out-3.3153912.685922-3.0557172.571203>boxplot(x)>y<-rnorm(100)>df<-data.frame(x,y)rm(x,y)head(df)y0.27493834-0.8441813>attach(df)>#findtheindexofoutliersfromx>(a<-which(x%in%boxplot.stats(x)$out))[1]1336474>#findtheindexofoutliersfromy>(b<-which(y%in%boxplot.stats(y)$out))[1]2425496474>detach(df)>#outliersinbothxandy>(outlier.list<-intersect(a,b))[1]6474>plot(df)>points(df[outlier.list,],col="red",pch="+",cex=2.5)
本文档为【数学建模缺失数据补充及异常】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
秋天的麦田
本人从事母婴护理工作多年,经验丰富。
格式:doc
大小:77KB
软件:Word
页数:18
分类:
上传时间:2023-01-17
浏览量:9