首页 数据拟合方法研究毕业论文

数据拟合方法研究毕业论文

举报
开通vip

数据拟合方法研究毕业论文北京交通大学毕业设计(论文)开题报告北京交通大学毕业设计(论文)数据拟合方法研究中文摘要在我们实际的实验和勘探中,都会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数据变化规律的函数。本文介绍了几种常用的数据拟合方法,线性拟合、二次函数拟合、数据的n次多项式拟合等。并着重对曲线拟合进行了研究,介绍了线性与非线性模型的曲线拟合方法,最小二乘法、牛顿迭代法等。在传统的曲线拟合基础上,为了提高曲线拟合精度,本文还研究了多项式的摆动问题,从实践的...

数据拟合方法研究毕业论文
北京交通大学毕业 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 (论文)开 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 报告北京交通大学毕业设计(论文)数据拟合方法研究中文摘要在我们实际的实验和勘探中,都会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数据变化规律的函数。本文介绍了几种常用的数据拟合方法,线性拟合、二次函数拟合、数据的n次多项式拟合等。并着重对曲线拟合进行了研究,介绍了线性与非线性模型的曲线拟合方法,最小二乘法、牛顿迭代法等。在传统的曲线拟合基础上,为了提高曲线拟合精度,本文还研究了多项式的摆动问题,从实践的角度分析了产生这些摆动及偏差的因素和特点,总结了在实践中减小这些偏差的处理方法。采用最小二乘法使变量转换后所得新变量离均差平方和最小,并不一定能使原响应变量的离均差平方和最小,所以其模型的拟合精度仍有提高的空间。本文以残数法与最小二乘法相结合,采用非线性最小二乘法来得到拟合效果更好的曲线模型。随着计算机技术的发展,实验数据处理越来越方便。但也提出了新的课题,就是在选择数据处理方法时应该比以往更为慎重。因为稍有不慎,就会非常方便地根据正确的实验数据得出不确切的乃至错误的结论。所以提高拟合的准确度是非常有必要的关键词:数据拟合、最小二乘法、曲线拟合、多项式摆动、残数法DataFittingMethodAbstractInourexperimentsandexploration,itwillproducelargeamountsofdata.Inordertoexplainthesedatatomakepredictionsbasedonthesedatatodetermine,provideanimportantbasisforpolicymakers.Needtofitthemeasureddatatofindafunctiontoreflectdatachangesinthelaw.Thisarticledescribesseveralcommonlyuseddatafittingmethods,andfocusedonanonlinearcurvefittingofthemodel.Thispaperintroducessomecommonlyuseddatafittingmethod,linearfitting,secondaryfunctionfitting,datantimespolynomialfittingetc.TAndfocusesonthecurvefitting,introducedthelinearandnonlinearmodelofcurvefittingmethod,theleastsquaremethod,Newtoniterativemethod,etc.Inthetraditionalcurvefittingbasis,inordertoimprovethecurvefittingprecision,thispaperalsostudiesthepolynomialswing,fromtheperspectiveofthepracticetheoscillationanddeviationoffactorsandcharacteristics,andsummarizesthedecreaseinpracticethetreatmentmethodofthesedeviations.Theleastsquaremethodtovariableafterconvertingfromnewvariablesarethesumofsquaredresidualsminimum,notnecessarilymaketheoriginalresponsefromallthevariablesofthesumofsquaredresidualsminimum,sothemodelfittingprecisionstillhasroomtoimprove.Basedonthenumberofresidualmethodandleastsquaremethod,andthecombinationofnonlinearleastsquaremethodtogetbetterfittingeffectofcurvemodel.Withthedevelopmentofcomputertechnology,theexperimentdataprocessingmoreandmoreconvenient.Butalsoputforwardthenewsubject,whichisinthedataprocessingmethodofchoiceshouldbemorecarefulthaneverbefore.Becausecarelesslyabit,itcanbeveryeasilyaccordingtothecorrectexperimentaldatathatnottheexactandeventhewrongconclusion.Therefore,toraisethefittingaccuracyisverynecessaryKeywords:DataFitting;Leastsquaremethod;Curvefitting;Polynomialswing;Residualmethod目录I中文摘要IIAbstract1第一章绪论11.1数据简介11.1.1名词解释11.1.2数据属性21.2曲线拟合简介3第二章数据拟合方法分类42.1线性拟合62.2二次函数拟合82.3数据的n次多项式拟合92.4点集{x1,x2,……,xm}上的正交多项式系102.5用正交多项式系组成拟合函数的多项式拟合112.6指数函数的数据拟合122.7多元线性函数的数据拟合14第三章曲线拟合特性143.1线性模型的曲线拟合143.1.1最小二乘法及其计算203.1.2用正交多项式作最小二乘拟合233.2非线性模型的曲线拟合233.2.1牛顿迭代243.2.2常见非线性模型29第四章多项式的摆动294.1多项式摆动介绍324.2影响多项式拟合偏差的因素324.2.1实验数据的不均匀性334.2.2数据的密度334.2.3拟合曲线的适用区间334.3使用多项式拟合的注意事项334.3.1尽量避免高阶多项式的拟合344.3.2保持密度344.3.3在实验数据走向比较明确的前提下,可以考虑其他的非线性拟合方法36第五章残数法与最小二乘法结合365.1二项指数曲线原理与方法395.2资料与分析425.3残数法与最小二乘法结合总结44第六章总结44结束语47参考文献51附录1英文原文65附录2中文翻译78附录3程序第1章绪论在我们实际的实验和勘探中,都会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数据变化规律的函数。1.1数据简介科学实验、检验、统计等所获得的和用于科学研究、技术设计、查证、决策等的数值。1.1.1名词解释研究数据就是对数据进行采集、分类、录入、储存、统计分析,统计检验等一系列活动的统称。1.1.2数据属性柯岩《奇异的 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 简·船长》:“贝汉廷分析着各个不同的数据,寻找着规律,终于抓住了矛盾的牛鼻子。” 数据是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。亦即数据转化为信息,可以用公式“数据+背景=信息” 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示。数据拟合在很多地方都有应用,主要用来处理实验或观测的原始离散数据。通过拟合可以更好的分析和解释数据。1.2曲线拟合简介曲线拟合,俗称拉曲线,是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合。在科学实验或社会活动中,人们常常需要观测很多数据的规律,通过实验或者观测得到量x与y的一组数据对()(i=1,2,…,N),其中是彼此不同的。人们希望用一类与数据本质规律相适应的解析表达式,来反映量x与y之间的依赖关系,即在一定意义下“最佳”地逼近或拟合已知数据。常称作拟合模型,当c在中线性出现时,称为线性模型,否者称为非线性模型。线性模型是回归模型中最常见的一种,但在实际中,许多现象之间的关系往往并不是线性的,而是呈现某种曲线关系。如服药后血药浓度与时间的关系;病毒剂量与致死率的关系;化学反应的反应物浓度与反应速度的关系。这就产生的曲线拟合,用连续曲线近似地刻画或比拟平面上离散点组所表示的坐标之间的函数关系。用解析表达式逼近离散数据的一种方法。第2章数据拟合方法分类在实验中,实验和戡测常常会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数据变化规律的函数。数据拟合方法与数据插值方法不同,它所处理的数据量大而且不能保证每一个数据没有误差,所以要求一个函数严格通过每一个数据点是不合理的。数据拟合方法求拟合函数,插值方法求插值函数。这两类函数最大的不同之处是,对拟合函数不要求它通过所给的数据点,而插值函数则必须通过每一个数据点。例如,在某化学反应中,测得生成物的质量浓度y(10–3g/cm3)与时间t(min)的关系如表所示 t 1 2 3 4 6 8 10 12 14 16 y 4.00 6.41 8.01 8.79 9.53 9.86 10.33 10.42 10.53 10.61显然,连续函数关系y(t)是客观存在的。但是通过表中的数据不可能确切地得到这种关系。何况,由于仪器和环境的影响,测量数据难免有误差。因此只能寻求一个近拟表达式y=(t)寻求合理的近拟表达式,以反映数据变化的规律,这种方法就是数据拟合方法。数据拟合需要解决两个问题:第一,选择什么类型的函数作为拟合函数(数学模型);第二,对于选定的拟合函数,如何确定拟合函数中的参数。数学模型应建立在合理假设的基础上,假设的合理性首先体现在选择某种类型的拟合函数使之符合数据变化的趋势(总体的变化规律)。拟合函数的选择比较灵活,可以选择线性函数、多项式函数、指数函数、三角函数或其它函数,这应根据数据分布的趋势作出选择。为了问题叙述的方便,将例1的数据表写成一般的形式 t x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 y y1 y2 y3 y4 y5 y6 y7 y8 y9 y102.1线性拟合假设拟合函数是线性函数,即拟合函数的图形是一条平面上的直线。而表中的数据点未能精确地落在一条直线上的原因是实验数据的误差。则下一步是确定函数y=a+bx中系数a和bt各等于多少?从几何背景来考虑,就是要以a和b作为待定系数,确定一条平面直线使得表中数据所对应的10个点尽可能地靠近这条直线。一般来讲,数据点将不会全部落在这条直线上,如果第k个点的数据恰好落在这条直线上,则这个点的坐标满足直线的方程,即a+bxk=yk如果这个点不在直线上,则它的坐标不满足直线方程,有一个绝对值为的差异(残差)。于是全部点处的总误差是这是关于a和b的一个二元函数,合理的做法是选取a和b,使得这个函数取极小值。但是在实际求解问题时为了操作上的方便,常常是求a和b使得函数达到极小。为了求该函数的极小值点,令,,得,这是关于未知数a和b的线性方程组。它们被称为法方程,又可以写成求解这个二元线性方程组便得待定系数a和b,从而得线性拟合函数y=a+bx。下图中直线是数据的线性拟合的结果。2.2二次函数拟合假设拟合函数不是线性函数,而是一个二次多项式函数。即拟合函数的图形是一条平面上的抛物线,而表中的数据点未能精确地落在这条抛物线上的原因是实验数据的误差。则下一步是确定函数y=a0+a1x+a2x2中系数a0、a1和a2t各等于多少?从几何背景来考虑,就是要以a0、a1和a2为待定系数,确定二次曲线使得表中数据所对应的10个点尽可能地靠近这条曲线。一般来讲,数据点将不会全部落在这条曲线上,如果第k个点的数据恰好落在曲线上,则这个点的坐标满足二次曲线的方程,即a0+a1xk+a2xk2=yk如果这个点不在曲线上,则它的坐标不满足曲线方程,有一个误差(残差)。于是全部点处的总误差用残差平方和表示这是关于a0、a1和a2的一个三元函数,合理的做法是选取a0、a1和a2,使得这个函数取极小值。为了求该函数的极小值点,令,,得这是关于待定系数a0、a1和a2的线性方程组,写成等价的形式为这就是法方程,求解这一方程组可得二次拟合函数中的三个待定系数。下图反映了例题所给数据的二次曲线拟合的结果2.3数据的n次多项式拟合 x x1 x2 …… xm f(x) y1 x2 …… ym已知函数在个离散点处的函数值,假设拟合函数是n次多项式,则需要用所给数据来确定下面的函数y=a0+a1x+a2x2+……+anxn这里要做一个假设,即多项式的阶数n应小于题目所给数据的数目m(例题中m=10)。类似前面的推导,可得数据的n次多项式拟合中拟合函数的系数应满足的正规方程组如下从这一方程组可以看出,线性拟合方法和二次拟合方法是多项式拟合的特殊情况。从算法上看,数据最小二乘拟合的多项式方法是解一个超定方程组(m>n)的最小二乘解。而多项式拟合所引出的正规方程组恰好是用超定方程组的系数矩阵的转置矩阵去左乘超定方程组左、右两端所得。正规方程组的系数矩阵是一个病态矩阵,这类方程组被称为病态方程组。当系数矩阵或者是右端向量有微小的误差时,可能引起方程组准确解有很大的误差。为了避免求解这样的线性方程组,在做多项式拟合时可以将多项式中的各次幂函数做正交化变换,使得所推出的正规方程的系数矩阵是对角矩阵。2.4点集{x1,x2,……,xm}上的正交多项式系多项式q0(x),q1(x),q2(x),……,qn(x)在点集{x1,x2,……,xm}上的正交(正交多项式系可以认为是幂函数系:1,x,x2,……,xn通过正交变换而得到的一组函数。正交多项式系构造的方法如下:q0(x)=1,q0(x)=x–a1,(a1=),qk(x)=(x-ak)qk-1(x)-bkqk-2(x),(k=2,3,……,n)其中,2.5用正交多项式系组成拟合函数的多项式拟合考虑拟合函数:,将数据表 x x1 x2 …… xm f(x) y1 x2 …… ym中的数据代入,得超定方程(m>n)其系数矩阵为由于多项式q0(x),q1(x),q2(x),……,qn(x)在点集{x1,x2,……,xm}上的正交,所以超定方程组的系数矩阵中不同列的列向量是相互正交的向量组。于是用这一矩阵的转置矩阵去左乘超定方程组左、右两端得正规方程组=>其中,,。因为正规方程组中每一个方程都是一元一次方程可以直接写出原超方程组的最小二乘解,所以拟合函数为这一结果与用次多项式拟合所得结果在理论是完全一样的,只是形式上不同、算法实现上避免了解病态方程组。2.6指数函数的数据拟合问题1:世界人中预测问题下表给出了本世纪六十年代世界人口的统计数据(单位:亿) 年 1960 1961 1962 1963 1964 1965 1966 1967 1968 人口 29.72 30.61 31.51 32.13 32.34 32.85 33.56 34.20 34.83有人根据表中数据,预测公元2000年世界人口会超过60亿。这一结论在六十年代末令人难以置信,但现在已成为事实。试建立数学模型并根据表中数据推算出2000年世界人口的数量。根据马尔萨斯人口理论,人口数量按指数递增的规律发展。记人口数为N(t),则有指数函数。现需要根据六十年代的人口数据确定函数表达式中两个常数a、b。为了计算方便,对表达式两边取对数,得,令。于是。(1)计算出表中人口数据的对数值yk=lnNk(k=1,2,……,9)(2)根据表中数据写出关于两个未知数a、b的9个方程的超定方程组(方程数多于未知数个数的方程组)a+btk=yk(k=1,2,……,9)其中,t1=1960,t2=1961,t3=1962,……,t9=1968;y1=ln29.72,y2=ln30.61,……,y9=ln34.83。(3)利用MATLAB解线性方程组Ax=c的命令A\c计算出a、b的值,并写出人口增长函数。利用人口增长函数计算出2000年世界人口数据:N(2000)2.7多元线性函数的数据拟合问题2人的耗氧能力的数据拟合。人的耗氧能力y(ml/min·kg)与下列变量有关x1年龄x2体重x31.5英里跑步所用时间x4静止时心速x5跑步时最大心速某健身中心对31个自愿者进行测试,得到31组数据(每一组数据有6个数)令耗氧能力为因变量,其它的指标为自变量,建立线性模型为了确定6个系数,利用已记录的数据得超定方程组这一方程组包含6个未知数,但却有31个方程。写出超定方程组的系数矩阵和右端向量如下,由最小二乘法可得正规方程组其中,T第3章曲线拟合特性在科学实验或社会活动中,人们常常需要观测很多数据的规律,通过实验或者观测得到量x与y的一组数据对()(i=1,2,…,N),其中是彼此不同的。人们希望用一类与数据本质规律相适应的解析表达式,来反映量x与y之间的依赖关系,即在一定意义下“最佳”地逼近或拟合已知数据。常称作拟合模型,当c在中线性出现时,称为线性模型,否者称为非线性模型。3.1线性模型的曲线拟合已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1,λ2,…,λm),使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合。下面介绍计算线性拟合的基本方法。3.1.1最小二乘法及其计算在函数的最佳平方逼近中,如果只在一组离散点集{}上给出,这就是科学实验中常见的实验数据{}的曲线拟合,这里,要求一个函数与所给数据{}拟合,若记,设是C[a,b]上线性无关函数族,在中找一个函数,使误差平方和这里这就是一般的最小二乘逼近,用几何语言说,就称为曲线拟合的最小二乘法。用最小二乘法求曲线时,首先要确定的形式。这部单纯三数学问题,还与所研究问题的运动规律及所得观测数据有关;通常要从问题的运动规律或给定数据描图,确定的形式,并通过实际计算选出较好的结果。的一般表达式为(3.2)式表示的线性形式。若是k次多项式,就是n次多项式。为了使问题的提法更有一般性,通常在最小二乘法中都考虑为加权平方和这里是[a,b]上的权函数,它表示不同点处的数据比重不同,用最小二乘法求拟合曲线的问题,就是在形如(2.2)式的中求一函数,使(3.3)式取得最小。它转化为求多元函数的极小点的问题。由求多元函数极值的必要条件,有若记上式可改写为线性方程组(3.6)称为法方程,可将其写成矩阵形式其中要使法方程(3.6)有唯一解,就要求矩阵G非奇异。必须指出,在[a,b]上线性无关不能推出矩阵G非奇异。例如,令,显然在[]上线性无关,但若取点,那么有,由此得出为保证方程组(3.6)的系数矩阵G非奇异,必须加上另外的条件。如果函数族在有限点集中的任意n+1(n)个点上都有则称函数族在点集X上满足哈尔条件。这个定义实际上等价于:函数族的任意线性组合在点集X上至多有n个不同的零点。显然在任意个点上满足哈尔条件。可以证明,如果在上满足哈尔条件,则法方程(3.6)的系数矩阵(2.7)非奇异,于是方程组(3.6)存在唯一的解.从而可以得到函数的最小二乘解为可以证明这样得到的,对任何形如(3.2)式的,都有故确是所求最小二乘解。给定的离散数据,要确定是困难的,一般可取,但这样做当时,与连续情形一样求解法方程(3.6)时将出现系数矩阵G病态的问题,通常对的简单情形都可通过求法方程(3.6)得到。有时根据给定数据图形,其拟合函数表面上不是(3.2)式的形式,但通过变换仍可化为线性模型。例如,若两边取对数得它就是形如(3.2)式的线性模型。例设数据由下表给出表2-1 i 0 1 2 3 4 1.00 1.25 1.50 1.75 2.00 5.10 5.79 6.53 7.45 8.45 1.629 1.756 1.876 2.008 2.135解根据给定数据描图根据拟合图形可以看出它不是线性形式,因为,可以得到数学模型为,用最小二乘法来确定未知数。两边取对数得,若令,则得。为确定A,b,先将转化为,数据表见2-1。根据最小二乘法,去,得故由法方程解得。于是得最小二乘拟合曲线为现在很多数学软件配有自动选择数学模型的程序,其方法与本例相同。程序中因变量与自变量变换的函数类型较多,通过计算比较误差找到拟合得比较好的曲线,最后输出曲线图形及数学表达式。3.1.2用正交多项式作最小二乘拟合用最小二乘法得到的法方程(3.6),其系数矩阵G是病态的,但如果是关于点集带权正交的函数族,即则法方程(2.6)的解为且平方误差为现在我们根据给定节点及权函数,造出带权正交的多项式,注意,用递推公司表示,即这里是首项系数为1的k次多项式,根据的正交性,得下面用归纳法证明这样给出的是正交的,由(3.10)式第二次及(3.11)式中的表达式,有现假定对及均成立,要证对均成立。由(3.10)式有由归纳法假定时,另外,是首项系数为1的s+1次多项式,它可由的线性组合表示,而,故由归纳法假定又有于是由(3.12)式,当时。再看由假定有利用(3.11)式中表达式及以上结果,得最后,由(3.11)式有至此已证明了由(3.10)式及(3.11)式确定的多项式组成一个关于点集的正交系。用正交多项式的线性组合作最小二乘曲线拟合,只要根据公司(3.10)及(3.11)逐步求的同时,相应计算出系数并逐步把累加到S()中去,最后就可得到所求的拟合曲线这里n可事先给定或在计算过程中根据误差确定。用这种方法编程序不用解线性方程组,只用递推公式,并且当逼近次数增加一次时,只要把程序中循环数加1,其余不用改变。这就是目前用多项式作曲线拟合最后的计算方法。3.2非线性模型的曲线拟合当前研究的非线性模型主要是指参数或自变量是非线性的,形式复杂多样,常见的有多项式形式、双曲线形式、对数形式、幂函数形式等等,更复杂的有修正指数曲线、Compterz曲线以及Logistic曲线等。如何根据数据的大致规律来选择合适的模型,是拟合的关键。总的来说有两中可参考的方法:一是根据散点图来确定类型,即由散点图的形状大体确定模型类型;二是根据专业知识和经验,判断研究的数据曲线属于什么类型。现在研究非线性模型的方法用得最多的就是最小二乘法。3.2.1牛顿迭代无论采取什么方式变换都不可能实现线性化,这样的模型称为不可线性化模型。对于不可线性化模型,一般采用高斯一牛顿迭代法进行参数估计,即借助于泰勒级数展开式进行逐次的线性近似估计。第一步:做Logit-Ln线性回归,求,,x和p的初值。此时x不能为0值,若输入的x有0值,则将其设为一小值(例如:0.00001)。首选将原方程变形为如下线性形式:将初值设为输入的y值的最大值加1,的初值设为输入的y值的最小值减0.1。通过简单的直线拟合即可求出p和的初值。第二步:对Logistic方程四个参数求偏微分,得到y对给定系数的增量(△,△,△x,△p)的泰勒级数展开式。泰勒级数展开式为:由此,将曲线回归转化为多元线性回归,通过迭代计算,得到四个参数的变量△,△,△x,△p,逐步修正四参数的值。多元线性回归与多项式拟合方法相同。每一次迭代可计算出参数变量值,新的参数值为原参数值与变量值的叠加。第三步:为保证迭代收敛,在计算相关系数时,引入一系数a,初值设为2,将a与参数的变量矩阵相乘,计算相关系数。a=a/2,循环10次,每次a的值减半。取循环中得到的相关系数最大的变量矩阵[△,△,△x,△p]。第四步:默认总的迭代次数为1000次,或者当相关系数不再减小时,则迭代停止。返回得到的四参数值。3.2.2常见非线性模型对于解释变量是非线性的,但参数之间是线性的模型,可以利用变量直接代换的方法将模型线性化,通过线性拟合来计算。1.多项式函数模型多项式函数形式令原模型可化为线性形式即可利用多元线性回归分析的方法处理了。这类模型广泛地用于生产和成本函数。例如总成本函数可表示为:其中,y表示总成本,表示产出。2.双曲线模型双曲线函数形式3.双对数函数模型函数形式所以弹性为一常数。它表示x变动1%,y变动了。由于这个特殊的性质,双对数模型又称为不变弹性模型。4.半对数函数模型函数形式对于线性-对数模型它表示x变动1%,y将变动个单位的绝对量。即y的绝对变化量等于乘以x的相对变化量。5.逻辑斯蒂(Logistic)曲线函数形式令则有6.指数曲线函数形式两边取对数得:令则有7.幂函数曲线函数形式两边取对数得:令则有8.龚伯兹(Gompertz)曲线函数形式两边取对数得:令则有第4章多项式的摆动在实验科学中,常常会遇到这样的问题,用一组给定的非线性实验数据得出指导性的经验公式,即自变量x与因变量y的函数关系,这就是曲线拟合。在曲线拟合中最小二乘法多项式拟合的应用非常普遍,在许多科学文献中,实验结果都以多项式的形式给出以供参考。虽然多项式的拟合适用普遍,通过适当的拟合多项式的阶数改善曲线逼近实验数据点的程度,但同时也带来不利的一面。提高拟合多项式的阶数,曲线在某些区间往往会产生非期望的起伏,这使得曲线的参考价值大打折扣。4.1多项式摆动介绍已知实验数据,当使用为基作多项式形式拟合时当幂次升高时,即使采用正交化的处理,格兰姆矩阵的条件数往往很大,这时正规方程是病态的,这可能导致求解的结果严重的失真,使多项式曲线在某些区间产生振荡,这就是多项式的摆动。实践的结果也表明,这种情况常有发生。例如:表3-1数据是以产生的一组数据。表3-1 x 0.25 1.25 2.25 3.25 8.25 y -1.38629 0.223144 0.81093 1.178655 2.110213分别用二、三、四阶多项式拟合得函数关系式:(a)(b)(c)(d)图3-1原函数及多阶函数图线图3-1(a)是原函数的图线,图3-1(b,c,d)分别是。。与原函数比较结果表明,提高拟合的阶数,曲线通过实验数据点的个数增加了,但在一定的区间,曲线的走向出现了与原函数较大的偏差。如果用拟合曲线作原函数关系参考显然是不准确的。4.2影响多项式拟合偏差的因素从理论上讲,使用高阶多项式拟合,上述摆动更容易发生。从实践上讲上述摆动产生的拟合曲线偏差由三方面产生。4.2.1实验数据的不均匀性例如,同样以在同样的区间等问隔产生一组数据如表3-2。使用四阶多项式拟得:表3-2 x 0.25 2.25 4.25 6.25 8.25 y -1.38629 0.81093 1.446919 1.832581 2.110213函数曲线如图3-2,比较图3-1(d),图3-2的摆动大大减小。y=-0.003x^4+0.0669x^3-0.5419x^2+2.1121x-1.8815图3-2四阶函数图线4.2.2数据的密度显然增加数据的密度,增强对曲线的约束,拟合曲线在实验数据的区间偏差变小。4.2.3拟合曲线的适用区间在实验数据的区间偏差一般较小,而在外推区间随着拟合阶次的提高,往往难以预测。4.3使用多项式拟合的注意事项随着计算机技术的发展,实验数据处理越来越方便。但也提出了新的课题,就是在选择数据处理方法时应该比以往更为慎重。因为稍有不慎,就会非常方便地根据正确的实验数据得出不确切的乃至错误的结论。在使用多项式拟合非线性实验数据时,要考虑它的局限性,避免由于处理方法不当给实验带来更大的误差。4.3.1尽量避免高阶多项式的拟合事实上虽然高阶多项式的拟合在实验区间内与实验数据能尽可能地接近,但它的使用存在两大弊端。首先,应用计算困难,实践应用价值不高。其次,外推误差大,对拟合在实验区间内与实验数据吻合得较好,而在区间外的摆动常会产生不可预期的走向,不能正确反映自变量和因变量之间的函数关系的变化趋势。例如,根据表3-2数据的四阶拟合函数关系计算相应点的函数值与原函数相比较,如表3-3。从表中可以看出,当x=12.25时时已经与原函数相去甚远。因此这个拟合表达式对实践的指导意义是局限的。表3-3 x 0.25 2.25 4.25 6.25 8.25 10.25 12.25 -1.3863 0.8109 1.4469 1.8326 2.1102 2.3273 2.5055 y -1.3863 0.8125 1.4637 1.9065 2.3281 1.7638 -1.9034 -1.3046 0.7795 1.4122 1.8248 2.1403 2.3995 2.62174.3.2保持密度如果确实有必要采用多项式拟合,要保持适当的数据密度同时,尽量采用等间距采样的实验数据。如图3-2.4.3.3在实验数据走向比较明确的前提下,可以考虑其他的非线性拟合方法在这个例子中最好是拟合成的形式。但如果在有些函数关系不明的情况下可根据散点分布特点考虑其它形式的拟合。例如:表3-2的数据根据数据的散点分布特点可拟合成的形式,下面是时拟合出的函数:图3-3拟合函数图线描绘的函数关系图线如图3-3。把表3中对应的x值代入中求出y填入表中。比较y、和原函数值,这种拟合方法函数的外推走向与原函数更为接近。第5章残数法与最小二乘法结合二项型指数,是由两个指数项相加而构成的函数表达式。此函数表达式所描绘出的曲线称为二项型指数曲线。此曲线在药代动力学中具有重要的应用价值,常用于研究二室模型药物静脉注射后血药浓度与时间的关系。目前,拟合二项型指数曲线常用的方法为残数法,它是把一条曲线分解成若干指数成分,然后对这些指数成分通过曲线直线化的方式得到相应指数成分的参数估计值。而曲线直线化是采用最小二乘法使变量转换后所得新变量离均差平方和最小,并不一定能使原响应变量的离均差平方和最小,所以其模型的拟合精度仍有提高的空间。以残数法和非线性最小二乘法相结合,即以残数法计算所得的参数估计值为初始值,借助于SAS软件中的NLIN过程,采用非线性最小二乘法来得到拟合效果更好的曲线模型。此做法可解决残数法拟合精度不高、非线性最小二乘法不便使用的问题。5.1二项指数曲线原理与方法二项型指数曲线参数个数一般为指数项数目的2倍,分析时常用的方法是残数法,它把一条曲线分解成两个指数成分,每次分析一个指数项。药物静脉注射后,在体内的代谢和分布规律比较复杂,其规律因药物的性质和作用部位不同而异,人们通常尝试采用较为简单的模型来描述,即药物静脉注射后的二室模型,其药一时曲线模型为:其中,为分布速度常数,为消除速度常数,。当时间t充分大时,将趋向于0。所以,式(5.1)就可简化为:两边取以10为底的对数得:作图,取尾端几个近似呈直线关系的点拟合回归直线。直线的斜率为,由斜率可求出值;直线的截距为,由截距可求出B值。对式(5.1)进行移项整理,得:其中,为实测浓度,为外推浓度,前者与后者之差为残数浓度,记为。对其余点(也称外推点)作图,由尾端向前取几个近似呈直线关系的点,拟合一条回归直线,得残数线的截距和斜率,据此可计算出和A。需要注意的是,有时尾端多个外推点计算所得的外推浓度会大于实测浓度y。此时,式(5.4)需进行相应转化,然后,作图,由尾端向前,选取合适的散点拟合回归直线后,所得的残数线的截距应为。有时也会遇到部分外推点的外推浓度大于实测浓度而另外一些外推点的外推浓度小于实测浓度的情形,此时可根据二者之差的大小来选择部分点进行分析。若超过1/2的外推点外推浓度与实测浓度之差大于0,则可舍弃另一部分外推点,仅以二者之差大于0的这些外推点按照式(5.5)进行分析;反之,若超过1/2的外推点外推浓度与实测浓度之差小于或等于0,则可仅以二者之差小于或等于0的这些外推点按照式(5.4)进行分析。采用残数法,可求得参数的值。然后以残数法计算所得的参数估计值为初始值,借助于SAS软件中的NLIN过程,采用非线性最小二乘法来得到拟合效果更好的曲线模型。评价曲线模型的拟合效果,可使用残差平方和、相关指数等指标。残差平方和的计算公式为:其中y为响应变量的实际观测值,为由回归方程算得的响应变量的估计值。相关指数的计算公式为:如果占的比例很小,说明估计值与实际观察值很接近,曲线拟合得较好,即越接近于1,曲线拟合得越好。的计算公式同式(5.6)。5.2资料与分析根据有关专业知识,已知某药物为双室模型药物,静脉注射100mg后,测得各时间点的血药浓度结果见表4-1。试拟合该药物的药-时曲线。表4-1某药物静脉注射后各时间点的血药浓度 时间(h) 血药浓度(ug/ml) 时间(h) 血药浓度(ug/ml) 0.165 65.03 3.000 2.29 0.500 28.69 5.000 1.36 1.000 10.04 7.500 0.71 1.500 4.93 10.000 0.38已知此药物是双室模型药物,且采用静脉注射,所以其药一时曲线应为二项型指数曲线。具体分析时,可将所有的散点划分成两段,分别用来计算两个指数项的参数。在计算指数项参数的值时,所得回归直线的斜率和截距对参数值的最终确定有重要影响。而回归直线的斜率和截距依赖于散点的选择,所以在不同计算阶段,选择合适的散点个数尤为重要。第一步,借助SAS语言的宏功能,将不同计算阶段各种可能选取的散点个数组合都考虑进去,采用残数法进行分析,由计算所得的截距和斜率推导出指数项参数的值,这样每种散点个数组合都可以得到一组参数估计值。第二步,将残数法所得曲线模型参数的估计值代入NLIN过程作为初值,每种散点个数组合情形下均可得到一个局部最优的曲线模型。第三步,从多个局部最优的曲线模型中,选取拟合效果最好的曲线模型,选取的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 是残差平方和最小。SAS程序见附录本资料共有8个散点,两阶段可能的散点个数组合有6种,即:33、34、35、43、44、53。散点组合中的两个数字,依次表示在图和图上由尾端向前选取的散点个数。以散点组合34为例,其含义为先选取图上的后三个散点(即原6-8号散点),然后以剩余散点作图后,再选取图上的后四个散点(即原2.5号散点)。SAS输出结果显示:这6种散点个数组合,最终所得到的回归方程拟合本资料的残差平方和均为0.000945。这里,可以任选一种组合情形,根据NLIN过程拟合的参数的值,就可写出曲线的回归方程了。以下是6种散点组合情形下残数法拟合的曲线模型以及非线性最小二乘法拟合的曲线模型,它们对资料的拟合效果见表4-2。表4-2残数法与非线性最小二乘法拟合的回归方程 拟合方法散点组合回归方程残差平方和相关指数 残数法 33 55.21600 0.984562 残数法 34 17.75310 0.995036 残数法 35 5.78390 0.998383 残数法 43 0.43950 0.999877 残数法 44 0.06560 0.999982 残数法 53 1.2560 0.999649 非线性最小二乘法0.000951.000000图4-1最终曲线回归方程对资料的拟合效果根据残差平方和的大小,可知非线性最小二乘法所得曲线模型拟合效果最好,残数法中以散点组合44情形下拟合效果较好。所以,以残数法得到的参数估计值为初始值,再用非线性最小二乘法进一步拟合资料,两法结合应用,所得曲线模型拟合效果更优。最终的曲线回归方程对资料的拟合效果见图4-1,所得模型对该资料的拟合效果令人非常满意。5.3残数法与最小二乘法结合总结残数法求解二项型指数曲线,其手工计算较为繁杂,不便使用。借助SAS软件的强大功能,以编程的方式实现了残数法的参数估计。SAS软件中的NLIN过程可实现对曲线模型参数的非线性最小二乘估计,所得曲线模型较残数法得到的曲线模型拟合效果更佳。但NLIN过程对参数初始值较为敏感,为保证程序能够快速得到一组较优的模型估计值,采用残数法的结果作为初始值,通过迭代运算,得到更合理的模型参数估计值。当然,应用残数法时,其结果较为依赖于每个指数成分参数估计时的散点选择。因此,分析本资料时在程序中引入宏,运行了所有的散点组合可能,从而得到残差平方和最小的曲线模型。需要说明的是,并非所有的散点组合都是可行的。因为选取散点准备拟合回归直线时,还需计算某些变量的对数值。若选点不合适,则这些变量取值可能为负,这样其对数值就无法计算了,后续的结果也就不准确了。此时,不适合以宏的方式来选取所有散点组合进行相应计算,可根据散点趋势进行人工选点。极限原理在其中起着重要作用。所以,根据极限原理的应用条件,必须在多个时间点上取样,尤其是药物吸收中末期应多次取样,且取样时间应充分大。否则,在取点进行直线回归分析时,结果很不稳定。取点的多少,较大程度上影响到斜率和截距的值,取点较少将导致残数值误差较大,一般每一个计算阶段应选取3个以上(含3个)的散点。此外,要正确进行曲线拟合,尤其要注意:(1)曲线在理论上能否得到适当解释;(2)资料所具备的特征与观察点的趋势有无矛盾;(3)拟合的曲线本身是否最优或较优。第6章总结在我们实际的实验和勘探中,都会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数据变化规律的函数。本文介绍了几种常用的数据拟合方法,线性拟合、二次函数拟合、数据的n次多项式拟合等。并着重对曲线拟合进行了研究,介绍了线性与非线性模型的曲线拟合方法,最小二乘法、牛顿迭代法等。在传统的曲线拟合基础上,为了提高曲线拟合精度,本文还研究了多项式的摆动问题,从实践的角度分析了产生这些摆动及偏差的因素和特点,总结了在实践中减小这些偏差的处理方法。采用最小二乘法使变量转换后所得新变量离均差平方和最小,并不一定能使原响应变量的离均差平方和最小,所以其模型的拟合精度仍有提高的空间。本文以残数法与最小二乘法相结合,采用非线性最小二乘法来得到拟合效果更好的曲线模型。随着计算机技术的发展,实验数据处理越来越方便。但也提出了新的课题,就是在选择数据处理方法时应该比以往更为慎重。因为稍有不慎,就会非常方便地根据正确的实验数据得出不确切的乃至错误的结论。所以提高拟合的准确度是非常有必要的。结束语经过两个多月的努力,《灰色系统分析方法研究》论文终于完成,在整个设计过程中,出现过很多的难题,但都在老师和同学的帮助下顺利解决了,在不断的学习过程中我体会到写论文是一个不断学习的过程,从最初刚写论文时对灰色系统的分析方法模糊认识到最后能够对该问题有深刻的认知,我体会到实践对于学习的重要性,以前只是明白理论,没有经过实践考察,对知识的理解不够明确,通过这次的做,真正做到理论实践相结合。总之,通过毕业设计,我深刻体会到要做好一个完整的事情,需要有系统的思维方式和方法,对待要解决的问题,要耐心、要善于运用已有的资源来充实自己。同时我也深刻的认识到,在对待一个新事物时,一定要从整体考虑,完成一步之后再作下一步,这样才能更加有效。致谢四年的读书生活在这个季节即将划上一个句号,而于我的人生却只是一个逗号,我将面对又一次征程的开始。四年的求学生涯在师长、亲友的大力支持下,走得辛苦却也收获满囊,在论文即将付梓之际,思绪万千,心情久久不能平静。伟人、名人为我所崇拜,可是我更急切地要把我的敬意和赞美献给一位平凡的人,我的导师。我不是您最出色的学生,而您却是我最尊敬的老师。您治学严谨,学识渊博,思想深邃,视野雄阔,为我营造了一种良好的精神氛围。授人以鱼不如授人以渔,置身其间,耳濡目染,潜移默化,使我不仅接受了全新的思想观念,树立了宏伟的学术目标,领会了基本的思考方式,从论文题目的选定到论文写作的指导,经由您悉心的点拨,再经思考后的领悟,常常让我有“山重水复疑无路,柳暗花明又一村”。感谢我的爸爸妈妈,焉得谖草,言树之背,养育之恩,无以回报,你们永远健康快乐是我最大的心愿。在论文即将完成之际,我的心情无法平静,从开始进入课题到论文的顺利完成,有多少可敬的师长、同学、朋友给了我无言的帮助,在这里请接受我诚挚谢意!同时也感谢学院为我提供良好的做毕业设计的环境。最后再一次感谢所有在毕业设计中曾经帮助过我的良师益友和同学,以及在设计中被我引用或参考的论著的作者。参考文献[1]LancasterP,SalksuskasK.Surfacesgeneratedbymovingleastsquaresmethods[J].MathematicsofComputation,1981,37(155):141-158.[2]BelytschkoT,KrongauzY,OrganD,etal.Meshlessmethod:Anoverviewandrecentdevelopments[J].ComputerMethodsinAppliedMechanicsandEngineering,1996,139:3-47.[3]LiuH,ShiP.Discontinuitypreservingmovingleastsquaresmethod[C]ComputationalandInformationScience,Shanghai,2004:562-569.[4].SASInstitutelnc.SASSTAT9.2UsergGuide.Cary.NCSASnstituteInc.,2008:4261-4336.[5]左传伟,聂玉峰,赵美玲.移动最小二乘方法中影响半径的选取[J].工程数学学报,2005,22(5):833-838.[6]曾清红,卢德堂.基于移动最小二乘法的曲线曲面拟合[J].工程图学学报,2004,25(1):84-89.[7]颜宁生.带插值条件的最小二乘法[J].北京服装学院学报,2007,27(2):42-48.[8]李庆扬.数值分析基础教程[M].北京:高等教育出版社,2001.[9]陈渝,周路,钱方,等(译).数值方法(MATLAB版)[M].北京:电子工业出版社,2002.[10].薛仲三.医学统计方法和原理(内部资料).北京:军事医学科学院印,1984,276-287.[11].梁文权.生物药剂学与药物动力学.第2版.北京:人民卫生出版社,2006:164-240.[12]施妙根,顾丽珍.科学和工程计算基础[M].北京:清华大学出版社,1999.[13].徐秦,薛茜,徐睿.浅论曲线拟合中的相关指数R.中国卫生统计,1992,9(06):44-45.[14] JohnHMathews,KurtisDFink.数值方法(MATLAB版)[M].北京:电子工业出版社,2005:195-215.[15] 徐萃薇,孙绳武.计算方法引论[M].北京:高等教育出版社,2002:62-85.[16] 苏金明,张莲花,等.MATLAB工具箱应用[M].北京:电子工业出版社,2004:489-512.[17] 李庆扬,王能超,等.数值分析[M].北京:清华大学出版社,2001:90-117.[18] 姜启源,谢金星,,叶俊.数学模型[M].北京:高等教育出版社,2003:308-316.[19] 白峰杉.数值计算引论[M].北京:高等教育出版社,2004:82-85.[20] GeraldRecktenwald.数值方法和MATLAB实现与应用[M].北京:机械工业出版社,2004:316-354.[21] 宋兆基,徐流美,等.MATLAB6.5在科学计算中的应用[M].北京:清华大学出版社,2005:456-460.[22].蒋建飞,胡良剑,唐俭.数值分析及其MATLAB实验【M】.北京:科学出版社,2008[23]孙建平,苑一方.复杂过程的多模型建模方法研究[J].仪器仪表学报,2011,32(1):132-137.[24]牛培峰,王磊,马巨海,等.聚类融合控制在电厂热工过程控制中的应用研究[J].仪器仪表学报,2009,30(1):96-102.[25]孙建平,谭悦,李冰.单值模糊广义预测控制及其在热工对象中的应用[J].仪器仪表学报,2008,29(7):1494-1498.[26]刘芳,毛志忠,李磊.基于模糊自回归隐马尔可夫模型的控制过程异常数据检测[J].仪器仪表学报,2010,31(5):984-990.[27]刘吉臻,朱红路,常太华,等.基于最小均方自适应滤波器的热工过程建模方法[J].中国电机工程学报,2010,30(5):107-112.[28]孔亮,丁艳军,张毅,等.结合稳态模型的非线性动态建模方法及应用[J].中国电机工程学报,2008,28(29):93-98.[29]从松波.基于优化的生产过程先进控制技术[z].北京:清华大学,1998.[30]李初福,陈丙珍,何小荣,等.用于含过失误差数据稳态检测的改进滤波法[J].清华大学学报:自然科学版,2004,44(9):1160-1162.[31]高林,刘喜梅.基于模糊集的稳态检验方法[J].青岛科技大学学报:自然科学版,2010,31(1):91-95.[32]付克昌,戴连奎,吴铁军.基于多项式滤波算法的自适应稳态检测[J].化工自动化及仪表,2006,33(5):18-22.[33]毕小龙,王洪跃,司风琪,等.基于趋势提取的稳态检测方法[J].动力工程,2006,26(4):503-506.[34]费业泰.误差理论与数据处理[M].北京:机械工业出版社,2004:141-145.[35]袁学刚,牛大田.数值分析[M].大连:大连理工大学出版社,2010:69-75[36]王兵团,王秋媛.数学软件简明教程与数学实验[M].北京:中国铁道出版社,2002:32-56附录1英文原文MovingleastsquarecurveandsurfacefittingwithinterpolationconditionsHuiNi,ZhongLi,HongxingSongDepartmentofMathematicsandScienceZhejiangSci-TechUniversityHangzhou,Chinae-mail:lizhong@zstu.edu.cnAbstract—Thispaperpresentsamethodformovingleastsquarecurveandsurfacefittingwithinterpolationconditions.Themethodisfirstlyproposedforsolvingtheproblemofthecurvefittingwithinterpolationconditions.Ithasmoreadvantagesincludingthatthedegreeoffittingfunctionislowandthefittingcomputationisconvenient.Then,themethodisextendedtosolvethesurfacefittingproblem.Weusemovingleastsquareapproximationtoso
本文档为【数据拟合方法研究毕业论文】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
不系舟红枫
从教近30年,经验丰富,教学水平较高
格式:doc
大小:6MB
软件:Word
页数:85
分类:
上传时间:2018-11-25
浏览量:94