基于树模型回归算法在预测问题中的研究

基于树模型回归算法在预测问题中的研究基于树模型回归算法在预测问题中的研究基于树模型回归算法在预测问题中的研究蔡晖 ,,,武汉工程大学计算机科学与工程学院湖北武汉 ,,::,, ,首先介绍基于树模型的两种回归算法,通过在平台上实验所得数据,对该模型下的这两种算法的预测要摘,;，, 性能给予评估。 ,,,关键词树模型回归算法预测问题 ,,,,,中图分类号文献标识码文章编号 ,,,,,,,,,,,,::,:,,,:::,,:,,,, ,,行数值预测的实验时就像普通决策树一样在每个节点 ,。根据实例的属性来决定程序的走向直...

基于树模型回归算法在预测问题中的研究基于树模型回归算法在预测问题中的研究蔡晖 ,,,武汉工程大学计算机科学与工程学院湖北武汉 ,,::,, ,首先介绍基于树模型的两种回归算法,通过在平台上实验所得数据,对该模型下的这两种算法的预测要摘,;，, 性能给予评估。 ,,,关键词树模型回归算法预测问题 ,,,,,中图分类号文献标识码文章编号 ,,,,,,,,,,,,::,:,,,:::,,:,,,, ,,行数值预测的实验时就像普通决策树一样在每个节点 ,。根据实例的属性来决定程序的走向直到树的叶节点每引言 :,一个叶节点含有一个基于部分属性值的线性模型这样我。们就可以通过测试实例得到一个原始的预测值 ,近几年数据挖掘引起了信息产业界和整个社会的广分裂标准用于决定对某个具体节点的训练数据按 , ,,,泛关注在这个信息化的社会随着数据量不断增加迫切。哪个属性分裂最好传统的决策树分裂标准是通过计算。需要将这些庞大的数据提取和转化为有用的信息和知识,,样例中各属性的信息增益来分裂的然而模型树在建 ,,获取的信息和知识能够用于各种各样的应用中包括市场 ,,,树的过程中采用期望误差减少值即标准差减少 ,,,、、、。分析欺诈检测图像识别风险预测和科学研究等 ,值基于把数据中类值的标准差看作是对这个节点的 , ,、随着近几年计算机技术的飞速发展人类收集数据 ,误差衡量并且我们在建树的过程中计算期望误差减少值 ,存储数据的能力得到了极大地提高无论是科学探索研究。作为对这个节点每个属性进行测试的结果然后通过计 ,还是社会生活的各个领域中都积累了越来越多的数据对算出来的结果我们选择期望误差减少值达到最大的属性 ,这些庞大信息进行分析和提取数据中蕴含的有用信息成。 ,作为这个节点的分裂属性计算如下。 ,为几乎每个领域的共同需求在这样的趋势下数据挖掘 ,这门学科越来越受到人们的关注通过实验研究开发数据 ,。挖掘的技术也越来越重要 ,, ,,,,,,,,, ,,,,, ,,,×,? 回归算法是数据挖掘领域中在解决预测问题所必须 ,,, ,的核心工具我们可以在数据挖掘工具中利用一些常用的 ,,… … ,这里是根据所选属性在节点进行分 ,,,, , , ,回归算法来建立相应的预测模型以解决实际中的回归问。裂对应的第的数据集当在一个节点的实例类值变化 , 。 ,题针对不同的回归算法通过比较算法解决回归问题中 ,,十分细微时便要终止分裂过程即当标准差在原始标准 ,建立的学习模型并将这些算法分为基于不同模型的算。 ,,差中只占一小部分时比如小于当只剩下很少的 ,, 、,法基于线性模型的回归算法基于近邻模型的回归算， ,,。实例时比如也终止分裂个或者个以下, , 、,法基于树模型的回归算法和一些其他模型人工神经网 ,如前所述不仅在模型树的每一个叶子节点有一个线、、,络支持向量机遗传编程等的回归算法本文主要介绍 ,,。性模型在每个内部节点上也有这是为了在修剪树的过 ,,基于数模型的回归算法并在根平台上进行实验,;，, 。 ,程中进行平滑处理的需要在修剪之前没有修剪的每个。据实验数据对该模型下的两种算法的预测性能给予评估。 ,节点上都有一个线性模型然而只有这个节点下层子树 ,的测试属性才用于回归因为其他影响预测值的属性已在。引入这个节点的测试过程中考虑进去了这里我们处理。,的都是数值型的属性修剪过程其实使用了一个估计器模型树 ,,,, 、。,是在每个节点对测试数据期望错误的估计器首先将这个节点上存在的所有训练集实例的预测值和真实类值 ,用于数值预测的树模型就像普通的决策树一样 ,,, ,基于树模型回归算法在预测问题中的研究蔡晖第? ?期 ,: ,, ,,,,,,与相乘这里是这个节点的训练实例总用采用算法中缩减误差修剪法对长出的树模型进行 ,，,,,,, ,,, ,的数量是给出这个节点预测类值的线性模型所用的参 ,。适当的修剪这里对误差修剪法不做重复的介绍 , 。数数量在某个节点对测试数据的期望误差计算后使用线性实验数据预处理 ,。 ,,,,,,模型来进行预测因为有补偿系数这样 ,，,,,, ,我们可以通过减少项数使误差达到最小化从而使线性模、当今现实世界的数据库极易受噪声丢失数据和不一,型进一步简化这样我们通过修剪树使得最终的模型树结。 ,致的数据的干扰现实世界的数据一般是复杂的含有噪。 ,构相对比较简单减少一项便减少了相乘系数这也许足 ,,、声数据即包括错误或者存在偏离期望值的独立的点不。以平衡在训练实例上平均误差的增加我们可以再估计 ,。 ,,,误差降低的条件下贪心式的逐个减少系数最后一旦完整的有些实例的属性值残缺或者仅仅包含聚集数据 ,模型树中每个内部节点的线性模型都已到位只要期望估。、和不一致的存在不完整数据的含噪声的和不一致的数 ,。计误差还在降低便从叶节点返回修剪树将节点的线性。据是现实世界大型的数据库或者数据仓库的共同特点模型期望误差与这个节点的子树的模型期望误差进行比 ,,数据仓库的出现导致异构数据大量增加针对这一现象。,较为了计算某个节点子树的期望误差将来自每个分支 ,如果直接对数据仓库中数据进行挖掘模式的学习一定会。的误差组合起来产生一个综合值这个综合值是根据分。 ,导致挖掘难度的增加和模式提取的偏差因此我们在进 ,支上的训练实例的数量比率对分支进行加权利用这些权 ,,行数据挖掘实验之前必须进行数据预处理这样才能提。值将误差估计进行线性组合。高挖掘模型的高效性 ,在建立模型树的过程中修剪过的树的两个相邻节点 ,,表和算法相对均方误差比较结果, ,,, ,，, ,,;;,的线性模型之间会不可避免地产生突变平滑处理 ,,补偿这个突变来替代直接使用原始预测值会 ,,::,～,,,,,,,;,,,，,,;;,,,, ,～,:,,,,,,,?,,,,,,:,,,,?,,,,,。 ,更加有益平滑处理可以通过在建树的时候如同在叶结 ,,,,,?,:,,, ,,,,,?,,,,, ,～,～:，:,; ,,,,点一样为每个内部节点建立线性模型来实现当一个测 ,,,,,? ,,,: ,,,,,? ,,,, ,:,,,, ,～,:,试实例根据一个叶节点模型得到一个原始预测值时这个 ,,,,,? ,,,, ,,,,,?,,,:, ,:; ,,,，,,,,,值沿着模型树一路过滤返回根节点在每个节点将得到的 ,,,,:?,,,,, ,,,,,?,,,,: ,:,,,, !这个预测值与该节点的线性模型所提供的预测值结合进 ,,,:,?,,,,, ,,,,,? ,,,, ,:,, ,,;,,,,。 ,行平滑处理一个平滑处理的计算如下 ,,,,,?,,,,, ,,,,,?,,,,, ,,～:, :～:;, ,,,,,? ,,,, ,:,,,,? ,,,: ,;::;;,,, ,,, ,:,,,,? ,,,, ,:,,,,?,,,,, ,,, ::～, , ,:,,,? ,,,, ,,,,,?,,,,, ～ :,,;,,:, , ,，，,, ,,,,:?,,,,: ,,,,,?,,,,, ,, ,;:～:,:,,～, ,，，,:,,,? ,,:, ,,,,,?,:,,, ;～,,; ,,,,～,,这里是要向上层节点提供的预测值是有下层节 ,,, ,,,,,,?,,:,,, ,,,,,,?,,,,,, ,～,,,,,:,,:～ ,,点提供上来的预测值是这个节点提供的预测值是下 , ,,:,:,?,,,,, ,:,,,?,,,,, ,,::,, ! ,,。层节点训练实例的总数试验证明了经过是平滑常量， ,,,,:?,,,:, ,,,,,?,,,,, ～:～,,～～,,, 。平滑处理的模型树预测性能得到了大大的改善 ,,,,,? ,,:, ,,,,,?,,,,, ,,, :,,,,,,, ,:,,:,? ,,,, ,:,,,,? ,,,, ;! ,:,,,, ,,,,:?,,,,: ,,,,:?,,,,, ,,,,,; ,,;,,,缩减误差修减树 ,,，,,,;;,:,,:?,,,,, ,,,,,?,,,,, ,, ,,,,,?,:,,, ,,,,,?,,,,, ,～: ,,,, ,,,,,?,:,,, ,,,:,?,,,,, ,,,:,, ,,～即缩减误差修剪法它!, ,，,,;,～:;,，,,:,,,～,,,,,,,,,? ,,,, ,,,:,? ,,,, ,，,:, ,,,,是决策树中避免过度长树而采用的方法之一它是一种快 ,,,,,?,:,,, ,:,,,,?,,,,, ～,;,,, ,,速生成决策树的学习方法其基本原理是建立一个决策树 ? ? ,,,,:,,,:,,,,,:,,,,:,,,，; ,:～:,, 。或者回归树的过程中使用信息增益作为分裂标准来长树,:,:,? ,,,, ,:,,,? ,,,, ,;,,:,; ,这里我们先引出参与计算信息增益的熵的定义 ,:,,,,? ,,,, ,:,,,,? ,,,, ,! ,;: ,,,,,,,?,,,,, ,,,,,?,,,,, ,;;,, ,,,,，，,:,::,,,,!,,, ,, ,, ,, ,,, ? ? ,,,:,,,,,,,,,,,,,,; ;,;,,, ,,其中中正例的比例是在样例是在样例 ,, ,,,::,:,? ,,,, ,::,,,? ,,,, ,;,,,,! 。中反例的比例信息增益是增长树的每一步选取的最佳 ? ? ,:,,,,,,,,,,,,:,,,,,, 。,属性的度量标准精确地讲一个属性相对于样例集 , ? ? ,,,,,,,,,,,,,,,,,,,,,,合的信息增益被定义为,,,,,, ,,,,,,?,,,,, ,:,,,?,,,,, ,,,,,,?,,,,,, ,,,,,?,,,,: ,, ,,,～;,,,? ,,, ,,? ? ,,,,,,,,:,,:,,,,,,:,,,,, ,,,,,，,:,,,,, !,,,? , ,，,:, ,,,,! ,,,,,,,?,,,,, ,:,,,,?,:,,, ,,,,其中是属性所有可能值的集合是 ,～,, ,,;,,,,,,,,?,,,,, ,,,,,?,,,,, 。 ,中属性值的子集在长树的过程中我们通的值为,, , ,;,, ,,,,, ,:,:, 软件导刊 ??年 ,:,, ,: ,,,,数据预处理有很多方法主要包括数据清理通用的解决方研究都是针对特定领域数据的预处理方法 ,,,,,:;,,, 。案越来越受到人们的重视平台中提供了两种用 , ;，,,、,,、,数据集成数据变换 ,,,:,,,:,,,,;,,,,,,,,,,,,,,,,,,,,,于数据预处理的过滤器有指导和无指导～,,;,,,;,,,,,。和数据归约种处理方法, ,:,,,,;,～::,,,,,,,, ,, ,,。数据清理可以用来去掉数据中的噪声来纠正数据所有的过滤器都对输入的数据集进行数 ,～,～,,;,,,;,, ,、、的不一致性它通过填写缺失值光滑的噪声数据识别或。据某种转换两种过滤器中都包含对属性和实例两种不。者删除孤立点来清理数据数据清理的主要工作是对数。同类型的预处理。 , 据的不完备处理和噪声数据的处理对于残缺值的处理 ,我们用全局常量或者属性的平均值或者使用给定元祖属实验结果分析 ,,。于同一类的所有实例的平均值去填充同时也可以用回、归基于推导的贝叶斯形式方法或者判定树的方法去推导、表两种算法在实验者界面给出了 , ,,,,，,,,;;,,最可能的值对于噪声数据的处理我们一般使用分箱里通过导入个标准数据集进行算法比较实验后的结果 ,, ,,、,,、,,技术回归聚类的方法通 ,,,,:,～,;,;,,:,,;,,,,,,,,,输出由于数据集中实例的数目庞大这里我们仅列出基。过用将数据中的噪声转换成光滑数据。于相对均方根误差的实验输出结果在算法的参数设置 ,,数据集成的主要工作是将许多数据源中的数据结 ,,中我们将将中的最小实例数设置为 ,,, ,,:～,～,;, ,, 。合起来存放在一个一致的数据存储中这个数据存储可。和都设置为从表中我们可以看,, ～,;,,::～;,,,;,,,, 、。能包括多个数据仓库数据立方体或者一般文件其中要 ,出算法算法在评估标准上的平均值小于 ,,, ,，,,,;;、、解决的问题主要有实体识别问题数据冗余问题数据值这表明在这个个标准数据集上建立的学习模型 , ,,,, 。冲突的检测与处理由多个数据源小心集成数据能够帮 ,比算法的性能要高对预测结果的准确性也相 ,，,,;;,,助降低和避免结果数据集中地不一致和冗余这种数据集。对较好。成有助于提高挖掘过程中的准确率和速度 ,,数据变换是将数据源中的所有数据转换为适合于 , 参考文献, 。、、、数据挖掘的形式其主要涉及光滑聚集数据泛化规范 ,,,,数据挖掘实用机器学习技术第 ,,，，,,，，，,，,,,，，,,,，，，、,,。化属性构造特征构造五个主要工作,,,,,二版北京机械工业出版社,, ,::,,,,, 数据归约技术可以用来得到数据集的归约表示, ,,,数据挖掘概念与技术 , , , ,，,，，，,，:，，，，，，,,，,,，，，，,归约表示后的数据集很小但仍接近保持原数据的完整 ,,,,,,第二版北京机械工业出版社,, ,::,,,,性这样归约后的数据集挖掘将更有效并产生几乎相同 ,, ,,, ,,,，，，,，，,,,，;,,,,,,,,～::,,,,～:～,:,,,,;,,,,,::;;, ,, 。、的实验分析结果数据归约主要包括数据立方体聚焦属 ,,:～;,～,～,,,,，:,::,;;,:;:,,:,,;;,:;,,,,,,,,,,,,,,,,,,,,，,,,,, 、、、性子集选择维度归约数值归约离散化和概念分层产生 ,,,,,,,,,，,,,,,,，，,，,,,～:,，，，,:，:,,,,,～,,,,,,,,,,,, 。个策略,,, ,,, ,:,;,,,;;,,:,::,,,,～:～, :,,,,;,,,,,::;;,,,:,,～;,,～ ,,, 数据挖掘中通过数据预处理工作可以处理在实验过 ,,,,，～:;,, ::,;;,:;:, ,,:～,;，;,,,:,,～;:,;:～,;,,,,,,,, ,,,, ,程中由于前期数据集中不确定因素导致挖掘模型的不准 :,,,,,,, ～,,,。 ,, ,,,确性同时也可以避免建立模型后出现的错误判断由于 ,,,，,,，，,，,，,,,，,,,，,,,,:，,，，，:,，,,,:，，,，，,,,,:,,,,,,,:,,,:,,,, ,;,;,,,:, ,,;;,,,,:,,;,;:,,,,,,!,数据预处理工作是一个领域相关性很强的工作国内外研 ,,,,,,, , ,,,,,,:～,:,,，,,,,,,究人员始终没有提出一个通用的自动化清理框架大多数 ,,,责任编辑王钊 ,,～,:,,～;,,;,:,:,:,～;,;,;,,:,,,,, !, , ,,:～,,,;,:,,;;:,;,,,,,,, , ,,,,,,:,,～;,;,;,,,:,,,:,,,～,,,,,;,:,,～;,,;; ,:,;,,,;,,,,:,～:;,,,～,:～～,,,,,,,,～;,,,, ,～,:～,,;:,,,,!,, , ,, ,,,,,,,;,:～;;,;;,,～;，，,,:～;,,,;,,;,,,:～～;;:,,:;:～;,;,:～,,;,;,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, ,,, ,,，;,:,,,;;:,;,;;,,:,,:～,;,::,,,,,,,,,,,,,,! ,,

                    本文档为【基于树模型回归算法在预测问题中的研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于树模型回归算法在预测问题中的研究

你可能还喜欢