首页 基于树模型回归算法在预测问题中的研究

基于树模型回归算法在预测问题中的研究

举报
开通vip

基于树模型回归算法在预测问题中的研究基于树模型回归算法在预测问题中的研究 基于树模型回归算法在预测问题中的研究 蔡晖 ,,,武汉工程大学 计算机科学与工程学院湖北 武汉 ,,::,, ,首先介绍基于树模型的两种回归算法,通过在 平台上实验所得数据,对该模型下的这两种算法的预测 要摘,;,, 性能给予评估。 ,,,关键词树模型回归算法预测问题 ,,,,,中图分类号 文献标识码 文章编号 ,,,,,,,,,,,,::,:,,,:::,,:,,,, ,,行数值预测的实验时就 像 普通决策树一样在 每 个 节 点 ,。 根据实例的属性来决定程序的走向直...

基于树模型回归算法在预测问题中的研究
基于树模型回归算法在预测问题中的研究 基于树模型回归算法在预测问题中的研究 蔡晖 ,,,武汉 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 大学 计算机科学与工程学院湖北 武汉 ,,::,, ,首先介绍基于树模型的两种回归算法,通过在 平台上实验所得数据,对该模型下的这两种算法的预测 要摘,;,, 性能给予评估。 ,,,关键词树模型回归算法预测问题 ,,,,,中图分类号 文献标识码 文章编号 ,,,,,,,,,,,,::,:,,,:::,,:,,,, ,,行数值预测的实验时就 像 普通决策树一样在 每 个 节 点 ,。 根据实例的属性来决定程序的走向直到树的叶节点每 引言 :,一个叶节点含有一个基于部分属性值的线性模型这样我 。们就可以通过测试实例得到一个原始的预测值 ,近几年数据挖掘引起了信息产业界和整个社会的广分裂标准用于决定对某个具体节点的训练数据 按 , ,,,泛关注在这个信息化的社会随着数据量不断增加迫切 。 哪个属性分裂最好传 统 的 决策树分裂标准是通过计算 。 需要将这些庞大的数据提取和转化为有用的信息和知识,,样例 中各属性的信 息 增 益 来 分 裂 的然 而模 型 树 在 建 ,,获取的信息和知识能够用于各种各样的应用中包括市场 ,,,树的过程 中采用期望误差减少值 即 标 准 差 减 少 ,,,、、、。分析欺诈检测图像识别风险预测和科学研究等 ,值基于把数据 中类值的标准差看作是对这个节点的 , ,、 随着近几年计算机技术的飞速发展人 类 收 集 数 据 ,误差衡量并且我们在建树的过程中计算期望误差减少值 ,存储数据的能力得到了极大地提高无论是科学探索研究 。 作为对这个节点每 个 属 性 进行测试的结果然 后 通 过 计 ,还是社会生活的各个领域中都积累了越来越多的数据对 算出来的结果我们选择期望误差减 少值达到最大的属性 ,这些庞大信息进行分析和提取数据中蕴含的有用信息成 。 ,作为这个节点的分裂属性计算如下 。 ,为几乎每个领域的共同需求在这样的趋势下数据挖掘 ,这门学科越来越受到人们的关注通过实验研究开发数据 ,。挖掘的技术也越来越重要 ,, ,,,,,,,,, ,,,,, ,,,×,? 回归算法是数据挖 掘 领域中在解决预测问题所必须 ,,, ,的核心工具我们可以在数据挖掘工具中利用一些常用的 ,,… … ,这里 是根据所选属性 在 节 点 进 行 分 ,,,, , , ,回归算法来建立相应的预测模型以解决实际中的回归问 。裂对应的第的 数 据 集当在一个节点的实例类值变化 , 。 ,题针对不同的回归算法通过比较算法解决回归问题中 ,,十分细微时便要终止 分 裂 过 程即当标准差在原始标准 ,建立的学习 模 型并将这些算法分为基于不同模型的算 。 ,,差中只占一小部 分 时 比 如 小 于 当只剩下很少的 ,, 、,法基于线性模型的回归算法基 于 近邻模型的回归算 , ,,。实例时比如也终止分裂个或者个以下, , 、,法基于树模型的回归算法和一些 其 他 模 型人 工 神 经 网 ,如前所述不仅在模型树的每一个叶子节点有一个线 、、,络支持向量机遗传编程等的回归算法本文主要介绍 ,,。 性模型在每个内部节点上也有这是为了在修剪树的过 ,,基于数模型的回 归 算 法并 在 根 平台上进行实验,;,, 。 ,程中进行平滑处理的需要在修剪之前没有修剪的每个 。据实验数据对该模型下的两种算法的预测性能给予评估 。 ,节点上都有一个线性模型然而只有这个节点下层子树 ,的测试属性才用于回归因为其他影响预测值的属性已在 。 引入这个节点的测 试 过 程 中 考 虑 进 去 了这 里 我 们 处 理 。,的都是数值型的属性修剪过程其实使用了一个估计器模型树 ,,,, 、。,是在每个节点对测试数据期望错误的估计器首 先将 这个节点上存在的所有训练集实例 的预测值和真实类值 ,用于数值预测的树模型就像普通的决策树一样 ,,, ,基于树模型回归算法在预测问题中的研究蔡 晖第? ?期 ,: ,, ,,,,,,与相 乘这 里 是 这个节点的训练实例总 用采用 算法中缩减误差修剪法对长出的树模型进行 ,,,,,,, ,,, ,的数量是给出这个节点预测类值的线性模型所用的参 ,。适当的修剪这里对误差修剪法不做重复的介绍 , 。数数量 在某个节点对测试 数 据的期望误差计算后使用线性 实验数据预处理 ,。 ,,,,,,模型来进行预测因为有 补 偿 系 数这 样 ,,,,,, ,我们可以通过减少项数使误差达到最小化从而使线性模 、当今现实世界的数据库极易受噪声丢失数据和不一,型进一步简化这样我们通过修剪树使得最终的模型树结 。 ,致的数据的干扰现实世界的数据一般是复杂的含有噪 。 ,构相对比较简单减少一项便减少了相乘系数这也许足 ,,、声数据即包括错误或者存在偏离期望值的独立的点不 。 以平衡在训练实例 上 平 均 误 差 的 增 加我们可以再估计 ,。 ,,,误差降低的条件下贪心式的逐个减少系数最 后一 旦 完整的有些实例的属性值残缺或者仅 仅包含聚集数据 ,模型树中每个内部节点的线性模型都已到位只要期望估 。 、和不一致的存在不完整数据的含噪声的和不一致的数 ,。计误差还在降低便从叶节点返回修剪树将节点的线性 。据是现实世 界大型的数据库或者数据仓库的共同特点模型期望误差与这个节点的子树的 模型期望误差进行比 ,,数据仓库的出现导致 异 构 数 据 大 量 增 加针 对 这 一 现 象 。,较为了计算某个节点子树的期望误差将来自每个分支 ,如果直接对数据仓库中数据进行挖掘模式的学习一定会。 的误差组合起来产 生 一 个 综 合 值这个综合值是根据分 。 ,导致挖掘难度的增加和模式提取的偏差因此我们在进 ,支上的训练实例的数量比率对分支进行加权利用这些权 ,,行数据挖掘实验之前必 须 进行数据预处理这 样 才 能 提 。值将误差估计进行线性组合 。高挖掘模型的高效性 ,在建立模型树的过程中修剪过的树的两个相邻节点 ,,表和 算法相对均方误差比较结果, ,,, ,,, ,,;;,的线 性模型之间会 不可避免地产生突 变平 滑 处 理 ,,补偿这个突变来替代直接使用原始预测值会 ,,::,~,,,,,,,;,,,,,,;;,,,, ,~,:,,,,,,,?,,,,,,:,,,,?,,,,,。 ,更加有益平滑处理可以通过在建树的时候如同在叶结 ,,,,,?,:,,, ,,,,,?,,,,, ,~,~:,:,; ,,,,点一样为每个内部节 点 建 立线性模型来实现当 一 个 测 ,,,,,? ,,,: ,,,,,? ,,,, ,:,,,, ,~,:,试实例根据一个叶节点模型得到一个原始预测值时这个 ,,,,,? ,,,, ,,,,,?,,,:, ,:; ,,,,,,,,,值沿着模型树一路过滤返回根节点在每个节点将得到的 ,,,,:?,,,,, ,,,,,?,,,,: ,:,,,, !这个预测值与该节点的线性模型所 提供的预测值结合进 ,,,:,?,,,,, ,,,,,? ,,,, ,:,, ,,;,,,,。 ,行平滑处理一个平滑处理的计算如下 ,,,,,?,,,,, ,,,,,?,,,,, ,,~:, :~:;, ,,,,,? ,,,, ,:,,,,? ,,,: ,;::;;,,, ,,, ,:,,,,? ,,,, ,:,,,,?,,,,, ,,, ::~, , ,:,,,? ,,,, ,,,,,?,,,,, ~ :,,;,,:, , ,, ,,, ,,,,:?,,,,: ,,,,,?,,,,, ,, ,;:~:,:,,~, ,,,,:,,,? ,,:, ,,,,,?,:,,, ;~,,; ,,,,~,,这里 是要向上层节点提供的预测值是 有 下 层 节 ,,, ,,,,,,?,,:,,, ,,,,,,?,,,,,, ,~,,,,,:,,:~ ,,点提供上来的预测值是这个节点提供的预测值是下 , ,,:,:,?,,,,, ,:,,,?,,,,, ,,::,, ! ,,。 层节点训练实例的总数试验 证明 住所证明下载场所使用证明下载诊断证明下载住所证明下载爱问住所证明下载爱问 了经过 是平滑常量, ,,,,:?,,,:, ,,,,,?,,,,, ~:~,,~~,,, 。平滑处理的模型树预测性能得到了大大的改善 ,,,,,? ,,:, ,,,,,?,,,,, ,,, :,,,,,,, ,:,,:,? ,,,, ,:,,,,? ,,,, ;! ,:,,,, ,,,,:?,,,,: ,,,,:?,,,,, ,,,,,; ,,;,,,缩减误差修减树 ,,,,,,;;,:,,:?,,,,, ,,,,,?,,,,, ,, ,,,,,?,:,,, ,,,,,?,,,,, ,~: ,,,, ,,,,,?,:,,, ,,,:,?,,,,, ,,,:,, ,,~即缩减误差修剪法它!, ,,,,;,~:;,,,,:,,,~,,,,,,,,,? ,,,, ,,,:,? ,,,, ,,,:, ,,,,是决策树中避免过度长树而采用的 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 之一它是一种快 ,,,,,?,:,,, ,:,,,,?,,,,, ~,;,,, ,,速生成决策树的学习方法其基本原理是建立一个决策树 ? ? ,,,,:,,,:,,,,,:,,,,:,,,,; ,:~:,, 。或者回归树的过程中使用信息增益作为分裂标准来长树,:,:,? ,,,, ,:,,,? ,,,, ,;,,:,; ,这里我们先引出参与计算信息增益的熵的定义 ,:,,,,? ,,,, ,:,,,,? ,,,, ,! ,;: ,,,,,,,?,,,,, ,,,,,?,,,,, ,;;,, ,,,,,,,:,::,,,,!,,, ,, ,, ,, ,,, ? ? ,,,:,,,,,,,,,,,,,,; ;,;,,, ,,其中中正例的比例是在样例 是在样例 ,, ,,,::,:,? ,,,, ,::,,,? ,,,, ,;,,,,! 。中反例的比例信息增 益 是 增长树的每一步选取的最佳 ? ? ,:,,,,,,,,,,,,:,,,,,, 。,属性的度量标 准精 确 地 讲一 个 属 性 相 对 于 样 例 集 , ? ? ,,,,,,,,,,,,,,,,,,,,,,合 的信息增益 被定义为,,,,,, ,,,,,,?,,,,, ,:,,,?,,,,, ,,,,,,?,,,,,, ,,,,,?,,,,: ,, ,,,~;,,,? ,,, ,,? ? ,,,,,,,,:,,:,,,,,,:,,,,, ,,,,,,,:,,,,, !,,,? , ,,,:, ,,,,! ,,,,,,,?,,,,, ,:,,,,?,:,,, ,,,,其中是 属 性 所 有 可 能 值 的 集 合是 ,~,, ,,;,,,,,,,,?,,,,, ,,,,,?,,,,, 。 ,中属性值 的子集在长树的过程中我们通的值为,, , ,;,, ,,,,, ,:,:, 软 件 导 刊 ??年 ,:,, ,: ,,,,数据预处理有很多 方 法主 要 包 括数 据 清 理通用的解决方研究都是针对特定领域数据的预处理方法 ,,,,,:;,,, 。案越来越 受到人们的重视平台中提供了两种用 , ;,,,、,,、,数据集成数据变换 ,,,:,,,:,,,,;,,,,,,,,,,,,,,,,,,,,,于数 据预处理的过滤器有 指 导 和 无 指 导 ~,,;,,,;,,,,,。 和数据归约种处理方法, ,:,,,,;,~::,,,,,,,, ,, ,,。数据清理可以用来去掉数据中的噪声来纠正数据 所有的过滤器都对输入的数据集进行数 ,~,~,,;,,,;,, ,、、的不一致性它通过填写缺失值光滑的噪声数据识别或 。 据某种转换两种过滤 器 中 都包含对属性和实例两种不 。 者删除孤立点来清 理 数 据数据清理的主要工作是对数 。同类型的预处理 。 , 据的不完备处理和噪声数据的处理对于残缺值的处理 ,我们用全局常量或者属性的平均值或者使用给定元祖属 实验结果分析 ,,。 于同一类的所有实例的平均值去填充同时也可以用回 、归基于推导的贝叶斯形式方法或者判定树的方法去推导 、表两 种 算法在实验者界面 给出了 , ,,,,,,,,;;,,最可能的 值对 于 噪 声 数 据 的 处 理我们一般使用分箱 里通过导入个标准数据集进行算法比较实验后的结果 ,, ,,、,,、,,技术回归聚 类的 方 法 通 ,,,,:,~,;,;,,:,,;,,,,,,,,,输出由于数据集中实 例 的 数 目 庞 大这里我们仅列出基 。过用将数据中的噪声转换成光滑数据 。 于相对均方根误差 的 实 验 输 出 结 果在算法的参数设置 ,,数据集成的主要工作是将许多数据源中的数据结 ,,中我们 将 将 中的最小实例数设置为 ,,, ,,:~,~,;, ,, 。合起来存放在一个 一 致 的 数 据 存 储 中这个数据存储可 。 和 都设置为从表中我们可以看,, ~,;,,::~;,,,;,,,, 、。能包括多个数据仓库数据立方体或者一般文件其中要 ,出 算 法 算法在评估标准上的平均值小于 ,,, ,,,,,;;、、解决的问题主要有实 体 识 别 问 题数 据 冗 余 问 题数 据 值 这表明 在这个个标准数据集上建立的学习模型 , ,,,, 。冲突的检测与处理由 多 个 数据源小心集成数据能够帮 ,比 算法的性 能 要 高对预测结果的准确性也相 ,,,,;;,,助降低和避免结果数据集中地不一致和冗余这种数据集 。对较好 。成有助于提高挖掘过程中的准确率和速度 ,,数据变换是将数据源中的所有数据转换为适合于 , 参考文献, 。 、、、数据挖掘的形式其主要涉及光滑聚集数据泛化规范 ,,,,数据挖掘实用机器学习技术第 ,,, ,,,,,,,,,,,,,,,,,,, 、,,。化属性构造特征构造五个主要工作,,,,,二版北京机械工业出版社,, ,::,,,,, 数据归约技术 可 以用来得到数据集的归约表示, ,,,数 据挖掘概念与技术 , , , ,,,,,,,,:,,,,,,,,,,,,,,,,归约表示后 的 数 据 集 很 小但仍接近保持原数据的完整 ,,,,,,第二版北京机械工业出版社,, ,::,,,,性这样归约后的数据 集 挖 掘 将 更 有 效并产生几乎相同 ,, ,,, ,,,,,,,,,,,,,;,,,,,,,,~::,,,,~:~,:,,,,;,,,,,::;;, ,, 。、的实验分析结果数据归约主要包括数据立方体聚焦属 ,,:~;,~,~,,,,,:,::,;;,:;:,,:,,;;,:;,,,,,,,,,,,,,,,,,,,,,,,,,, 、、、性子集选择维度归约数值归约离散化和概念分层产生 ,,,,,,,,,,,,,,,,,,,,,,,~:,,,,,:,:,,,,,~,,,,,,,,,,,, 。个策略,,, ,,, ,:,;,,,;;,,:,::,,,,~:~, :,,,,;,,,,,::;;,,,:,,~;,,~ ,,, 数据挖掘中通过数 据 预处理工作可以处理在实验过 ,,,,,~:;,, ::,;;,:;:, ,,:~,;,;,,,:,,~;:,;:~,;,,,,,,,, ,,,, ,程中由于前期数据集中不确定因素 导致挖掘模型的不准 :,,,,,,, ~,,,。 ,, ,,,确性同时也可以避免建立模型后出现的错误判断由于 ,,,,,,,,,,,,,,,,,,,,,,,,:,,,,,:,,,,,:,,,,,,,,,:,,,,,,,:,,,:,,,, ,;,;,,,:, ,,;;,,,,:,,;,;:,,,,,,!,数据预处理工作是一个领域相关性很强的工作国内外研 ,,,,,,, , ,,,,,,:~,:,,,,,,,,,究人员始终没有提出一个通用的自动化清理框架大多数 ,,,责任编辑王 钊 ,,~,:,,~;,,;,:,:,:,~;,;,;,,:,,,,, !, , ,,:~,,,;,:,,;;:,;,,,,,,, , ,,,,,,:,,~;,;,;,,,:,,,:,,,~,,,,,;,:,,~;,,;; ,:,;,,,;,,,,:,~:;,,,~,:~~,,,,,,,,~;,,,, ,~,:~,,;:,,,,!,, , ,, ,,,,,,,;,:~;;,;;,,~;,,,,:~;,,,;,,;,,,:~~;;:,,:;:~;,;,:~,,;,;,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, ,,, ,,,;,:,,,;;:,;,;;,,:,,:~,;,::,,,,,,,,,,,,,,! ,,
本文档为【基于树模型回归算法在预测问题中的研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_995397
暂无简介~
格式:doc
大小:32KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-12-19
浏览量:14