首页 数据挖掘网格中决策树并行算法设计及性能

数据挖掘网格中决策树并行算法设计及性能

举报
开通vip

数据挖掘网格中决策树并行算法设计及性能 科 技 天 地 52 INTELLIGENCE 数据挖掘网格中决策树并行算法设计及性能 重庆工商大学派斯学院 孔令信 摘 要:以决策树算法为设计的基础,提出了并行的算法,从而保证传统的串行分类法 在多台 PC 机以及服务器数据挖掘网格上实现并行的数据挖掘体系,以数据的横纵划分结合 递归的并兴华特点,建立了可扩展的高性能并行计算模式和体系,有效处理了海量数据未 实现并行分类算法的问题。同时给出了知道高校计算的方式,根据具体的实践表明,所总 结出的并行算法受到了多种因素的影响,同时具有高校的并...

数据挖掘网格中决策树并行算法设计及性能
科 技 天 地 52 INTELLIGENCE 数据挖掘网格中决策树并行算法设计及性能 重庆工商大学派斯学院 孔令信 摘 要:以决策树算法为设计的基础,提出了并行的算法,从而保证传统的串行分类法 在多台 PC 机以及服务器数据挖掘网格上实现并行的数据挖掘体系,以数据的横纵划分结合 递归的并兴华特点,建立了可扩展的高性能并行计算模式和体系,有效处理了海量数据未 实现并行分类算法的问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 。同时给出了知道高校计算的方式,根据具体的实践表明,所总 结出的并行算法受到了多种因素的影响,同时具有高校的并行效率加速比。 关键词:数据挖掘网格 决策树 并行算法 设计 性能 数据挖掘算法有聚类、分类喝关联 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 、神经网络分析 等算法,同时也有新型的基于图的复杂系统分析算法,而决 策树法是当前使用较为广泛的预测算法,复杂的并行计算就 当前数据挖掘的算法技术的研究中一直未曾解决。海量数据 挖掘和处理在很大程度上对计算机的存储和计算带来了巨大 的挑战,增加新的中小型机器将花费巨大的代价,并且未充 分利用当前服务器喝 PC 设备。在一定程度上造成了资源的浪 费。而数据挖掘网格能在计算机设备上构件数据挖掘网格, 建立具有规模动态扩展的能力,适应了海量数据挖掘的计算 密集需求。通过对数据挖掘网格实现数据的挖掘,还应将现 有的数据挖掘并行,建立并行的数据挖掘算法,开发出新的 算法。其实质在于将原有的算法改造成为两种院子并行结构 租车的并行和串行的程序段。 实际的数据挖掘算法的并兴华研究过程中,应将算法以 及其相关的具体特征进行分析,从而达到较好的算法并行化 的效果。一个算法可能具有几种不同的并行化算法,而每一 种并行的算法具有不同的方法结构体系,从而表现出不同的 算法特点。部分并行方式偏向于内存的节约,部分的算法则 侧重于降低计算节点的通信负担,此时应根据实际的运行状 况选择一种或是选择几种 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 综合的方式构建数据挖掘的并 行算法。其基础是多种方案能实现良好的综合。 一、并行算法 决策树算法的建树过程实际上是并行化的关键和重点, 根据相应的算法特点,从而进行了训练数据的横向并行分割, 同时也可在不同的计算节点上进行分配,从而实现了在不同 节点属性信息熵的计算,但在不同节点属性信息熵算法的并 行程度受到了节点属性数量的限制,并且随着分裂的持续和 渗入,属性的计算在逐步减少,同时对并行任务的调度带来 了一定的阻碍。决策树并行算法输入 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 的集合,包括分类 的属性,输出未决策树。 二、并行算法的具体实践 上图所示为并行算法在数据挖掘网格上的部署,计算节 点 (comp uting node) 负担着整个网络上的计算任务,计算 节点可根据实际状况增加。就宏观上而言,数据挖掘网格具 有几个较大的实体,包括 agent,网格门户,网格门户同时 也是数据挖掘代理;CN ,computing node,计算节点;MDC, metadata center 元数据中心;FS ,file server 文件服务器 和 DBS ,database server 数据库服务。 在上述运行环境状况下,同时一电信运营商用户进行分 类过程种,建设数据为 1-5 月用户数据,同时确定了 6-8 月 的离网用户,通过对 1-5 月数据的分析,实现了对未来三个 月离网用户的预测。在决策树建立过程中付出立刻较大的运 行时间,并行后的加速效果并不理想,甚至将导致多个 CPU 运行的时间大于单个 CPU 运行的时间。 三、并行算法的分析 通过对具体实践效果的分析了解到,多个 CPU 计算时间 大于单个 CPU 运行时间在于该种并行方式以 C4.5 算法分析并 不能实现线性的加速比。该数据挖掘网格种决策树的算法并 行算法的效率和加速比与多种因素密切相关,并行算法效率 低的原因在于决策树并不易于实现数据挖掘种的并行算法, 在实际的运行过程中在很大程度上将产生通信的延迟,使相 应的系统付出通信的代价。通信延迟将抵消通过并行计算而 带来的高效率,最终的效率结果将取决于因素的整体影响。 若是通信的延迟比并行缩短的时间要大,此时数据挖掘算法 中的并行算法是不适宜的。但在另一个层面上而言,这样的 并行算法可用于单个计算机内存不足的状况。通过仔细的分 析了解到。并行算法的运行效率与参加并行计算的 CPU 数量 有关系,而通信的延迟则与数据传输总量、每一次的通信数 据量以及数据挖掘网格系统通信特征参数有着十分密切的联 系。将相应的影响因素综合起来考虑,那么在决策树并行算 法的效率研究中,要了解通信延迟以及并行加速的效果,实 际上是对整体数据量、程序通信以及计算量的比例和网络系 统 CPU 所具有的计算能力以及通信能力之间关系的分析。并 行算法的通信量主要由计算节点和管理节点之间,节点之间 将存在一定的通信消耗和代价。 四、结语 决策树算法的并行中,实际运行中的多个 CPU 计算时间 超过单个 CPU 运行的时间,是由于数据挖掘网格中决策树的 并行算法相对于 C4.5 算法不具备线性加速比,根据具体的理 论研究明确了并行化的加速比于效率于多因素密切相关,由 此在具体的并行计算过程中,应确定每一次计算数据量、连 接的 CPU 数量以及网格环境的参数,综合考虑实际的并行部 署措施。最终实现数据挖掘网格中决策树的并行算法的设计, 同时在具体的系统运行和实践中不断优化并行算法,达到最 佳的运行效率。 参考文献: [1] 陈平、乔秀全、刘臻、田小萍:《数据挖掘网格中 决策树并行算法设计及性能分析》, 《北京邮电大学学报》, 2009(S1)。 科 技 天 地 53 INTELLIGENCE 10kV 配电柜常见故障及其维修措施分析 常州市常开电气有限公司 马宏俊 摘 要:随着人们生活水平的提高以及用电需求的加大,10kv 配电柜作为终端设备, 其作用越来越重要、性能要求越来越高。本文结合笔者实际工作经验,重点分析 10kv 配电 柜的常见故障,并有针对性地提出维修措施,以提高 10kv 配电柜的应用安全性与稳定性, 实现经济效益与社会效益。 关键词:10kv 配电柜 故障 维修 随着科学技术的不断发展以及用 电量的快速提升,10kv 配电柜运行的 稳定性有所提高,极大控制了故障率。 但是在运行过程中,仍存在一些常见故 障需加强注意,采取必要的维修措施, 才能确保电量运行的稳定性,满足大负 荷运行需要。以下将对具体问题进行分 析与阐述: 一、内部结构问题 当前,大多配电柜采取冷轧钢板弯 制焊接,材料厚度在 1.5mm 以上,以此 确保柜体强度,在表面进行喷漆或者喷 塑处理,同时对表面的均匀度、平整度、 耐腐蚀度有所要求。在这些配电柜中, 大多利用导轨对电气元件进行安装,其 接线端子和金属外壳,无论在正常运行 状况下还是故障条件下,应保持一定距 离。在配电柜中,安装母排应利用阻燃 绝缘材料进行固定,以符合耐热耐火要 求。在一些实际应用中,往往误认为只 要将绝缘材料和金属外壳绝缘分开,就 不会出现导通故障,其实并不可行。 另外,在配电柜的应用过程中,常 出现电气元件和导体连接不牢固问题, 如果一个接线端子与多根导体相连接, 就可能出现故障,甚至引发火灾。一般 这种故障源自企业生产中没有提高警 惕,相关规范落实不到位而造成。 二、电气元件问题 在配电柜中,最重要的电气元件就 是真空断路器。真空断路器作为进线的 主开关,具有安全隔离的重要作用。另 外,小型断路器具有短路保护及过载保 护作用;漏电断路器则可实现漏电保护 功能,有效避免人身触电事件。有关内 装元器件的选择,应严格遵照国家相关 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 规定,减少发生故障的可能性。在 配电柜的元器件应用过程中,最容易出 现故障的环节就是前后级的保护特性不 协调问题,如断路器等选择不合适或者 质量不合格等问题,一方面由于设计原 因,对各种电气元件的性能指标理解不 到位;另一方面则可能由于采购失误造 成。 在实际应用过程中,10kv 配电柜 多为中置式,但是安装在之后,由于箱 体为密封形式,因此散热性能不佳;再 加上安装配电柜中相关元件时,电气元 件为紧密地并排安装模式,与正常使用 条件不相符。小型断路器在配电柜中使 用较多,在其正常工作过程中,通过电 源产生发热,但是发热会相互影响,并 给散热带来难度,无法保障电器元件的 正常运行。因此,合理判断断路器的额 定电流,对配电柜的正常运行非常重要。 以现代化照明设备的应用情况来 看,无论是家用还是公用场合,多以节 能灯、空调器等带有电动机负载的设备 为主,由于其中含有较多非线性负载, 因此电流波呈现不规则性。但是普通的 电流表难以测量谐波电流,如果单靠电 流的大小来选择断路器的额定电流,必 然造成故障率的增加。因此,应结合实 际负载状况,充分考虑。 三、导体选择问题 有关 10kv 配电柜的内部结构和安 装方法等,对其内部导体提出了特殊条 件。因此,有关导体截面积的选择是否 合理,将对预防故障具有重要作用。一 些配电柜根据断路器降低容量之后的电 流来决定导体截面积,显然不合理。为 了避免出现这一问题,应严格根据说明 书或者断路器的额定电流来选择。 断路器的发热和导体之间会造成 相互影响,由于柜中较为密封,散热性 不佳,因此温度升高较快,难以确保导 体的正常工作环境。如果导体的截面积 选择不当,就会对断路器及导体的使用 寿命产生影响。 在 10kv 配电柜中,设置了接地导 体,对于每个回路中的保护接地线来说, 都要连接到汇流排中,不能出现铰接现 象,同时做好标识,包括主接地点。根 据 GB3906-2005 相关标准规定,应提供 和保护导体数量相等的接线端子,而且 端子位置、标识等应与相应导体端子的 顺序一致。一般情况下,一个接线端子 只可以与一根导体相连,如果配电柜中 的端子数量不多,那么一个端子与多根 导体连接,极易产生故障,是绝对不允 许的。 在日常维修过程中,经常发现端子 数量缺乏问题,虽然有些设置了母排的 尺寸,但是普遍偏小,应该在今后的工 作中加强注意,以确保 10kv 配电柜运 行的可靠性,减少电力事故发生的可能 性,提高 10kv 配电柜运行的经济效益 与社会效益,促进行业可持续发展。 参考文献: [1] 张东斐、都志军:《10kv 环 网柜电缆 T 型连接头使用中有关问题的 探讨》,《天津电力技术》,2006(4)。 [2] 蓝会立、张认成:《开关柜内 部故障电弧探测法的研究现状及趋势》, 《高电压技术》,2008(3)。 [3] 李伊平、陈双龙:《变压器与 配电柜间用PE线替代N线的危害》,《电 工技术》,2008(8)。 [4] 韩润生:《变电站中低压开 关柜过热故障在线监测系统》,《南京 理工大学:检测技术与自动化装置》, 2007。 [5] 祈宇:《环网柜在 10kv 城市 配网中的应用分析》,《城市建设理论 研究》(电子版),2011(27)。 [2] 郑玲、张宁、薄阳:《数据挖掘技术在电厂机组评 优过程中的应用》,《中国电力教育》,2009(S1)。 [3] 李怀庆:《决策树算法在医院数据挖掘中的应用探 索》,《医学信息学杂志》,2009(08)。 [4] 陈文庆、朱伟忠:《基于 OLE DB for DM 的文本分 类系统的设计与实现》,《河南师范大学学报》(自然科学版), 2005(03)。 [5] 冯晨、张旭翔:《数据挖掘技术及算法综述》,《电 脑知识与技术》,2009(13)。 [6] 崔永哲:《数据挖掘技术在客户流失预警中的应用》, 《延边大学学报》(自然科学版 ),2008(02)。
本文档为【数据挖掘网格中决策树并行算法设计及性能】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_685640
暂无简介~
格式:pdf
大小:1MB
软件:PDF阅读器
页数:2
分类:互联网
上传时间:2012-06-26
浏览量:22