基于信息增益法的决策树构造方法

基于信息增益法的决策树构造方法基于信息增益法的决策树构造方法基于信息增益法的决策树构造方法新疆农业大学2008,31(2):91,94 JournalofXinjiangAgriculturalUniversity 文章编号:1007—8614(2008)02—0091-04 基于信息增益法的决策树构造方法朱平,张太红,张晓明 (新疆农业大学计算机与信息工程学院,乌鲁木齐830052) 摘要:决策树数据挖掘技术是目前最有影响和使用最多的一种数据挖掘技术.决策树构造的方法很多,本研究提出一种基于信息增益的决策树构造方法,给出...

基于信息增益法的决策树构造方法基于信息增益法的决策树构造方法新疆农业大学2008,31(2):91,94 JournalofXinjiangAgriculturalUniversity 文章编号:1007—8614(2008)02—0091-04 基于信息增益法的决策树构造方法朱平,张太红,张晓明 (新疆农业大学计算机与信息工程学院,乌鲁木齐830052) 摘要:决策树数据挖掘技术是目前最有影响和使用最多的一种数据挖掘技术.决策树构造的方法很多,本研究提出一种基于信息增益的决策树构造方法,给出了相应的决策树构造算法,并通过一个实例对其进行了说明. 关键词:数据挖掘;决策树;信息增益中图分类号:TP274.2文献标识码:A ADecision—MakingTreeConstruction MethodBasedonInformationGain ZHUPing,ZHANGTai—hong,ZHANGXiao—ming (CollegeofComputerandInformationEngineering,XinjiangAgriculturalUniversity,Uru mqi, 830052) Abstract:Decision—Makingtreemethodisoneofthemostimportantandusefulwaysofdataminingtech— nology.Thispaperfirstproposesadecision—makingtreeconstructionmethodbaseoninformationgain, thengivesthecorrespondingalgorithmthroughoneexample. Keywords:data—mining;decision—makingtree;informationgain 近几年来,各类院校的办学规模逐渐扩大,而院校录取考生报到率也在下降.报到率低一方面会浪费该地区招生计划名额;另一方面不利于院校自身的发展.报到率低成为招生主管部门和院校面临的一个新课题 . 为了科学客观地分析影响院校报到率因素和预测来年的报到人数,更好的做好招生工作.本研究采用分类分析中的决策树方法,对新疆警官高等专科学校招生数据库中的数据进行数据挖掘,为管理者决策提供理论依据. 1基于ID3的决策树生成 ID3决策树算法是1986年由Quinlan提出的. ID3l_】算法运用信息熵理论,选择当前样本集中具有最大信息增益值的属性作为测试属性,样本集的划分则依据测试属性的取值进行,测试属性有多少不同取值就将样本集划分为多少子样本集,用迭代的方法在相应的样本子集的节点上生长出新的叶子收稿日期:2007—11—17 通讯作者:张太红,E—mail:zth@xjau.edu.cn 节点,直到无可分样本,无剩余属性或样本同属于一个类别时结束.信息论知识表明系统的不确定性越小,信息的传递就越充分.ID3算法根据信息论理论,采用信息增益作为划分后样本集的不确定性的标准 ,即算法在每个非叶节点选择信息增益最大的属性作为测试属性. 1.1ID3算法原理设S是S个数据样本的集合.假定类标号属性具有个不同的值,定义个不同类C(i一1,…, ).设S是类C中的样本数.对一个给定的样本分类所需的期望信息由式(2.1)给出: lH j(ss2一,S,)一>Plog2(P)(1) i=1 式中:P是任意样本属于C的概率,并用s/s 估计. 设属性A具有个不同值{A,A,…,A).可以用属性A将S划分为个子集{S,S,…,S};其中S,包含S中这样一些样本,它们在A上具有值 92新疆农业大学 .如果A选作测试属性(即最好的分裂属性),则这些子集对应于包含集合S的节点生长出来的分枝. 设S是子集S中类C,的样本数.根据由A划分成子集的熵(entropy)或期望信息由式(2)给出: E(A)=妻I(S…,)(2) 式中:I(SS巧,…,S):P—S/J5JJ是中的样本属于类C的概率. 最后用属性A划分样本集S后所得的信息增益是: Gain(A)一(S1,S2,…,S),E(A)(3) 算法计算每个属性的信息增益,具有最高信息增益的属性选作给定集合S的测试属性.创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本. 1.2ID3算法描述假设用T代表当前训练样本集,当前的候选属性集用T_attributelist表示,候选属性集中的所有属性皆为离散型,连续值属性必须事先经过预处理转化为离散型.ID3算法的描述为: 算法:Generate—decision—tree由给定的训练集产生一棵决策树输入:训练集T,属性集合T—attributelist 输出:一棵决策树 [1-]~lJ建根节点N; E2]IFT都属于同一类c,则返回N为叶节点, 标记为类C; E3]IFT—attributelist为空,则返回N为叶节点,标记N为T中出现最多的类; [4]ForeachT—attributelist中的属性计算信息增益Gain; [5]N的测试属性Test—attribute为T—at— tributelist中具有最高Gain值的属性; [6]ForeachTest—attribute的不同取值 { 由节点N长出一个新叶子节点 IF新叶节点对应的样本子集T为空不再分裂此子节点,将其标记为T中出现最多的类; ELSE在该叶节点上执行 Generate— decision— tree(T,T一 at- tributelist),继续对它分裂 ) 此算法是一个贪心算法,采用自上而下,分而治之的递归方式来构造一个决策树. 2报到率问题实现过程 2.1确定业务对象采用决策树__3方法,针对院校学生的报到情况 (已报到或不报到)进行分类分析,建立基于报到率的决策树分类模型,根据决策树模型生成规则集,并使用决策树模型预测新生报到率,从而预测来年的报到人数. 2.2数据预处理表1为院校录取考生表. 以2006年新疆警官高等专科学校录取数据和未报到考生为例,利用决策树技术研究考生报到与否可以由哪些属性决定(表2). 表1院校录取考生表 Table1Tableofnewstudentsenrolledbycollegesanduniversities 第2期朱平,等:基于信息增益法的决策树构造方法93 决策属性是否报到共有1016考生记录,其中 884考生是报到,132考生是未报到,那么使用(1), (2),(3)公式分别计算以下属性的熵: 表2属性的决策矩阵 Table2Decision.makingmatrixofattributes 录取志愿序号的熵: I(S)一一(884/1016)log2(884/1016)一(132/ 1016)log2(132/1016)一0.557 Entropy(S,投档成绩低于本三)一一(37/598) log2(37/598)一(561/598)log2(561/598)一0.335 Entropy(S,投档成绩高于本三)一一(95/418) log2(95/418)一(323/418)log2(323/418)一0.773 Entropy(S,投档成绩)一(598/1016)*Entro— PY(S,投档成绩低于本三)+(418/1016)*Entro— PY(S,投档成绩高于本三)一0.511 Gain(投档成绩)一I(S)一Entropy(S,投档成绩)一0.046 同理 Gain(科类)一0.008 Gain(录取志愿序号)一0.004 Gain(计划性质)一0.001 根据以上数据得出Gain(投档成绩)>Gain(科类)~Gain(录取志愿序号)~Gain(计划性质),为了清楚的挖掘出有价值的信息,选择信息增量最大属性:投档成绩和科类创建分枝,并据此划分样本 (图1). sfbd(是否报到) Node0 Category%月 -0l3.0l32 _l87.0884 Tota1lo0.01016 sfsx(投档成绩) 1(高于本三分数线) Nodel Category%月 -022.795 0l77.3323 T0tal41.1418 0(低于本三分数线) Node2 Category%月 -06237 lUl93.856l T0ta158.9598 kldm(科类) 1(文科)5(理科)1(文科)5(理科) NoI1e3 Category%月 -0l9.440 掰l80.6l66 Tota120.3206 N13(Ie4 Category%月 -025.955 l74.1l57 Tota120.9212 Node5 Category%月 -05.422 _l94.6382 Total39.7404 Node6 Category%月 -07.7l5 -l92.3179 Total19.1194 图1院校报到率分析与预测模型 Fig.1Analysisonregistrationrateofstudentsandforecastingscale 3预测模型解释节点Node0为该院校总体样本. 节点Node1和节点Node2是在总体样本 Node0上按信息增量最大的属性:投档成绩,分别 94新疆农业大学2008年化分出高于本三分数线样本集和低于三本分数线样. 节点Node3和节点Node4是在样本Node1, 节点Node5和节点Node6是在样本Node2上按信息增量第二的属性:科类,分别划分文科,理科. 对院校报到率分析与预测使用的分类模型,结果被解释为分类模式,该模式可用以下规则描述: 报考该学院的考生总体报到率为87.0. 如果投档成绩低于本科三批次录取分数线的考生报考该院校,那么报到率93.8. 如果投档成绩高于本科三批次录取分数线的考生报考该院校,那么报到率77.3. 如果投档成绩低于本科三批次录取分数线的文科考生报考该院校,那么报到率94.6. 如果投档成绩低于本科三批次录取分数线的理科考生报考该院校,那么报到率92.3. 如果投档成绩高于本科三批次录取分数线的文科考生报考该院校,那么报到率80.6. 如果投档成绩高于本科三批次录取分数线的理科考生报考该院校,那么报到率74.1. 4结果分析投档成绩高于本三录取分数线的考生报到率低,只有占该样本的77.3.其中该样本集中理科考生占投档成绩高于本科三批次录取分数线的理科考生录取样本的80.6,样本集中文科考生占投档成绩高于本科三批次录取分数线的文科考生录取样本的74.1. 对于这些报到率低的样本集,在录取前有必要采取一定的措施来遏止浪费招生计划的现象.比如:院校采取签定协议 ,交纳一定的保证金,超计划录取该样本集的考生来弥补未报到考生留下的空缺计划或者省级招办将这些未报到考生记录到诚信档案里面,来年录取来对这些考生采取一定程度上限制. 由实验证明:ID3算法的优点是算法的理论清晰,方法简单,学习能力较强.其缺点是只对比较小的数据集有效,且对噪声比较敏感,当训练数据集加大时,决策树可能会随之改变. 参考文献:' [1]王霓虹.基于数据挖掘的决策树算法研究及应用探讨[D3.哈尔滨;东北林业大学,2006. [23王睿.基于兴趣度的判定树算法快速分类的优化[D].成都;电子科技大学,2006. [33倪春鹏.决策树在数据挖掘中若干问题的研究[D3.天津:天津大学,2004. [43IanHWritten,EibeFrank.数据挖掘:实用机器学习技术.2版.董琳,译.北京:机械工业出版社,2006.

                    本文档为【基于信息增益法的决策树构造方法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于信息增益法的决策树构造方法

你可能还喜欢