首页 Weka[36]InfoGainAttributeEval源代码分析

Weka[36]InfoGainAttributeEval源代码分析

Weka[36]InfoGainAttributeEval源代码分析Weka[36]InfoGainAttributeEval源代码分析作者：Koala++屈伟最近要用到特征选择，但需要的特征选择又有点不同，还是看看源码，本文后面介绍了weka中熵的计算，它的计算与公式中不太一样，以前给我专门周末把公式敲岀来，方便大家看。从buildEvaluator开始看：weka中文站人的介绍过一次，这次intintclassIndex=data.classIndex();numInstances=data.numInstances();if(!m_Binarize){Discretizedi...

Weka[36]InfoGainAttributeEval源代码分析作者：Koala++屈伟最近要用到特征选择，但需要的特征选择又有点不同，还是看看源码，本文后面介绍了weka中熵的计算，它的计算与公式中不太一样，以前给我专门周末把公式敲岀来，方便大家看。从buildEvaluator开始看：weka中文站人的介绍过一次，这次intintclassIndex=data.classIndex();numInstances=data.numInstances();if(!m_Binarize){DiscretizedisTransform=newDiscretize();disTransform.setUseBetterEncoding(true);disTransform.setInputFormat(data);data=Filter.useFilter(data,disTransform);else{NumericToBinarybinTransform=binTransform.setInputFormat(data);newNumericToBinaryO;data=Filter.useFilter(data,binTransform);看是要离散成二个值，还是多个值。intnumClasses=data.attnbute(classlndex).numValues();//Reservespaceandinitializecountersdouble[][][]counts=newdouble[data.numAttributes()][][];for(intk=0;k0){log2(classCounts[j]);entropy-=classCounts[j]*Utils.entropy/=(double)data.numlnstances();returnentropy+Utils.log2(data.numlnstancesO);classCounts数组不必说，自然是每个类别的样本数。这里设数样本数为N，类别数为M,类别i的样本数为C(C=classCounts[i])。中间的for循环用公式表示岀来就是：entropy=-Ci?logCii=0entropy/numlnstanee用公式表示则为:entropy=(-Ci?logCi)/N将N移进去:entropy=(-0/N?logCi)i=0这里令P(Ci)为类别Ci的概率，上式等于:entropy=(-P(Ci)?logCi)i=0最后一步有+log2(numinstanee)，即log2N。可以将它视为(N/N)log2n。entropy=-NP(Ci)?logCi+NlogN2i=0NN=Ci+-+Cm。则视为(N/N)log2=(Ci/N)log2n+..+(cm/n)log2n=p(ci)log2N+•••+p(5)log2N。log(a)-log(b)=log(a/b)。代入后：entropy=PQ)?logCi/Ni=0它与一般看到的公式描述就是一致的了:entropy=PQ)?logP(Ci)i=0再看entropyOverClumns中的代码,除return外的代码，公式可表示为：又略有不同:entropy=-Ci?logCii=0而最后的一句又可表示为:entropy=(-O?lnCi)+N?lnN/(N?ln2)i=0与刚才的推导方法一样。

                    本文档为【Weka[36]InfoGainAttributeEval源代码分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

你可能还喜欢

最新资料

资料动态

专题动态

is_769254

暂无简介~

格式：doc

大小：21KB

软件：Word

页数：5

分类：

上传时间：2018-11-18

浏览量：0

热点搜索

解题步骤 60％吡虫啉悬浮种衣剂（高巧）＋6％戊唑醇悬浮种衣剂（立克秀）防治小麦病虫害试验结果初报隧道支护施工流程精选古装武侠剧《醉拳张三醉侠张三》分集聊天话术厂拌冷再生混合料配合比设计的试验研究 UG后处理为自动换刀的2种程序管理办法汉晋春秋精选小学生24点习题大全(含答案) 教师师德标兵个人主要事迹材料八年级语文下册第3单元第9课日出中陈白露与李石清的形象分析（新版）语文版我国周边安全环境面临的主要威胁动物儿歌第二课时教案申根签证在职证明模板中英双语解题步骤 60％吡虫啉悬浮种衣剂（高巧）＋6％戊唑醇悬浮种衣剂（立克秀）防治小麦病虫害试验结果初报隧道支护施工流程精选古装武侠剧《醉拳张三醉侠张三》分集聊天话术厂拌冷再生混合料配合比设计的试验研究 UG后处理为自动换刀的2种程序管理办法汉晋春秋精选小学生24点习题大全(含答案) 教师师德标兵个人主要事迹材料八年级语文下册第3单元第9课日出中陈白露与李石清的形象分析（新版）语文版我国周边安全环境面临的主要威胁动物儿歌第二课时教案申根签证在职证明模板中英双语