首页 ROC分析技术在机器学习中的应用

ROC分析技术在机器学习中的应用

举报
开通vip

ROC分析技术在机器学习中的应用ROC分析技术在机器学习中的应用 ComputerEngineeringandApplications计算机工程与应用 ROC分析技术在机器学习中的应用 张晓龙,江川,骆名剑 ZHANGXiao-long,JIANGChuan,LUOMing-jian 武汉科技大学计算机科学与技术学院,武汉430081 DepartmentofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430081,China E-m...

ROC分析技术在机器学习中的应用
ROC分析技术在机器学习中的应用 ComputerEngineeringandApplications计算机工程与应用 ROC分析技术在机器学习中的应用 张晓龙,江川,骆名剑 ZHANGXiao-long,JIANGChuan,LUOMing-jian 武汉科技大学计算机科学与技术学院,武汉430081 DepartmentofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430081,China E-mail:xiaolong.zhang@mail.wust.edu.cn ZHANGXiao-long,JIANGChuan,LUOMing-jian.ApplicationofROCanalysisinmachinelearning.Computer EngineeringandApplications.2007.43(4):243—248. Abstract.ReceiverOperatingCharacteristics(ROC)analysisisatechniquefororganizingclassifiersandvisualizingtheirperfor- mance.Comparingwithgeneralaccuracy,ROCcoulddescribetheclassifycapabilityadequatelyandbeadoptedinallconditions. Thismethodhasmanycharacteristicsuchashighreliability,objectandaccuratedescribeandespeciallyitcannotbeinfluenced bythedataenvironment.Inthispaper,wesystematicallydiscusstheresearchachievementandintroducetheadvantagesand shortcomingsaboutROCanalysis.Intheendwelookforwardtoitsdevelopme nt. Keywords:ROCanalysis;machinelearning~classifier;accuracy 摘要:ROC(受试者工作特征)分析技术是一种用来衡量分类算法和图示它们性能的技术.与传统的正确率相比,ROC分析更能 够全面地描述分类算法的分类性能.该方法具有可信度高,描述客观精确,特别是不受数据环境影响等优势.对国内外这一方法的 研究成果进行了较为系统地介绍,详细分析了它的优缺点,最后对这一技术的发展进行了展望. 关键词:ROC分析;机器学习;分类算法;正确率 文章编号:1002—8331(2007)04—0243—06文献标识码:A中图分类号:T~74 1引言 ROC分析(ReceiverOperatingCharacteristicAnalysis)2O 世纪5O年代起源于统计决策理论,用来说明分类器命中率和 误报警率之间的关系,最早在第二次世界大战中应用于雷达信 号观察能力的评价.后来使用在晶体管和心理物理学等的相关 研究中.1960年由Lustedt’J首先提出并将信号检测理论应用到 放射线诊断和技术学中.随后ROC曲线在临床诊断中的应用 迅速展开.1980年前后,ROC分析法已经基本成形,此时,ROC 分析不仅用于放射线诊断和放射技术领域中,而且被导人了核 医学成像领域,随后被用于诊断放射学实验室医疗癌症的筛选 和精神病的诊断尤其是医疗影像诊断准确性的评价.Swets等[21 的研究成果为ROC分析扩展到更广阔的领域提供了基础,近 十年来,在人工智能的一些领域也有相关地引进,如:机器学 习.多代理系统,智能决策支持和专家系统等.斯帕克曼 (1989)[31最早将ROC曲线引入到机器学习领域中,他证明了 ROC曲线的值估计和比较算法.ROC分析技术现已成功地应 用于评价分类算法. 2ROC分析技术及其在机器学习中的应用 2.1正确率的不足 分类学习算法从带有类标识的训练集上构造一个拥有预 测功能的分类器,它用于提取描述重要数据类别的模型或预测 未来的数据趋势嗍.它们的预测能力通常用在测试集上预测正 确率(accuracy)等来衡量.这类度量标准在当前的实际应用中 发现了很多限制和不足.主要出现在以下两种情况: (1)在数据不平衡的情况下,即数据的类别分布比例相差 很大时.正确率并不能准确 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 达分类器的性能.在实际应用中, 类分布比例在1O和102刻度上十分普遍.甚至在某些领域达 到了106t~.如正确率达到O.99的分类算法可能比随机猜测所 有的信用卡都是”正常使用”的正确率还要低,此时很高的正确 率并不能够充分说明分类器性能的好坏:或者当正确率用在动 态环境,诸如网页信息获取,查询到的不相关网页的数量大大 的超过想要查询的网页数量.并且随着时间的推移.这个比例 随着网页数量还会稳步地增加.此时,测试集和训练集上的类 别分布变化.如果用正确率评价,一些在训练集中正确率很高 的分类器性能可能会急剧下降,这显然会影响对算法的客观评 价. (2)当分类错误代价不相等时,正确率只能保证出现错误 的数量最小,但是并不能保证是总体代价最小.例如”将信用卡 盗用误认为正常使用”对于银行发生的损失是将”正常使用误 认为盗用”的很多倍,甚至在一些与人身生命安全相关的重要 决策中,这种错误代价的关系往往无法具体衡量.从实用角度 基金项目:教育部回国人员科研启 f~(TheProject—sponsoredbySRFforROCS,SEM);湖j省教育厅重点项目(201MD006). 作者简介:~(1963一),男,教授,博士,主要研究方向为机器学习,数据挖掘;江川(1983-).男.硕士研究生,主要研究方向为数据挖掘;骆名剑 (1981一).硕士.主要方向为数据挖掘.一 2442007,43(4)ComputerEngineering御Applications计算机工程与应用 讲.分类学习算法应该尽量地减少代价高的错误出现.而不是 着重于减少错误数量.此外.因为错误代价的不同,在典型信息 获取过程中.需要高的准确度(precision),在医疗影像诊断中. 需要高的召回率(recal1)r~3.这些应用中并不需要以正确率作为 选择合适算法的标准. 另外在越来越多的应用中,需要有些分类器能够提供分类 的可靠性.相似度或者对每个样例分类质量的数值估计.也就 是说不仅希望模型为每个样例预测出一个类别.而且希望它能 为每次预测提供一个可靠性估计.因此在当前的应用中.正确 率已经显示出了很多的不足和缺陷,它已不再能够充分描述分 类器的性能或者比较多个分类算法的优劣.ROC分析对类别 分布,错误代价不敏感,直观以及可理解性等特性,逐渐使它代 替正确率成为更好的度量方法.+ 2.2ROC曲线分析技术 2.2.1ROC曲线 给定二类别分类器和测试数据集.可以构造2x2的混淆 矩阵来表示分类算法结果.这个矩阵是正确率等很多评价标准 以及ROC分析的基础.定义分类算法将负例误分为正例的个 数与所有负例的比值为FP率(FalsePositiverate),将正例分 为正例的个数与所有正例的比值为11P率(TruePositiverate). ROC图是以FP率为横轴.以TP率为纵轴的二维图I7/.图 1显示了混淆矩阵和几个通过它算出的通用性能评估标准.混 淆矩阵中主对角线上的数值代表正确的决定的数量,反对角线 上的数值代表类别之间预测错误. 真实类别 预测类别 PN -ueFal8e PositivesPositives F旦e1e NegativeNegative FPrale=TPmte=罟Rcall Preci3iP_AccuraeyffiTP+TN TP+FPP七 圈1混淆矩阵和几个通过它算出的通用性能评估标准 如果正例相对于负例在测试集中比例发生变化,分类器在 ROC空间中的位置将不会变化,这个特征说明它对类别分布 敏感.ROC图以rPR和FPR为坐标轴,任何一维都是严格 的混淆矩阵某一列内部间的比例,因此不会依赖类别分布.一 张ROC图描绘了收益(TruePositives)和代价(FalsePositives) 的关系.图2显示了分别标为A到E的5个分类器.图2使用 ROCon绘制.可在 Leaming/rocon下载使用. 0102030405060708090100 FPrate 田2ROC圈中的分类? 分类算法中包括两种分类算法(分类器),一为硬分类器 (CrispClassifier),另一为软分类器(SoftClassifier).硬分类器 是指其输出结果是某个类别的分类算法如C4.5.支持向量机 (SVM)等;软分类器是指算法在样例上会自然产生一个数值. 如朴素贝叶斯(NB),神经网络(NN)等,这个数值表示该样例 被分到某个类别的可能性.每个硬分类器在数据集上只产生一 个(FP,TP)对,因此其结果对应于ROC空间中的一个点. 图2表示了5个硬分类器结果对应的ROC图.一般来讲. 位于ROC空间中左上的分类器性能较好.另外在ROC空间里 有几个重要的点,如左下的点(0,0)描述一个理想的分类器.这 样的分类器没有代价,也没有收益.右上的点(1,1)表示另外一 个理想的分类器有完全相反的结果.用对角线y--x描述了一个 随机猜测的分类器.一个随机的分类器将产生一个以它猜测正 例的几率的在对角线上的ROC点.例如.如果以0.9概率猜 测,那么它将拥有90%的TPrate.但是它也会有90%的FP rate,那么这个分类器对应对角线上的(0.9,0.9). 为了方便地用ROC图比较几个分类算法,需要生成一个 ROC曲线外壳.也称为ROC曲线凸壳.首先将ROC空间中所 有的点,包括理想分类器对应的ROC点(0,0)和(1,1),自左向 右连成一条盐线.在从左向右连接的过程中.在连接一个新点 之前要检查连接线段的斜率.ROC曲线外壳应该拥有一个单 调递减的斜率.如果新的连接线段的斜率大于前面线段的斜 率,那么放弃连接前面的ROC点.重复这个步骤.直到曲线只 剩下一个点.这样就可保证斜率的单调并使ROC曲线凸起.凡 是在凸壳下所有的凹陷处的点表示该分类器在某分布条件下 并不是最优的分类器.所以在得到正例和负例的分布比例和错 误代价信息以后,在ROC曲线凸壳上的分类器将拥有最佳 性能. 图3中折线则显示了图2中的几个分类器生成ROC曲线 凸壳,可以看到图3中D,算法对应的点处于凸壳下面,也就 是说这两种算法在这个数据集上不管任何分布,任何代价条件 下都不可能获得最优性能而处于凸壳上的点,B,C算法则 在某些指定的类别分布比例和错误代价的条件下可以获得最 优的性能 0102030405060708090100 FPrate 圈3ROC曲线凸壳 如何在给定的条件下方便地得到最优分类器呢?在ROC 曲线凸壳中,可以以一条错误代价比除以正负样例分布比例为 斜率的直线,从左上角沿着ROC空间的反对角线平行移动,最 先与这条直线相交的点就是最优性能分类器.在图号输出概率 ltrue0.950lltrue0.450 2true0,850l2false0.380 3false0.750l3true0.370 4truc0.65014false0.360 5true0.60ol5true0.350 6false0.550l6true0.340 7false0.540l7false0.330 8true0.520l8false0-30o 9false0.51519true0.20o 10false0.5l020false0.10o (8) 0l02030405060708090l0o FPrate (b) 在正例和负倒相等的条件下.口算法最优 图5设置不同的阈值创建的ROC曲线 点处.作一条水平线与TPrate轴相交,可以得到此时曰算法 的正确率为O.71(见图4(b)).需要注意的是,图中说明的正确 率当且仅当错误代价相同的情况下才有意义. 软分类器通过设置阈值可以方便地转化为硬分类器.如果 分类器的输出高于阅值,分类器输出true.否则输出false.每设 置一个阈值.软分类器都会在ROC空间中会产生一个点.设置 阈值从一..到+..,相应就可绘制一条ROC曲线.也可以将它转 换为一条曲线.并且可以使这条曲线包含所有可能的错误代价 比.假设一个测试集有2O条样例.其中包括1O个正例,1O个 负例.图5(a)描述了软分类器在该测试集上的输出,以输出概 率排序;图5(b)显示了通过设置递减阈值得到的ROC曲线. 任何从有限数据集生成的ROC曲线实际上都是一个阶梯函 数.图中曲线顶点旁的数值对应产生它的阈值.当测试样例个 数趋近无穷大时,它近似一条连续曲线.图中包含ROC曲线的 是它的凸壳,最右上的斜线与凸壳的交点表示在类别概率相 等,错误代价相等时分类算法的最佳阈值点. 2.2.2计算ROC曲线的通用方法(AUC) 为了能够直接比较多个分类器在任何比例分布和任何错 误代价比的情况下.希望将ROC曲线描述的分类器性能转换 为一个数值来表示分类器的性能.目前为止一个通用的方法是 计算ROC曲线下的面积(AreaUndertlleROC).缩写为AUC 或AROC.AUC是曲线下区域与单位面积的比,所以它的值在 O.O到1.O之间.然而因为随即猜测产生的对角线的AUC值为 O.5.因此一个实际的分类器的AUC值必须要大于0.5.AUC有 一 个重要的统计特征:一个分类器的AUC等于这个分类器把 一 个样例分为正例比分为负例高的概率.Breiman~指出AUC 与Gini指数也密切相关,它是对角线和ROC曲线之间面积的 两倍.Hand嗍指出Gini+l=2xAUC.在比较分类器时.只用比较 它们对应的ROC曲线所占的面积,AUC大的预示着具有比较 好的平均性能.因此图6t0J(a)中的分类器曰的性能要优于A 的性能.图6(b)中显示了一个软分类器A和一个硬分类器曰 的AUC.分类器曰只能使用单一的,固定的阅值.尽管两个分 类器在固定点(曰的阈值)处相等,当偏离这个点时,曰的性能 就比A差,这同时也说明AUC比正确率更适合作为算法性能 评价标准.因为在A点处两者的正确率相等,正确率并不能分 辨那个算法要好一些,而通过AUC可以简单的得到更加实际 的结论.但是也必须注意到一个高AUC分类器可能在特定的 区域比低AUC分类器的性能差.图6(a)中显示如下的例子: 分类器四通常比A好.但是在FPrate>O.6时.A要稍微强一 点.此外,Chadest”1等试图通过理论来证明AUC比正确率优 越.Provost和Bradleyt21等通过大量的比较实验发现AUC比正 FalsePositiverateIBePo~itiverate (a)(b) 图6R0C曲线下面积 宕H06磊o9导0n曷0H0 {duL 宕H06o80o90n导0n0z0H0 duL O8642O lOOOO 薯?0tHP 2462007.43(4)ComputerEngineeringandApplications计算机S-程与应 用 确率更适合作为分类评价标准.虽然计算ROC的算法并不是 很复杂,可以使用微元法累加所有的梯形面积,但是Hand和 TiU进而提出了一种更加简单的近似计算AUC方法1. 2.2.3AUC与正确率的比较 讨论用不同的两种测量标准来评估同一种学习算法,首先 希望两种测量标准至少保持一致.就好比如果一个标准认为算 法A优于曰.那么另一个标准最好也会得出A比曰好的结论. 进一步.如果一个标准能够说明算法A和8不同,而另一个不 能,这就说明这个标准的分辨率高.为了得到更加精细的比较 结论.往往使用分辨率较高的评价标准.这就需要一些通用的 标准.为此引入概率一致性和分辨率定义…]: 定义1对于两个评估标准,’和g.在论域中,令R=f(口, b)la,bEI,(a)):厂(6),g(口)>g(6)l,S={(a,b)la,6?,,(口)> ,(b),g(口)(6)},则称,和g一致性程度为C=IRI/(IRI+ISI). 定义2对于两个评估标准厂和g,在论域中,令尸{(a, b)la,bE(a)(6),g(a)=g(6)},Q=f(a,b)la,bE,g(a)> g(b)}口)-,(6),则称,比g的分辨率高IpI/IQI倍. 从以上定义可以看出,如果评价标准,’和g的一致程度为 C,那么当fbt.为A比好,g也会认为A比好的概率为C. 如果. 厂的分辨率比g高D倍,那么厂能说明A和之间的不同 而g不能说明A和之间的不同是g能说明A和之间的不 同而厂不能说明A和之间的不同的D倍.很明显,如果希望 得到结论,’比g好,需要证明C>0.5并且D>l.为此Charles 等【ll】在人工数据上的实验验证了这些.他首先假定测试样例中 有4,6,8,10,12,14,16个样例,而且样例中正例和负例个数相 等.对于每个样例集,枚举所有可能出现的分类情况,一共有 ?’种可能.其中?为样例个数的一半.然后比较它们的AUC 和正确率.实验结果如表1和表2【n惭示,计算结果清晰的显示 AUC与正确率实际上统计一致并且分辨率要比正确率高,因 此AUC更加适合于作为学习算法的度量. 表1AUC与正确率的概率一致性 裹2AUC与正确率的可分辨性比较 3ROC分析技术的发展 3.1ROC分析技术当前的发展状况 因为ROC分析具有直观,易懂,使用简单和正确率一致等 很多优点.使得ROC分析得到了迅猛的发展,国际机器学习会 议(ICML,InternationalConferenceonMachineLearning)和欧 洲人工智能会议(ECAI,theEuropeanConferenceonArtificial Intelligence)在2004年为它开辟了主题.在机器学习领域中, 它已经发展成为一种标准的分析方法.但是也存在许多不足. 因此一些机器学习研究者根据实际需要扩展和改进了ROC分 析技术.并在ROC分析基础上改进并提出了一些新的分析 方法. 3.1.1DET图 Martint等发现多个高性能的分类器ROC曲线一起显示 时,会拥塞在图的左上角扎成一捆.给直观比较分类器性能带 来不便,于是通过改变ROC图的坐标和坐标刻度等提出DET 图(DETgraphs).首先,DET图用falsenegative标示y轴,而不 是truepositives.因此他们标出一种分类错误和与之相反的分 类错误.其次,DET图在两个轴上都采取log刻度.因此左下部 分(对应ROC图中左上部分)的曲线面积被扩展.DET图的log 刻度在左下角的区域比实际面积大,这个性质使比较高性能的 分类器变得简单. 3.1.2代价曲线(CostCurves) ROC曲线通过读取斜率而不是坐标值来决定一个分类器 比另一个更优,但是当需:要使用ROC曲线详细说明一个算法 比另一个算法优越的区域和具体数量时,比较曲线的斜率并不 直观.DrummondandHolten认为如果曲线主要用来比较算法 相关的代价,分析图应该能明确地标识这些代价,基于此他们 扩展了ROC曲线.提出使用代价曲线来完成这些功能. 在代价曲线中.以PCF(代价概率 函数 excel方差函数excelsd函数已知函数     2 f x m x mx m      2 1 4 2拉格朗日函数pdf函数公式下载 ,ProbabilityCost Function)为轴,测量正例的比例,范围为(0,1),定义如下: JPcF(+):一一, P(+)c(-I+)(一)C(+l一) 公式 小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载 中c(一l+)表示将一个正例分为负例的代价,C(+I一)表示将 一 个负例分为正例的代价.P(+)是正例的概率,P(一)是负例的 概率.y轴范围也是(0,1).直接标注算法的性能,即经归一化 处理的的错误代价期望.最理想的分类器是一条从((0.0)到 (0,1)的水平线.代价曲线是将ROC曲线点和线互换的结果, 图7t01描述了ROC曲线和代价曲线的对应关系.硬分类器在 ROC空间中表示的一个点在花费曲线中用一条线表示.这条 线被设计为与分类器期望代价相关.分类器的在ROC空间中 点(FP,TP)对应于Cost空间中点(0,FP),(1,1一TP)之间的线 段,相应的y轴表示为分类器的期望.因此,ROC空间中的凸 壳在代价空间中用直线包围的最低边界表示. 3.1.3相关最优图和LC索引 LC索引是ROC曲线的另一种变体,和代价曲线类似,它 也是比较分类器代价.Adams和Handt-q认为ROC通常很少能 提供精确的代价信息.但是一些关于代价的信息经常是可用 的.专家可能不能精确地指定FalsePositive和FalseNegative 的代价,但是通常可以指出哪类错误代价比另一类更昂贵或者 将错误代价比值限定在一个范围内.因此ROC作为分类器的 性能度量就显得粗糙 该方法将错误代价映射到区间(0.1),然后转换一系列 ROC曲线到一系列平行线,并显示各个分类器相对优越的区 域.类似于提供一个最接近的比率值,专家可以提供在(0,1)之 间的错误代价比可能范围,这使算法比较专注于实际需求感兴 张晓龙,江川,骆名剑:ROC分析技术在机器学习中的应用2007,43(4)247 00.10.20.30.40.50.60.70.80.91.0 蹦8ePositiverate 00.10.20.30.40.50.60.70.80.91.0 ProbabilityCostFuncti<m 图7ROC曲线以及对应的代价曲线 趣的区域.通过相对最优图,置信度测量Lc索引定义为分类 器在该区间内分到某个类别优于另一个的概率.如果仅仅关注 于哪个分类器最优问题.相对最优图可以看作是代价曲线的二 进制版本. 3.1.4pROC pROC(probabilistieROCcurve)曲线是最新出来的一种方 法.它和ROC曲线非常类似.AUC的一个缺点就是它仅仅只 是用于计算ROC曲线的面积,无法输出概率估计值.因此 C~sarFerri等提出了一个能够同时输出概率估计值和曲线 面积的方法:pAUC(probabilisticAreaUndertheROCCurve). 在这个方法里他设计出一个类似于ROC曲线的曲线名为 pROC.pAUC方法也是通过计算这个曲线下面积来得到的.只 不过它将概率估计加入到ROC曲线中. 此外.还有一些文献以ROC分析结果为导向.重新评估了 以前的机器学习方法.对于一些几乎是常识的知识提出新的看 法.对于决策树,长期以来一直认为正确率的提高主要依靠裁 剪技术.但是在用AUC评估C4.5算法时,发现剪裁基本没有 作用.在传统的机器学习领域,一直认为NaiveBayes方法和 决策树方法不分伯仲.但是现在用ROC分析的研究表明Naive Bayes方法要优于决策树方法?.与此同时,一些学者还针对与 ROC分析在分类中的应用,提出了新的分裂标准[I91,Smoothing 方法,集成方法嘲等. 3.2ROC分析技术所主要存在的问题 3.2.1多类ROC分析 ROC分析因为二分类问题的对称性,分类算法性能可以 直接用二维图形描绘.因此ROC分析方法多侧重于处理二分 类问题.但是,如果用于描述大于两类的空间将很复杂.因为一 个分类算法在?类数据集上生成的混淆矩阵一共有NxN个元 素.其中包含?个正确分类(矩阵中主对角线上的元素)的和 个错误分类(矩阵中所有不在主对角线上的元素).所以 在多类ROC中,不再是考虑rP和FP的关系.现在有?个收 益决策和J7\『2I?个错误,如果按照二类别ROC分析的思想理 念,现在需要考虑一?个独立变量之间的关系.因此需要 一 ?维来描述.如果仅考虑3个类,ROC空间中的点将变成 32_3--6维多面体,如果考虑4个类,ROC空间中的点将变成 4=12维多面体. 目前多类别ROC方法的扩展思路主要分为3类,第1类 是直接扩展二类别ROC分析方法到多类别.这类方法计算和 结果图示非常困难.如Mo88manl圳提出的三类别ROC分析方 法将3类问题的6维坐标转换为两个3维坐标来表示,或者使 用雷达图口】来表示ROC空间中的一个点等.这些方法因为计 算可行性很难扩展到5个类别以上.基于此,很多学者开发了 第2类方法,这类方法将多类别ROC分析转化为多个二类别 ROC分析.然后对应比较.将多类别ROC分析转化为二类别 ROC分析的方法主要有一对多(OVA.One—Vs—Al1)方法,成对 (Pairwise)方法等.这类方法计算简单,分类算法的性能可以通 过向量表示.在实际中得到较好应用,但是在比较算法之间的 性能时,尤其是在都不占据绝对优势时又变得难以抉择;而且 不能够像二类别R0C方法一样直接给出某个算法是最优算法 的具体条件;此外.结果向量中各个元素之间的相关性也会影 响评价结果.针对这一情况.最近国内还有骆名剑等啕提出用 纠错输出码解决多类ROC问题.第3类方法是扩展AUC的等 价概念,如HTM方法嘲利用AUC与Wilcoxon测试等价.这类 方法也存在很多理论和应用上的问题. 3_2.2软分类器和概率估计 如何使得ROC曲线同时能输出预测数据集的概率估计值 还是个难题.虽然目前针对这一情况已经研究出了很多的方 法,比如前面提到的pROC,还有将决策树算法改造成软分类 器,对于改造后的决策树分类器称为概率估计树(PET).概率 估计树与分类树具有同样优良的特征.但是由决策树被直接转 换的概率树(如C4.5提供的概率估计)提供的概率估计很差. 目前已经开发了几种技术用来提高PET的AUC.但是它们都 没有提供系统的实验对提高基于概率分类方法进行具体深入 的分析.目前来说一个简单通用的方法是用拉普拉斯纠错,它 可以显着提高基于概率的分类.此外,Bagging也可以提高PET 的质量.甚至比对提高正确率更加有效.不过总的来说概率估 计问题目前来说还没有很好的解决. 3.2-3平均ROC曲线 尽管ROC曲线可能被用来评价分类器.更应该关注到用 它们去得到分类器优劣的结论.因此如何更好地计算ROC曲 线并用来得到分类器孰优孰劣的结论非常重要.最常见的方法 是通过在ROC空间中画出它们的曲线,观察这些曲线中谁占 统治地位以此来选择最好的分类器.但这并不是最佳选择.因 为它们之间没有关1lI?j营u莹H一l_目gZ 2482007,43(4)ComputerEngineeringandApplications计算机工程与应用 了这些方法并分别指出它们的优缺点.但是如何平均ROC曲 线还是一个没有完全解决的难题. 4结论 目前国际上一些专家纷纷特别撰文推荐使用ROC作为分 类算法的评价标准[18阍.在国内,ROC的应用在医疗领域应用 已经很成熟,但是在机器学习领域还很少看到关于ROC的研 究成果.ROC曲线近年来发展迅速.但是仍然在应用上有很多 限制,首先,它和其它的评价标准的关系还没有被完全的阐明; 其次,它对有关决策支持和专家系统技术的结合正在被正视: 再者,它能提高智能体的结果还没有被调查证实.对于集成学 习,专家系统,决策支持系统,代理系统,信息获取方面都有很 多还未解决的难题,其标准也有待完善.因此这些问题使得 ROC分析成为一个很好的有待深入研究的新方法. (收稿日期:2006年5月) 参考文献: 【1】LustedLB.Logicalanalysisinroentgendiagnosis【J】_Radiology. 1960,74:178—193. 【21SwetsJA,DawesRM,MonahanJ.Betterdecisionsthmughsei— ence[J].ScientificAmerican,2000. 【3】Spackman.Signaldetectiontheory:valuabletoolsforevaluatingin— ductiveleaming[C]//PreceedingsoftheSixthInternationalWork— shoponMachineLearning,1989. 【4】FerriC,FlachP,Hemdndez—OrMloJ.Decisiontreesforranking:ef- feetofnewsmoothingmethods,newsplittingcriteriaandsimple pruningmethods[R].DSIC,2003. I5】FawcettT,ProvostF.Adaptivefrauddetection[J].DataMiningand 316. KnowledgeDiscovery,1997,1(3):291— 【6】PlattJ.Probabilisticqutputsforsuppo~vector,machinesandcom— parisontoregularizedlikelihoodmethods[C]//SmolaAJ,Batlett P,SchoelkopfB,eta1.AdvancesinLargeMarginClassifiers,1999: 61—74. 【7】FawcettT.ROCgraphs:notesandpracticalconsiderationsforre— searchers-忉.MachineLearning,2004. 【8]Quinlan.C4.5:programsformachinelearning【M】.SanMateo,Cali— fomia:MorganKaufmann.1993. 【9JBradleyAP.TheuseoftheareaundertheROCcurveinthe evaluationofmachinelearningalgorithms[J].PatternRecognition, 1997.30:1145—1159. 【10】FawcettT.ROCgraphs:notesandpracticalconsiderationsfordata miningresearehem[R].HPLaboratories.20o3. 【l1】LingCX,HuangJ,ZhmlgH.AUC:abettermeasurethanaccura- cyincomparinglearningalgorithms[C]//CanadianConferenceon AI.20o3. 【12】ProvostF,FawcettT,KohaviR.Thecaseagainstaccuracyestima- tionforcomparinginductionalgorithms[C]//ICML,1998. 【13】BradleyAP.Theuseoi.theal’~aundertheROCcurveinthe evaluationofmachinelearningalgorithms【J】_PatternRecognition, 1159. 1997.3O:1145— 【14】MartinA,DoddingtonG,KanlmT,eta1.TheDETcurveinas- sessmentofdetectiontaskperformance[C]//PmcEurospeeeh’97, Rhodes.Greece,1997:1895—1898. 【15】DrummondC,HoheRC.Explicitlyrepresentingexpectedcost:an alternativetoROCrepn~ntation[C]//RamakrishnanR,Stolfo,S. ProceedingsoftheSixthACMSIGKDDIntemationalConference OHKnowledgeDiscoveryandDataMining.ACMPress,2000:198- 2O7. 【16]AdamsNM,HandDJ.Comparingclassifierswhenthemisalloca— tionscostsareuneertain叭PatternRecognition,1999,32:l139-1147. 【17】FerriC,FlachPA,Hemandez—OralloJ.ModifyingROCcurvesto incorporatepredictedprubabilities[C]//ROCML,2005. 【18】DrummondC,HolteRC.WhatROCcurvescan’tdo(andcost curvescan)[C]//ECAI,2004. 【19】ProvostF,DomingosP.Treeinductionforprobability—basedrank ing【J】.MachineLearning.2003,52(3):199-215. 【2O】MossmanD.Three-wayROCs[J].MedicalDecisionMaking.1999. 19(1);78-89. 【21】Fe耐C,HernOndez-OralloJ.SalidoMA.VolumeundertheROC sutraceformulti—classproblems【C]//ExactComputationandE— valuationofApproximations.UnivPolitecnieadeValencia.2003. 【22】骆名剑.基于ROC的分类算法评价方法【D】.武汉:武汉科技 大学, 20o5. 【23】HandDJ,TillRJ.Asimplegeneralisationoftheareaunderthe ROCCurveformultipleclassclasmficatm’nproblems【J】_Machine Learning,2001.45(2):171-186. 【24】DrummondC,HolteRC.ClassifiercostCurves:makingperfor- mgnceevaluationeasierandmoreinformative【J】.Unpublished manuseriptavailablefromtheauthors,2002. 【25】ClearwaterS,StemE.Arule-learningprograminhighenergy physicseventclassification[J].CompPhysicsComm,1991,67: 159—182. 【26】CaruanaR,Alexandm,Niculescu—Mizil.Anempiricalevaluationof supervisedlearningforROCarea~C]//ECAI,2004. (上接242页) 约生产成本和降低缺货惩罚,实现系统优化. (收稿日期:2006年5月) 参考文献: 【1】GaneshanR.Managingsupplychaininventories:amultipleretailer. Onewarehouse,multiplesuppliermodel叨.InternationalJournalof ProductionEconomics,1999,59:341—354. 【2]PontrandolfoP,GosaviA.OkogbaaOG.Globalsupplychainmn_ agement:areinforcementlearningapproach叨.I?
本文档为【ROC分析技术在机器学习中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_624976
暂无简介~
格式:doc
大小:54KB
软件:Word
页数:21
分类:生活休闲
上传时间:2017-12-28
浏览量:37