首页 加权Fisher线性判别法在非平衡医学数据集中的应用

加权Fisher线性判别法在非平衡医学数据集中的应用

举报
开通vip

加权Fisher线性判别法在非平衡医学数据集中的应用加权Fisher线性判别法在非平衡医学数据集中的应用 摘 要 : 目的 : 介绍加权 Fi sher 线性判别法在非平衡医学数据集中的应用。方法 : 在两类分类问题中 , 当两类样本的协方差矩 阵不同时 ,样本不平衡会导致 Fi sher 线性判别的性能下降 ,使用加权 Fi sher 线性判别法对两类样本同时进行不同倍数的过抽样 ,可 促使两类的样本数目趋向平衡。结果 :利用社区居民的血糖流行病学调查资料进行验证 ,加权 Fi sher 线性判别法较传统 Fi sher 线性 判别法的灵敏度高 ,分类性能明...

加权Fisher线性判别法在非平衡医学数据集中的应用
加权Fisher线性判别法在非平衡医学数据集中的应用 摘 要 : 目的 : 介绍加权 Fi sher 线性判别法在非平衡医学数据集中的应用。方法 : 在两类分类问题中 , 当两类样本的协方差矩 阵不同时 ,样本不平衡会导致 Fi sher 线性判别的性能下降 ,使用加权 Fi sher 线性判别法对两类样本同时进行不同倍数的过抽样 ,可 促使两类的样本数目趋向平衡。结果 :利用社区居民的血糖流行病学调查资料进行验证 ,加权 Fi sher 线性判别法较传统 Fi sher 线性 判别法的灵敏度高 ,分类性能明显提高。结论 :加权 Fi sher 线性判别法可适用于非平衡数据集 ,算法简单高效 ,且基本不增加计算复 杂度。 关键词 : 加权 ; Fi sher 线性判别 ; 非平衡医学数据集 [ 3 ,4 ] 判别分析是一种常用的统计方法 ,它能根据观察或者测,如采用适当的方法重构训练集或者出了一些有效的方法 量到的若干个变量值来判断研究对象如何分类 。简而言之 , 直接改进传统分类算法来提高对少数类的分类性能 。本研究 它能从若干的观测对象特征变量值中筛选出能够提供较多信 介绍的加权 Fi sher 线性判别法是对传统 Fi sher 线性判别法的 息的变量并建立判别函数 ,使得利用推导出的判别函数对观 加权改进 ,使之适用于非平衡数据集 ,这样既可充分利用现有 [ 5 ] 测变量判别其所属类别时的错误率最小 。Fi sher 线性判别法 的信息 ,又基本上不增加算法的计算复杂度。 是一种常用的判别分析法 , 擅长解决线性可分的问题 。但在 分类器训练过程中 ,各个类别的样本总数可能不一致 ,如果各 1 原理介绍类的样本数彼此之间差距太悬殊 ,则会出现不平衡的问题 ,而 忽视非平衡的数据分布特征 ,将会导致分类器的分类性能下 11 1 Fi sher 线性判别的基本原理 [ 1 ,2 ] 降。假设有一组 n 个 d 维的样本 X , X, , X , 它们分别属 1 2 n 在医学实践中 ,非平衡数据集的现象并不少见 ,如在社区 于两个不同的类别 , 即其中的大小为 N 的样本子集 D属于 1 1 40 岁以上人群中建立慢性阻塞性肺疾病的发病筛查及预测模 类别一 , 大小为 N 的样本子集 D属于类别二 。 2 2 [ 6 ] 型 ,慢阻肺在社区人群中的患病率常约为 8 . 3 % ,因此社区中 ( Fi sher 判别分析是寻求使 Fi sher quo tient Fi sher 准则 潜在的发病人群是少数类样本 ,大部分人群属于正常人 ,如果 )函数 使用传统的分类模型则难以识别这些少数类样本 ,而这些少 T 数类样本往往是分类问题的关注所在。 W S WB ( ) J W = T 为了解决非平衡数据集的分类问题 , 现有的研究已经提 W S WW T 达到最大时的 W 的方向 , 以便样本在投影方向 y = W X 上能 较好的将两类分开 , 见图 1 。 图 2 的投影 W 方向较图 1 的 W 方向可以更好的分开两类 图 1 不同投影方向上的分类效果 收稿日期 :2008209222 ()?2008 年度广东省医学科研基金 B2008082 T ( ) ( ) 验的结果进行平均即为最后结果 。其中 : S = m- mm- m为类间散布矩阵 ;B 1 2 1 2 T 为了比较普通 Fi sher 线性判别法和加权 Fi sher 线性判 ( ) ( ) = S X -mX - m为类内散布矩阵 ;6 i i i X ?D i 法对该资料的分类效果 ,我们观察了两种方法的实验结果 , S = S- S 为总类内散布矩阵;W 1 2 果见 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 1 ,可见加权 Fi sher 线性判别法比普通 Fi sher 线性 S = S - S 为总体散布矩阵 ;T B W 别法的漏诊率明显降低 ,灵敏度显著提高 ,分类算法的整体 类性能获得提升 。同时利用 ROC 曲线下面积 A U C 来评价 1 m= 6 X 为样本均值 。i ( ) n种方法的分类结果 图 2 , A U C 取值范围在 0 和 1 之间 i X ?D iT A U C 越大 ,分类器的性能就越好 。 ( ) 要求 J W 达到最大时的 W 的方向可对 W 求导并令其 为零 , 同时求导可得 : 3 - 1 ( )m- mW = S W 1 2 表 1 普通 Fi sher 线性判别法和加权 Fi sher 线性3 此时的 W 确定了最佳的投影方向 。判别法的分类性能 11 2 加权 Fi sher 线性判别 3 3 由于 W 确定了最佳的投影方向 , 因此 W 将影响线性判 性能指标 Fi sher加权 Fi sher普通 3 别分类器的性能 , 而 W 由总类内散布矩阵 S 和两类样本均 W ( ) 84 . 42 88 . 41 准确率 %值之差 m - m决定 , 在独立同分布的前提条件下 , 两类样本 1 2 ( )83 . 51 97 . 15 灵敏度 %均值之差不会受到正负类样本数目不平衡影响 , 此时 , 分类器 ( )90 . 00 83 . 33 特异度 %的性能完全由总类内散布矩阵 S 决定 。W ( )6 . 49 2 . 85 %漏诊率 设两类的样本协方差矩阵分别为 ρ 和 ρ , 则 S = S+ 1 2 W 1 S= N ρ + N ρ , 当 ρ = ρ 时 , 即使两类样本的数目不相 2 1 1 2 2 1 2 3 ( ) 等 N ?N , 也不会影响投影方向 W 和分类器的性能 ; 而 1 2 3 ρ ?ρ 时 , 两类样本个数不平衡则会严重影响投影方向 W 1 2 和分类器的性能 。 为消除两类样本数目不平衡的影响 , 可考虑对两类的类 内散布矩阵 分别进行加权 , 即 : ( )S = N S + N S = N N ρ + ρ W 2 1 1 2 1 2 1 2 通过对两类的类内散布矩阵 S 分别进行加权 , 使两类样 i 本的协方差矩阵的贡献平衡。 2 实例分析 图 2 普通 Fi sher 线性判别法和加权 Fi sher 线性判别法 40 岁以上居民中进行血糖某社区卫生服务中心在辖区 ROC 曲线 异常筛查工作 ,已采集居民的年龄、身高、体重、腰围 、臀围 、糖 尿病家族史及血糖功能测试结果等流行病学资料 。现欲建立 讨论3 血糖异常筛查模型协助今后社区的糖尿病防治 ,只有经模型 判为异常者才进一步做血糖测定 ,正常者则不再接受血糖检 对于大多数社区慢性病的防治工作而言 , 目前确定高 个体的主要手段是筛查 ,但现有许多临床筛检技术都存在 查 ,从而降低社区 II 型糖尿病的筛查成本 。本调查中共有 1857 人进入研究 , 其中 II 型糖尿病患者和糖耐量受损者共 本过高而效率低的缺陷 ,同时还不可避免受到方法的灵敏度334 例 ,血糖正常者 1523 例 。 特异度及慢性病社区人群患病率较低等因素的影响 。因此在本资料中 ,血糖正常者与异常者的样本比例约为 4 . 56 : 利用计算机分类判别技术来协助建立前筛模型 ,提高筛查1 ,两类样本呈现非平衡的特征 ,且模型要求尽可能找出血糖 率 、降低筛查成本是慢性病研究的一个新视点 。 异常者 ,再对其进行血糖检查 ,即提高模型识别的灵敏度 ,因 Fi sher 线性判别的算法简单有效 ,在实践中应用广泛 , () 而建立智能诊断系统时应尽量降低假阴性率 漏诊的风险 , 在非平衡数据集中 ,当各类间的协方差矩阵不等时 , Fi sher 而对假阳性率则无太高要求。 性判别的分类性能比较低 。而通过加权改进的 Fi sher 线性 本模型分别使用普通 Fi sher 线性判别法和加权 Fi sher 线 别算法与传统算法相比 ,新算法对训练集中的两类样本同 性判别法进行训练学习 ,并采用十折交叉验证进行考核 ,即将 进行不同倍数的过抽样 ,促使两类样本数目达到平衡 ,从而 整个样本集随机分成 10 等份 ,并且保证每一等份中的两类样 量降低了训练集样本分布不平衡所带来的分类偏差 。通过 本个数比例与原数据集中两类样本个数比例一致 ,取其中 1 践证明 ,加权 Fi sher 线性判别法可有效解决医学数据集中 份作为测试集 , 余下的 9 份合并作为训练集。反复执行 10 样本不平衡问题 ,简单有效 ,识别能力强 ,是有前途的“前筛 工具 。 摘 要 : 目的 : 探讨一年中阑尾炎发病与月份的关系。方法 : 对小榄地区某医院 2003 年,2005 年 1050 例阑尾炎住院病人入 院时间 ,用圆形分布法进行分析。结果 :住院阑尾炎病人入院时间和手术治疗时间有集中趋势 ,高峰期分别为 7 月 2 日和 7 月 11 日 , 高峰时段分别为为 3 月 4 日,10 月 30 日、3 月 4 日,11 月 18 日。结论 :阑尾发炎就诊入院时间与一年中的月份有关。 关键词 : 阑尾炎 ; 入院时间 ; 圆形分析 为探讨阑尾炎发病规律的外因 ,对小榄地区某医院 1050,按阑尾炎搜索 ,按月合计 ,共 1050 例 。其中手术治入院时间 () () 例住院病人的入院时间 月份和手术治疗时间 月份的圆形 疗 801 例 ,占 76 . 29 % 。全部手术治疗的阑尾炎病人均有典型 分布资料进行回顾性分析 。 的症状 、体症 ,有手术治疗指症 ,并且手术后病理检查证实为 阑尾炎 。男性 543 例 ,3,84 岁 ,中位年龄 30 . 14 ?16 . 01 岁。 1 材料 关于××同志的政审材料调查表环保先进个人材料国家普通话测试材料农民专业合作社注销四查四问剖析材料 女性 507 例 ,4,87 岁 ,中位年龄 30 . 84 ?17 . 82 岁 。男女性年 2003 年 1 月,2005 年 12 月阑尾炎病人小榄地区某医院 龄无统计学差异 , P > 0 . 05 。本资料住院病人阑尾炎分类 : 急 ( ) st udy . Int elligent Dat a A nal ysi s , 2002 ,6 5: 203,231 . 参 考 文 献4 Da skala kil S , Kopa na s I , Avo uri s N . Eval uatio n of cla ssifier s fo r a n uneven cla ss di st ri butio n p ro ble m . Applied A rtificial Int elli2 1 林智勇 ,郝志峰 ,杨晓伟. 不平衡数据分类的研究现状. 计算机应用( ) gence , 2006 , 20 5: 381,417 . ( ) 研究 ,2008 ,25 2: 332,336 . 5 谢纪刚 ,裘正定. 非平衡数据集 Fi sher 性判别模型. 北京交通大学 张琦 ,吴斌 ,王柏. 非平衡数据训练方法概述. 计算机科学 ,2005 ,32 2 ( ) ( ) 学报 ,2006 ,30 5:15,18 . 10:181,186 . 6 边肇祺 ,张学工. 模式识别. 北京 : 清华大学出版社 ,2001 .J ap ko w Iczn , St ep hen s. The cla ss i mbala nce p ro blem : a syst e matic 3 Weighted Fisher L inear D iscriminant Model with Imbalanced Medical Data sets Learn ing Zho u Sh udo ng ,et al ( )D e p a rt m e nt o f M e d i c al S t at is t i cs , Gu a n g D on g P h a r m ac y U ni v e rs i t y , Gu a n g z hou 510310 Abstract Object ive : To i nt ro duce t he app licatio n of Wei ght e d Fi sher L i nea r Di scri mi na nt Mo del i n i m2 bala nce d medical dat a set s cla ssified. Methods : Majo rit y of t wo2cla ss cla ssificatio n met ho ds u suall y a ssume t hat t hei r t rai ni ng set s a re well2bala nce d , b ut w he n t he t wo sa mp le co va ria nce mat rice s a re no t i de ntical , cla ss i mbala nce ha s a ne gative eff ect o n t he p erfo r ma nce of Fi she r li nea r di scri mi na nt . A wei ght ed Fi sher li n2 ea r di scri mi na nt i s i nt ro duce d fo r re duci ng t he negative eff ect s of t he cla ss i mbala nce . Results : U si ng t he DM dat a set s f ro m t he co mmu nit y , t he new al go rit h m wa s co mp a re d wit h t he co nve ntio nal met ho d. The e xp e ri2 me nt al re sult s sho w t hat t he new al go rit h m p erfo r ms bet t er t ha n t he ol d o ne . Concl usion : The wei ght e d Fi sher li nea r di scri mi na nt di sp lay s bet t er p erfo r ma nce i n t he i mbala nce d me dical dat a set s fo r it s si mp le al go2 rit h m , eff ective ne ss a nd well al go rit h m co mp le xit y . Key words weight ed ; fi she r li nea r di scri mi na nt ; i mbala nce d me dical dat a set s 收稿日期 :2008205213 () 作者简介 :麦毅忠 19562,男 ,汉族 ,副主任药师 ,主要从事临床药学和数理统计工作 。 3 广东中山市小榄人民医院普外科
本文档为【加权Fisher线性判别法在非平衡医学数据集中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_769254
暂无简介~
格式:doc
大小:35KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-12-09
浏览量:14