首页 偏最小二乘回归的离群点检测方法

偏最小二乘回归的离群点检测方法

偏最小二乘回归的离群点检测方法偏最小二乘回归的离群点检测方法第四军医大学预防医学系卫生统计学教研室( 710032) 蒋红卫夏结来余莉莉 =提要> 目的本文研究了偏最小二乘回归中四种重要且常用的离群点检测图示方法:偏 F 检验、残差图与正态分位数图、主成份图( T / T 图)与 T 2 椭圆、样本点贡献图。方法通过实例分析了各种方法的优点和不足。结果离群点的检测与分离将有助于模型拟合精度和预测精度的提高。结论研究表明必须综合运用这些方法, 并结合原始数据, 才能取得比较好的检测效果。 =关键词>...

偏最小二乘回归的离群点检测方法第四军医大学预防医学系卫生统计学教研室( 710032) 蒋红卫夏结来余莉莉 =提要> 目的本文研究了偏最小二乘回归中四种重要且常用的离群点检测图示方法:偏 F 检验、残差图与正态分位数图、主成份图( T / T 图)与 T 2 椭圆、样本点贡献图。方法通过实例分析了各种方法的优点和不足。结果离群点的检测与分离将有助于模型拟合精度和预测精度的提高。结论研究表明必须综合运用这些方法, 并结合原始数据, 才能取得比较好的检测效果。 =关键词> 偏最小二乘回归离群点多重共线性离群点(又称异常点)分为高杠杆点和强影响点两类,它们对模型的拟合精度和预测精度都会产生相当大的影响,因而,离群点检测成为回归分析中一个重要内容112。本文将讨论偏最小二乘回归中的离群点检测方法。 PLS简介偏最小二乘回归 (Partal least squares regression, PLS) 是一种对一般最小二乘回归 ( Ordinary least squares regression, OLS)的改进,最初由经济计量学家 Herman Wold在 20世纪 70年代提出比较系统的算法体系,现己在许多领域得到成功应用,被许多统计学家称为/第二代多元统计分析方法0。PLS 是主成分分析、典型相关分析和一般最小二乘回归三者的继承与发展,它具有计算量小、收敛快、简单稳健等优点, 主要用于处理存在多重共线性或非正态性资料, 及数据探索性分析等,尤其适用于当解释变量个数多而样本量少的情况。该方法详见文献12, 32。 PLS离群点检测方法 PLS 中离群点检测方法主要有偏 F 检验、残差图与正态分位数图(Q-Q 图)、主成份图( T / T 图)与 T 2 椭圆、样本点贡献图。第一种方法通常作为后三种方法的辅助手段, 参见相应文献; 后三种均为图示法, 它们具有简单明了、易于把握样本点分布特性等优点,在 PLS 中最为常用。下面对后二种方法加以分别述叙。 11残差图与正态分位数图是两种在一般线性回归模型诊断中常用的重要工具, 同样也适用于偏最小二乘回归。理想残差图中各样本点应随机地分布在中心线上下; 正态分位数图中各点应排列成一条直线。一旦某样本点出现严重偏离现象时, 就有理由怀疑该点可能为离群点。关于残差图与正态分位数图已有大量文献,在此不再赘述。 21 主成份图( T / T 图)与 T 2 椭圆13, 42是潜变量分析中比较常用的离群点检测技术, 它利用从解释变量空间提取的主成份作多维散点图, 其中以二维主成份图最为常见, 它能够比较直观地了解样本点在各主成份中的分布状况, 并根据一定准则, 作出相应的判断。T 2 椭圆是二维主成份的联合置信区间, 是常用的判断准则之一; Bonferroni联合区间是另一个准则。样本点 i 对解释变量空间主成份 t h 的贡献率T i , h 定义为 T 2 i , h= t 2 hi ( n- 1) s2h 其中: s2h 为解释变量空间主成份 t h 的方差。则样本点 i 对解释变量空间各主成份 th , ( h= 1, ,, m )的累计贡献率 T i 定义为 T 2 i = E m h= 1 T 2 i , h = 1 n - 1 E m h= 1 t 2 hi s 2 h 在一定假设前提下, Tracy 等人证明了统计量 n 2 ( n- m) m( n 2- 1) T 2 i ~ F( m , n - m ) 所以,当 T 2 i \ m( n 2 - 1) n 2 ( n - m) F0105( m , n- m) 时,就可以认为在 A= 0105水平上, 样本点 i 对解释变量空间各主成份 th , ( h = 1, ,, m )的贡献过大, 因而有理由怀疑为样本点 i 离群点。 31样本点贡献图152是 PLS 所特有的离群点检测方法,是一种比较精细的分析技术,它利用样本点中各变量对解释变量空间主成份的贡献作图, 可以比较准确地了解各点差异的实质,能够用于分析各样本点对总趋势的影响是否一致。样本点 i中解释变量 j 对解释变量空间主成份 th 的贡献Cont ij , h定义为 Cont ij , h= 1 sh DhjX ij 其中: D = ( PcW ) - 1 Wc, sh 为解释变量空间主成份 th 的标准差, X ij为中心化的第 i 样本点中第 j 个解释变量观测值。则样本点 i 中解释变量 j 对解释变量空间主成份 #135# 中国卫生统计 2004年 6月第 21卷第 3期 th , ( h I { n 1, n2, ,} )的累计贡献 Cont ij定义为 Cont 2 ij , h = E h I { n 1 , n 2 , ,} Cont 2 ij , h = E h I { n 1 , n 2 , ,} 1 sh DhjX ij 2 本文将采用统计软件 SAS的 PLS过程及编制相关宏完成以下实例分析。实例分析实例采用余松林和向惠云搜集的 17 所医院人力资源利用和医院任务资料162,其解释变量和反应变量分别为平均每月住院人数X 1、每月 X 线照光人数X 2、每月占用病床天数 X 3、服务范围内人口数(千人) X 4、每名病人平均住院天数 X 5、每月使用人力(小时) Y , 数据如表 1所示。表 1 医院人力资料利用与医院任务序号解释变量 X 1 X 2 X 3 X 4 X 5 X 6 1 15157 2463 472192 1810 4145 566152 2 44102 2048 1339175 915 6192 596182 3 20142 3940 620125 1218 4128 1033115 4 18174 6505 568133 3617 3190 1603162 5 49120 5723 1497160 3517 5150 1611137 6 44192 11520 1365183 2410 4160 1613127 7 55148 5779 1687100 4313 5163 1854117 8 59128 5969 1639192 4617 5115 2160155 9 94139 8461 2872133 7817 6118 2305158 10 128102 20106 3655108 18015 6115 3505193 11 96100 13313 2912100 6019 5188 3571189 12 131142 10771 3921100 10317 4188 3741140 13 127121 15543 3865167 12618 5150 4026152 14 252190 36194 7684110 15717 7100 10343181 15 409120 34703 12446133 16914 10178 11732117 16 463170 39204 14098140 33114 10178 15414194 17 510121 86533 15524100 37116 6135 18854145 该资料中各解释变量之间存在着严重的共线性问题,利用 SAS 的 PLS 过程计算,选取第一、二主成份。分别对第一解释和反应主成份和第二解释和反应主成份作图如下: 由图 1可见,第一解释主成份与第一反应主成份呈明显线性关系,由图 2,第二解释主成份与第二反应主成份的线性关系不十分明显;由此,未发现任何可疑离群点。图 1 第一解释和反应主成份图 2 第二解释和反应主成份图 3和图 4结合起来, 可见第 10、14 号样本点的残差明显偏离总趋势, 可以怀疑第 10和 14 号样本点为离群点。图 3 模型残差图图 4 模型残差正态分位数图图 5为第一解释主成份 t 1 与第二解释主成份 t 2 的主成份图( t 1/ t 2图) , 图中虚线框表示 Bonferroni的联合置信区间, 椭圆为 T 2 椭圆。根据这两个准则,样本点 10、14号并不能被认为是可疑离群点,第 17号样本点接近于 Bonferroni区间边缘, 且处于 T 2 椭圆之外,似乎是可疑离群点。因此, 综合看来, 尚无法充分理由认为第 15、16、17号样本点为可疑离群点。从该实例可见,主成份图似乎对高杠杆点的检测特别敏感, 图 5 t 1/ t 2 主成份图 #136# Chinese Journal of Health Statist ics, June 2004, Vol. 21, No. 3 而对于异常点的判断就不是特别有效了。根据上两种方法, 第 10、14、17号样本点值得怀疑。由于第一解释主成份对解释变量空间、反应变量空间和反应主成份的解释程度都极为显著,因此, 仅作这 3个样本点解释变量对第一解释主成份 t 1 的贡献图,即,图 6、7、8,它们分别为第 10、14、17号样本点贡献图。图 6 第 10 号样本点贡献图图 7 第 14 号样本点贡献图图 8 第 17 号样本点贡献图除第 10号样本点外, 其他各点中, 几乎所有变量对第一解释主成份 t 1 的贡献是同向的, 而仅第 10号点的每月 X 线照光人数与每月占用病床天数的贡献有明显反向现象,故可以认为第 10号样本点为可疑离群点。而虽然第 14、17 号中每月 X 线照光人数的贡献过高,但是各解释变量之间比例尚在可接受范围内, 故这两个样本点为可疑离群点的判定证据不充分。结合原始数据, 发现第 10号样本点除了每月占用病床天数略少以外, 其他解释变量值均较第 13号样本点为高, 但是每月使用人力却少了 520129小时,故该样本点有可能被低估;虽然第 14号样本点的每月使用人力与第 15号样本点相差不大,但两样本点之间的平均每天住院人数、每月占用病床天数相差甚大,故该样本点有可能被高估; 第 17号样本点各项指标均高, 而没有偏离总的线性趋势。由以上分析, 可以认为第 10 号样本点是离群点的可疑程度最大,第 14号样本点其次,而第 17号样本点并不能认为是离群点。为了进一步验证猜测,拟采用偏 F 检验, 由于该统计量易受离群点的影响, 因此, 当考察第 10号样本点时, 首先删除第 14号样本点, 此时 PLS模型的残差平方和为 665684518401,删除第 10号样本之后,残差平方和下降为 255299715188, 统计量偏 F 为 6117, F 01 05(1, 10)为 4196, P 值小于 0105,由此,判定第 10号样本点为离群点的证据进一步得到加强;同样,当考察第 14号样本点时,首先删除第 10号样本点, 此时 PLS 模型的残差平方和为 49323171776, 若删除第 10号样本点之后,残差平方和下降为 255299715188, 统计量偏 F 为 4134, F0105( 1, 9)为 5112, P 值大于 0105, 尚不能认定该样本点为离群点。综合全部分析, 可以认为第 10 号样本点为离群点。删除第 10号样本点后, 重新拟合模型, 进行离群点检测,没有发现新的离群点。讨论偏最小二乘回归分析中四种离群点检测方法, 各有优点和不足, 在实际分析中, 应将它们结合起来, 并结合原始数据, 才能在离群点分析中取得良好效果。残差图和正态分位数图作为一般线性回归中最为常用的离群点检测图示方法, 对于发现离群点,无论是高杠杆点,还是异常点,都有良好的效果。但该方法只能提供总括性的分析, 不能反映离群点偏离总趋势的精细实质。主成份图似乎对主成份中高杠杆点具有较高的检测效能,同时它也有其特殊优势:能对主成份中样本点分布提供简明的分析、反应变量空间可以为多维等。但该方法对强影响点不太敏感。虽然贡献图能够对各样本点偏离总趋势的本质作出比较精细地分析, 但是如果对每个样本点的贡献作图,并加以分析的话,那么当样本量大, 解释变量个数多时,就不太现实了;同时该方法对于样本点中解释变量对主成份的贡献只能给出半定量分析, 至今尚无公认的判断准则。因此, 该方法多用于对已预先判定为可疑离群点的样本予以进一步的详细分析。由于偏 F 统计量对离群点过于敏感, 抗干扰性差,故该检验通常作为一种辅助检测手段。当其他可疑离群点的干扰被排除后,方可利用该方法对样本点做进一步检测, 为离群点的判定提供佐证。 The Detection Methods of Outlier in Partial Least Squares Regres- #137# 中国卫生统计 2004年 6月第 21卷第 3期 sion Jiang Hongw ei, X ia Jielai , Yu L ili. Depart ment of H ealth Statistics , Faculty of Pr eventive Medicine, Fourth M ili- tary Medical Univer sity ( 710032) , Xi. an =Abstract> Objective Four detect ion methods of out liers w ere studied in this paper, including partial F test , residual plot and normal quant ile plot , principal component chart ( T / T chaH ) and T 2 ellipse, and conf fibut ion plot for a given observation. Methods Based on a real data set, w e discuss their respect ive advantages and disadvantages. Results T he detect ion and distinct ion of out liers is necessary for improving good- ness-o-f fit and predicted precision of lin ear model. Conclusion It demon- st rates that these m ethods should be utilized comprehensively and work w ith raw data together. =Key words> Partial least squar es, Regression, Outlier, Multicollinearity 参考文献 11 Rao CR, T outenburg H. Linear Models. New York: Springer-Verlag press, 1995, 185- 194. 21蒋红卫,夏结来. 偏最小二乘回归及其应用.第四军医大学学报, 2003, 24( 3) , 280- 283. 31王惠文.偏最小二乘回归方法与及其应用.北京: 国防工业出版社, 1999, 184-185. 41张恒喜等.小样本多元数据分析方法及应用. 西安:西北工业大学出版社, 2002, 32-33. 51Eriksson L , Johansson E , Ket taneh Wold, Svante Wold. Mult-i and Megavariate Data Analysis: Principles and Applications. Umet rics Acade- my, 2001, 102-105. 61余松林,向惠云.线性回归分析中异常点的诊断统计量. 中国卫生统计, 1993, 10( 3) , 19- 23. 血塞通注射液合小剂量降纤酶治疗急性脑梗死疗效分析沈阳市沈河区回民医院( 110013) 王玲笔者自 2002 年 1 月~ 2003 年 1 月采用血塞通注射液合小剂量降纤酶静脉滴注和单用血塞通注射液静脉滴注对 22 例急性脑梗死病人进行随机对照研究。现报告如下。对象与方法 11 对象: 本组 22 例, 其中男 12 例, 女 10 例, 年龄 51~ 78 岁,平均( 621 59 ? 71 81)岁。均系 2002 年 1 月~ 2003 年 1 月本院收治病人,经临床检查和头 CT 扫描确诊为大脑中或大脑前动脉区梗死,发病距治疗时间< 72h, 除外以下情况之一: ( 1)经降纤酶治疗在 24h 内完全恢复者。( 2)意识障碍和精神症状明显。( 3)活动性内出血或已知有出血倾向。( 4) 心肺肝肾功能不全,结核、溃疡病活动期,恶性肿瘤。( 5)脑出血, 近 6 个月有脑梗死发作史(有明显肢体瘫痪等表现)及颅内手术外伤史。 ( 6)己使用抗凝剂。 ( 7) 未控制的高血压, 收缩压> 180mmHg 或舒张压> 110mmHg。( 8)收缩压< 100mmHg, 疑为血液动力学机制所致脑梗死。 21 方法:征得病人和家属同意, 将患者随机分为研究组 ( A 组)和对照组( B 组)。两组一般情况一致, A组用降纤酶 10BU 加入 019%生理盐水注射液 250ml中静滴, 1 次/ d, 三天一疗程, 配合血塞通注射液连续静点 4周, B 组仅用血塞通注射液连续静点 4 周, A、B 两组均接受同样的护理,水电解质和营养的支持, 同时口服呋喃硫胺等不影响血液流变学指标的药物,有明显颅压高者给甘露醇静滴,合并感染者以抗生素及有关对症处理。结果与分析 11 评估标准 ( 1)采用 Barthel( BI )指数评价患者日常生活活动能力( ADL ) , 在发病后 72h 和治疗结束前各评价 1 次。( 2) 采用 1996 年中华医学会第二次全国脑血管病学术会议第三次修订5脑卒中患者临床神经功能缺损程度疗效评比标准6。由专科医师集体参加, 于入院当天和治疗结束后分别评分 , 比较两组的平均减少分。( 3)两组治疗前后的血粘度纤维蛋白原 ( F g) , 血沉( ESR) , 红细胞压积 ( HC t)指标, 由检验专科医师负责检验, 正常值范围见内科学(第四版)所示数据。所得数据均进行统计学处理。 21 评估结果 A 组无 1 例发生出血倾向的并发症。A、B 组治疗后 BI 指数分别平均增加 ( 351 88 ? 21 37)分和 ( 181 62 ? 21 37)分, 两组比较有显著差异 ( P< 01 05) ; A 组神经功能缺损积分减少值 ( 13112)与 B 组 ( 91 71) 比较有显著差异性 ( P < 01 01)。 A组治疗前后血液流变各项主要指标下降值比较有显著差异性, 见表 1。表 1 A组治疗前后血液流变学指标比较(x ? s ) 降解酶( g/ L) 血沉( mm/ h) 红细胞压积(% ) 治疗前 5141 ? 0173 28156 ? 8131 41132 ? 4118 治疗后 2183 ? 0148 21113 ? 7176 40180 ? 3176 P< 0101 P< 0105 P< 0105 讨论近年来的研究证实脑梗死患者血液流变学存在明显异常, 本组病例血液流变学监测结果, 主要表现为全血粘度、血浆粘度增高, 红细胞压积增高, 纤维蛋白原增高, 与文献报告一致, 发病机制在中医学属血瘀范畴。中药制剂血塞通注射液具有活血化瘀, 通经活络的作用。降纤酶是具有强生物活性的蛋白酶制剂, 通过有效分解纤维蛋白原, 促进纤维蛋白溶酶的生成, 增加纤维系统活性, 针对脑梗死的病理生理及生化改变和血液流变学的异常特点发挥药理作用。两药合用具有间接溶栓、降低血液粘度, 抑制红细胞聚集、沉降作用, 可使血液流动性增强, 有效增加脑血流,改善侧支循环,使栓塞区周边半暗区血供增加, 迅速改善该区域脑组织缺血缺氧状态, 减轻脑组织的损伤。且降纤维在血浆中的纤维蛋白溶解酶复合物少, 可减少继发脑出血机会, 较链激酶、尿激酶副作用小。研究显示两药相配合, 用于急性脑梗死效果理想。 #138# Chinese Journal of Health Statist ics, June 2004, Vol. 21, No. 3

                    本文档为【偏最小二乘回归的离群点检测方法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

偏最小二乘回归的离群点检测方法

你可能还喜欢