Fisher 判别分析及 R 语言实现
王怀亮
(菏泽学院 经济系, 山东 菏泽 274015)
[摘 要] 多元统计 Fisher判别分析方法已被广泛应用于自然科学和社会科学的各个领域。而在现实处理多元数据
Fisher判别分析中,利用 R软件是最方便、最简单、最易学的。R软件由于其免费、开源、强大的统计分析及其完美的做图功能
已得到越来越多人的关注与应用,而且,根据不同的情况,可以修改别人的程序,比较方便。
[关键词] R软件;Fisher判别分析;多元统计分析
[中图分类号] F49 [文献标识码] A
Fisher Discrim inant Analysis and R Language
WANG Huailiang
Abstract: Fisher's multivariate statistical and discriminant analysis has been used in natural and social sciences widely. In practice,
however, R software is the most convenient and simplest, and easiest in dealing with Fisher discriminant analysis of multivariate data. R
software has attract more attention and application due to its free, open- source, and strong statistical analysis and its perfect mapping
function, moreover, it can be used to modify other's programs according to the practical need.
Key words: R software, Fisher discriminant analysis, multivariate statistical analysis
[收稿日期] 2011- 05- 13
[作者简介] 王怀亮(1981- ),山东曹县人,菏泽学院经济系助教,硕士。研究方向:计量经济统计分析。
多元统计分析是统计学的一个重要分支,也称多变
量统计分析;在现实生活中,受多种指标共同作用和影响
的现象大量存在,多元统计分析就是研究多个随机变量
之间相互依赖关系及其内在统计规律的重要学科,其中
最常用 Fisher判别分析方法,由于多元统计 Fisher判别
分析方法一般涉及复杂的数学理论,一般无法用手工计
算,必须有计算机和统计软件的支持。在统计软件方面,
常用的统计软件有 SPSS、SAS、STAT、R、S- PLUS等。R软
件是一个自由、免费、开源的软件,是一个具有强大统计
分析功能和优秀统计制图功能的统计软件,现已是国内
外众多统计学者喜爱的数据分析工具。
一、Fisher判别分析
判别分析是利用已知类别的样本
培训
焊锡培训资料ppt免费下载焊接培训教程 ppt 下载特设培训下载班长管理培训下载培训时间表下载
模型,为未知
样本判类的一种统计方法。它产生于本世纪 30年代。近
年来,在自然科学、社会学及经济管理学科中都有广泛的
应用,比如在税务稽查中,要判断某企业是否偷漏税;在
资产投资分析中,信用风险的判定、成功概率的判定、企
业运行状态或财务状况的判定等。
判别分析的特点是根据已掌握的、历史上每个类别
的若干样本的数据信息,
总结
初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf
出客观事物分类的规律性,
建立判别公式和判别准则。然后,当遇到新的样本点时,
只要根据总结出来的判别公式和判别准则,就能判别该
样本点所属的类别。判别分析有距离判别分析法、Fisher
判别分析法、bayes判别分析法等,其中最基本的是 Fisher
判别分析法,也称为线性判别分析法。
Fisher判别法是 1936年提出来的,该方法的主要思
想是通过将多维数据投影到某个方向上,投影的原则是
将总体与总体之间尽可能的放开,然后再选择合适的判
别规则,将新的样品进行分类判别。在模式识别中经常用
到的一个叫做 Flasher线性判别的方法。Fisher判别的基
本思路就是投影,针对 P维空间中的某点 x=(x1,x2,x3,
…,xp)寻找一个能使它降为一维数值的线性函数 y(x):y(x)
=∑Cjxj,然后应用这个线性函数把 P维空间中的已知类
别总体以及求知类别归属的样本都变换为一维数据,再
根据其间的亲疏程度把未知归属的样本点判定其归属。
这个线性函数应该能够在把 P维空间中的所有点转化为
一维数值之后,既能最大限度地缩小同类中各个样本点
之间的差异,又能最大限度地扩大不同类别中各个样本
点之间的差异,这样才可能获得较高的判别效率。在这里
借用了一元方差分析的思想,即依据组间均方差与组内
均方差之比最大的原则来进行判别
二、基于 R语言的线性判别分析程序
在 R软件中,用MASS程序包中函数 lda()进行 Fisher
判别分析。基本调用格式如下:
第 2011年第 6期
(总第 375期)
商 业 经 济
SHANGYE JINGJI
No.6,2011
Total No.375
[文章编号] 1009- 6043(2011)6- 0065- 02
65- -
lda(formula,data,...,subset,na.action)
其中 formula为一个形如 groups~x1+x2+x3…的公式
框架
Data为数据框,subset指明训练样本。
三、应用举例
对于 A股市场 2009年陷入财务困境的上市公司(ST
公司),我们收集了 7 家 ST公司陷入财务困境前一年
(2008年)的财务数据,同时对于财务良好的公司(非 ST公
司),收集了同一时期 8家非 ST公司对应的财务数据。数
据涉及 4个变量:资产负债率 x1、流动资产周转率 x2、总
资产报酬率 x3和营业收入增长率 x4。类别变量 G中 2代
表 ST公司,1代表非 ST公司。数据如下表
某公司 2008年财务数据为:x1=78.3563,x2=0.8895,
x3=1.8001,x4=14.1022。试判定 2009年该公司是否陷入
财务困境。
R程序如下:
>X<- read.delim("clipboard”,header=T)
>row.names(X)<- c(“ST中源”,“ST宇航”,“ST耀华”,
“ST万杰”,“ST钛白”,“ST筑信”,“ST东航”,“洪城股
份”,“工大首创”,“交大南洋”,“九鼎新材”,“恩华药业”,
“东百集团”,“广东明珠”,“中国国航”)。
>library(MASS)
>z<- lda(G~x1+x2+x3+x4,data=X)
>newdata<- read.delim("clipboard",header=T)
>predict(z,newdata)
输出结果
$class
[1]2
Levels:12
$posterior
12
10.18141570.8185843
$x
LD1
10.9317042
结果分析
从输出结果可以看出,该公司在该判别规则下,归为
类别变量 G中 2中,即 2009年该公司陷入财务困境。
在 Fisher判别分析中,利用 R软件是最方便最简单
最易学的,而且根据不同的情况,可以自己修改别人的程
序,比较方便;可以在处理多元数据 Fisher判别分析中,
利用 R软件具有很大的优势。
[参 考 文 献]
[1]王斌会.多元统计分析及 R语言建模[M].广州:暨南大
学出版社,2010
[2]汤银才.R语言与统计分析[M].北京:高等教育出版社,
2005
[3]高惠璇.应用多元统计分析[M].北京:北京大学出版社,
2005
[4]李卫东.应用多元统计分析[M].北京:北京大学出版社,
2008
[5]薛毅,陈立萍.统计建模与 R软件[M].北京:清华大学出
版社,2009
[责任编辑:王凤娟]
数据来源:WIND资讯。
证券简称 x1 x2 x3 x4 G
ST中源
ST宇航
ST耀华
ST万杰
ST钛白
ST筑信
ST东航
洪城股份
工大首创
交大南洋
九鼎新材
恩华药业
东百集团
广东明珠
中国国航
60.6725
25.5983
90.8727
90.4619
53.4565
92.2256
115.1196
38.9856
28.9197
56.7443
52.1203
52.8731
54.4389
46.3793
79.4863
1.0247
1.9192
1.9671
1.0022
0.7593
1.7847
4.6577
0.6036
2.5281
1.5307
1.3464
2.1049
5.6078
0.9974
5.919
11.6705
- 5.8302
- 14.1845
1.8169
- 23.8843
- 4.1057
- 16.2537
2.3791
2.3564
- 0.18
5.0908
9.0866
13.7846
9.4806
- 9.4739
- 26.539
26.0492
- 12.9439
65.7273
- 38.3107
19.2281
- 3.9017
- 2.5461
- 0.2289
3.7282
10.7868
18.3486
22.3118
15.3517
7.0316
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
入为主体,包括政府、外资、金融、个人等在内的多元化投
融资体系。
3.充分利用网络营销。网络营销是为实现企业整体
经营目标所进行的,以互联网为基本手段营造网上经营
环境的各种活动,包括树立网络品牌、开拓产品或服务市
场、发布企业信息、提供技术支持、进行网上调研等活动。
中小企业通过网络营销,可以捕捉信息、创造商机、让网
上经营活动的整体效益最大化。
4.争取外部支持。中小企业对政策敏感,外部经营环
境对中小企业的成长有着极为重要的意义。中小企业应
当不断加强宣传,和外部利益相关者加强沟通,让决策层
意识到中小企业成长问题的重要性,为中小企业的成长
提供更多的金融支持、技术扶持和商务环境支持,从而促
进中小企业的成长。
中小企业必须充分发挥市场适应能力强这一优势,
保持高度的敏感,不断学习,保持创新能力和市场应变能
力,这样才能增强企业产品竞争力,在市场中立于不败之
地。各级政府要通过规划、资金、政策、立法、服务、协调等
措施,切实加强新产品的研制开发与市场化工作,打造优
势产业集群,增强知识产权的创造能力调整并优化产业
结构,为创新型中小企业快速成长扫清障碍。
[参 考 文 献]
[1]吴艳丽.网络经济条件下中小企业成长策略研究[J].首
都经济贸易大学学报,2006(7)
[2]奚秀岩.各国中小企业成长模式对比分析[J].管理之道,
2007(1)
[3]邹德文,谢忠泉.创新型中小企业快速成长的要素及启
示[J].中国高新区,2007(10)
[4]戴强.中小企业持续成长的创新战略选择[J].产业与科
技论坛,2008(7)
[责任编辑:潘洪志]
商业经济 第 2011年第 6期 SHANGYE JINGJI No.6,2011
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
(上接第 34页)
66- -