【doc】主分量分析方法和二次判别分析方法应用于基因芯片数据分析
主分量分析方法和二次判别分析方法应用
于基因芯片数据分析 2007年第1O期
广东技术师范学院
JournalofGuangdongPolytechnicNormalUniversity
主分量分析方法和二次判别分析方法
应用于基因芯片数据分析
胡煜
(广东工贸职业技术学院,广东广州510500)
摘要:本文主要采用主分量分析方法和二次判别分析(QDA)有监督分类的方法来对基因芯片(微阵列)数据进行
分析.PCA是一种提取海量的数据有效特征的有效方法.可以获得与原来基因芯片数据更为接近的成分的提取特征
的效果.实验
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
明采用PCA方法事先对数据处理不可以提高基因芯片数据分析的准确性.得出结论可为工业应用提
供科学依据.
关键词:基因芯片数据分析;主分量分析;二次判别分析(QDA) 中图分类号:O235文献标识码:A文章编号:1672—402X(2007)10—0025—03 1.引言
由于基因表达数据通常是测定几十个样本中成千
上万个基因的表达值,得到的数据矩阵是变量数(基因
数)为7000—8000,而样本数为7O一8O个,本文的Leu—
kemia基因数据库是样本数为72个,基因数为7200
个.所以直接对这么庞大的矩阵,在使用分类方法时
来处理基因数据不仅计算量大,而且效果也并不理想.
在实际操作上,我们一般先通过特征选择或者特征提
取,得到考察基因的某个特征子集,然后再使用此子集
进行模型比较….
本文基于统计方法的模式识别系统主要由三个部 分组成:数据获取和预处理,特征提取与选择,分类决 策.主要工作:比较无降维分类,PCA降维分类对QDA 统计判别得出分类的效果.
2.PCA特征提取
主成分分析(PrincipalComponentAnalysis,PCA),
PCA在降维的过程中能最大程度地减少方差.PCA方 法是寻找变量的线性组合——称之为主成分,使这些 主成分问不相关.为了能用尽量少的主成分个数去反 映原始变量问提供的变异信息,要求各主成分的方差 从大到小排列,第一主成分最能反映数据问的差异. 通过合并原来的维数得到更少的维数来表示对象,同 时要求新的维数必须尽可能地反映原有维数所反映的 信息,它有较少的信息丢失.有助于简化分析和多维 数据的可视化J.
为了提取数据的性质而把数据降维映射到新的变 量空问上,PCA跟一个数学技术一奇异值分解(SVD) 关系非常密切.且主分量分析跟奇异值分解作用在数 据的协方差矩阵上是相同的.
设有N个样本排成一个d×N的矩阵,即X= 1N,
(,,…,)样本的总体均值:=1置.X为
』Tl1
的中心化矩阵:=(1一,2一,…,?一).总
差异矩阵(TotalScatterMatrix)S:|s=?(X一)(.一 ,,
)=XXPCA应用于生物基因,目的就是找到一个线 性变换,或者称为投影矩阵Wp?R将原来d维的
样本空问投影到d维的样本特征空问(d<d)…,并且 使得投影后的训练样本对应的总差异矩阵的行列式最 大,即WPcA=argmaxlWSIWl=[1,2…,], llll=1,V{l=1,2,…d}为|s中对应于前面d
个最大特征值的维数为d×1的特征向量. 奇异值分解(SingularValueDecomposition,SVD)
收稿日期:2007—09—20
作者简介:胡煜(1964一),男,广东惠来人,广东工贸职业技术学院应用外语系(公共
基础部合署)讲师,硕士,研究方向:数学教育 与数学应用(模式识别与数据挖掘).
?
26?胡煜:主分量分析方法和二次判别分析方法应用于基因芯片数据分析第10期
是矩阵分析中正规矩阵酉对角化的推广_5].设矩阵A 是m×n的秩为r,它的奇异值是指n阶方阵A(或m 阶方阵)的正特征值的平方根.SVD分解的形式: A=(..),其中和为酉矩阵,
01一
A=l..I,ori=,/ai
0J
由于A与的特征值是一样的,由上面分解
可得出它们的非零特征向量的关系:
=
?A,i=1,2,…,r(2—1)
,分别对应于与的第个分量.由SVD
理论,只要求出S=XX的非零特征值与对应特征向 量,此处,S是N×N矩阵,对生物基因来说,通常?口 d,因此问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
的规模将大大减小.然后根据两者的关系 式(2—1)就可以求出所需要的特征向量及相应的投影
矩阵.最后,通过投影矩阵,我们可以得到新的样 本特征:=呦T置?R.
3.二次判别分析(QDA)
Bayes判别原理是根据已掌握的每个类别的若干 样本的数据信息,
总结
初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf
出客观事物分类的规律性建立 判别
函
关于工期滞后的函关于工程严重滞后的函关于工程进度滞后的回复函关于征求同志党风廉政意见的函关于征求廉洁自律情况的复函
数,然后,根据总结的判别函数,就能够判别新 样本函数所属类别.
设c个类,:,L,分别具有先验概率P(), L,P().如果样本关于类的概率P(I)比其
他所有类,,L,的概率都大,则Bayes决策规则 便将样本x归于类Wi.即:如果P(iIx)>P(Ix)j=
1,,C;iDj,则将归于类.又由Bayes定理-p(I )=p(Wi),假定先验概率p(Wi)已知,为做出 \^,
决策,就必须估计类条件密度p(xI),即密度估计在 类的观测样本D={:,…,:}(;?R)的基础上 进行.通常,参数法是很常用的密度估计法,它假定 的类条件密度函数的形式已知,而其中的一个或一组 参数未知,此时
P(I)=(I)P(ID)d(3—1)
其中,P(ID)可看做是基于数据集的加权函 数.的真实值通常未知,但通过采用单一估计,可以 得到以分布P(I)为权值的密度P()的加权 和
通常,广泛使用的(3—1)式的条件密度函数是高 斯正态分布的密度函数:
唧
卜}(?))(27r)芎I?i
l丁LJ
而分类则是将样本归于使对数后验概率log(p( I)取得最大的那个类.由贝叶斯决策规则,便有:log (P(I))=log(p(x)I)+log(p())一log(p(x)) =一
?(,m)Si-(一m)一?log(IsiI)一号log ()+log(p(w))一log(p(x))
由p(x)与类无关,判别规则就成为:若对所有的_『 ?i有g>g,则将归于i.
其中:
g'()=log(p())一寺l0g(IsI)一?(一
m)Si一(一mi)(3—2)
根据g(),i=1,…,c的取值实现的对样本的 分类使得g()成为基于正态分布的二次判别函数. (3—2)式中的量值i和?用基于训练集的极大似然 估计值所取代:均值的极大似然估计:m=?.协 方差矩阵的极大似然估计为:?:?乏(一m)(一 m)
以上的m为样本均值向量,后者?为样本的协方 差矩阵.
将每个类的均值和协方差矩阵估计值代入式(3— 2),得到高斯分类器或二次别规则:
若对所有的j#i,有g>g,则将样本归于, gi()=log(p(to))一?log(I?I)一?(一m) Z-(一m)(3—3)
如果训练数据是从类中采样而得,则先验概率P ()的插值估计便为n/?,n,,n是类的样本数 量.][1].
如果任何一个矩阵?是奇异的,在使用高斯分类 器时将出现问题.有几种常见的代替方法.其一是简
单地使用对角协方差矩阵,即将?的非对角项置为 零.另外一种方法是将数据投影到?为非奇异的空 间,这时要运用主成分分析,然后在降维空间上使用高 斯分类器.还有一种替代方法是假定类协方差矩阵 ?一,?均相同,为所有训练样本的协方差矩阵.
第10期胡煜:主分量分析方法和二次判别分析方法应用于基因芯片数据析——::
判别函数得到简化且判别规则变为:若对所有的J.?i 有g>gj,则将样本归于.g是线性判别函数: g()=l.g(p(oJ))一1mTJsm+Jsm(3—4)
这就是基于正态分布的线性差别函数,式中S是 类内协方差矩阵.极大似然比估计是类内样本协方差 矩阵的组合:Js=RiJs"
i.无偏估计为:5.=l.—L
4.实验分析
在处理海量基因数据时,通常只考察基因的某个 子集,一般的做法是先选择一个基因子集,在使用此子 集进行模型比较.我们采用t一统计量来实行选择. 中,和:为类的样本数大小.T和
:为类的均值,s和s:为类的方差.然后,对每个基因 计算t值,按t值的大小顺序排列,最后取出Q基因,其 中Q/2个基因是t值排在最前面的(对应此基因在类1 中有高表达值),而另外Q/2个基因是t值排在最后面 的(对应此基因在类2中有高表达值).
4.1模式识别系统的设计与实现
用一定数量的样本(叫做训练集或学习集)进行分 类器的设计.用所设计的分类器对待识别的样本进行 分类决策.由此我们列出整个系统的算法步骤: Setup.1.把基因库分为包含RTra个样本的训练集
Train和RTest个样本的测试集Test(RTra+RTes=),记 n幽为大小为nTraxp的训练数据矩阵,为nTesxp 的测试样本矩阵,通过对训练集使用交叉验证确定基 因分量个数尺.
Setup.2.从所有基因中使用t一统计量选择包含Q 个基因的子集,从而形成(nTra×Q)矩阵nu'和(nTes ×Q)矩阵.
Setup.3.使用PCA降维方法,记(p为包含投 影向量的矩阵,尺特征向量个数.然后把训练数据集 投影到上得到训练分量矩阵z,=Xrram'×W,同 样,把测试数据集投影到上得到测试分量矩阵z =Xr.st
×.
Setup.4.利用训练分量矩阵z去构造分类器, 然后利用该分类器对测试分量矩阵z中的测试样本 进行预测.
Setup.5.重复G次,计算每种方法总的分类错 误率:
TCPE=??(一),表示观察的类标,表示
预测的类标,()为一个指标函数?引.
4.2Leukemia基因数据的实验结果
基因数据描述及实验参数设置:本文研究的基因 数据来源于白血病患者的组织样品.基因检测数据集, 对每个患者的组织样本.检测了7129个基因,共72 例白血病患者.
首先,我们对基因数据库进行
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
化处理化,然后 计算Leukemia基因的t一统计量,根据前面提到的方法 选取基因子集,然后运用以上方法进行预测,我们分别 筛选出Q个基因子集来构造分类器,取Q=200,随机
把基因子集分成两个数据集:训练集包含25个样本
(n=25),以及测试集也包含47个样本(n=47),
选取判别特征数R=3,利用训练集构造分类器,利用
测试集评估分类效果,重复实验200次儿引.最后,计
算平均识别率并比较各方法的分类效果.
参考文献:
[1]ZhouXiaobo,WangXiaodong,DoughertyER.ABayesian叩?
proachtononlinearprohitgeneselectionandclassify—cation.
JournaloftheFranklinInstitute,2004,341(1—2):137—
156
[2]Yeung,K.Y.andRuzzo,W.L..(2001)Principalcompo? nentanalysisforclusteringgeneexpressiondata.InComputer ScienceandEngineering,Box352350,UniversityofWashing- ton,Seattle,WA98195,USA.Vo1.17no.92001Pages763 —
774
[3]StephenJ.ChapmanMATLABProgrammingforEngineersSec—
ondEdition.北京:科学出版社,2003,P81一P137.
[4]边肇祺,张学工编,模式识别[M].北京:清华大学出版社,
2002.P68一P326.
[5]Dao—QingDaiandHongYan,Matrixdecompositionforfeature generationfromhighdimensionaldata(preprint). [6]SimonHaykin着,叶世伟史忠植译,神经网络原理[M].第
八章主分量分析.机械工业出版社,2004年第一次版
[7]WangA,GehanEA.Geneselectionformicroarraydataanaly—
sisusingprincipalcomponentanalysis.StatMed2005:24.43 —
52.
[8]AndrewR.Webb.StatisticalPatternRecognition.SecondEdi—
tion.电子工业出版社.2004.P28一P117.
[9]Nguyen,D.V.andRocke,D.M.(2002a)Tumorclassifica?
tionbypartialleastsquaresusingmicroarraygeneexpression
data.Bioinformatics,18,39—50.
(下转24页)
?
24?邹金兰:基于CAD三维模型生成工程图的探讨与应用第10期 (2)在Pro/E中将文件保存为dwg文件前,为避免产 生AutoCAD中不需要的图层,图线信息,关闭基准平面, 基准点,基准轴及基准坐标系的显示.同时注意不要进行 哪怕—个尺寸的标注,否则随着数据的调入,在AutoCAD 软件中将产生一系列不需要的图层和标注样式. 4.结束语
Pro/E基于特征的参数化设计使其三维造型方面 有着不可取代的地位,由三维模型自动转化成二维工 程图,流程简洁,视图生成与尺寸标注都具有较高的智 能化.
参数驱动的三维模型设计与灵活方便,功能强大 的二维图形绘制与编辑两者的结合,极大地提高设计 效率与质量,不失为一种切实可行的设计途径. 采用dxf格式文件是Pro/E与AutoCAD之间数据 交换的较好方式.特别是数据由AutoCAD软件导入 Pro/E软件绘图模块,通过
的完整性.
参考文献
dxf格式来实现能确保数据
[1]李月琴,何培英.Pm/E环境下快速生成符合国标工程图的 方法[J].计算机时代.2005(7):39—40
[2]何惠彬.Pro/E工程图标准化的探讨[J].机电技术.2004
(2):9—10
[3]詹又刚.pro/engineer中文野火版教程[M].北京清华大学出
版社,2003.
TheDiscussionandApplicationofTransformingEngineeringDrawingBasedon3DCADModel
ZouJin—lan
(GuangdongVocationalCollegeofIndustry&Commerce,Guangzhou510510,China) Abstract:InPro/Edrawing2Dengineeringdrawings,Becauseitisrelatedtothefull—
dimensionfeaturesofthere—
visedmodeltoavoidasecondrevisionofthedrawing,ithasahigherefficiencydesign.AutoCADisfamiliarwiththeen—
gineeringstaffandthewidespreaduseofsoftware.Ithaspowerful2Ddrawingandeditingfunctions.Importingthe2D
dataintoAutoCADsoftwareforthelateproduction,Isafeasiblemethodtoo. Keywords:Pro/E;2Dengineeringdrawing;datatransformation.
(上接27页)
-
AppliedthePCAdimensionareductionandQuadraticDiscriminant
Analysis(QDA)onGeneDataExpressionAnalysis
HuY
(guangdongvocationalcoHegeofindustry&commerce.guangzhou510510,China) Abstract:InthepaperaimsatthePCAOdimensionareductionandQuadraticDiscriminantAnalysis(QDA)discrim—
inantmethods:todothedataanalysisongenechip(micoarray).PCAandPLS,whichhavebeendevelopedrecently,are
efficientmethodsforanalyzingnumerousdata.itcanextractthefeaturesmuchclosertothegenedataexpressionoforigi—
nality.ItshowsthatwhenPCAispre—
disposalofthedataset,theaccuracyofclassificationofgasolineisnotimproved
naticeably.thewritermakesananalysisconclusionandprovidessupportforfutureindustry.
Keywords:genedataexpressionanalysis;principlecomponentanalysis(PCA);quadraticdi
scriminantanalysis(QDA).