【doc】主分量分析方法和二次判别分析方法应用于基因芯片数据分析

【doc】主分量分析方法和二次判别分析方法应用于基因芯片数据分析【doc】主分量分析方法和二次判别分析方法应用于基因芯片数据分析主分量分析方法和二次判别分析方法应用于基因芯片数据分析 2007年第1O期广东技术师范学院 JournalofGuangdongPolytechnicNormalUniversity 主分量分析方法和二次判别分析方法应用于基因芯片数据分析胡煜 (广东工贸职业技术学院,广东广州510500) 摘要:本文主要采用主分量分析方法和二次判别分析(QDA)有监督分类的方法来对基因芯片(微阵列)数据进行分析.PCA是一种提取海量的数据...

【doc】主分量分析方法和二次判别分析方法应用于基因芯片数据分析主分量分析方法和二次判别分析方法应用于基因芯片数据分析 2007年第1O期广东技术师范学院 JournalofGuangdongPolytechnicNormalUniversity 主分量分析方法和二次判别分析方法应用于基因芯片数据分析胡煜 (广东工贸职业技术学院,广东广州510500) 摘要:本文主要采用主分量分析方法和二次判别分析(QDA)有监督分类的方法来对基因芯片(微阵列)数据进行分析.PCA是一种提取海量的数据有效特征的有效方法.可以获得与原来基因芯片数据更为接近的成分的提取特征的效果.实验表明采用PCA方法事先对数据处理不可以提高基因芯片数据分析的准确性.得出结论可为工业应用提供科学依据. 关键词:基因芯片数据分析;主分量分析;二次判别分析(QDA) 中图分类号:O235文献标识码:A文章编号:1672—402X(2007)10—0025—03 1.引言由于基因表达数据通常是测定几十个样本中成千上万个基因的表达值,得到的数据矩阵是变量数(基因数)为7000—8000,而样本数为7O一8O个,本文的Leu— kemia基因数据库是样本数为72个,基因数为7200 个.所以直接对这么庞大的矩阵,在使用分类方法时来处理基因数据不仅计算量大,而且效果也并不理想. 在实际操作上,我们一般先通过特征选择或者特征提取,得到考察基因的某个特征子集,然后再使用此子集进行模型比较…. 本文基于统计方法的模式识别系统主要由三个部分组成:数据获取和预处理,特征提取与选择,分类决策.主要工作:比较无降维分类,PCA降维分类对QDA 统计判别得出分类的效果. 2.PCA特征提取主成分分析(PrincipalComponentAnalysis,PCA), PCA在降维的过程中能最大程度地减少方差.PCA方法是寻找变量的线性组合——称之为主成分,使这些主成分问不相关.为了能用尽量少的主成分个数去反映原始变量问提供的变异信息,要求各主成分的方差从大到小排列,第一主成分最能反映数据问的差异. 通过合并原来的维数得到更少的维数来表示对象,同时要求新的维数必须尽可能地反映原有维数所反映的信息,它有较少的信息丢失.有助于简化分析和多维数据的可视化J. 为了提取数据的性质而把数据降维映射到新的变量空问上,PCA跟一个数学技术一奇异值分解(SVD) 关系非常密切.且主分量分析跟奇异值分解作用在数据的协方差矩阵上是相同的. 设有N个样本排成一个d×N的矩阵,即X= 1N, (,,…,)样本的总体均值:=1置.X为』Tl1 的中心化矩阵:=(1一,2一,…,?一).总差异矩阵(TotalScatterMatrix)S:|s=?(X一)(.一 ,, )=XXPCA应用于生物基因,目的就是找到一个线性变换,或者称为投影矩阵Wp?R将原来d维的样本空问投影到d维的样本特征空问(d<d)…,并且使得投影后的训练样本对应的总差异矩阵的行列式最大,即WPcA=argmaxlWSIWl=[1,2…,], llll=1,V{l=1,2,…d}为|s中对应于前面d 个最大特征值的维数为d×1的特征向量. 奇异值分解(SingularValueDecomposition,SVD) 收稿日期:2007—09—20 作者简介:胡煜(1964一),男,广东惠来人,广东工贸职业技术学院应用外语系(公共基础部合署)讲师,硕士,研究方向:数学教育与数学应用(模式识别与数据挖掘). ? 26?胡煜:主分量分析方法和二次判别分析方法应用于基因芯片数据分析第10期是矩阵分析中正规矩阵酉对角化的推广_5].设矩阵A 是m×n的秩为r,它的奇异值是指n阶方阵A(或m 阶方阵)的正特征值的平方根.SVD分解的形式: A=(..),其中和为酉矩阵, 01一 A=l..I,ori=,/ai 0J 由于A与的特征值是一样的,由上面分解可得出它们的非零特征向量的关系: = ?A,i=1,2,…,r(2—1) ,分别对应于与的第个分量.由SVD 理论,只要求出S=XX的非零特征值与对应特征向量,此处,S是N×N矩阵,对生物基因来说,通常?口 d,因此问题的规模将大大减小.然后根据两者的关系式(2—1)就可以求出所需要的特征向量及相应的投影矩阵.最后,通过投影矩阵,我们可以得到新的样本特征:=呦T置?R. 3.二次判别分析(QDA) Bayes判别原理是根据已掌握的每个类别的若干样本的数据信息, 总结出客观事物分类的规律性建立判别函数,然后,根据总结的判别函数,就能够判别新样本函数所属类别. 设c个类,:,L,分别具有先验概率P(), L,P().如果样本关于类的概率P(I)比其他所有类,,L,的概率都大,则Bayes决策规则便将样本x归于类Wi.即:如果P(iIx)>P(Ix)j= 1,,C;iDj,则将归于类.又由Bayes定理-p(I )=p(Wi),假定先验概率p(Wi)已知,为做出 \^, 决策,就必须估计类条件密度p(xI),即密度估计在类的观测样本D={:,…,:}(;?R)的基础上进行.通常,参数法是很常用的密度估计法,它假定的类条件密度函数的形式已知,而其中的一个或一组参数未知,此时 P(I)=(I)P(ID)d(3—1) 其中,P(ID)可看做是基于数据集的加权函数.的真实值通常未知,但通过采用单一估计,可以得到以分布P(I)为权值的密度P()的加权和通常,广泛使用的(3—1)式的条件密度函数是高斯正态分布的密度函数: 唧卜}(?))(27r)芎I?i l丁LJ 而分类则是将样本归于使对数后验概率log(p( I)取得最大的那个类.由贝叶斯决策规则,便有:log (P(I))=log(p(x)I)+log(p())一log(p(x)) =一 ?(,m)Si-(一m)一?log(IsiI)一号log ()+log(p(w))一log(p(x)) 由p(x)与类无关,判别规则就成为:若对所有的_『 ?i有g>g,则将归于i. 其中: g'()=log(p())一寺l0g(IsI)一?(一 m)Si一(一mi)(3—2) 根据g(),i=1,…,c的取值实现的对样本的分类使得g()成为基于正态分布的二次判别函数. (3—2)式中的量值i和?用基于训练集的极大似然估计值所取代:均值的极大似然估计:m=?.协方差矩阵的极大似然估计为:?:?乏(一m)(一 m) 以上的m为样本均值向量,后者?为样本的协方差矩阵. 将每个类的均值和协方差矩阵估计值代入式(3— 2),得到高斯分类器或二次别规则: 若对所有的j#i,有g>g,则将样本归于, gi()=log(p(to))一?log(I?I)一?(一m) Z-(一m)(3—3) 如果训练数据是从类中采样而得,则先验概率P ()的插值估计便为n/?,n,,n是类的样本数量.][1]. 如果任何一个矩阵?是奇异的,在使用高斯分类器时将出现问题.有几种常见的代替方法.其一是简单地使用对角协方差矩阵,即将?的非对角项置为零.另外一种方法是将数据投影到?为非奇异的空间,这时要运用主成分分析,然后在降维空间上使用高斯分类器.还有一种替代方法是假定类协方差矩阵 ?一,?均相同,为所有训练样本的协方差矩阵. 第10期胡煜:主分量分析方法和二次判别分析方法应用于基因芯片数据析——:: 判别函数得到简化且判别规则变为:若对所有的J.?i 有g>gj,则将样本归于.g是线性判别函数: g()=l.g(p(oJ))一1mTJsm+Jsm(3—4) 这就是基于正态分布的线性差别函数,式中S是类内协方差矩阵.极大似然比估计是类内样本协方差矩阵的组合:Js=RiJs" i.无偏估计为:5.=l.—L 4.实验分析在处理海量基因数据时,通常只考察基因的某个子集,一般的做法是先选择一个基因子集,在使用此子集进行模型比较.我们采用t一统计量来实行选择. 中,和:为类的样本数大小.T和 :为类的均值,s和s:为类的方差.然后,对每个基因计算t值,按t值的大小顺序排列,最后取出Q基因,其中Q/2个基因是t值排在最前面的(对应此基因在类1 中有高表达值),而另外Q/2个基因是t值排在最后面的(对应此基因在类2中有高表达值). 4.1模式识别系统的设计与实现用一定数量的样本(叫做训练集或学习集)进行分类器的设计.用所设计的分类器对待识别的样本进行分类决策.由此我们列出整个系统的算法步骤: Setup.1.把基因库分为包含RTra个样本的训练集 Train和RTest个样本的测试集Test(RTra+RTes=),记 n幽为大小为nTraxp的训练数据矩阵,为nTesxp 的测试样本矩阵,通过对训练集使用交叉验证确定基因分量个数尺. Setup.2.从所有基因中使用t一统计量选择包含Q 个基因的子集,从而形成(nTra×Q)矩阵nu'和(nTes ×Q)矩阵. Setup.3.使用PCA降维方法,记(p为包含投影向量的矩阵,尺特征向量个数.然后把训练数据集投影到上得到训练分量矩阵z,=Xrram'×W,同样,把测试数据集投影到上得到测试分量矩阵z =Xr.st ×. Setup.4.利用训练分量矩阵z去构造分类器, 然后利用该分类器对测试分量矩阵z中的测试样本进行预测. Setup.5.重复G次,计算每种方法总的分类错误率: TCPE=??(一),表示观察的类标,表示预测的类标,()为一个指标函数?引. 4.2Leukemia基因数据的实验结果基因数据描述及实验参数设置:本文研究的基因数据来源于白血病患者的组织样品.基因检测数据集, 对每个患者的组织样本.检测了7129个基因,共72 例白血病患者. 首先,我们对基因数据库进行标准化处理化,然后计算Leukemia基因的t一统计量,根据前面提到的方法选取基因子集,然后运用以上方法进行预测,我们分别筛选出Q个基因子集来构造分类器,取Q=200,随机把基因子集分成两个数据集:训练集包含25个样本 (n=25),以及测试集也包含47个样本(n=47), 选取判别特征数R=3,利用训练集构造分类器,利用测试集评估分类效果,重复实验200次儿引.最后,计算平均识别率并比较各方法的分类效果. 参考文献: [1]ZhouXiaobo,WangXiaodong,DoughertyER.ABayesian叩? proachtononlinearprohitgeneselectionandclassify—cation. JournaloftheFranklinInstitute,2004,341(1—2):137— 156 [2]Yeung,K.Y.andRuzzo,W.L..(2001)Principalcompo? nentanalysisforclusteringgeneexpressiondata.InComputer ScienceandEngineering,Box352350,UniversityofWashing- ton,Seattle,WA98195,USA.Vo1.17no.92001Pages763 — 774 [3]StephenJ.ChapmanMATLABProgrammingforEngineersSec— ondEdition.北京:科学出版社,2003,P81一P137. [4]边肇祺,张学工编,模式识别[M].北京:清华大学出版社, 2002.P68一P326. [5]Dao—QingDaiandHongYan,Matrixdecompositionforfeature generationfromhighdimensionaldata(preprint). [6]SimonHaykin着,叶世伟史忠植译,神经网络原理[M].第八章主分量分析.机械工业出版社,2004年第一次版 [7]WangA,GehanEA.Geneselectionformicroarraydataanaly— sisusingprincipalcomponentanalysis.StatMed2005:24.43 — 52. [8]AndrewR.Webb.StatisticalPatternRecognition.SecondEdi— tion.电子工业出版社.2004.P28一P117. [9]Nguyen,D.V.andRocke,D.M.(2002a)Tumorclassifica? tionbypartialleastsquaresusingmicroarraygeneexpression data.Bioinformatics,18,39—50. (下转24页) ? 24?邹金兰:基于CAD三维模型生成工程图的探讨与应用第10期 (2)在Pro/E中将文件保存为dwg文件前,为避免产生AutoCAD中不需要的图层,图线信息,关闭基准平面, 基准点,基准轴及基准坐标系的显示.同时注意不要进行哪怕—个尺寸的标注,否则随着数据的调入,在AutoCAD 软件中将产生一系列不需要的图层和标注样式. 4.结束语 Pro/E基于特征的参数化设计使其三维造型方面有着不可取代的地位,由三维模型自动转化成二维工程图,流程简洁,视图生成与尺寸标注都具有较高的智能化. 参数驱动的三维模型设计与灵活方便,功能强大的二维图形绘制与编辑两者的结合,极大地提高设计效率与质量,不失为一种切实可行的设计途径. 采用dxf格式文件是Pro/E与AutoCAD之间数据交换的较好方式.特别是数据由AutoCAD软件导入 Pro/E软件绘图模块,通过的完整性. 参考文献 dxf格式来实现能确保数据 [1]李月琴,何培英.Pm/E环境下快速生成符合国标工程图的方法[J].计算机时代.2005(7):39—40 [2]何惠彬.Pro/E工程图标准化的探讨[J].机电技术.2004 (2):9—10 [3]詹又刚.pro/engineer中文野火版教程[M].北京清华大学出版社,2003. TheDiscussionandApplicationofTransformingEngineeringDrawingBasedon3DCADModel ZouJin—lan (GuangdongVocationalCollegeofIndustry&Commerce,Guangzhou510510,China) Abstract:InPro/Edrawing2Dengineeringdrawings,Becauseitisrelatedtothefull— dimensionfeaturesofthere— visedmodeltoavoidasecondrevisionofthedrawing,ithasahigherefficiencydesign.AutoCADisfamiliarwiththeen— gineeringstaffandthewidespreaduseofsoftware.Ithaspowerful2Ddrawingandeditingfunctions.Importingthe2D dataintoAutoCADsoftwareforthelateproduction,Isafeasiblemethodtoo. Keywords:Pro/E;2Dengineeringdrawing;datatransformation. (上接27页) - AppliedthePCAdimensionareductionandQuadraticDiscriminant Analysis(QDA)onGeneDataExpressionAnalysis HuY (guangdongvocationalcoHegeofindustry&commerce.guangzhou510510,China) Abstract:InthepaperaimsatthePCAOdimensionareductionandQuadraticDiscriminantAnalysis(QDA)discrim— inantmethods:todothedataanalysisongenechip(micoarray).PCAandPLS,whichhavebeendevelopedrecently,are efficientmethodsforanalyzingnumerousdata.itcanextractthefeaturesmuchclosertothegenedataexpressionoforigi— nality.ItshowsthatwhenPCAispre— disposalofthedataset,theaccuracyofclassificationofgasolineisnotimproved naticeably.thewritermakesananalysisconclusionandprovidessupportforfutureindustry. Keywords:genedataexpressionanalysis;principlecomponentanalysis(PCA);quadraticdi scriminantanalysis(QDA).

                    本文档为【【doc】主分量分析方法和二次判别分析方法应用于基因芯片数据分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

【doc】主分量分析方法和二次判别分析方法应用于基因芯片数据分析

你可能还喜欢