首页 生物信息学讲课二-20020925

生物信息学讲课二-20020925

生物信息学讲课二-20020925null 大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约1300万bp) 所包含的 6千多个基因，大约 60％是通过信息分析得到的。 a)、利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs 国际上现已出现了几个基于EST的基因索引如UniGene (ftp://ncbi.nlm.nih.gov/pub/schuler/unigene) , Merck-Gene...

null 大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约1300万bp) 所包含的 6千多个基因，大约 60％是通过信息分析得到的。 a)、利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新SNPs 国际上现已出现了几个基于EST的基因索引如UniGene (ftp://ncbi.nlm.nih.gov/pub/schuler/unigene) , Merck-Gene index(http://genome.wustl.edu/est/esthmpg.html ) , GenExpress-index ( http://www..cshl.org ) ，这些基因索引数据库(即二次数据库)构建了基因框架，极大地方便了相关研究者。超大规模计算 b)、从基因组 DNA序列中预测新ORF 二、新基因和新SNPs的发现与鉴定nullStructure of eukaryotic mRNACap5’-UTRCoding region3’-UTRPoly-AInitiation (AUG)Termination (AUG, UGA, UAA)nullEST序列数据库的形成EST 序列数据库nullSNP: Single Nucleotide Polymorphisms HUMAN GENETIC DIVERSITY: The Ultimate Human Genetic Database Any two individuals differ in about 3 x 106 bases (0.1%). The population is now about 6 x 109. A catalog of all sequence differences would require 18 x 1015 entries. This catalog may be needed to find the rarest or most complex disease genes. 基因电脑克隆的实质: 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。基因电脑克隆的实质: 以一个序列片段为线索, 通过它和整个数据库的比较, 还原出全序列原貌。原理：当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的(随机的)，所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。 nullnull可行性可行性到目前为止, 公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上的覆盖率。 EST数据库: dbESTEST数据库: dbEST不同的实施方案和计算量不同的实施方案和计算量将数据库中的所有序列进行两两比较, 将他们分成一组组(一组内的序列都属于同个基因), 最后再拼接成一条条完整的cDNA序列。对于人的EST库(5百万条序列），需要进行的序列比对次数为: 0.5*(5*106)2=1.25*1013。以一组感兴趣的(如表达于某种组织的)序列作为”种子”序列(N条)，将它们和整个库比较，以找到它们所属的完整cDNA序列。这种方案需要进行的序列比对次数为： N*5*106。SiClone 流程图SiClone 流程图数据准备，包括：序列纯化及格式标准化－－－－－－－－－－－－－－－－－－－－－－－取出一条种子库大库种子和大库的序列比对判断种子序列能否被延长能 — — ———延长了的序列代替旧序列否结束，放入contig库nullnull EST数据库质量相对较低，就象许多文献报道，发现了许多内含子，克隆载体，多酶切点，ALU以及3’、5’非翻译序列(统称污染序列，也称载体序列或非insert序列)被包含在EST数据库中，这使得EST序列分析复杂化。因此在进行Contig电脑组装之前，需要探测并去除EST数据库中的污染序列。 181 201 221 240 tactgggtgggaactcaccgcagtgcaggcaaagctatgggccagactgcttctctagga 241 261 281 300 ttcctcctcactggggcaggggcatctctggaaggaaagggcggcagcccccaggctcgt ----- 301 321 341 360 gccgaattcttgggcctcgaggggccaaattccctataggtgnggtcgtatttaaattcg --------- 361 381 395 gtaatcaggtccnaggctgtttccngtgtggaant 图1.1 EST序列H67267尾随载体示图图中下划线部分为Eco RI酶切位点和相应的Adaptor序列，尾随86bp的PT7T3D载体polylinker，该EST为反向测序序列为探测并去除EST数据库中的污染序列，必须建立载体库，对种子库和人EST库中的每条序列扫描其前端和尾部检查上述非Insert序列，并去除。 null 全长cDNA标注涉及到mRNA的5’端即转录起始位点区、第一个ATG、开读框架、终止密码子和3’端的确认。目前国际上各种二次数据库的建立和公布，使得我们有可能利用现有的数据源，通过同源性比较来预测mRNA的5’端，最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ )。开读框架(Open Reading Frame: ORF)的预测常与第一个ATG和终止密码子的确定相关，但由于EST序列相对较低的测序质量，在测序过程中出现的碱基删除或插入错误(称为indel错误)将引起读框移动，甚至出现假终止密码子，所以，仅凭第一个ATG和终止密码子是不足以确定ORF的。 null 我们结合下述几种方法对Contigs进行标注，先用复合人工神经网络系统预测Contig编码蛋白的可能性，然后采用NCBI的ORF预测软件 ( ORF finder: http://www.ncbi.nlm.nih.gov/gorf/orfig.cgi )初步判断ORF的可能范围。第一个ATG的确定则依据Kozak规则和信号肽分析软件(SignalP http://www.cbs.dtu.dk/services/signalP )的结果。所谓Kozak规则，即第一个ATG侧翼序列的碱基分布所满足的统计规律，若将第一个ATG中的碱基A，T，G分别标为1，2，3位，则Kozak规则可描述如下：(1)第4位的偏好碱基为G；(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T；(3)在-3，-6和-9位置，G是偏好碱基；(4)除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基。Kozak规则是基于已知数据的统计结果，为获得高可信度的结果，我们把预测过程中证实含完整mRNA 5’端的Contig翻译为蛋白序列，然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估，如果SignalP分析给出正面结果，则测试序列有可能为信号肽，假如在该测试序列的第一个Met 5’端存在终止密码子，该序列为信号肽的可能性更大。3’端的确认主要根据Poly(A)尾序列,若测试Contig不含Poly(A)序列，则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。 null 5’ 1 tcagccgcccggagccgctcccggagcccggccgtagaggtgcaatcgcagcgngnagcc * ( 35 bp ) 61 cgcagcccgcgccccgagcccgccgccgcccttcgaggggcncccaggccgcgccatggt (116 bp) M 121 gaaggtgacgttcaactccgctctggcccagaaggaggccaagaaggacgagcccaagag 181 cggcgaggaggcgctnatnatcccccccgangccgtcgcggtggantgnaaggacccaga 241 tgatgtggtacnanttggcnaaagaagancntgntgttgntgnatgtgctttggantagc 301 atttatgcttgnaggtgtnattctaggaggagcatacttgtacaaatattttgcacttca 361 accagatgacgtgtactactgtggaataaagtacatcaaagatgatgtcatcttaaatga 421 gccctctgcagatgccccagctgctctctaccagacaattgaagaaaatattaaaatctt 481 tgaagaagaagaagttgaatttatcagtgtgcctgtcccagagtttgcagatagtgatcc 541 tgccaacattgttcatgactttaacaagaaacttacagcctatttagatcttaacctgga 601 taagtgctatgtgatccctctggaacacttccattgttatgccacccaggaaacctactg 661 ggagttacttatttaacatcaaggctggaacctatttgcctcagtcctatctgattcaat * (674 bp) 721 gagcacatggttattactgatcgcattgaaaacattgatcacctgggtttctttatttat 781 ccgactgtgtcatgacaaggaaacttacaaactgcaacgcggagaaactattaaagggta 841 ttcagaaacgtgaagccagcaattggtttcgcaattcggcattttcgaaaacaaatttgc * (851 bp) 901 cgtggaaacttttaatttgttcttgaacagtcaagaaaaacattattgaggnaaatta * (924 bp) 961 atcacagcataaccccacccttttacattttgtgcagtgattattttttaaagtccttcc 1021 ttnatgtaagtagcaacaggggctttactatcttttcatctcattaatccaattaanacc 1081 attaccttaaaatttttttctttcgaagtgtggtgtcttttatatttgaattagtaactg 1141 tatgaagtcatagataatagtacatgtcaccttaggtagtaggaagaattacaatttctt 1201 taaatcatttatctggatttttatgttttattagcattttcaagaagacggattatctag 1261 agaataatcatatatatgcatacgtaaaaatggaccacagtgacttatttgtagttgtta 1321 gttgccctgctacctagtttgttagtgcatttgagcmcacattttaattttcctctaatt 1381 aaaatgtgcagtattttcagtgtcaaatatatttaactatttrgggaatgatttccmcct 1441 ttatgttttaatatcctaggcatctgctgtaataatattttagaaaatgtttggaattta 1501 agaaataacttgtgttactaatttgtataacccatatctgtgcaatggaatataaatatc 1561 acaaagttgtttaactagactgcgtgttgtttttcccgtataataaaaccaaagaatagt 1621 ttggttcttcaaatcttaagagaatccacataaaagaagaaactattttttaaaaattca 1681 cttctatatatacaatgagtaaaatcacagattttttctttaaataaaaataagtcattt 1741 taataactaaaccagattctttgtggatactattaaagtaacatttaagcctcaaccttg 3’ 我们称这一全长cDNA为FLCDNA，共145条成分EST序列包含于该Contig. nullnull 嵌合体cDNA是指来源于不同基因的序列，由于偶然因素被组装在一起形成的Contig。我们构建的神经网络能探测组装过程形成的嵌合体。 null EST数据也可用来帮助研究基因的可变剪接和发现非编码RNA。 Gene findingGene finding composition of codons, nts Splice site findinggenomemRNA 人类有多少基因 2万—20万 28,000±4,000 Cell 106, 413-415, August 24, 2001 3万—4万到目前为止已定位在染色体上的基因数目有14015个 (见http://www.ncbi.nlm.nih.gov/LocusLink/statistics.html); 人类有多少基因 2万—20万 28,000±4,000 Cell 106, 413-415, August 24, 2001 3万—4万到目前为止已定位在染色体上的基因数目有14015个 (见http://www.ncbi.nlm.nih.gov/LocusLink/statistics.html); 谢谢大家！谢谢大家！

                    本文档为【生物信息学讲课二-20020925】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

生物信息学讲课二-20020925

你可能还喜欢