首页 NCBI的数据库资源及其应用

NCBI的数据库资源及其应用

举报
开通vip

NCBI的数据库资源及其应用 万方数据 60 生命科学 第14卷 级链接,如:一个序列可以与发表这个序列的文献、 编码此序列的蛋白、相应的DNA序列,以及一些 相关的序列等链接。 1.2 The1缸onomyBrowser(http://www.ncbi. nlm.nih.goV/Taxonomy/taxonomyhome.html/) 是查询种属数据库的工具(taXonomydatabase)。 ,工hxonomydatabase包含了55000种生物,每种生 物的数据库至少包含一个核酸或蛋白序列。它可以 显示每一分支...

NCBI的数据库资源及其应用
万方数据 60 生命科学 第14卷 级链接,如:一个序列可以与发表这个序列的文献、 编码此序列的蛋白、相应的DNA序列,以及一些 相关的序列等链接。 1.2 The1缸onomyBrowser(http://www.ncbi. nlm.nih.goV/Taxonomy/taxonomyhome.html/) 是查询种属数据库的工具(taXonomydatabase)。 ,工hxonomydatabase包含了55000种生物,每种生 物的数据库至少包含一个核酸或蛋白序列。它可以 显示每一分支中包含的核酸、蛋白及蛋白结构的数 目。 1.3 LocusLink(http://www.ncbi.nlm.nih.gov /LocusLink/)[2]它提供一个简单的界面来查询人 类基因或遗传位点的准确信息,包括基因的术语、 别名、序列号、表型、ECnumber、MIMnumber、 Unigene簇、作图信息等。 1.4 TlleQUERYEmailserver它是基于文本形 式的E—mail查询服务器(query@ncbi.nlm.nih.gov), 有多种输出格式,如文本和FASTA格式等。 2 序列相似性比较程序(TheBLASTfamilyof Sequence—similaritysearchprograms)(http://www. ncbi.nlm.nih.gov/BLAST/)[1] 利用BLAST系列软件可以对GenBank进行序 列相似性寻找的工作。 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 BLAST2.0可用序列或 序列号进行比较。用BLAST比较时可以使用不同 的基准(matrix):PAM或BLOSUM,BLOSUM一 62matrix适合弱蛋白相似性比较,而BLOSUM一45 matrix适合于较长而且相似性弱的比较。这些同样 也适用于核酸的比较。另外还有几个高级参数(一G, 一E,一q,~r,一e,一W,一v)用于特殊的相似性比较中。 BLAST可以对核酸和蛋白的多种数据库操 作。有几种比较方法可选择: 用途 一个氨基酸序列与一个蛋白数据库 比较。 一个核酸序列与一个核酸数据库比 较。 一个核酸的所有读框与一个蛋白数 据库比较,可以用来发现未知核酸 可能的蛋白产物。 一个蛋白序列与翻译成所有读框的 核酸数据库比较。 一个核酸的六种读框与一个核酸数 据库的六种读框比较,但由于计算 太复杂在网页中不能应用。 还有几种特殊的BLAST:PositionSpecificIt— eratedBLAST(PS卜BLAST)可以增加氨基酸序列 与蛋白质数据库比较的敏感性。PatternHitIniti— atedBLAST(PHI—BLAST)是与PSI—BLAST紧密 结合的比较程序,它可查询某蛋白序列中的一段氨 基酸序列与一些同源蛋白序列是否有高度同源,也 就是说可查找潜在的基序。BLAST2Sequences可 比较两个序列之间的同源性,标准BLAST可以通 过Ermail的形式提交(blaLst@ncbi.nlm.nih.gov)。 另外还有两种新的基于BLAST的程序:Vec— Screen可查找序列中是否包含有载体序列,1分 BLAST提供与GenBank中的免疫球蛋白基因的 同源比较。2000年6月26日,Celera公司公布了 人类基因组全部序列的草稿,覆盖了人类基因组序 列近90%,NCBI马上推出了查询全基因组序列 的BLAST程序。 3 基因水平的序列分析资源(Resourcesforgene一 1eVelsequences) 3.1 uniGene(http://www.ncbi.nlm.nih.goV /uniGene/)EsT(expressedsequencetag,EsT) 称表达序列标签,是从cDNA克隆中随机挑选出来 进行一次性测序的结果,由于cDNA文库的复杂性 和测序的随机性,有时多个EST代表同一基因或基 因组,将其归类形成EST簇(ESTcluster),每一个 EST簇代表一个特定基因,UniGene收集了大量的 EST簇,并与表达的组织类型、染色体作图、表达 的蛋白等链接。目前人类UniGene数据库中构建了 83000个EST簇,代表了大部分人类基因。EST 簇的3’非编码区的序列还可以转换成序列标签位 点(sequence—taggedsites,STS)的序列帮助基因 组作图。uniGene可用基因名称、染色体、cDNA 文库、序列号和普通文本等格式来查询,还可通过 FTP下载。 3.2 RefSeqdatabase(http://www.ncbi.nlm.nih.goV /LocusLink/refSeq.html)(2】它只收录有全编码区 或功能已有一定研究的基因,包含了经过整理后延 长的基因5’和37非翻译区序列、mRNA和蛋白特 征、相关文章、描述基因特征的摘要。RefSeq记录 与0MIM、PubMed、GenBank、UniGene都有 链接。RefSeq可通过基因或蛋白名称,序列号以 及序列同源来查询, Entrez和LocusLink都支持 用文本来查询Refseq,BLAST也可用Refseq的 序号来作同源比较,但应在序号前加前缀“ref”。 p n x “ 幻 酣憾 龇 ‰ № № 万方数据 ASUS 高亮 ASUS 高亮 ASUS 高亮 ASUS 高亮 ASUS 高亮 ASUS 高亮 第1期 王 哲,等: NCBI的数据库资源及其应用 61 3.3 单核苷酸多态性数据库(dbSNP)[3】(http: //www.ncbi.nlm.nih.gov/sNP)sNPs是最常见的 遗传学变化,可以反映遗传表型与序列变化的关 系,因此,它有助于大规模的遗传相关研究、功能 和药学基因组、群体遗传学和进化生物学、定点克 隆和物理作图等研究。目前dbSNP记录的变异通 过BLAST和E—PCR与NCBI其他的数据库资源 链接,并可以在GenBank、PubMed、LocusLink 或基因组序列数据库的相关记录中查询。随着基因 组 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 的发展,最终dbSNP要使SNP每一记录都 与基因组的核酸序列记录或物理图重叠群(cont培) 链接,使相关的GenBank、dbsTS、Refseq、Lo. cu8Lillk或UniGene记录都有SNP标注。我们可以 通过dbSNP网页中的BLAST查询相关的SNP记 录,在LocusLink位点中查询,通过Entrez查询。 还可以直接在dbSNP的网页中用SNP记录号、发 表的文章题目、研究的人群,以及相关的STS等来 查询。 3.4 ORFFinder(http://www.ncbi.nlm.nih.goV /gorf/gor胁tml)是NCBI提供的一个开放读框寻 找程序,它提供六个氨基酸框架的查询。 3.5 ElectIonicPcR(http://www.ncbi.nlm.nih. gov/STs/)电子PcR是用两段引物序列与sTS 数据库比较,以寻找~段核苷酸序列中有无STS序 列,它可以帮助我们确认基因及基因作图。 4 染色体序列资源(Resourcesforchromosomal sequences) 4.1 人类基因组资源主页(http://www.ncbi.nlm.nih gov/genome/guide/)人类基因组资源主页提供了 此主页下所有内容的链接,包括了人类基因测序、 作图,遗传变异和基因表达的核心研究资源,还包 括了疾病与基因的内容提供了60多种遗传性疾病 的概要。 4.2 人类基因组测序(11ttp://www.ncbi.nlm.nih.gov /genome/seq/)此站点包括了人类基因组测序的 进展,可以查询每个已知重叠群的序列,提供基因 组范围的BLAST比较,并且可以下载重叠群或染 色体的序列。可以见到2000年6月26日完成的人 类基因组序列草稿。 4.3 GeneMap’99(http://www.ncbi.nlm.nih.goV /genemap/)目的是采用研究得很清楚的遗传标 志及与其相关联的EST位点对人类基因组作图, GeneMap’99指定了人类30261个uniquegene的 位点,代表了人基因组中的60000一80000个基因 的一半。可以通过遗传标志名称、基因名称、序列 号和UniGene号来查询作图。 4.4 TheDavisHuman—MouseHomologyM印s (http://www.ncbi.nlm.nihgoV/Homology/)此站 点列出了人和小鼠同源DNA片段的遗传位点,共 收录了1793个位点。并与GeneMap’99、OMIM,与 JacksonLaboratory的theMouseGenomeDatabase 有链接。 4.5 TheCancerChromosomeAberrationProject (CCAP)(http://www.ncbi.nlm.nih.goV/CCAP/) CCAP是由NCBI和NCI(theNationalCancer Institute)共同发起的,它包括了瑞典Lund大学 的CancerChromosomeAberrationBank收集的数 据,也包括了CCAP利用一些BAC克隆通过FISH 杂交得出人肿瘤染色体的作图数据。肿瘤染色体畸 变的资料可以用染色体区带、器官及肿瘤类型等限 制词查询。 5 基因组规模的分析资源(ResourcesfOrgenome— scaleanalysis) 5.1 EntrezGenomes(http://www.ncbi.nlm.nih.goV /Entrez/Genome/)EntrezGenomes数据库包括 了正在测序或已完成的600多个物种的基因组序 列。其中包括了21种已完成的微生物基因组。每种 基因组序列都有图示,可以点击观看从每条染色体 到重叠群的详细资料,列出了0RF的详细资料, 并与不同物种的同源蛋白链接。对RNA基因则标 出了rRNA或tRNA的名称及位点。此数据库还有 另一种功能,就是将所有已完成测序的微生物基因 组编码的蛋白与原生质、细菌与真核生物中的每一 种基因组比较,从而得到其中同源的蛋白,数据库 中同源蛋白序列之间都有链接。在这个数据库中还 可以看到每个染色体的遗传图、细胞遗传图、物理 图和序列图。 5.2 Clustersof0rthologousGroups(COGs) (http://www.ncbi.nlm.nih召oV/coG/)【4JcoGs 建立在已完成测序的21种细菌、原生质和真核生 物基因组的基础上,在将每一个蛋白相互之间进行 GappedBLAST比较后,按照来自同一基因组的蛋 白相互之间比其他物种的蛋白更相似的原则,将比 较结果按照一定的方法和标准并参考进化树的数据 来构建成许多COG8。这个数据库目的主要是要建 立一个已完成测序基因组编码蛋白的进化树分类, 它包含了2112个COGs,把它们分成17个功能类 别。我们应用此数据库可以预测单个或一组蛋白的 万方数据 ASUS 高亮 ASUS 高亮 ASUS 高亮 ASUS 高亮 ASUS 高亮 62 生命科学 第14卷 功能,尤其是可以用于新近完成的基因组,还可以通 过基因或蛋白名称查询每种生物的每一个COGs, 以及可以查询各COGs的进化图谱。 5.3 RetroViralgenotypingt001s(http://www.ncbi. nlm.nih.gov/retroviruses/)它是反转录病毒基因 型分析工具,此工具的目的在于揭示反转录病毒 遗传多样性的特点,追溯其流行病学,相当于用 多序列对齐来分型的过程,包括了HIV、SIV、 HTLV、STLv等几种病毒的专用分析工具。它 与National111stituteofAllergyandInfectiousDis— ease(http://www.niaid.nih.goV/research/daids.htm)、 HIVsequenceDatabase(http://hiV—web.1anl.gov/)、 sanbiHIVAfrica(http://ziggy.sanbi.ac.za/hiVafrica/)、 StanfordHIVIiTandProteaseGeneDatabase(http: //llivdb.stanfOId.edu/hiv/)这些相关数据库链接。 6 基因表达及表型分析资源(Resourcesforanal一 ysisofpatternsofgeneexpressionandphlenotypes) 6.1 TheCancerGeIlomeAnatomyProject (CGAP)(http://www.ncbi.nlm.nih.goV/ncicgap/) CGAP提供了正常、癌前病变,及恶性肿瘤细胞的 遗传学数据,它是由几个互补的数据库组成(Hu. manTumorGeneIndex,MolecularFingerprinting, CancerChromosomeAberrationProject,Genetic AnnotationInitiative及Mouse‘rumorGeneIndex), 可以通过基因名称、克隆编号、组织类型、样品准 备方法、肿瘤发展阶段及uniGene簇ID来查询 cDNA文库的资料。另外,CGAP还提供xProfiler 程序 (1lttp://www.ncbi.nlm.nih.gov/CGAP/hTGI /xprof/)来比较一个cDNA在不同cDNA文库中的 表达情况,DigitalDi骶rentimDisplay(DDD)工具 (http://www.ncbi.nlm.nih.goV/cGAP/infb/ddd.cgi) 可以比较不同cDNA文库中在统计学上有表达显 著差异的基因。 6.2 SAGEmap(http://www.ncbi.nlm.nih.gov/ SAGE/) SeI’ialAnalysisofGeneExpression (SAGE)是一种对某一组mRNA中基因表达定量 检测的一种方法。利用SAGE的方法,NCBI建 立了SAGE数据库,此数据库主要依靠UniGene 来建立,可以用SAGE标签来查询UniGene簇, 也可以用UniGene簇来查询SAGE文库中代表这 一UniGene簇的SAGE标签出现几率,也就是表 达量。 6.3 OnlineMendelianInheritanceinMan(0MIM) (http://www.ncbi-nlm.nih.goV/omim/)0MIM数 据库提供人类基因和遗传疾病的有关数据,更广泛 地说是疾病表型和基因的信息,包括基因名称、遗 传谱系、作图位点、基因多态性、基因功能、基因治 疗及分子遗传学等多种资料。目前共收录了10820 条记录,与Entrez中的有关记录有链接。 7 蛋白质结构模拟资源(Themolecularmodeling database)(http://www.ncbi.nlm.nih.goV /structure/MMDB/)【5】 MMDB数据库的数据来自ProteinDataBank (PDB)(http://www.rcsb—Org),包括了实验得出的 10000多种大分子的三维结构,大部分数据来源于 x线衍射和核磁共振光谱实验。数据库可以用蛋白 名称、作者名、种属、发表日期等多种方式查询,还 可以用布尔 公式 小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载 查询。查询结果可用软件C3nD来 观察其三维结构。MMDB与Medline、‰onomy 和Entrez等多种数据库链接。三维结构的相似性可 以用MMDB提供的VAST程序来比较,三维结构 的相似性通常反映了进化上的同源关系。 [参 考 文 献】 [1】wheelerDL,Chappeyc,LashAE,etⅡf.Ⅳuckic 4cids冗es,2000;28(1):10—14. 『21 MaglottDR,KatzKS,SicotteH,etof.Ⅳ“cfeic AcidsRes,2000:28(1):126—128. f31SmigielskiEM,SirotkinK,W缸dM,etnf.Ⅳucfeic AcidsRes,2000;28(1):352—355. f41T址usovRL,GalperinMY,NataleDA,e£of.Ⅳ札. cfe记Acids咒es,2000;28(1):33—36. f51、VangY,AddessKJ,GeetL,e£of.Ⅳ钍cfeicAci出 兄es.2000:28:243—245. 万方数据 ASUS 高亮 ASUS 高亮 NCBI的数据库资源及其应用 作者: 王哲, 黄高升 作者单位: 第四军医大学病理学教研室,西安,710032 刊名: 生命科学 英文刊名: CHINESE BULLETIN OF LIFE SCIENCES 年,卷(期): 2002,14(1) 被引用次数: 11次 参考文献(5条) 1.Wheeler D L.Chappeyc.Lash A E 查看详情 2000(01) 2.Maglott D R.KatzKS.Sicotte H 查看详情 2000(01) 3.Smigielski E M.SirotkinK.Ward M 查看详情 2000(01) 4.Tatusov R L.GalperinMY.Natale D A 查看详情 2000(01) 5.Wang Y.AddessKJ.Geet L 查看详情 2000 相似文献(10条) 1.学位论文 孟文兵 启动子二级数据库的构建及哺乳动物启动子TATA-box的分析 2008 随着人类基因组计划和其它一些模式生物基因组计划初步完成,生物信息学研究重点已从生物数据积累转到生物数据整合处理。由此,生物信息分 析系统的构建及其数据挖掘成为生物信息学领域的研究热点。本研究以NCBI的三个数据库(Genome、RefSeq和Unigene)中的序列数据为基础,通过生物信 息学方法,对基因组序列和全长mRNA序列进行比对,经过较为严格的质量控制和筛选规则,获得了大量高可信度的启动子数据,在此基础上建立了一个 形式简洁、专用性较强的启动子生物信息二级数据库,并以Web形式发布到互联网上。启动子二级数据库的构建为基因组水平上转录调控方面的研究提供 了坚实的数据基础。 近几年来,随着生物数据库增多和一些新实验技术出现,启动子的鉴定得到了较大的改善,使得大尺度上或基因组水平上研究转录调控成为可能。 本研究使用自行构建的启动子数据库中的相关数据,分析了哺乳动物启动子序列TATA-box的数量、位点分布特征以及TATA-box与基因功能之间的关系。 研究结果表明:1.仅有19.20%哺乳动物启动子序列中含有TATA-box,而且TATA-box主要分布在转录起始位点前24~36 bp的区域内;2.含有TATA-box的 基因和不含TATA-box的基因在功能上存在细微的差异,含TATA-box基因可能跟相应刺激和组织器官初期发育有关,而不含TATA-box的基因可能跟基本生 理过程的维持有关。 2.学位论文 张晶 小鼠脑特异表达基因Bsg4的克隆和表达研究及小鼠Cathepsin K启动子的转基因研究 2004 为了克隆小鼠头部发育过程中特异表达的新基因,并对所克隆到的新基因的可能功能进行初步分析,我们采用了消减差异筛选的方法,筛选小鼠头部特 异表达的新基因,并用生物信息学的方法对克隆到的新基进行序列分析和蛋白结构域的预测,以推测其可能的功能.同时,我们还采用了小鼠胚胎整体原位 杂交、小鼠脑部切片的原位杂交以及爪蟾胚胎的整体胚胎原位杂交方法来研究新基因的表达情况.在消减差异筛选法中,我们制备了32p标记的小鼠9.5天 胚胎脑部的cDNA探针作为受检者(Tester),过量的生物素标记的小鼠9.5天胚胎躯干mRNA作为驱动者(Driver).两者之间的消减杂交得到仅在小鼠脑部表达 的32P标记的cDNA探针.此后通过筛选小鼠胚胎的cDNA文库,克隆到一个脑特异基因,我们将之命名为BSG4(Brain Specific Gene 4)基因.我们将消减差异 筛选得到的BSG4的cDNA测序,其长度为3639bp.然后将该基因cDNA序列在NCBI上做blastn的分析,与Genbank中的已知序列进行比较,证实了BSG4为一新基因 .我们向NCBI提交了该序列,其GenBank登录号(GenBankAccession No.)为AY512564.用NCBI上的0RFfinder数据库对BSG4基因的编码框进行预测,得到一个 3639bp长的编码区序列,位于BSG4cDNA的607-4245核苷酸位置.含有起始密码子ATG和终止密码子TAG,是一个完整的编码框.在Mouse Genome数据库中做 BLAST的分析得到BSG4定位在小鼠的第3号染色体上3F1-3F2.1之间,包含26个外显子,25个内含子,它们在基因组上的分布跨度约13kb.在NCBI上blastn的分 析还发现BSG4与人的一个头部发育相关基因KIAA0476具有很高的同源性.Vector NTI Suite 8软件分析两者氨基酸序列的同源性达81.2﹪.说明BSG4可能 是在小鼠中的与人KIAA0476基因同源的,在头部特异表达,与头部发育相关的基因.对BSG4基因结构域的分析显示该基因N末端含有一个DENN结构域,该结构 域包含DENN自身以及一个dDENN结构域.这些结构域提示BSG4基因是一个可能的与Rab家族的GTP酶相互作用或调节MAPK信号通路.并且PSORT预测了该蛋白 定位在细胞膜内的可能性为26.1﹪,内质网中为26.1﹪,细胞核为17.4﹪.以DIG标记的BSG4的全长编码区的RNA为探针,对小鼠胚胎、爪蟾胚的胚胎整体原 位杂交结果显示BSG4主要在头部特异表达.对小鼠脑组织切片的原位杂交结果显示BSG4基因在头部表达的部位只局限在小脑皮层和海马.这提示BSG4与小 脑、海马等的发育有密切关系.对BSG4的研究将有助于我们进一步揭示脑发育的分子机理.为了研究Cathepsin K启动子在小鼠体内的基因调控,我们构建 了包含启动子的载体,运用显微注射的方法将载体导入到小鼠受精卵中.用Southern杂交检测出转基因阳性小鼠. 3.期刊论文 张德礼.李衍达.季梁 用电子克隆新基因C17orf32和ZNF362对NCBI人类基因数据库模式参考序列5种错 误类型的分析与纠正 -遗传学报2004,31(4) 采用生物信息学分析与实验确认相结合的技术路线,通过所识别的基因在非冗余数据库比对发现了网上公布的计算机注释人类基因组编码序列存在各 种类型的多处错误.该策略既有助于发现更多的人类新基因,又有助于纠正美国国家生物技术信息中心(NCBI)基因组注释项目公布的参考序列(REFSEQs)中 所存在的错误.比如他们采用基因预测方法通过自动计算分析从NCBI contig NT_010808预测到两个模式参考序列LOC124919和LOC147007,本该都是 C17orf32,但却都是C17orf32的不同错误形式,分别为第1和2类型错误;再如,他们采用基因预测方法通过自动计算分析从NCBI contig NT_004511预测到 3个模式参考序列LOC14907、LOC200084和LOC91126,实际上都是ZNF362一种基因,却提交了ZNF362的3种不同错误形式,分别为第4、5和7类型错误.本研究 利用计算机识别并结合实验验证能够纠正或避免现有的人类基因组编码序列错误.以前公开发表的文献没有明确指出NCBI人类基因模式参考序列存在错误 ,因此应当慎重看待计算机注释的可能存在各种类型错误的人类基因组编码序列.人类新基因的正确识别和注释仍是一项长期而繁重的任务. 4.学位论文 付佳琪 人类新基因ceg1 cDNA的克隆及表达研究 2004 我们利用生物信息学的方法克隆得到了一个新的人类全长基因,并对克隆到的新基进行序列分析和蛋白结构域的预测,以推测其可能的功能,并采用了 小鼠胚胎、鸡胚整体原位杂交、小鼠脑部切片的原位杂交以及RT-PCR、Northern Blot的实验方法来验证基因的可信性同时研究新基因的表达情况.在电 子克隆的过程中,我们首先下载了日本的RIKEN公布的21,076条小鼠全长cDNAs的序列中名为"motif-containing protein"这一类代表着编码具有一定结构 域蛋白的573条小鼠新基因.我们用同源分析的方法搜寻与这些小鼠基因同源的人类基因,然后将人类候选基因与人类EST比较,确定这个基因是真基因还是 假基因,对于真的人类基因,我们通过把它与非冗余序列库进行比较,淘汰已知功能的人类基因,则得到了13个人类新基因,其中包括新基因ceg1.根据该基 因的序列 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 引物,用RT-PCR的方法验证,同时将RT-PCR产物通过亚克隆插入到载体pCMV-SPORT6的多克隆位点中进行后续的实验研究.我们得到的ceg1的 cDNA测序,其长度为2050bp.然后将该基因cDNA序列在NCBI上做blastn的分析,与Genbank中的已知序列进行比较,证实了ceg1为一新基因.我们向NCBI提交 了该序列,其GenBank登录号为AY606132.用NCBI上的ORFfinder数据库对ceg1基因的编码框进行预测,得到一个1469bp长的编码区序列,位于ceg1 cDNA的 28~1497bp核苷酸位置.含有起始密码子ATG和终止密码子TGA,是一个完整的编码框.在Human Genome数据库中做BLAST的分析得到ceg1定位在人的14号染色 体上的14q13区段.在NCBI上已知功能的蛋白数据库中的比对分析还发现ceg1所编码的蛋白与人的凝血系统及其辅助系统相关的ClqRp基因所表达的蛋白具 有41﹪的同源性,并且二者的结构域及其分布都极其相像,提示他们可能具有相似的功能.对ceg1编码蛋白的结构域的分析显示该蛋白有1个疏水跨膜结构 ,在胞外区有一个EGF-like结构域和一个CLECT结构域.并且疏水性和跨膜结构域分析也显示在399~421氨基酸残基的位置有一个跨膜结构域,同时PSORT预 测了该蛋白定位在细胞膜上的可能性为73.9﹪.这些结构域提示ceg1基因是一个可能的膜上生长因子受体或其配基.以DIG标记的ceg1的全长编码区的 RNA为探针,对小鼠胚胎、鸡胚的胚胎整体原位杂交结果显示ceg1在胚胎的早期主要在头部增殖迅速的部位特异表达,随着胚胎增大该基因丧失了脑特异性 .对小鼠脑组织切片的切片原位杂交结果显示ceg1基因在头部大脑皮层表达.成年小鼠组织的RT-PCR结果显示该基因在各种组织中都有表达,其中在脾脏、 肾脏和心脏中表达量比较高.这提示CEGl与早期脑的发育有密切关系,而在成体中的普遍表达说明该基因可能与维持机体的正常功能有关.Northern结果还 表明ceg1基因在破骨细胞肿瘤细胞系中有表达,提示该基因对肿瘤的发生可能有重要的作用.对ceg1的研究将有助于我们进一步揭示脑发育及相关疾病的 分子机理. 5.学位论文 赵卉 生物信息学筛选的合成小肽抑制VEGF诱导小鼠角膜新生血管实验研究 2007 血管新生,即在预先存在的血管中长出新生毛细血管的过程.它是多种致盲性新生血管性眼病的共同病理生理基础.血管新生严格地受到促血管因子和 抑血管因子平衡的调控.这种平衡的打破,能够促发血管新生的细胞转导信号,引起血管内皮细胞的增生、迁移和存活,从而导致病理性的血管新生.血管内 皮细胞生长因子(vascular endothelial growth factor,vEGF),作为复杂的血管新生瀑布反应的中心介质和强大的通透性因子,是迄今为止唯一被证实仅 对内皮细胞特异性作用的促血管因子,并在血管形成中发挥关键作用. Kringle结构域是一种由约80个氨基酸组成的保守结构,包含三对二硫键,是行使生物学功能的独立折叠单元.现已证实,Kringle结构域存在于包括生 长因子、蛋白酶和凝血因子等多种不同功能的蛋白质,如纤溶酶原中.Kringle结构域被认为是首个特异性抑制血管生长的保守结构的组成部分,许多 Kringle结构域能够抑制血管新生,如纤溶酶原:Kringle 5. 脂蛋白(lipoprotein)是血浆中的脂质与特殊蛋白质结合的球状巨分子复合物,脂蛋白中的蛋白质即载脂蛋白(apolipoprotein).脂蛋白 (a)[Lipoprotein(a),Lp(a)],含有载脂蛋白B100(ApoBlOO)和载脂蛋白(a)[Apo(a)]两类载脂蛋白.在包含Kringle结构域的蛋白质中,载脂蛋白 (a)(apolipoprotein(a),apo(a))包含几个随机重复的与纤溶酶原Kringle 4类似的Kringle区域(Kringle Ⅳ),后面带有一个与纤溶酶原Kringle 5同源的 Kringle Ⅴ结构域以及蛋白酶区域.已有一些研究揭示,apo(a)的这些结构也有类似于纤溶酶原相关Kringle结构域的抗新生血管活性,但apo(a)发挥抗血 管新生活性的关键区域尚未得到清楚的阐明.因此,确定各结构域的抗血管新生活性位点及其潜在机制,对于更深入地认识包含多Kringle结构的血管生成 抑制剂的功能具有重要意义. 出于此目的,我们选择apo(a)中与纤溶酶原K5唯一同源的KV结构域,应用生物信息学手段分析预测其氨基酸序列的结构和生物学特性,筛选出其中的一 个11肽片段YTMNPRKLFDY,人工合成后观察其对VEGF诱导的小鼠角膜新生血管的作用,初步探讨apo(a)抗新生血管活性区域所在,并为进一步开发治疗眼部 新生血管疾病的分子药物奠定基础. 第一部分生物信息学分析筛选小肽 目的:利用生物信息学的方法,对apo(a)KV的氨基酸序列进行分析,预测其抗新生血管的活性氨基酸位点所在. 方法:登陆美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)网站主页(http://www.ncbi.nlm.nih.zov/),进入 NCBI默认的蛋白质数据库NRDB蛋白质序列复合数据库,查询"apolipoprotein(a)kringle V".进入网站中的StandardProtein-Protein BLAST(BLASTp)子程 序,提交查得的apo(a)KV氨基酸序列.打开Lasergene软件包,进入Protean程序,进行抗原性、表面接触性分析和氨基酸组成分析;打开BioEdit软件包,行氨 基酸组成分析和疏水面平均数的计算.综合分析上述结果. 结果:在NRDB蛋白质序列复合数据库中查找得到人apo(a)apo(a)KV(4227-4327)序列如下:DCMF GNGKGYRGKK ATTVTGTPCQEWAAQEPHRH STFIPGTNKW AGLEKNYCRN PDGDINGPWC YTMNPRKLFDYCDIPLCASS SFDCGKPQVE PKKCPGS.BLAST程序分析该序列显示了apo(a)KV与纤溶酶原K5含有85﹪的相同氨基酸残基 ,91﹪的相似氨基酸残基(Expect=le-51).推测apo(a) KV中保守氨基酸分布较集中的区域可能存在抗新生血管活性位点.根据上述同源性比较结果,结合 apo(a)KV空间结构,以二硫键为界,将apo(a)KV分成4个肽段,依次为Pept 1~Pept 4,分别进行生物学特性分析.抗原性分析显示,在apo(a)KV第5-15、50- 60、65-75、90-100氨基酸残基区域出现较大的抗原性波峰,这些区域分别位于Pept 1大部分、Pept 3前段和Pept4全段.在表面接触性分析中,在apo(a) KV第10-15、30-35、65-75、90-95氨基酸残基区域出现表面接触性波峰,对应的区域为Pept 1中段、Pept 2前段和Pept 4全段.疏水性分析显示,Pept 3和 Pept 4各形成一个亲水性谷底.Pept 1-Pept 4中疏水性氨基酸(AILFWV)所占分子量的比重依次为15.33﹪、29.10﹪、24.16﹪和18.00﹪. 结论:在apo(a) KV的各个肽段中,Pept 4含有较大比例的保守残基,且较其他三个肽段有良好的反应特性,包括抗原性、表面接触活性和亲水性等,故 推测Pept 4,即小肽YTMNPRKLFDY,可能与apot(a)KV的抑制活性有关,具有抗新生血管的作用. 第二部分小鼠角膜微囊袋模型的建立 目的:以含有vEGF的缓释颗粒作为直接刺激因子诱导小鼠角膜新生血管,建立小鼠角膜微囊袋非炎症性新生血管模型. 方法:将12﹪PolyHEMA乙醇溶液与含有硫糖铝粉术的生理盐水溶液等体积混合后制成0.35mm×0.35 mm大小的空白缓释颗粒,并在上述颗粒中加入160 ng VEGF,形成含有160ng/粒的VEGF缓释颗粒.无菌条件下,在实验眼角膜基质层间行钝性分离,将VEGF缓释颗粒和空白缓释颗粒分别植入小袋内.术后每天 观察实验眼至角膜新生血管出现后,改为隔日观察,测定角膜最大新生血管长度、新生血管钟点数和新生血管面积,并行小鼠角膜病理组织学检查. 结果:移植有VEGF缓释颗粒的小鼠角膜,术后24h内手术部位的角膜上皮趋于愈合,角膜基质轻到中度水肿.术后3d,角巩缘的血管轻度扩张,开始向移植 有VEGF缓释颗粒的透明角膜生长,未见渗出等炎症表现.术后5-7d,角膜新生血管逐渐朝向缓释颗粒生长旺盛,血管迂曲扩张,于术后7d达到高峰.术后8d开 始,角膜新生血管不再继续生长,开始退化,新生血管丛变稀疏,管腔变细、萎缩,颜色变浅.移植有空白缓释颗粒的小鼠角膜,术后24h内手术部位的角膜上 皮趋于愈合,角膜基质轻到中度水肿.术后3d,角膜水肿基本消退,未见渗出等炎症表现,角巩缘血管未见明显改变.术后观察2w,均未见新生血管生成. 结论:本实验所采用的小鼠角膜微囊袋模型,其新生血管直接由VEGF诱导,排除了炎症反应的干扰,这对于特定的新生血管抑制剂的疗效 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 具有重要 的意义,同时便于定量分析,稳定性和重复性好. 第三部分合成小肽对VEGF诱导小鼠角膜新生血管作用研究 目的:将生物信息学筛选的小肽人工合成后,应用小鼠角膜微囊袋模型,评价其对VEGF诱导小鼠角膜新生血管的作用. 方法:采用12通道多肽合成仪按照小肽的氨基酸序列编辑程序固相合成小肽,并行高效液相色谱纯化.将12﹪PolyHEMA乙醇溶液与含有硫糖铝粉木的生 理盐水溶液等体积混合后制成0.35mm×0.35 mm大小的空白缓释颗粒,并在上述颗粒中加入160 ng VEGF和不同剂量的小肽(0μg,0.5μg,1 μg和1.5 μg),及仅加入1μg小肽.每只实验小鼠均以右眼为实验眼,按照随机数字表法,将50只眼随机分成5组,每组lO只眼.无菌条件下,在实验眼角膜基质层间行 钝性分离,形成-0.5 mm×0.5 mm小袋,分别植入包含160 ng VEGF与0μg、0.5μg、1.0μg和1.5μg小肽的缓释颗粒,依次作为对照组、A组、B组和C组,植 入1μg小肽的缓释颗粒作为D组.术后7 d摄片观察测定角膜最大新生血管长度、新生血管钟点数和新生血管面积,小鼠角膜病理组织学检查. 结果:YTMN:PRKLFDY,是一个包含11个氨基酸残基的小肽,由于其分子量较小,因而可通过固相合成获得,并进行HPLC纯化,冻干获得纯度大于95﹪的白 色粉术,水溶性好.对照组角膜新生血管自角巩缘朝向缓释颗粒生长浓密,迂曲扩张.A组角膜新生血管生长旺盛,与对照组比较,在最长血管长度、钟点数和 面积上差异均无统计学意义(P>0.05).B组角膜可见短小稀疏的新生血管自角巩缘生长,管径较细,与对照组比较,在最长血管长度、钟点数和面积上差异均 有统计学意义(JF)<0.01).C组角膜自角巩缘处未见明显粗大的新生血管长成,与对照组比较,在最长血管长度、钟点数和面积上差异有统计学意义 (P<0.01),与B组比较,在上述3个指标上差异无统计学意义(P>0.05).术后观察2w,D组小鼠角巩缘血管未见明显改变,均未见新生血管生成. 结论:小肽,YTMNPRKLFDY,在一定剂量时对VEGF诱导的小鼠角膜新生血管有明显抑制作用,该氨基酸序列可能位于apo(a)KV抗新生血管的活性位点内. 6.期刊论文 张德礼.季梁.李衍达 通过新基因计算机识别与实验确认对NCBI人类基因数据库一些模式参考序列错误 的分析与纠正 -遗传学报2004,31(5) 采用生物信息学分析与实验确认相结合的技术路线,通过所识别的基因在非冗余数据库比对发现了网上公布的计算机注释人类基因组编码序列存在各 种类型的多处错误,包括cDNA水平的一个或一段碱基插入、缺失或突变,或是这些错误的不同排列组合,其中以错误插入为多,往往导致编码氨基酸的移码 突变.最先举证了NCBIGEN0ME Annotation Project预测人类新基因的下列错误类型:(1)开放读码框架(0RF)中错误插入一个碱基造成编码氨基酸移码 ;(2)错误拼接;(3)开放读框中错误插入一个或一段碱基造成该读框提前终止.只编码N-端氨基酸的cDNA序列而不完整;(4)只有编码C-端氨基酸序列的 cDNA而不完整;(5)只是正确基因ORF中间的一段编码蛋白cDNA序列而不完整,缺N-端与C-端氨基酸序列,并且将不完整蛋白氨基酸序列的第一个非起始码氨 基酸错误地预测为起始码氨基酸,如将L错误地预测为M;(6)开放读框中错误插入一个或一段碱基造成前面出现不该有的终止码,因而编码蛋白缺开头部分 氨基酸;(7)可能将污染基因组序列当作完整基因cDNA序列对待而预测出所谓单一外显子基因.即便真是基因,也只是较长单一外显子mRNA中有一小ORF,而 ORF起始码上游同一相位确实存在终止码,无其他特点符合基因条件;(8)所预测基因只有ORF,而ORF两端没有任何EST证据,可据此ORF拼接出受EST和人类基 因组双重支持的完整基因cDNA(开放读框上游同一相位有终止码),预示所预测ORF参考序列可能不正确;(9)有EST实验证据支持存在基因的人类基因组序列 范围内又被预测出一条相似但更小的蛋白编码基因,因而新预测基因有可能是错误的. 7.学位论文 刘丹 鸡端粒酶催化亚基活性中心的克隆与生物信息学分析 2007 端粒酶(Telomerase)是真核细胞中的一种核糖核蛋白复合体,由端粒酶RNA组分(Telomerase RNA,TR)和端粒酶催化亚基(Telomerase Reverse Transcriptase,TERT)组成,是一种特殊的DNA聚合酶,具有延伸DNA末端的功能,能够维持端粒的长度和功能,TR为端粒的合成提供模板,TERT具有反 转录酶活性。在大多数体细胞和原代细胞中,无端粒酶活性或活性很低,但在肿瘤细胞中,端粒酶活性却被激活,这是维持细胞分裂及克服端粒序列不 断丢失所必须的。本研究对鸡端粒酶(chicken TERT,chTERT)活性中心进行预测定位、克隆测序以及生物信息学分析,拟在探讨MD肿瘤发生与端粒及端 粒酶的关系,从而为病毒性肿瘤发生的机制提供实验依据。 通过chTERT全序列与人hTERT(human TERT,hTERT)活性中心序列的序列比对和同源性分析,结果表明,鸡原肠胚期细胞(Gastrula Stage Cell,GSC)chTERT保守区序列位于chTERT序列全长的2013bp-3825bp处,全长1813bp,chTERT序列包括反转录基序1、2、A、B、C、D、E;chTERT活性中 心区域位于保守区2301bp-3825bp,全长1525bp。采用RT-PCR技术,分别对GSC和鸡马立克氏病淋巴样瘤细胞系MDCC-MSB1(Marek’s Disease Virus Trarlsformed Chickerl Lymphoblastoid Cells-MSB1 line)chTERT保守区序列进行了克隆与序列分析。结果表明,GSC的chTERT包括活性中心的保守区 序列,全长1813bp(NCBI收录号EF552224);MDCC-MSB1的chTERT包括活性中心的保守区序列,全长1543bp(NCBI收录号EF552225),但在MDCC-MSBl的 chTERT保守区序列中与GSC的chTERT保守区序列比对,出现两部分的缺失现象,缺失A位置位于保守区全长1813bp的612bp-791bp,长度180bp;缺失B位置 位于1053bp-1134bp,长度82bp。 根据获得的鸡端粒酶催化亚基保守区序列的信息,利用生物信息学方法,应用ExPASy与NCBI等系统中的生物信息学分析工具,对鸡端粒酶催化亚基 保守区进行生物信息学分析。分析和预测结果获得如下目的基因的氨基酸序列及其各项理化参数,包括分子量、等电点、氨基酸组成及电荷分布等。二 级结构如α螺旋、β折叠、β转角、无规则卷曲等结构预测结果显示,各结构单元在氨基酸序列中的分布,这些结果对chTERT活性中心的结构与生物学 功能的研究提供参考。 利用多重序列比对工具,对chTERT与不同物种的来源的动物TERT进行了同源性分析,结果显示它们之间核苷酸的同源性不高,但氨基酸序列间的比 对结果显示有较高的同源性,在酶的活性中心部位,氨基酸序列有相似反转录酶(Reverse Transcriptase,RT)基序,存在着保守序列。利用BLAST比对 工具,对克隆片段的缺失部分进行了生物信息学分析,结果显示缺失导致了TERT反转录基序的不完整,缺失A恰好在motif2和motif A的位置上各占有一 部分,缺失B位于motif A和motif B之间。在MDCC-MSB1的chTERT保守区1282bp处有一个碱基缺失,可能会导致移码突变,在1697bp和327bp处出现 SNP,由于此变化可能会导致结构与功能的变化,因此,与RT motif相关的功能可能会受到严重的影响,进而影响了端粒酶的活性。 8.学位论文 杨发达 人PRL-3基因启动子的生物信息学分析及初步研究 2007 大肠癌是一种常见、严重威胁人类生命健康的恶性肿瘤。近年来,随着国民经济的发展,人民生活水平的改善,尤其是膳食结构的改变,大肠癌的 发病率与死亡率有逐年上升的趋势。转移是导致大肠癌患者死亡的主要原因。临床上有一半以上的大肠癌患者在行根治性手术前已出现了微转移,它是 大肠癌术后转移和复发的直接原因。因此,阐明大肠癌转移的分子机制是大肠癌研究的重要内容。 PRL-3是现已发现与大肠癌转移相关的少数特异性表达分子之一。应用基因表达系列分析技术分析大肠癌肝转移基因表达谱时发现,PRL-3是在18例 大肠癌肝转移标本中唯一持续高表达的基因。进一步发现,无论具体转移的部位如何,大多数大肠癌的转移标本中PRL-3的转录水平均明显增加;而该基 因在正常大肠上皮或者非转移性原发大肠癌中极少表达或不表达。不同的研究组已经分别证实这一结果。因而,PRL-3成为大肠癌转移研究中的“魅力 ”基因,可作为大肠癌转移治疗的重要靶点。 PRL-3又称为PTP4A3,位于人类第八号染色体上(8q24.3),从其基因组的结构看,其邻近区域存在如PTK2、GPR20及TSSK5P1等基因。PRL-3基因由5个 外显子和4个内含子构成,其5’端和3’端均存在非翻译区域(UTR,untranslatedregions),UTR的存在可能与PRL-3基因的调控有关。PRL-3与肿瘤转移 的关系已明确。到目前为止,仍存在许多待阐明的重要问题。PRL-3参与的信号通路至今尚不清楚;作为一种磷酸酶,其底物至今尚不确定;尤其重要的 是调控PRL-3基因表达的机制尚不清楚。阐明PRL-3基因表达调控的机制是阐明PRL-3在肿瘤转移中作用的重要基础。 研究方法: (1)运用生物信息学方法分析和预测PRL-3基因的启动子区域及其在该区域转录因子的结合位点。从美国国立生物技术中心数据库 (NCBI,http://www.ncbi.nlm.nih.gov/mapview)获得人PRL-3基因及其上游5kb DNA序列。应用在线数据库预测PRL-3基因的转录起始位点 Transcriptional RegulatoryElement Database(http://mlai.cshl.edu/cgj-bin/TRED),并获取转录起始位点上游700bp与下游300bp的DNA片段。将 获得的DNA片段在NCBI上进行比对,确定相关DNA序列在基因组的位置及与PRL-3基因转录本的关系。对获得的启动子区域DNA片段潜在的转录因子结合位 点进行预测。 (2)将PRL-3基因启动子区域即PRL-3基因转录起始位点-699 bp至299 bp区域及含有Snail结合位点核心寡核苷酸序列CACCTG的-642 bp至-383 bp区域 克隆至具有荧光素酶报告基因的pGL3-Basiei载体,然后转染到人大肠癌细胞系SW480及SW620、人鼻咽癌细胞系CNE2及人胚肾上皮细胞株293A细胞,检测 其启动子活性。 (3)运用染色质免疫沉淀技术与PCR扩增相结合及凝胶迁移阻滞实验确定PRL-3基因的启动子区域是否存在Snail的结合位点。 (4)为了进一步研究Snail与大肠癌的关系,我们以大肠癌细胞株SW480、SW620为研究对象,运用免疫细胞化学及免疫荧光细胞化学技术分析 Snail在细胞内的表达情况。同时以大肠癌组织及相应癌旁粘膜、腺瘤为研究对象,运用免疫组织化学技术分析Snail在这些组织中的表达情况。 主要结果: (1)应用TRED在线分析系统对人PRL-3基因的启动子区域进行预测,共获得三种可能的启动子区域;与含PRL-3基因的基因组序列进行比对,我们发现 它们均位于PRL-3基因上游区域。一般认为基因的启动子区域位于该基因上游约3-5kb的区域,特别是该基因上游1kb左右的区域。由于其中第3号启动子 序列距离人PRL-3基因距离最近,位于该基因上游约1kb的DNA区域,与5’端非翻译区域邻接。为确定这一区域可能存在的转录调控元件,进一步我们应 用在线Consite分析系统发现,在该区域存在多个转录因子如Snail、n-MYC、AdLNT、E74A、NF-kappaB、NRF-2及AML-1等的结合位点。在该区域的- 500bp至-451 bp之间存在Snail结合的核心寡核苷酸序列CACCTG,另外在其它多个区域存在类似这一核心序列的DNA序列。 (2)为证实这一区域具有调控基因转录的启动子活性,以人大肠癌细胞株SW480、SW620,中国人鼻咽癌细胞株CNE2,人胚肾上皮细胞株293A为研究对 象,选取了较完整的序列(-699 bp~299 bp区域)以及其中含有Snail
本文档为【NCBI的数据库资源及其应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_575873
暂无简介~
格式:pdf
大小:495KB
软件:PDF阅读器
页数:8
分类:
上传时间:2012-03-04
浏览量:99