首页 RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)

RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)

举报
开通vip

RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)RepeatMasker网页版和命令行版使用说明(中文翻译版)引用自Tarailo-GraovacM,ChenN.UsingRepeatMaskertoidentifyrepetitiveelementsingenomicsequences.CurrProtocBioinformatics.2009Mar;Chapter4:Unit4.10.doi:10.1002/0471250953.bi0410s25.RepeatMasker是一款广泛应用于基因鉴定、分类和maskrepetitiveelements,包括低复...

RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)
RepeatMasker网页版和命令行版使用说明(中文翻译版)引用自Tarailo-GraovacM,ChenN.UsingRepeatMaskertoidentifyrepetitiveelementsingenomicsequences.CurrProtocBioinformatics.2009Mar;Chapter4:Unit4.10.doi:10.1002/0471250953.bi0410s25.RepeatMasker是一款广泛应用于基因鉴定、分类和maskrepetitiveelements,包括低复杂度序列和散布重复序列。RepeatMasker通过将数据库如:Repbase中已知的重复序列与输入的基因组序列比对来搜素重复序列。在此我们描述两个基础 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 ,它对如何运用RepeatMasker去 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 基因组序列的重复元件提供细节上的指导,而不论是通过网络界面还是通过Unix/Linux命令系统。在RepeatMasker中的序列比较通常经过cross-match程序的序列比对来实现,对于较大序列这一过程需要大量处理时间。交替协议描述的是通过应用诸如WU-BLAST这样的选择性比对程序来怎样减少处理时间。而且RepeatMasker的优势、局限和已被发现的漏洞将在此进行讨论,最后提供理解其处理结果的 指南 验证指南下载验证指南下载验证指南下载星度指南下载审查指南PDF 。在新的RepeatMasker程序包中添加了鉴定蛋白质序列的重复原件的程序。要运行RepeatMasker,首先要选择重复库文件(repeatlibraryfiles),这一文件包含重复元件共有序列。目前,RepbaseUpdate是最大的商业性(商购)重复库(freeforacademicuse)并且包含了相当数量的包括人、啮齿动物、斑马鱼、果蝇以及拟南芥在内的生物体。生物体的库文件中没有RepbaseUpdate时,库文件会用RECON(BaoandEddy,2002;)或RepeatScout(;Priceetal.,2005)从头产生。最新版本的RECONv.1.06已经发布并且可以从中获得RepeatModeler程序包。RepeatMasker的序列比较常通过PhilGreen改进的cross-match(#howToGet)来实现,另外也可以为了快速程序来用WU-BLAST(;seeAlternateProtocol)来代替cross-match。一、通过网络界面运用RepeatMaskerRepeatMasker可通过来获得,它不像命令行版本的RepeatMasker,网络版RepeatMasker的核苷酸序列长度限制在100kb,不能分析长度超过100kb的序列(提示会在窗口中显示)。短于100kb的序列可以用网络版RepeatMasker来分析,其花费的时间与序列的长度相关。对于北美以外的快速服务有在德国、以色列和澳大利亚的RepeatMasker镜像网站。另外,如果常规分析大片段序列,最好是下载并本地运行命令行版本。重要的是,如果需分析的序列超过100kb,唯一的选择就是下载RepeatMasker并在本地运行。必需资源硬件:任意一台联网的计算机。软件:浏览器如IE或火狐浏览器文件:FASTA文件或能通过网络界面处理的收集的FASTA文件。1. 点击网页浏览器,进入通过序列名或浏览文件下载FASTA序列文件(最大100kb),或者粘贴FASTA序列(最大100kb)到指定的文本框。如果输入的序列包含非DNA符号或者序列太长,RepeatMasker会提示错误信息。2. 从单选框下的“returnformat”来选择结果的格式:“html”或“tarfile”。如果选择“html”,那么结果会以一个超文本标记语言(html.)文件输出。如果选择“tarfile”,那么结果会打包为用Unix系统“tar”协议的文档。3. 从“returnmethod”下两个单选按钮选择会送结果的方法,即:“html”或“email”。如果选择这一步和上述第2步都选择“html”,那么所有的结果会通过窗口显示,如果过这步选择“html”,而第2步却选择“tarfile”,那么结果会在窗口内提供链接。如果选择“email”,那么需要填写电子邮件地址,以确保结果可以通过电子邮件发送。这里以“html”为例。4. 目前,可以选择点击提交序列的按钮来运行RepeatMasker,同时可选择其他选项来设置默认值。如果系统默认值不能满足需要,可继续第5到8步并按第9步提交序列。设置其他选项设置默认值后点击提交序列,结果会在窗口中展示,如图4.10.2,4.10.3,4.10.4和4.10.5.为理解结果的细节可以看参考。5. 通过点击Speed/Senitivity下的四个单选按钮来调整速度:“rrush”,“quick”,“default”,或“slow”。注意速度和敏感度相关。比如选择“default”,为了便于理解结果可以看参考。6. 在下拉菜单中选择“DNAsource”的次选项,每一项等同于不同的重复原件库。比如这里的例子,其默认值是人,选择人是因为其序列来自于人类的基因组。注意如果待测序列所来自的生物体在菜单中没有,那么就必须本地运行命令行版本的RepeatMasker了,而且需要选用来自Rebase中的合适的副本文件。如果Rebase中不含合适的副本文件,那么RECON(BaoandEddy,2002;Steinetal.,2003)或RepeatScout(;Priceetal.,2005)会从头建立重复文件。7. 在下拉菜单的一系列功能中,单选按钮和LineageAnnotationOptions下的检查框(checkboxes)来选择合适的选择项。这些选项不需要说明,比如选择ComparisonSpecies,与所选物种相关的世系特异性重复就会通过RepeatMasker输出。8. 在高级选项(AdvanceOption)的下拉菜单中,选择合适的选项。这些选项同样简单明了。比如,如果想在MaskingOption的两个选项间选择,则要么选择模糊特性,诸如“N”或“X”此类的隐藏,要么选择小写字母,这更适合于序列比对。这些细节解释和附加选项可通过右边的下拉菜单中获得。9. 点击提交序列按钮运行RepeatMasker。二、在Unix/Linux下运行RepeatMaker命令行版本的RepeatMasker为使用者提供了更多的选择,并且没有最大100kb的长度限制。要本地运行RepeatMasker需要获得RepeatMasker、cross_match和来自RepbaseUpdate的相应的重复元件库,下文有详细描述。这也是对于RepeatMasker运行快速程序WU-BLAST所必须的(参见可选项目)。注意:对于不熟悉Unix的研究者请参见附录1C和附录1D。必须资源:硬件:任意链接网络的Unix或Linux计算机软件:RepeatMasker:现在软件为开源版本V.2.1,可从下载。Cross_match:软件为Phred/Phrap/Consed软件安装包的一部分,同时也是对学术研究者免费的(#howToGet;alsoseeUNIT11.2)。为PhilGreen所写(****************.edu)包括以下信息:(a)姓名;(b)同意网站上描述的授权条件(描述Cross_match要求);(c)研究机构或部门;(d)以后联系用得e-mail地址(e-mail的获得需通过Unix电脑运行通用mail程序,因为许多程序发送的是非编码文件,而这是与一些mail程序相冲突的)。需要注意的是获得许可需要花费大约两周的时间。RepbaseUpdate:这一数据库(;Jurka,2001)包含大量可选择的重复元件库,这些是运行RepeatMasker所需的。这些库对于学术研究者是免费下载的,对于需求者需要填写在线表格以说明要获得的数据库文件()。而商业性质的使用者需要联系JolantaWalichiewicz(****************)。此外,如果要研究的基因组在RepbaseUpdate中没有合适的重复库时就需要利用RECON(BaoandEddy,2002)或RepeatScout(;Priceetal.,2005)来进行处理。Steinetal.(2003)使用RECON建立了线虫C.elegans和C.briggsae的重复库。RECON可以从RepeatMasker安装包中获得,有效的可用下载地址是:,另外RepeatMasker利用RepeatScout软件从新的基因组序列中标注重复家族的序列。文件:某一FASTA文件(附件1B)或者一批FASTA文件可以通过命令行版RepeatMasker处理,注意在这里没有文件大小的限制。例子中使用的是Caenorhabditiselegans的基因组全序列,有102,287,094bp长,下载自WormBase()FTP站点(ftp://ftp.wormbase.org/pub/wormbase/genomes/elegans/sequences/dna/)。系统准备1、下载并安装RepeatMasker、TandemRepeatFinder(TRF)、cross_match、WU-BLAST和Repbase库文件。RepeatMasker为Perl文件,可以安装在任一所需根目录下。Cross_match会通过e-mail方式由作者发送给符合条件的申请者。RepbaseUpdate将给予使用者名字和密码以便下载重复数据库文件。在实例中,建立一个文件,将其命名为repeat并置于home根目录下,然后复制RepeatMasker、TRF和cross_match到这一目录下。实例命令如下:$mkdirrepeat$cdrepeat2、更改程序许可。命令:$chmoduxRepeatMasker$chmoduxcrossmatch$ln-strf321.linux.exetrf3、通过配置脚本设置路径首先,找到Perl的安装路径:$whichperl默认为:/usr/bin/perl然后更改到repeat文件目录和RepeatMasker的目录,获得现在路径的命令是:usernameRepeatMasker $pwd默认路径是:/home/username/repeat/RepeatMasker接下来按照同样的方法获得TRF和cross_match的路径。用下列命令安装程序:$cdRepeatMasker$perl./configure输入所需路径,如实例中,键入Perl解释器的路径:Enterpath:/usr/bin/perl键入RepeatMasker程序的本地安装路径:Enterpath:/home/username/repeat/RepeatMasker键入TRF的安装路径:Enterpath:/home/username/repeat键入cross_match的安装路径:Enterpath:/home/username/repeat/crossmatch4、将repeat文件置于正确的目录中(即,RepeatMasker的目录)。确保Libraries的次级目录在RepeatMasker的目录下并包含RepeatMasker.lib和RepeatMaskerLib.embl文件。5、为输入和输出创建新目录。注意要将RepeatMasker的输出文件和输入文件置于同一目录下。命令如:$mkdirRepeatMaskerfile$cdRepeatMaskerfileRepeatMaskerfile$下载或复制包含C.elegans基因组序列的FASTA文件(如:current.dna.fa.gz)并解压。$gunzipcurrent.dna.fa.gz6、调出命令行参数和选项的简介,方法是在命令行键入RepeatMasker,如:$../RepeatMasker/RepeatMasker将会显示以下 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 :SYNOPSISRepeatMasker[-options]...defaultsettingsareformaskingalltypeofrepeatsinaprimatesequence....Choosefromanumberofoptions:-qQuicksearch;5-10%lesssensitive,2-5timesfasterthandefault-nolowDonotmasklowcomplexityDNAorsimplerepeats-div[number]MaskonlythoserepeatsSpecifythespeciesorcladeoftheinputsequence(chooseonlyone!)...contaminationoptions...runningoptions...outputoptions...获得详细的帮助可键入:$../RepeatMasker/RepeatMasker–h运行RepeatMasker7、在本地运行命令行版RepeatMasker:%/path/to/RepeatMasker-elcurrent.dna.fa如:运行命令$../RepeatMasker/RepeatMasker-specieseleganscurrent.dna.fa因为例子中的序列来自于C.elegans,使用-specieselegans命令以保证调用C.elegansRepbase重复元件数据库文件。结果文件将写在RepeatMasker_file的目录中,在这一目录中调用的序列文件也在这里。如例中结果文件包括:current.dna.fa.maskedcurrent.dna.fa.logcurrent.dna.fa.dna.catcurrent.dna.fa.dna.outcurrent.dna.fa.dna.tbl这些文件的解释参见后面输出结果文件的导读部分。8、RepeatMasker为使用者提供了大量的选择以满足不同需要。在这里仅对常用的选择进行介绍,更多的细节参见repeatmasker.help,这些也包含在RepeatMasker安装包中。注意当命令众多时,这些选择项命令的先后顺序并不重要。a.speciesoptions和-lib标志允许使用者为特定文库指定相应的物种。RepeatMasker为许多生物提供通用名,比如-cat或-dog,但不是所有的生物都有通用名。鉴于此,特别推荐拉丁名作为物种的命名。使用者也可提供重复文库文件,特别是当文库文件不是来自于Repbase时,RepeatMasker使用-lib标记。重复文库的默认值是首要的选择。为RepeatMasker建立个人的重复数据库,repeatmasker.help推荐使用ID格式。如>repeatname#class/subclass或者是简略格式:>repeatname#classb.掩码选项是确定哪一种重复需要掩蔽。通常的选择项包括:-cutoff、-nolow和-div。-cutoff选项是设定调用-lib时掩蔽重复序列的水平值,默认的值是225.低于该值将出现更多的错误匹配。-nolow是提示RepeatMasker不要掩蔽低复杂度的DNA或简单重复序列。-div是用来设定离散度以限制掩码并对较小离散的(新生成的)重复序列子集进行注释。c.有一些选项用来控制进程速度和搜索参数。影响进程速度的选项有:-q 快速检索;低于默认5%到10%敏感度,默认速度的3倍到4倍。-qq急速检索;低于默认10%的敏感度。-s 慢速减速;高于默认0%到5%的敏感度;默认速度的-2.5倍。这些标记在输入长序列时会产生显著差异。如果只需要快速检索,-qq会快速产生结果,与之对应的是结果的质量要求较高时,应使用默认(即不需要输入任何选项)或者是-s选项命令。使用-pa(prallel)时可以引入更多的计算机来进行RepeatMasker运算,这种情况常用于输入的文件很多或查询文件很大(>50kb)时。-w(ublast)是用WU-BLAST替代cross_match(参见选择项目)。d.输出选项支持以下频繁使用的命令格式(其他的可通过repeatmasker.help获得):-a   在.align的输出文件中展示比对情况。-small .maked文件中的序列全部转换成小写字母。-xsmall 将重复区间转换成小写字母(其余的大写)。-x   用X字母来掩蔽重复区域-gff  创建附加的GeneralFeatureFinding输出格式。注意,-cut选项是不支持现行版本的RepeatMasker的,要获得该功能 函数 excel方差函数excelsd函数已知函数     2 f x m x mx m      2 1 4 2拉格朗日函数pdf函数公式下载 可以联系RobertHubley(**************************)。运行RepeatMasker的WU-BLAST如果通过RepeatMasker计算更大序列(比如智人的全基因组序列)时,进程时间将会显著延长。而用WU-BLAST来取代cross-match时,进程时间会节省近30倍(Bedelletal.,2000)。尽管含有WU-BLAST的RepeatMasker更节省时间,但是其整合依然有些限制:(1)低复杂度的重复序列的掩蔽并不是像cross-match一样的效率;(2)不支持一些输出格式;(3)对其运算结果的精确度缺少评估。注意:对于不熟悉Unix运行环境的需要学习附录1c和1D。必须资源硬件:Unix或Linux站点软件:RepeatMasker(参见BasicProtocol2)WU-BLAST2.0:联系********************l.eduRepbaseUpdaterepeatlibraries(参见BasicProtocol2)文件:FASTA文件或FASTA文件集(附录1B)。对于整合有WU-BLAST的RepeatMasker命令行版本对文件的运算没有大小限制。本示例中引用的是下载自数据库WormBase()FTP站点(ftp://ftp.woembase.org/pub/wormbase/genomes/elegans/sequences/dna/)C.elegans的全基因组序列,其长度为102,278,094bp。1、下载并安装RepeatMasker、WU-BLAST和Repeat文库文件。注意直到2004年6月MaskerAid(Bedelletal.,2000)是RepeatMasker运算WU-BLAST所必须的。现在这些功能被应用到程序中而不需要再进行整合。鉴于此,建立一Repeat目录,然后将RepeatMasker/目录复制到该目录下。完成这些操作需要利用mkdir更改根目录并创建一新的repeat目录。利用cd锁定当前路径为repeat,如下操作:mkdirrepeatcdrepeat复制RepeatMasker/到这一目录下,复制WU-BLAST软件包到这一目录下并解压$gunzip-WUBLAST|tarxvf-wublast/解压后的存放目录在wu-blast/目录下的程序如blastp和blastx在解压后均可执行操作。2、更改程序权限和路径。$chmoduxRepeatMasker$chmoduxwu-blast3、通过运行配置脚本设定正确路径,参见BasicProtocol2.加入WU-BLAST搜索引擎,键入:Enterpath:/home/mta57/repeat/wu-blast4、为输入文件和输出文件创建新的目录。RepeatMasker的输出文件和输入文件必须要在同一个目录写,如:$mkdirRepeatMaskerfile$cdRepeatMaskerfile/[当前目录]$接下来下载或复制C.elegans的全基因组序列的FASTA文件(current.dna.fa.gz)到相应的目录中并解压。$gunzipcurrent.dna.fa.gz5、用-W(ublast)标签来运行程序,如:$../RepeatMasker/RepeatMasker-w-specieseleganscurrent.dna.fa这里的-w标签是用以指示WU-BLAST为使用的匹配引擎;-specieselegans是用以指示使用C.elegansRepbase文库文件,因为运算的序列是C.elegans。注意包含多个词的物种名需要用””(如:”Caenorhabditiselegans”)。除了用于指示WU-BLAST的-w选项命令外,其他的命令参数和选项与BasicProtocol2类似。运算结果指导说明RepeatMasker的运算结果会被写成5个不同的文件,这些文件与查询序列或序列集同在一个目录下。其中,三个.out、.masked和.tbl扩展名的文件含有运算结果;其他的文件是储存运算进程信息的,所以在此不再详述。如果RepeatMasker是通过网络界面运算的,那么这三的文件会写成页面文件。参见列表:.out扩展名的文件Column      ContentSWscore    Smith-WatermanscoreofthematchPercdiv.     PercentsubstitutionsinmatchingregioncomparedtotheconsensusPercdel.     Percentofbasesoppositeagapinthequerysequence(deletedbp)Percins.     Percentofbasesoppositeagapintherepeatconsensus(insertedbp)Querysequence  NameofquerysequencePositioninqueryBegin       StartingpositionofmatchinquerysequenceEnd        Endpositionofmatchinquerysequence(Left)       NumberofbasesinquerysequencepasttheendpositionofthecurrentmatchColumn      ContentMatchingrepeatRepeat      NameofrepeatClass/family    TheclassoftherepeatPositioninrepeataBegin       StartingpositionofmatchinrepeatconsensussequenceEnd        Endpositionofmatchinrepeatconsensussequence(Left)       NumberofbasesinrepeatconsensussequencepasttheendofthecurrentmatchID        RepeatidentificationnumberaNotethatiftherepeatconsensusmatchesthepositivestrand,thethreesubcolumnsarebegin,end,and(left);otherwise,thethreesubcolumnsare(left),end,andbegin.
本文档为【RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_751406
暂无简介~
格式:doc
大小:40KB
软件:Word
页数:25
分类:
上传时间:2022-08-01
浏览量:0