首页 RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)

RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)

RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)RepeatMasker网页版和命令行版使用说明（中文翻译版）引用自Tarailo-GraovacM,ChenN.UsingRepeatMaskertoidentifyrepetitiveelementsingenomicsequences.CurrProtocBioinformatics.2009Mar;Chapter4:Unit4.10.doi:10.1002/0471250953.bi0410s25.RepeatMasker是一款广泛应用于基因鉴定、分类和maskrepetitiveelements,包括低复...

RepeatMasker网页版和命令行版使用说明（中文翻译版）引用自Tarailo-GraovacM,ChenN.UsingRepeatMaskertoidentifyrepetitiveelementsingenomicsequences.CurrProtocBioinformatics.2009Mar;Chapter4:Unit4.10.doi:10.1002/0471250953.bi0410s25.RepeatMasker是一款广泛应用于基因鉴定、分类和maskrepetitiveelements,包括低复杂度序列和散布重复序列。RepeatMasker通过将数据库如：Repbase中已知的重复序列与输入的基因组序列比对来搜素重复序列。在此我们描述两个基础协议，它对如何运用RepeatMasker去分析基因组序列的重复元件提供细节上的指导，而不论是通过网络界面还是通过Unix/Linux命令系统。在RepeatMasker中的序列比较通常经过cross-match程序的序列比对来实现，对于较大序列这一过程需要大量处理时间。交替协议描述的是通过应用诸如WU-BLAST这样的选择性比对程序来怎样减少处理时间。而且RepeatMasker的优势、局限和已被发现的漏洞将在此进行讨论，最后提供理解其处理结果的指南。在新的RepeatMasker程序包中添加了鉴定蛋白质序列的重复原件的程序。要运行RepeatMasker，首先要选择重复库文件（repeatlibraryfiles）,这一文件包含重复元件共有序列。目前，RepbaseUpdate是最大的商业性（商购）重复库（freeforacademicuse）并且包含了相当数量的包括人、啮齿动物、斑马鱼、果蝇以及拟南芥在内的生物体。生物体的库文件中没有RepbaseUpdate时，库文件会用RECON（BaoandEddy,2002;)或RepeatScout(;Priceetal.,2005)从头产生。最新版本的RECONv.1.06已经发布并且可以从中获得RepeatModeler程序包。RepeatMasker的序列比较常通过PhilGreen改进的cross-match(#howToGet)来实现，另外也可以为了快速程序来用WU-BLAST(;seeAlternateProtocol)来代替cross-match。一、通过网络界面运用RepeatMaskerRepeatMasker可通过来获得，它不像命令行版本的RepeatMasker，网络版RepeatMasker的核苷酸序列长度限制在100kb，不能分析长度超过100kb的序列（提示会在窗口中显示）。短于100kb的序列可以用网络版RepeatMasker来分析，其花费的时间与序列的长度相关。对于北美以外的快速服务有在德国、以色列和澳大利亚的RepeatMasker镜像网站。另外，如果常规分析大片段序列，最好是下载并本地运行命令行版本。重要的是，如果需分析的序列超过100kb，唯一的选择就是下载RepeatMasker并在本地运行。必需资源硬件：任意一台联网的计算机。软件：浏览器如IE或火狐浏览器文件：FASTA文件或能通过网络界面处理的收集的FASTA文件。1. 点击网页浏览器，进入通过序列名或浏览文件下载FASTA序列文件（最大100kb），或者粘贴FASTA序列（最大100kb）到指定的文本框。如果输入的序列包含非DNA符号或者序列太长，RepeatMasker会提示错误信息。2. 从单选框下的“returnformat”来选择结果的格式：“html”或“tarfile”。如果选择“html”，那么结果会以一个超文本标记语言（html.）文件输出。如果选择“tarfile”，那么结果会打包为用Unix系统“tar”协议的文档。3. 从“returnmethod”下两个单选按钮选择会送结果的方法，即：“html”或“email”。如果选择这一步和上述第2步都选择“html”，那么所有的结果会通过窗口显示，如果过这步选择“html”，而第2步却选择“tarfile”，那么结果会在窗口内提供链接。如果选择“email”，那么需要填写电子邮件地址，以确保结果可以通过电子邮件发送。这里以“html”为例。4. 目前，可以选择点击提交序列的按钮来运行RepeatMasker，同时可选择其他选项来设置默认值。如果系统默认值不能满足需要，可继续第5到8步并按第9步提交序列。设置其他选项设置默认值后点击提交序列，结果会在窗口中展示，如图4.10.2,4.10.3,4.10.4和4.10.5.为理解结果的细节可以看参考。5. 通过点击Speed/Senitivity下的四个单选按钮来调整速度：“rrush”，“quick”，“default”，或“slow”。注意速度和敏感度相关。比如选择“default”，为了便于理解结果可以看参考。6. 在下拉菜单中选择“DNAsource”的次选项，每一项等同于不同的重复原件库。比如这里的例子，其默认值是人，选择人是因为其序列来自于人类的基因组。注意如果待测序列所来自的生物体在菜单中没有，那么就必须本地运行命令行版本的RepeatMasker了，而且需要选用来自Rebase中的合适的副本文件。如果Rebase中不含合适的副本文件，那么RECON(BaoandEddy,2002;Steinetal.,2003)或RepeatScout(;Priceetal.,2005)会从头建立重复文件。7. 在下拉菜单的一系列功能中，单选按钮和LineageAnnotationOptions下的检查框（checkboxes）来选择合适的选择项。这些选项不需要说明，比如选择ComparisonSpecies，与所选物种相关的世系特异性重复就会通过RepeatMasker输出。8. 在高级选项（AdvanceOption）的下拉菜单中，选择合适的选项。这些选项同样简单明了。比如，如果想在MaskingOption的两个选项间选择，则要么选择模糊特性，诸如“N”或“X”此类的隐藏，要么选择小写字母，这更适合于序列比对。这些细节解释和附加选项可通过右边的下拉菜单中获得。9. 点击提交序列按钮运行RepeatMasker。二、在Unix/Linux下运行RepeatMaker命令行版本的RepeatMasker为使用者提供了更多的选择，并且没有最大100kb的长度限制。要本地运行RepeatMasker需要获得RepeatMasker、cross_match和来自RepbaseUpdate的相应的重复元件库，下文有详细描述。这也是对于RepeatMasker运行快速程序WU-BLAST所必须的（参见可选项目）。注意：对于不熟悉Unix的研究者请参见附录1C和附录1D。必须资源：硬件：任意链接网络的Unix或Linux计算机软件：RepeatMasker：现在软件为开源版本V.2.1，可从下载。Cross_match：软件为Phred/Phrap/Consed软件安装包的一部分，同时也是对学术研究者免费的（#howToGet;alsoseeUNIT11.2）。为PhilGreen所写（****************.edu）包括以下信息：（a）姓名；（b）同意网站上描述的授权条件（描述Cross_match要求）；（c）研究机构或部门；（d）以后联系用得e-mail地址（e-mail的获得需通过Unix电脑运行通用mail程序，因为许多程序发送的是非编码文件，而这是与一些mail程序相冲突的）。需要注意的是获得许可需要花费大约两周的时间。RepbaseUpdate：这一数据库（;Jurka,2001）包含大量可选择的重复元件库，这些是运行RepeatMasker所需的。这些库对于学术研究者是免费下载的，对于需求者需要填写在线表格以说明要获得的数据库文件（）。而商业性质的使用者需要联系JolantaWalichiewicz（****************）。此外，如果要研究的基因组在RepbaseUpdate中没有合适的重复库时就需要利用RECON（BaoandEddy，2002）或RepeatScout（;Priceetal.,2005）来进行处理。Steinetal.(2003)使用RECON建立了线虫C.elegans和C.briggsae的重复库。RECON可以从RepeatMasker安装包中获得，有效的可用下载地址是：，另外RepeatMasker利用RepeatScout软件从新的基因组序列中标注重复家族的序列。文件：某一FASTA文件（附件1B）或者一批FASTA文件可以通过命令行版RepeatMasker处理，注意在这里没有文件大小的限制。例子中使用的是Caenorhabditiselegans的基因组全序列，有102,287,094bp长，下载自WormBase()FTP站点(ftp://ftp.wormbase.org/pub/wormbase/genomes/elegans/sequences/dna/)。系统准备1、下载并安装RepeatMasker、TandemRepeatFinder（TRF）、cross_match、WU-BLAST和Repbase库文件。RepeatMasker为Perl文件，可以安装在任一所需根目录下。Cross_match会通过e-mail方式由作者发送给符合条件的申请者。RepbaseUpdate将给予使用者名字和密码以便下载重复数据库文件。在实例中，建立一个文件，将其命名为repeat并置于home根目录下，然后复制RepeatMasker、TRF和cross_match到这一目录下。实例命令如下：$mkdirrepeat$cdrepeat2、更改程序许可。命令：$chmoduxRepeatMasker$chmoduxcrossmatch$ln-strf321.linux.exetrf3、通过配置脚本设置路径首先，找到Perl的安装路径：$whichperl默认为：/usr/bin/perl然后更改到repeat文件目录和RepeatMasker的目录，获得现在路径的命令是：usernameRepeatMasker $pwd默认路径是：/home/username/repeat/RepeatMasker接下来按照同样的方法获得TRF和cross_match的路径。用下列命令安装程序：$cdRepeatMasker$perl./configure输入所需路径，如实例中，键入Perl解释器的路径：Enterpath:/usr/bin/perl键入RepeatMasker程序的本地安装路径：Enterpath:/home/username/repeat/RepeatMasker键入TRF的安装路径：Enterpath:/home/username/repeat键入cross_match的安装路径：Enterpath:/home/username/repeat/crossmatch4、将repeat文件置于正确的目录中（即，RepeatMasker的目录）。确保Libraries的次级目录在RepeatMasker的目录下并包含RepeatMasker.lib和RepeatMaskerLib.embl文件。5、为输入和输出创建新目录。注意要将RepeatMasker的输出文件和输入文件置于同一目录下。命令如：$mkdirRepeatMaskerfile$cdRepeatMaskerfileRepeatMaskerfile$下载或复制包含C.elegans基因组序列的FASTA文件（如：current.dna.fa.gz）并解压。$gunzipcurrent.dna.fa.gz6、调出命令行参数和选项的简介，方法是在命令行键入RepeatMasker，如：$../RepeatMasker/RepeatMasker将会显示以下内容：SYNOPSISRepeatMasker[-options]...defaultsettingsareformaskingalltypeofrepeatsinaprimatesequence....Choosefromanumberofoptions:-qQuicksearch;5-10%lesssensitive,2-5timesfasterthandefault-nolowDonotmasklowcomplexityDNAorsimplerepeats-div[number]MaskonlythoserepeatsSpecifythespeciesorcladeoftheinputsequence(chooseonlyone!)...contaminationoptions...runningoptions...outputoptions...获得详细的帮助可键入：$../RepeatMasker/RepeatMasker–h运行RepeatMasker7、在本地运行命令行版RepeatMasker：%/path/to/RepeatMasker-elcurrent.dna.fa如：运行命令$../RepeatMasker/RepeatMasker-specieseleganscurrent.dna.fa因为例子中的序列来自于C.elegans，使用-specieselegans命令以保证调用C.elegansRepbase重复元件数据库文件。结果文件将写在RepeatMasker_file的目录中，在这一目录中调用的序列文件也在这里。如例中结果文件包括：current.dna.fa.maskedcurrent.dna.fa.logcurrent.dna.fa.dna.catcurrent.dna.fa.dna.outcurrent.dna.fa.dna.tbl这些文件的解释参见后面输出结果文件的导读部分。8、RepeatMasker为使用者提供了大量的选择以满足不同需要。在这里仅对常用的选择进行介绍，更多的细节参见repeatmasker.help，这些也包含在RepeatMasker安装包中。注意当命令众多时，这些选择项命令的先后顺序并不重要。a.speciesoptions和-lib标志允许使用者为特定文库指定相应的物种。RepeatMasker为许多生物提供通用名，比如-cat或-dog，但不是所有的生物都有通用名。鉴于此，特别推荐拉丁名作为物种的命名。使用者也可提供重复文库文件，特别是当文库文件不是来自于Repbase时，RepeatMasker使用-lib标记。重复文库的默认值是首要的选择。为RepeatMasker建立个人的重复数据库，repeatmasker.help推荐使用ID格式。如>repeatname#class/subclass或者是简略格式：>repeatname#classb.掩码选项是确定哪一种重复需要掩蔽。通常的选择项包括：-cutoff、-nolow和-div。-cutoff选项是设定调用-lib时掩蔽重复序列的水平值，默认的值是225.低于该值将出现更多的错误匹配。-nolow是提示RepeatMasker不要掩蔽低复杂度的DNA或简单重复序列。-div是用来设定离散度以限制掩码并对较小离散的（新生成的）重复序列子集进行注释。c.有一些选项用来控制进程速度和搜索参数。影响进程速度的选项有：-q 快速检索；低于默认5%到10%敏感度，默认速度的3倍到4倍。-qq急速检索；低于默认10%的敏感度。-s 慢速减速；高于默认0%到5%的敏感度；默认速度的-2.5倍。这些标记在输入长序列时会产生显著差异。如果只需要快速检索，-qq会快速产生结果，与之对应的是结果的质量要求较高时，应使用默认（即不需要输入任何选项）或者是-s选项命令。使用-pa（prallel）时可以引入更多的计算机来进行RepeatMasker运算，这种情况常用于输入的文件很多或查询文件很大（>50kb）时。-w（ublast）是用WU-BLAST替代cross_match（参见选择项目）。d.输出选项支持以下频繁使用的命令格式（其他的可通过repeatmasker.help获得）：-a 在.align的输出文件中展示比对情况。-small .maked文件中的序列全部转换成小写字母。-xsmall 将重复区间转换成小写字母（其余的大写）。-x 用X字母来掩蔽重复区域-gff 创建附加的GeneralFeatureFinding输出格式。注意，-cut选项是不支持现行版本的RepeatMasker的，要获得该功能函数可以联系RobertHubley(**************************)。运行RepeatMasker的WU-BLAST如果通过RepeatMasker计算更大序列（比如智人的全基因组序列）时，进程时间将会显著延长。而用WU-BLAST来取代cross-match时，进程时间会节省近30倍（Bedelletal.,2000）。尽管含有WU-BLAST的RepeatMasker更节省时间，但是其整合依然有些限制：（1）低复杂度的重复序列的掩蔽并不是像cross-match一样的效率；（2）不支持一些输出格式；（3）对其运算结果的精确度缺少评估。注意：对于不熟悉Unix运行环境的需要学习附录1c和1D。必须资源硬件：Unix或Linux站点软件：RepeatMasker（参见BasicProtocol2）WU-BLAST2.0:联系********************l.eduRepbaseUpdaterepeatlibraries（参见BasicProtocol2）文件:FASTA文件或FASTA文件集（附录1B）。对于整合有WU-BLAST的RepeatMasker命令行版本对文件的运算没有大小限制。本示例中引用的是下载自数据库WormBase（）FTP站点（ftp://ftp.woembase.org/pub/wormbase/genomes/elegans/sequences/dna/）C.elegans的全基因组序列，其长度为102,278,094bp。1、下载并安装RepeatMasker、WU-BLAST和Repeat文库文件。注意直到2004年6月MaskerAid（Bedelletal.,2000）是RepeatMasker运算WU-BLAST所必须的。现在这些功能被应用到程序中而不需要再进行整合。鉴于此，建立一Repeat目录，然后将RepeatMasker/目录复制到该目录下。完成这些操作需要利用mkdir更改根目录并创建一新的repeat目录。利用cd锁定当前路径为repeat，如下操作：mkdirrepeatcdrepeat复制RepeatMasker/到这一目录下，复制WU-BLAST软件包到这一目录下并解压$gunzip-WUBLAST|tarxvf-wublast/解压后的存放目录在wu-blast/目录下的程序如blastp和blastx在解压后均可执行操作。2、更改程序权限和路径。$chmoduxRepeatMasker$chmoduxwu-blast3、通过运行配置脚本设定正确路径，参见BasicProtocol2.加入WU-BLAST搜索引擎，键入：Enterpath:/home/mta57/repeat/wu-blast4、为输入文件和输出文件创建新的目录。RepeatMasker的输出文件和输入文件必须要在同一个目录写，如：$mkdirRepeatMaskerfile$cdRepeatMaskerfile/[当前目录]$接下来下载或复制C.elegans的全基因组序列的FASTA文件（current.dna.fa.gz）到相应的目录中并解压。$gunzipcurrent.dna.fa.gz5、用-W（ublast）标签来运行程序，如：$../RepeatMasker/RepeatMasker-w-specieseleganscurrent.dna.fa这里的-w标签是用以指示WU-BLAST为使用的匹配引擎；-specieselegans是用以指示使用C.elegansRepbase文库文件，因为运算的序列是C.elegans。注意包含多个词的物种名需要用””（如：”Caenorhabditiselegans”）。除了用于指示WU-BLAST的-w选项命令外，其他的命令参数和选项与BasicProtocol2类似。运算结果指导说明RepeatMasker的运算结果会被写成5个不同的文件，这些文件与查询序列或序列集同在一个目录下。其中，三个.out、.masked和.tbl扩展名的文件含有运算结果；其他的文件是储存运算进程信息的，所以在此不再详述。如果RepeatMasker是通过网络界面运算的，那么这三的文件会写成页面文件。参见列表：.out扩展名的文件Column ContentSWscore Smith-WatermanscoreofthematchPercdiv. PercentsubstitutionsinmatchingregioncomparedtotheconsensusPercdel. Percentofbasesoppositeagapinthequerysequence(deletedbp)Percins. Percentofbasesoppositeagapintherepeatconsensus(insertedbp)Querysequence NameofquerysequencePositioninqueryBegin StartingpositionofmatchinquerysequenceEnd Endpositionofmatchinquerysequence(Left) NumberofbasesinquerysequencepasttheendpositionofthecurrentmatchColumn ContentMatchingrepeatRepeat NameofrepeatClass/family TheclassoftherepeatPositioninrepeataBegin StartingpositionofmatchinrepeatconsensussequenceEnd Endpositionofmatchinrepeatconsensussequence(Left) NumberofbasesinrepeatconsensussequencepasttheendofthecurrentmatchID RepeatidentificationnumberaNotethatiftherepeatconsensusmatchesthepositivestrand,thethreesubcolumnsarebegin,end,and(left);otherwise,thethreesubcolumnsare(left),end,andbegin.

                    本文档为【RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

RepeatMasker网页版和命令行版使用说明(中文翻译版)(2)

你可能还喜欢