-
RepeatExplorer的一些相关链接
RepeatExplorer的HOME界面
RepeatExplorer的介绍界面wiki
公共Galaxy server需要注册,用github账户、facebook账户、LinkedIn都可以注册。
RepeatExplorer所在服务器为BioStar -
Introduction
RepeatExplorer是一个用于发现和描述真核生物基因组重复序列特征的computational pipeline(计算流程)。该算法最初是为在植物基因组中分析寻找重复序列而量身定制的,所以对于非植物界的物种,有些参数选项需要自定义,以提高灵敏度;
输入数据(input):高通量测序数据
算法:图聚类分析(graph-based clustering analysis)
算法介绍:Graph-based clustering and characterization of repetitive sequences in next-generation sequencing data
所在服务器及注册位置:https://galaxy-elixir.cerit-sc.cz/
Repeatexplorer介绍文献:RepeatExplorer: a Galaxy-based web server for genome-wide characterization of eukaryotic repetitive elements from next generation sequence reads -
数据的上传与下载
- 通过浏览器传输
使用Get Data --> Upload File上传数据,一次限制上传不大于2GB的文件;
可以使用软盘图标从“dataset”菜单下载数据集,该种方式只适于下载单个文件(e.g. compressed archives of clustering results); - 保险起见,建议使用FTP传输
上传:
curl -T [ my_data_filename ] -k -v -u [ username ] ftps://repeatexplorer-elixir.cerit-sc.cz/
会有弹窗输入登录密码,这样上传的数据在Tools --> Get Data --> Upload File --> Files uploaded via FTP中,选择要导入的文件,然后点击“Execute”按钮。一旦导入,文件将从列表中删除。
下载:
需要先在浏览器界面用Tools --> Repeat Explorer --> EXPERIMENTAL TOOLS --> Transfer data to ftp server 将选择好的要下载的内容传输到ftp服务器,再在自己客户端输入以下内容
curl -C - -o [ local_output_filename ] -k -v -u [ username ] ftps://repeatexplorer-elixir.cerit-sc.cz/[ server_output_filename ]
会有弹窗输入密码,可以通过查看md5sum文件检测文件传输是否完整 - 从EBI SRA下载数据
用Get Data --> EBI SRA在EBI上下载公开可用的数据集。
- 通过浏览器传输
-
界面button与功能
实用工具NGS: QC and manipulation
button | 功能 |
---|---|
(ILLUMINA FASTQ) FASTQ Groomer | Groomer需要第一个运行,以便用其他工具处理fastq文件。(需要注意选择合适的fastq质量分数类型) |
(FASTQC: FASTQ/SAM/BAM) FASTQC | 检测高通量测序数据的质量,如reads序列上的质量分数的分布、读长分布以及序列中不能确定的碱基数量; |
(FASTX-TOOLKIT FOR FASTQ DATA) Filter by quality | 舍弃低质量reads。通过质量统计画出质量分数箱图和碱基分布表,从而评估数据质量。该过程可选; |
(GENERIC FASTQ MANIPULATION) FASTQ to FASTA converter | 作为最后一步,将reads的格式转为FASTA。 |
附加工具Utilities
button | 功能 |
---|---|
Preprocessing of fastq paired-reads | 处理双端测序fastq格式的reads,包括trimming, quality filtering, adapter filtering (cutadapt) and interlacing. |
Preprocessing of fastq reads | 处理单端测序fastq格式的reads,包括trimming, quality filtering, adapter filtering (cutadapt) and sampling. |
FASTA read name affixer | 在FASTA文件中序列的名字前后附上前后缀; |
Sequence sampling | 在数据集中随机取序列; |
FASTQ Read name affixer | FASTQ文件中序列的名字前后附上前后缀,去掉空格; |
Rename Sequences | 用数字替代FASTA文件中的reads名称,这样有助于保留原始名称; |
FASTA interlacer | 将不同文件中的paired reads合并成一个single interlaced file, 在该文件中相同pair被并列放在一起。该过程要求第一个文件每个read在第二个文件中必须要有与之相符的mate,并且得是在相同的position; |
Scan paired reads | 检测双端测序reads是否有序列重叠,这可能是由于片段过短而造成的; |
RepeatMasker custom search | 用RepeatMasker检测自定义的repeat数据库中之前的clustering结果; |
Chip-Seq Mapper | 将ChIP-seq和input reads map到由RepeatExplorer clustering得到的contigs; |
- 参数
参数 | 功能 | 注意 |
---|---|---|
NGS Reads | 指定FASTA格式文件 | 通常是由Pre-processing tools处理得到的文件. |
paired-end reads | 如果使用的是paired-end或mate-pair reads数据的话,需要将该项调整为yes | 请使用RepeaExplorer --> Utilities --> FASTA interlacer 来完成此项准备,不要用NGS:QC and manipulation中的FASTQ interlacer,因为这个工具会消耗很大的内存,而且该工具只有当你分散的paired序列文件顺序不同时适用。 |
Sample size | RepeatExplorer2会默认估计总的reads数,只有当你想用该算法运行个小的数据集时才需要设定该参数 | reads数不能低于1000。 |
Advanced options | 如果你想设置更加复杂的分析时需要将此项调整为yes,比如用自定义的数据库、作多物种比较分析等 | 此处还可以改变一些其他附加参数 |
Perform comparative analysis | 当你需要分析多个样品时需要将该参数调整为yes, 并需要根据你的数据设置参数Group code length | Group code length是用于标明reads名字中用于区分不同物种的前缀长度。Also, you can append sample codes to read names using one of them 此外,还可以用pre-processing tools read name affixer在reads的名字中附上样品编码 |
Use custom repeat database | 用于给在clusters中的重复序列分类,对于在RepeatMasker数据库中代表性不足的物种推荐使用此项 | 该数据库得是个含DNA序列的fasta格式文件,而且要在每条序列的fasta名字上标明repeat type/family的信息(e.g., >sequence_id#Copia/Angela),RepeatMasker libraries中用的也是此种格式。自定义的library需要用Get Data --> Upload File上传到服务器。 |
Cluster size threshold for detailed analysis | 为clusters生成包含各种数据和输出结果的目录。要选择的最小clusters值由一定比例的待分析reads数量决定(e.g., 对1,000,000 reads的数据集用默认值 0.01% 表示:所有包含大于100个reads的clusters将被记入分析) | 不建议将此参数值设置的低于0.01%,因为这可能造成由cluster数量增多导致的计算时间延长 |
Perform automatic filtering of abundant satellite repeats | 如果想要滤去数据中长片段的卫星重复序列以期让更多reads可以被分析,此项选择yes | |
Keep original sequence names | 序列的名字默认是会重新命名的,如果想保留最初序列的名称则去掉该选项(不推荐) | 对于双端测序reads若想保留初始名称,需要用最后一个字符来区分左右mates。对于comparative analysis此项不会影响Group code length参数 |
Perform cluster merging | 此参数在TAREAN analysis中用到,此项合并在双端reads中明显关联的clusters | there are several instances where pairs are split between two clusters (see section on cluster connectivity) |
-
输出文件
clustering分析后会在“History”面板中生成四个新条目。 其中log文件和Contigs文件为单个纯文本文件,HTML summery和Archive with clustering results含多个文件,可以以zip格式下载。 HTML summery的输出内容可以用“Display data in browser”选项(眼睛符号)直接查看。 -
双端测序数据的分析流程
双端测序数据clustering分析flowchart
- 参考文章
About RepeatExplorer
网友评论