探针寻找之旅（7）——RepeatExplorer的使用

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-03-30 20:23 被阅读0次

探针寻找之旅（7）——RepeatExplorer的使用
探针寻找之旅（4）——拆分长探针，得到短探针
探针寻找之旅（5）——拆分长探针到短探针的 python脚本
RepeatExplorer2的使用
K8S容器编排之POD健康检测（2）
2018-06-23
探针寻找之旅（2）——与探针匹配的基因组序列的提取
探针寻找之旅（8）——RIdeogram绘制染色体探针分布图
健康检查详解与实战演示（就绪性探针和存活性探针）（[云原生]
双尾RT-qPCR检测miRNA

RepeatExplorer的一些相关链接
RepeatExplorer的HOME界面
 RepeatExplorer的介绍界面wiki
公共Galaxy server需要注册，用github账户、facebook账户、LinkedIn都可以注册。
RepeatExplorer所在服务器为BioStar
Introduction
RepeatExplorer是一个用于发现和描述真核生物基因组重复序列特征的computational pipeline（计算流程）。该算法最初是为在植物基因组中分析寻找重复序列而量身定制的，所以对于非植物界的物种，有些参数选项需要自定义，以提高灵敏度；
输入数据（input）：高通量测序数据
算法：图聚类分析（graph-based clustering analysis）
算法介绍：Graph-based clustering and characterization of repetitive sequences in next-generation sequencing data
所在服务器及注册位置：https://galaxy-elixir.cerit-sc.cz/
Repeatexplorer介绍文献：RepeatExplorer: a Galaxy-based web server for genome-wide characterization of eukaryotic repetitive elements from next generation sequence reads
数据的上传与下载
- 通过浏览器传输
  使用Get Data --> Upload File上传数据，一次限制上传不大于2GB的文件；
  可以使用软盘图标从“dataset”菜单下载数据集，该种方式只适于下载单个文件(e.g. compressed archives of clustering results)；
- 保险起见，建议使用FTP传输
  上传：
  curl -T [ my_data_filename ] -k -v -u [ username ] ftps://repeatexplorer-elixir.cerit-sc.cz/
  会有弹窗输入登录密码，这样上传的数据在Tools --> Get Data --> Upload File --> Files uploaded via FTP中，选择要导入的文件，然后点击“Execute”按钮。一旦导入，文件将从列表中删除。
  下载：
  需要先在浏览器界面用Tools --> Repeat Explorer --> EXPERIMENTAL TOOLS --> Transfer data to ftp server 将选择好的要下载的内容传输到ftp服务器，再在自己客户端输入以下内容
  curl -C - -o [ local_output_filename ] -k -v -u [ username ] ftps://repeatexplorer-elixir.cerit-sc.cz/[ server_output_filename ]
  会有弹窗输入密码，可以通过查看md5sum文件检测文件传输是否完整
- 从EBI SRA下载数据
  用Get Data --> EBI SRA在EBI上下载公开可用的数据集。
界面button与功能

实用工具NGS: QC and manipulation

button	功能
(ILLUMINA FASTQ) FASTQ Groomer	Groomer需要第一个运行，以便用其他工具处理fastq文件。（需要注意选择合适的fastq质量分数类型）
(FASTQC: FASTQ/SAM/BAM) FASTQC	检测高通量测序数据的质量，如reads序列上的质量分数的分布、读长分布以及序列中不能确定的碱基数量；
(FASTX-TOOLKIT FOR FASTQ DATA) Filter by quality	舍弃低质量reads。通过质量统计画出质量分数箱图和碱基分布表，从而评估数据质量。该过程可选；
(GENERIC FASTQ MANIPULATION) FASTQ to FASTA converter	作为最后一步，将reads的格式转为FASTA。

附加工具Utilities

button	功能
Preprocessing of fastq paired-reads	处理双端测序fastq格式的reads，包括trimming, quality filtering, adapter filtering (cutadapt) and interlacing.
Preprocessing of fastq reads	处理单端测序fastq格式的reads，包括trimming, quality filtering, adapter filtering (cutadapt) and sampling.
FASTA read name affixer	在FASTA文件中序列的名字前后附上前后缀；
Sequence sampling	在数据集中随机取序列；
FASTQ Read name affixer	FASTQ文件中序列的名字前后附上前后缀，去掉空格；
Rename Sequences	用数字替代FASTA文件中的reads名称，这样有助于保留原始名称；
FASTA interlacer	将不同文件中的paired reads合并成一个single interlaced file, 在该文件中相同pair被并列放在一起。该过程要求第一个文件每个read在第二个文件中必须要有与之相符的mate,并且得是在相同的position；
Scan paired reads	检测双端测序reads是否有序列重叠，这可能是由于片段过短而造成的；
RepeatMasker custom search	用RepeatMasker检测自定义的repeat数据库中之前的clustering结果；
Chip-Seq Mapper	将ChIP-seq和input reads map到由RepeatExplorer clustering得到的contigs；

参数

参数	功能	注意
NGS Reads	指定FASTA格式文件	通常是由Pre-processing tools处理得到的文件.
paired-end reads	如果使用的是paired-end或mate-pair reads数据的话，需要将该项调整为yes	请使用RepeaExplorer --> Utilities --> FASTA interlacer 来完成此项准备，不要用NGS:QC and manipulation中的FASTQ interlacer，因为这个工具会消耗很大的内存，而且该工具只有当你分散的paired序列文件顺序不同时适用。
Sample size	RepeatExplorer2会默认估计总的reads数，只有当你想用该算法运行个小的数据集时才需要设定该参数	reads数不能低于1000。
Advanced options	如果你想设置更加复杂的分析时需要将此项调整为yes，比如用自定义的数据库、作多物种比较分析等	此处还可以改变一些其他附加参数
Perform comparative analysis	当你需要分析多个样品时需要将该参数调整为yes, 并需要根据你的数据设置参数Group code length	Group code length是用于标明reads名字中用于区分不同物种的前缀长度。Also, you can append sample codes to read names using one of them 此外，还可以用pre-processing tools read name affixer在reads的名字中附上样品编码
Use custom repeat database	用于给在clusters中的重复序列分类，对于在RepeatMasker数据库中代表性不足的物种推荐使用此项	该数据库得是个含DNA序列的fasta格式文件，而且要在每条序列的fasta名字上标明repeat type/family的信息（e.g., >sequence_id#Copia/Angela），RepeatMasker libraries中用的也是此种格式。自定义的library需要用Get Data --> Upload File上传到服务器。
Cluster size threshold for detailed analysis	为clusters生成包含各种数据和输出结果的目录。要选择的最小clusters值由一定比例的待分析reads数量决定(e.g., 对1,000,000 reads的数据集用默认值 0.01% 表示：所有包含大于100个reads的clusters将被记入分析)	不建议将此参数值设置的低于0.01%，因为这可能造成由cluster数量增多导致的计算时间延长
Perform automatic filtering of abundant satellite repeats	如果想要滤去数据中长片段的卫星重复序列以期让更多reads可以被分析，此项选择yes
Keep original sequence names	序列的名字默认是会重新命名的，如果想保留最初序列的名称则去掉该选项（不推荐）	对于双端测序reads若想保留初始名称，需要用最后一个字符来区分左右mates。对于comparative analysis此项不会影响Group code length参数
Perform cluster merging	此参数在TAREAN analysis中用到，此项合并在双端reads中明显关联的clusters	there are several instances where pairs are split between two clusters (see section on cluster connectivity)

输出文件
clustering分析后会在“History”面板中生成四个新条目。其中log文件和Contigs文件为单个纯文本文件，HTML summery和Archive with clustering results含多个文件，可以以zip格式下载。 HTML summery的输出内容可以用“Display data in browser”选项（眼睛符号）直接查看。
双端测序数据的分析流程

双端测序数据clustering分析flowchart