美文网首页
探针寻找之旅(7)——RepeatExplorer的使用

探针寻找之旅(7)——RepeatExplorer的使用

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-03-30 20:23 被阅读0次
  • RepeatExplorer的一些相关链接
    RepeatExplorer的HOME界面
    RepeatExplorer的介绍界面wiki
    公共Galaxy server需要注册,用github账户、facebook账户、LinkedIn都可以注册。
    RepeatExplorer所在服务器为BioStar

  • Introduction
    RepeatExplorer是一个用于发现和描述真核生物基因组重复序列特征的computational pipeline(计算流程)。该算法最初是为在植物基因组中分析寻找重复序列而量身定制的,所以对于非植物界的物种,有些参数选项需要自定义,以提高灵敏度;
    输入数据(input):高通量测序数据
    算法:图聚类分析(graph-based clustering analysis)
    算法介绍:Graph-based clustering and characterization of repetitive sequences in next-generation sequencing data
    所在服务器及注册位置:https://galaxy-elixir.cerit-sc.cz/
    Repeatexplorer介绍文献:RepeatExplorer: a Galaxy-based web server for genome-wide characterization of eukaryotic repetitive elements from next generation sequence reads

  • 数据的上传与下载

    • 通过浏览器传输
      使用Get Data --> Upload File上传数据,一次限制上传不大于2GB的文件;
      可以使用软盘图标从“dataset”菜单下载数据集,该种方式只适于下载单个文件(e.g. compressed archives of clustering results);
    • 保险起见,建议使用FTP传输
      上传:
      curl -T [ my_data_filename ] -k -v -u [ username ] ftps://repeatexplorer-elixir.cerit-sc.cz/
      会有弹窗输入登录密码,这样上传的数据在Tools --> Get Data --> Upload File --> Files uploaded via FTP中,选择要导入的文件,然后点击“Execute”按钮。一旦导入,文件将从列表中删除。
      下载:
      需要先在浏览器界面用Tools --> Repeat Explorer --> EXPERIMENTAL TOOLS --> Transfer data to ftp server 将选择好的要下载的内容传输到ftp服务器,再在自己客户端输入以下内容
      curl -C - -o [ local_output_filename ] -k -v -u [ username ] ftps://repeatexplorer-elixir.cerit-sc.cz/[ server_output_filename ]
      会有弹窗输入密码,可以通过查看md5sum文件检测文件传输是否完整
    • 从EBI SRA下载数据
      Get Data --> EBI SRA在EBI上下载公开可用的数据集。
  • 界面button与功能

实用工具NGS: QC and manipulation

button 功能
(ILLUMINA FASTQ) FASTQ Groomer Groomer需要第一个运行,以便用其他工具处理fastq文件。(需要注意选择合适的fastq质量分数类型)
(FASTQC: FASTQ/SAM/BAM) FASTQC 检测高通量测序数据的质量,如reads序列上的质量分数的分布、读长分布以及序列中不能确定的碱基数量;
(FASTX-TOOLKIT FOR FASTQ DATA) Filter by quality 舍弃低质量reads。通过质量统计画出质量分数箱图和碱基分布表,从而评估数据质量。该过程可选;
(GENERIC FASTQ MANIPULATION) FASTQ to FASTA converter 作为最后一步,将reads的格式转为FASTA。

附加工具Utilities

button 功能
Preprocessing of fastq paired-reads 处理双端测序fastq格式的reads,包括trimming, quality filtering, adapter filtering (cutadapt) and interlacing.
Preprocessing of fastq reads 处理单端测序fastq格式的reads,包括trimming, quality filtering, adapter filtering (cutadapt) and sampling.
FASTA read name affixer 在FASTA文件中序列的名字前后附上前后缀;
Sequence sampling 在数据集中随机取序列;
FASTQ Read name affixer FASTQ文件中序列的名字前后附上前后缀,去掉空格;
Rename Sequences 用数字替代FASTA文件中的reads名称,这样有助于保留原始名称;
FASTA interlacer 将不同文件中的paired reads合并成一个single interlaced file, 在该文件中相同pair被并列放在一起。该过程要求第一个文件每个read在第二个文件中必须要有与之相符的mate,并且得是在相同的position;
Scan paired reads 检测双端测序reads是否有序列重叠,这可能是由于片段过短而造成的;
RepeatMasker custom search 用RepeatMasker检测自定义的repeat数据库中之前的clustering结果;
Chip-Seq Mapper 将ChIP-seq和input reads map到由RepeatExplorer clustering得到的contigs;
  • 参数
参数 功能 注意
NGS Reads 指定FASTA格式文件 通常是由Pre-processing tools处理得到的文件.
paired-end reads 如果使用的是paired-end或mate-pair reads数据的话,需要将该项调整为yes 请使用RepeaExplorer --> Utilities --> FASTA interlacer 来完成此项准备,不要用NGS:QC and manipulation中的FASTQ interlacer,因为这个工具会消耗很大的内存,而且该工具只有当你分散的paired序列文件顺序不同时适用。
Sample size RepeatExplorer2会默认估计总的reads数,只有当你想用该算法运行个小的数据集时才需要设定该参数 reads数不能低于1000。
Advanced options 如果你想设置更加复杂的分析时需要将此项调整为yes,比如用自定义的数据库、作多物种比较分析等 此处还可以改变一些其他附加参数
Perform comparative analysis 当你需要分析多个样品时需要将该参数调整为yes, 并需要根据你的数据设置参数Group code length Group code length是用于标明reads名字中用于区分不同物种的前缀长度。Also, you can append sample codes to read names using one of them 此外,还可以用pre-processing tools read name affixer在reads的名字中附上样品编码
Use custom repeat database 用于给在clusters中的重复序列分类,对于在RepeatMasker数据库中代表性不足的物种推荐使用此项 该数据库得是个含DNA序列的fasta格式文件,而且要在每条序列的fasta名字上标明repeat type/family的信息(e.g., >sequence_id#Copia/Angela),RepeatMasker libraries中用的也是此种格式。自定义的library需要用Get Data --> Upload File上传到服务器。
Cluster size threshold for detailed analysis 为clusters生成包含各种数据和输出结果的目录。要选择的最小clusters值由一定比例的待分析reads数量决定(e.g., 对1,000,000 reads的数据集用默认值 0.01% 表示:所有包含大于100个reads的clusters将被记入分析) 不建议将此参数值设置的低于0.01%,因为这可能造成由cluster数量增多导致的计算时间延长
Perform automatic filtering of abundant satellite repeats 如果想要滤去数据中长片段的卫星重复序列以期让更多reads可以被分析,此项选择yes
Keep original sequence names 序列的名字默认是会重新命名的,如果想保留最初序列的名称则去掉该选项(不推荐) 对于双端测序reads若想保留初始名称,需要用最后一个字符来区分左右mates。对于comparative analysis此项不会影响Group code length参数
Perform cluster merging 此参数在TAREAN analysis中用到,此项合并在双端reads中明显关联的clusters there are several instances where pairs are split between two clusters (see section on cluster connectivity)
  • 输出文件
    clustering分析后会在“History”面板中生成四个新条目。 其中log文件和Contigs文件为单个纯文本文件,HTML summeryArchive with clustering results含多个文件,可以以zip格式下载。 HTML summery的输出内容可以用“Display data in browser”选项(眼睛符号)直接查看。

  • 双端测序数据的分析流程


    双端测序数据clustering分析flowchart

相关文章

网友评论

      本文标题:探针寻找之旅(7)——RepeatExplorer的使用

      本文链接:https://www.haomeiwen.com/subject/hjqkuhtx.html