数据上传
- from local computer
- from server:
curl -T [my_data_filename] -k -v -u [username] ftps://repeatexplorer-elixir.cerit-sc.cz/
需输入登录密码
数据下载
filezilla软件下载地址
主机:ftps://repeatexplorer-elixir.cerit-sc.cz
用户名:yanglook
密码:xxx
数据处理
从公司拿到原数据(此处只针对NGS的双端测序数据)后,先用Trimmomatic进行去接头等处理,后可以用FastUniq去除duplicate reads。之后再将数据上传到Galaxy平台上的RepeatExplorer上。
思路
先用Input或参考基因组数据做Cluster处理,search出整个物种含有哪些repeat,其次用Cluster中的contig为database,计算ChIP/Input ratio,找出候选的centromere,最后进行FISH验证。
流程
- FASTQ-Groomer---Filter by quality---FASTQ Interlacer---
FASTQ to FASTA---Rename sequence---Clustering---下载Archive文件
参数:均使用默认,在clustering时,用目标物种的自定义的repeat数据库进行注释。 - 以contigs为database, Input和ChIP为query, 分别用blastn计算各自reads map到每个cluster上的丰富度。参数:“-evalue 1e-8 -num_alignment 1 -wordsizes 9 -dust no -gapopen 5 -gapextend 2 -penalty -3 -reward 2"
- 选择ChIP/Input 或ChIP/WGS>2的cluster,以cluster
的monomer为着丝粒候选探针,通过FISH验证。
网友评论