探针分析步骤
- 用BWA-MEM软件将CenH3的ChIP-seq数据映射到基因组上,看着丝粒处富集情况,同时也起到标记染色体着丝粒在基因组上位置的作用。
- 从计算上确定基因组中的重复序列。使用RepeatExplorer软件进行序列聚类分析,从头鉴定重复序列。
- 研究这些重复序列是否富含抗CenH3 ChIP的数据。用BLAST分析将CENH3-ChIP-seq和Input的片段映射到分析出来的重复序列 → 分别统计CENH3-ChIP和Input中可以Blast到重复序列库的hit数 → 用CENH3-ChIP:Input的比率表示CENH3富集水平 → CENH3-ChIP:Input值大于1.5的hits可以用于进一步分析。
- 使用RpeatMasker选取在着丝粒区附近且在未匹配基因组重复次数高的223bp的卫星重复序列。
- 合并CENH3-ChIP-seq和Input的数据,并用BWA-MEM软件将这些数据map到重复序列区段。分析CenH3与DNA结合区域重复序列的关系。
准备基本数据
1. 全基因组测序原始数据
-
工具sratoolkit
Sratoolkit GitHub下载列表
也可以用conda install sra-tools
安装sra-tools,但是sra-tools不如sratoolkit新,更新相对慢些。
SRAtoolkit下载、解压、安装后要先用vdb-config --interactive
设置sratoolkit,一般选择默认(default)
vdb-config 的更多使用技巧可见以下连接
使用sratoolkit下载NCBI数据
sra tool kit from ncbi README on vdb-config
NCBI下载SRA数据和之后的数据处理,这里有批量下载方案
NCBI SRA数据库使用详解 -
甜橙全基因组测序数据
甜橙双单倍体测序数据链接
Design: DNA sequence of Doubled haploid sweet ornage
Submitted by: Huazhong Agricultural University
Study: Citrus sinensis cultivar:valencia Genome sequencing and assembly
Run: SRR5838837
Platform: PacBio SMRT(PacBio RS II)
- 数据下载与解压
$ prefetch SRR5838837 --output-directory ./
$ cd SRR5838837/
$ fastq-dump SRR5838837.sra
或
$ fasterp-dump SRR5838837.sra
# 默认6个线程 -e
2. 对应物种重复序列库,RepeatMasker library
3. ChIP-seq数据
网友评论