包括fasta文件处理,以及gff3转gtf,gtf转bed文件
1. 下载数据
# 下载网址 http://citrus.hzau.edu.cn/index.php
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.genome.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.cDNA.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.CDS.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.gene.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.protein.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.gene.model.gff3
2.基因组序列处理
2.1处理前
image.pngseqtk seq -l 60 SWO.v3.0.genome.fa > genome.fa
## 每行60个碱基
-l INT number of residues per line; 0 for 2^32-1 [0]
2.2 处理后
image.png
3. 构建 index, 第二列代表序列长度
seqkit faidx genome.fa
(base) ug1299@gs81:~/WGBS/Genome_annotation$ cat genome.fa.fai
chr1 30615164 6 60 61
chr2 33651726 31125429 60 61
chr3 37424164 65338024 60 61
chr4 31350092 103385931 60 61
chr5 50232142 135258531 60 61
chr6 26160000 186327882 60 61
chr7 29698530 212923888 60 61
chr8 32770237 243117400 60 61
chr9 32314164 276433814 60 61
chrUn 32431066 309286555 60 61
4. ## gff3 格式
4.1 创建软连接
ln -s SWO.v3.0.gene.model.gff3 genes.gff
4.2 gtf 格式, 最好转换为 ensembl 的gtf 格式----带 gene
的坐标
gffread -T -o temp.gtf genes.gff
gtftk convert_ensembl -i temp.gtf > genes.gtf
rm temp.gtf
image.png
5. gtf 转换为bed 格式
分两步骤:
5.1 gft to Pred
gtfToGenePred genes.gtf genes.genePred
image.png
5.2 Pred to bed12
genePredToBed genes.genePred genes.bed12
image.png
网友评论