美文网首页
数据前期准备----基因组数据和注释文件处理

数据前期准备----基因组数据和注释文件处理

作者: 余绕 | 来源:发表于2023-04-24 17:17 被阅读0次

包括fasta文件处理,以及gff3转gtf,gtf转bed文件

1. 下载数据
# 下载网址 http://citrus.hzau.edu.cn/index.php
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.genome.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.cDNA.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.CDS.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.gene.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.protein.fa
wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.gene.model.gff3

2.基因组序列处理

2.1处理前

image.png
seqtk seq -l 60   SWO.v3.0.genome.fa  >  genome.fa
## 每行60个碱基
-l INT    number of residues per line; 0 for 2^32-1 [0]

2.2 处理后


image.png

3. 构建 index, 第二列代表序列长度

seqkit faidx genome.fa

(base) ug1299@gs81:~/WGBS/Genome_annotation$ cat   genome.fa.fai 
chr1    30615164    6   60  61
chr2    33651726    31125429    60  61
chr3    37424164    65338024    60  61
chr4    31350092    103385931   60  61
chr5    50232142    135258531   60  61
chr6    26160000    186327882   60  61
chr7    29698530    212923888   60  61
chr8    32770237    243117400   60  61
chr9    32314164    276433814   60  61
chrUn   32431066    309286555   60  61

4. ## gff3 格式

4.1 创建软连接
ln -s SWO.v3.0.gene.model.gff3 genes.gff

4.2 gtf 格式, 最好转换为 ensembl 的gtf 格式----带 gene 的坐标

gffread  -T   -o   temp.gtf    genes.gff
gtftk    convert_ensembl    -i   temp.gtf   >  genes.gtf
rm  temp.gtf
image.png

5. gtf 转换为bed 格式

分两步骤:
5.1 gft to Pred
gtfToGenePred    genes.gtf    genes.genePred
image.png
5.2 Pred to bed12
genePredToBed   genes.genePred   genes.bed12
image.png

相关文章

网友评论

      本文标题:数据前期准备----基因组数据和注释文件处理

      本文链接:https://www.haomeiwen.com/subject/fvwujdtx.html