美文网首页
数据前期准备----基因组数据和注释文件处理

数据前期准备----基因组数据和注释文件处理

作者: 余绕 | 来源:发表于2023-04-24 17:17 被阅读0次

    包括fasta文件处理,以及gff3转gtf,gtf转bed文件

    1. 下载数据
    # 下载网址 http://citrus.hzau.edu.cn/index.php
    wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.genome.fa
    wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.cDNA.fa
    wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.CDS.fa
    wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.gene.fa
    wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.protein.fa
    wget http://citrus.hzau.edu.cn/data/Genome_info/SWO.v3.0/SWO.v3.0.gene.model.gff3
    

    2.基因组序列处理

    2.1处理前

    image.png
    seqtk seq -l 60   SWO.v3.0.genome.fa  >  genome.fa
    ## 每行60个碱基
    -l INT    number of residues per line; 0 for 2^32-1 [0]
    

    2.2 处理后


    image.png

    3. 构建 index, 第二列代表序列长度

    seqkit faidx genome.fa
    
    (base) ug1299@gs81:~/WGBS/Genome_annotation$ cat   genome.fa.fai 
    chr1    30615164    6   60  61
    chr2    33651726    31125429    60  61
    chr3    37424164    65338024    60  61
    chr4    31350092    103385931   60  61
    chr5    50232142    135258531   60  61
    chr6    26160000    186327882   60  61
    chr7    29698530    212923888   60  61
    chr8    32770237    243117400   60  61
    chr9    32314164    276433814   60  61
    chrUn   32431066    309286555   60  61
    

    4. ## gff3 格式

    4.1 创建软连接
    ln -s SWO.v3.0.gene.model.gff3 genes.gff
    

    4.2 gtf 格式, 最好转换为 ensembl 的gtf 格式----带 gene 的坐标

    gffread  -T   -o   temp.gtf    genes.gff
    gtftk    convert_ensembl    -i   temp.gtf   >  genes.gtf
    rm  temp.gtf
    
    image.png

    5. gtf 转换为bed 格式

    分两步骤:
    5.1 gft to Pred
    gtfToGenePred    genes.gtf    genes.genePred
    
    image.png
    5.2 Pred to bed12
    genePredToBed   genes.genePred   genes.bed12
    
    image.png

    相关文章

      网友评论

          本文标题:数据前期准备----基因组数据和注释文件处理

          本文链接:https://www.haomeiwen.com/subject/fvwujdtx.html