美文网首页基因组便捷工具系统进化
Linux下提全部基因的启动子

Linux下提全部基因的启动子

作者: 球果假水晶蓝 | 来源:发表于2023-11-13 13:14 被阅读0次
    // gff to bed
    python  -m jcvi.formats.gff bed --type=gene --key=ID  Soffic.v20191009.gff3  > gene.bed
    samtools faidx Soffic.genome-hic20191009.fasta
    // 基因 上游2000bp region
    bedtools flank -i gene.bed -g Soffic.genome-hic20191009.fasta.fai  -l 2000  -r 0 -s > promoters.bed
    // 根据region 提序列
    bedtools getfasta -s -fi Soffic.genome-hic20191009.fasta  -bed promoters.bed -fo promoters.fa -nameOnly
    
    更简单的方法
    #gff3格式转gtf格式)
    gffread  -T  -o  Ft.gtf  Ft.gff3
    #提取基因上游序列
    seqkit  subseq   --gtf Ft.gtf  \ #鉴定到基因家族成员的gtf文件
    --feature transcript   \ # 提取转录本上游
    --up-stream 2000   \ # 提取长度
    --id-ncbi    \ # 输出的id格式
    --only-flank    \ # 不包括feature本身序列
    --gtf-tag  transcript_id   \ # 输出结果添加转录本id
    genome.fasta  > gene.upstream.fasta
    

    相关文章

      网友评论

        本文标题:Linux下提全部基因的启动子

        本文链接:https://www.haomeiwen.com/subject/jycdwdtx.html