// gff to bed
python -m jcvi.formats.gff bed --type=gene --key=ID Soffic.v20191009.gff3 > gene.bed
samtools faidx Soffic.genome-hic20191009.fasta
// 基因 上游2000bp region
bedtools flank -i gene.bed -g Soffic.genome-hic20191009.fasta.fai -l 2000 -r 0 -s > promoters.bed
// 根据region 提序列
bedtools getfasta -s -fi Soffic.genome-hic20191009.fasta -bed promoters.bed -fo promoters.fa -nameOnly
更简单的方法
#gff3格式转gtf格式)
gffread -T -o Ft.gtf Ft.gff3
#提取基因上游序列
seqkit subseq --gtf Ft.gtf \ #鉴定到基因家族成员的gtf文件
--feature transcript \ # 提取转录本上游
--up-stream 2000 \ # 提取长度
--id-ncbi \ # 输出的id格式
--only-flank \ # 不包括feature本身序列
--gtf-tag transcript_id \ # 输出结果添加转录本id
genome.fasta > gene.upstream.fasta
网友评论