本节讲解如何进行顺式作用元件预测。
一般提取基因上游 1000-2000bp 序列作为 promoter 区域,用于进行顺式作用原件预测。
#首先将鉴定到的基因家族成员注释文件gff3格式转gtf格式(怎么得到鉴定到的基因家族成员注释文件gff3,上篇推文有讲到)
gffread -T -o Ft.gtf Ft.gff3
#提取基因上游序列
seqkit subseq --gtf Ft.gtf \ #鉴定到基因家族成员的gtf文件
--feature transcript \ # 提取转录本上游
--up-stream 2000 \ # 提取长度
--id-ncbi \ # 输出的id格式
--only-flank \ # 不包括feature本身序列
--gtf-tag transcript_id \ # 输出结果添加转录本id
genome.fasta > gene.upstream.fasta
大家可以根据需要修改>后的id
awk '{if($1~/>/){print ">"$2}else{print $0}}' gene.upstream.fasta > new.gene.upstream.fasta
将promoter fasta 序列上传至PlantCARE网站进行顺式作用元件预测
网址:PlantCARE, a database of plant promoters and their cis-acting regulatory elements (ugent.be)
A:ID
B:名称
C:motif
D:起始位置
E:得分
F:正负链
G:描述
注意:
初始结果顺式作用原件很多很多,所以我们要根据自己的要求筛选,只保留我们需要展示的顺式作用原件。
此时我们需要把过滤后的文件上传到服务器做格式转换(GSDS画图的准备)
#转换plantCARE_output_PlantCARE_*.tab格式成bed格式
awk -F "\t" '{print $1"\t"$4-1"\t"$4+length($3)"\t"$2}' plantCARE_output_PlantCARE_14593.tab > PlantCARE.bed
# 生成promoter序列的bed文件,用于GSDS软件展示
awk '{print $1"\t0\t2000\tCDS\t."}' geneID > gene.upstream.bed
PlantCARE.bed
gene.upstream.bed
有了这两个文件我们就可以去GSDS画图啦
选择对应的文件上传即可
结果出来之后
首先修改这里参数如图,点击redraw即可
结果图
id重叠,我们导出svg格式的图片在AI里面修改即可。
你还可以根据自己的需求添加进化树和配置颜色,上篇推文有讲到。
当然你也可以用ggplot2去做顺式元件图
网友评论