最近有小伙伴问为怎么多快好省的发个论文顺利毕业,作为生物圈里的当事人当然推荐基因家族分析了,于是乎准备整理这一系列文档。在本文档中我主要侧重于后续的数据可视化,因为物种不同数据筛选略有差别,但数据可视化是不变的,废话不多说立马上干货
一. 基因的鉴定
本文档选择的物种为棉花,因为数据库全好获取资料,通过以下链接下载数据库,包括基因组数据,gff文件,氨基酸序列,CDS序列
wget https://cottonfgd.org/about/download/assembly/genome.Ghir.CRI.fa.gz
wget https://cottonfgd.org/about/download/annotation/gene.Ghir.CRI.gff3.gz
wget https://cottonfgd.org/about/download/sequence/seq.Ghir.CRI.fa.tar.gz
那么怎么对基因进行鉴定那,通常是利用别的物种中的已知基因来鉴定此物种。
(1)构建本地蛋白数据库
makeblastdb -in Gh_pep.fa -dbtype prot -title Gh_pep.fa
(2)种子序列检索本地蛋白数据库
种子序列即其它物种中此基因的序列
blastp -query 种子序列.fa -out 候选蛋白.txt -db Gh_pep.fa -outfmt 6 -evalue 1e-10
通过数据检索我们会获得候选蛋白的ID,根据此ID从数据库中提取相应序列
seqtk subseq Gh_cds.fa 序列ID | seqtk seq -l 50 > CDS.fa
seqtk subseq Gh_pep.fa 序列ID | seqtk seq -l 50 > pep.fa
注:棉花的序列可以直接根据ID从面棉花在线数据库中提取出来,很是方便
此时我们有了候选蛋白序列,之后通过NCBI-CDD,Pfam,KEGG等数据库对候选蛋白进行检验,从而确定其基因家族成员。
二. 后续可视化分析
基因家族的后续可视化主要有以下展示方式
(1) motif分析蛋白保守基序
(2) 蛋白保守结构域分析
(3) 基因结构分析
(4) 构建系统发育树
(5) 基因表达量分析
(6) 串联重复基因分析
(7) 计算Ka/Ks值
(8) 顺势作用元件分析
(9) 染色体定位
基本只要把图绘制好一篇文章就成了,下面让我开始基因家族数据可视化的旅程
网友评论