基因家族分析

作者: 就是大饼 | 来源:发表于2020-10-05 18:54 被阅读0次

笔记

基因家族

同一个祖先基因经过变异,产生了结构、功能相似的各种表达蛋白,表达这些蛋白的基因统归为一个基因家族。

超基因家族

同一个祖先基因经过变异,产生了结构相似、功能不同的各种表达蛋白,表达这些蛋白的基因统归为一个基因超家族。

domain

一个基因转录的蛋白质分子中可以包含多个结构特异并且功能不同的区域,这些区域称之为domain,domain 可以看作蛋白质功能的基本单位,蛋白质的功能由包含的多个domain共同决定,研究domain, 可以更好的研究蛋白质功能,而具有相同结构域的基因往往形成一个基因家族。

流程

下载基因家族模型

在PFAM中下载
在文献中找到pfam ID :PF02519 (睡莲)


image.png
image.png

已获取HMM文件

下载hmmer

Linux可以在官网下载
windows下载网址:http://hmmer.janelia.org/static/binaries/hmmer3.0_windows.zip
(直接打开会404,用迅雷打开就可以了)
下载后解压即可使用。

使用hmmer

在桌面按windows+R,输入CMD,进入窗口后,输入“D:”,进入hmmer所在文件夹。

hmmbuild 要输出的文件名(.hmm)+sto文件(相对路径)
image.png

(不小心命名错了T T)
alen表示比对氨基酸一共465个,mlen表示最大比对上218个氨基酸,eff_nseq表示比对效率0.96存在15.58个gap,re/pos表示每个位置的相对熵0.590
随便打开看看(ASCII码文件)

cat 02319.hmm
image.png

hmmsearch搜索序列数据库

需要一个蛋白质数据文件,是fasta格式,uniprot sprot.fasta
在uniprot中搜Nymphaeales找家族蛋白质数据


image.png

(尝试在文献中找,但是那个网址下载一直失败。就自己搜搜看了)


image.png
文件下载好后,输入
hmmsearch  02319.hmm uniprot-Nymphaeales.fasta > 02519.out

02319.hmm是上一步输出的文件,.fasta文件是下载好的蛋白质文件,02519.out是输出文件。
文件内容


image.png

比对到的含有domain的序列,按E值来排序,从小到大

  • 第一列的E-vaule是最终要的一个参数,越小越有可能是同源的序列
  • 第二列的score也可以用来评估可能性,而且不依赖于比对数据库的大小,只依赖HMM文件和目标序列
  • 第三列bias是score的偏差,比如score是222.7,那么原始值就是加上3.2,等于225.9,但是这个数值一般不重要,可以忽略不看。
    后面的3列也是一样的参数,只是对于best 1 domain而言,前三列是对于full sequence而言。最后的#dom内容是有多少个domain,exp是均值,可以是小数,而N是真正的整数个数。

教程参考https://cloud.tencent.com/developer/article/1424604

clustalx的使用

下载clustalx(Windows)/clustaw(Linux)
下载网址http://www.clustal.org/download/current/
安装后

image.png
在kegg找同源但不同物种的基因序列。我找的是拟南芥(Arabidopsis thaliana (thale cress))的光系統II蛋白D1基因(NCBI-GeneID: 844802)和亚麻(Camelina sativa (false flax))的光系統II蛋白D1基因。
image.png
在NCBI中,拟南芥叶绿体的psbA基因序列
image.png
其他同理可得
第一步:输入序列文件,选择.fasta文件
image.png
选择第二个比对文件,也是.fasta文件
image.png
第二步,选择多重比对参数
image.png
image.png
第三步,选择好后,进行多重比对
image.png
对输出的.dnd和.aln文件选择输出位置及文件命名
image.png
.aln是序列比对的文件,可以进一步用于构建系统发育树,.dnd是向导树文件(指导树)。
第四步,比对完成,选择输出结果文件的格式
image.png
image.png
比对结果如下
image.png

建树

下载MEGA

下载网址http://www.drv5.cn/sfinfo/15726.html
安装后打开。
第一步,将6条序列合并到同一个.fasta文件中。

image.png
第二步,打开MEGA,按下图操作后选择含有所有序列的.fasta文件。
image.png
image.png
image.png
按shift可多选序列
第三步,选择对齐方式,ClustalW适用于基因序列,MUSCLE适用于蛋白质序列。
image.png
对齐后保存为.meg格式,用于后续建树。
image.png
.mas格式保不保存都无所谓,但顺手保存了。
第四步,关闭窗口后,回到原来MEGA窗口。点击phylogeny
image.png
弹出“是否使用刚刚生成的.meg?”,点击“是”,如不会调参数可以使用默认参数,即可生成进化树。在弹出窗口“Tree Explorer”中可以对进化树进行美化、调整等。还可以用word进一步编辑该进化树。
image.png

相关文章

  • 基因家族分析(四)

    基因家族流程:基因家族分析(一) 基因家族流程:基因家族分析(二) 基因家族流程:基因家族分析(三) ======...

  • 基因家族分析(三)

    基因家族流程:基因家族分析(一) 基因家族流程:基因家族分析(二) =======================...

  • 基因家族分析 | 番茄Nramp基因家族分析(二)

    系列目录:基因家族分析 | 番茄Nramp基因家族分析(一)基因家族分析 | 番茄Nramp基因家族分析(二) 通...

  • 基因家族分析(五)

    共线性分析(Synteny analysis)及可视化 基因家族流程:基因家族分析(一) 基因家族流程:基因家族分...

  • 基因家族分析(七)

    第六部分暂时发现一点问题,改天补充~ 基因家族流程:基因家族分析(一) 基因家族流程:基因家族分析(二) 基因家族...

  • 练习:基因家族

    基因家族鉴定分析操作手册: 基因家族 基因家族鉴定 基因家族鉴定分析总结 1.下载基因组信息文件,gff,cds,...

  • 基因家族分析(二)

    基因家族流程:基因家族分析(一) ========================================...

  • 基因家族分析全套软件

    基因家族生物信息学分析 (1)基因家族分析概述 旁系同源基因 基因家族可通过基因复制进行物种特异性扩增,主要有染色...

  • 基因家族鉴定及分析

    单个基因家族分析方法基因家族鉴定及分析 | Wutianzhen (wu-tz.github.io)[https:...

  • 目录

    1.基因家族分析专题 • 基因家族概念• 数据库检索与成员鉴定• 蛋白成员基本特性和基因结构分析• ...

网友评论

    本文标题:基因家族分析

    本文链接:https://www.haomeiwen.com/subject/ldsauktx.html