美文网首页札记
蛋白功能注释

蛋白功能注释

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-07-19 00:00 被阅读0次

基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课

基础知识

  • 基本假设:序列一级结构相似 → 功能相似
  • biomart R语言软件包,基因功能查询

少量蛋白注释去数据库查找

  • Uniprot
  • Nr
  • Swiss Prot
  • tramble
  • Pfam

大量蛋白功能注释流程

  • blast + Nr很慢
  • Diamond软件,快两万倍


    蛋白功能注释流程
  • 基因注释:同源注释 → 功能分类
  • 基于相似性的比对的算法是基于:动态规划算法
    • 两条序列来回滑动 → 找到相似(相似性块HSP) → 打分 → 滑动 → HSP → 打分 → ...
    • 缺点,假设整条序列相似性相同,与现实不相符
  • 基于结构域的比对算法
    e.g. 抗性基因(R基因)结构域 常见的有NBS结构域,抗性基因的保守结构域更为重要
    NBS结构域、TIR结构域等
    interpro是一个庞大的整合结构域数据库,整合了Pfam等各种数据库,整合后开发的软件是interproscan
  • 功能分类
    • GO分类,完整的描述基因功能的方法,三个角度描述基因功能,较为粗糙,80%基因能做
      MF 分子功能
      BP 生物学过程
      CC 细胞组分
    • KEGG pathway
      代谢pathwy注释
    • COG/KOG基因家族分类
      跨物种说法
      通过物种分化产生的基因 —— 直系同源基因
      通过拷贝产生的基因 —— 旁系同源基因
      大的基因分类,每个物种24个,用A-Z表示

基因功能注释软件、平台

  • blast2go
    收费
  • InterproScan
    好用,安装步数复杂,运行慢
  • eggNOG-mapper
    推荐,好用哦
    网页 http://eggnog5.embl.de/#/app/home
    搜索eggnog即可
    蛋白序列上传到网页,留下邮箱,第二天可收到结果
    也可以部署到本地linux服务器
    蛋白序列名称要正确,不能是转录本名称

eggNOG-mapper参数

  • Taxonomic Scope # 选择物种,动物、植物等
  • Orthology restrictions # one to one orthology比any要精确,前者适合大量近源物种都已经被测序的物种,如禾本科物种;后者适合近源物种研究不多的物种,如裸子植物。
  • 序列少直接跑,序列多需要邮件确认,点击run

注释结果解读

  • geneID
  • seed_eggNOG_ortholog # 比对上的seed序列
  • preferred_name # 给你蛋白序列起个名字
  • GO
  • KEGG
  • COG/KOG代号
  • 功能详写

表达数据挖掘三张表

  • 表达矩阵
  • 样本信息表
  • 基因信息表
表达数据挖掘三张表
  • 对于将不同文章放在一起的数据分析要注意批次效应

题外话

  • 基因家族鉴定要用到Orthomcl做基因家族聚类、鉴定,Orthofinder更新

相关文章

网友评论

    本文标题:蛋白功能注释

    本文链接:https://www.haomeiwen.com/subject/ucnvhktx.html