基因功能注释

作者: shannonnana | 来源:发表于2018-06-08 17:39 被阅读0次

    基因功能注释软件

    InterproScan

    InterProScan 是 EBI 开发的一个集成了蛋白质结构域和功能位点的数据库,其中把 SWISS- PROT、TrEMBL、PROTSITE、PRINTS、PFAM、ProDom 等数据库提供的蛋白质序列中的各种局域模式,如结构域、motif 等信息统一起来,提供了一个较为全面的分析工具。

    • 软件安装
      下载安装包panther(数据库文件)后解压缩,注意将panther文件放入到安装包解压缩后的data文件夹下,同时注意校验md5值

    • 脚本运行
      可以是网络版运行,这里讲本地脚本运行

    # Java version 1.8 or above is required to run InterProScan.
    
    ./interproscan/interproscan-5.17-56.0/interproscan -t n -i ./M_1.fa -f TSV -b ./Annotation/M_1 -T ./Annotation/temp -dp
    
    ###主要参数说明
    # -t   seqtype,可选dna/rna (n)or protein (p),默认是蛋白序列
    # -i   输入文件,如fasta文件
    # -f   输出文件格式,TSV, XML, GFF3, HTML and SVG,默认TSV
    # -b  输出目录
    # -T  临时文件存放目录
    # -dp  禁用lookup service,所有运算在本地进行
    
    • 结果说明
      得到一个tsv文件(tab分割)
    PARG-007/2090/BMS1-001/700  081238a3dd88fc74b263bd42fce55b71    1680    PANTHER PTHR12858       610 912 0.0 13-06-2018
    PARG-007/2090/BMS1-001/700  081238a3dd88fc74b263bd42fce55b71    1680    PANTHER PTHR12858       1055    1672    0.0 13-06-2018
    PARG-007/2090/BMS1-001/700  081238a3dd88fc74b263bd42fce55b71    1680    Pfam    PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal    1216    1502    6.1E-96 T   13-06-2018
    

    共10列信息,每列分别对应:序列ID,-,序列长度,比对数据库,目标序列ID,目标序列描述,其实终止位置,比对得分,时间
    提取第一列和三到9列,加表头,展示如下

    Sequence_Accession  Sequence_Length Analysis_Database   Signature_Accession Signature_Description   Start_location  Stop_location   Score
    PARG-007/2090/BMS1-001/700  1680    PANTHER PTHR12858       610 912 0.0
    PARG-007/2090/BMS1-001/700  1680    PANTHER PTHR12858       1055    1672    0.0
    PARG-007/2090/BMS1-001/700  1680    Pfam    PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal    1216    1502    6.1E-96
    PARG-007/2090/BMS1-001/700  1680    Pfam    PF08142 AARP2CN (NUC121) domain 629 714 5.1E-31
    

    相关文章

      网友评论

        本文标题:基因功能注释

        本文链接:https://www.haomeiwen.com/subject/giwasftx.html