美文网首页
使用HMMER从转录组数据中寻找基因家族

使用HMMER从转录组数据中寻找基因家族

作者: 路人里的路人 | 来源:发表于2024-01-02 11:23 被阅读0次

    1.软件准备

    1.1HMMER

    conda create -n HMMER
    conda activate HMMER
    conda install -c bioconda hmmer
    #创建环境并安装
    

    1.2 Trinity

    conda create -n trinity
    conda activate trinity
    conda install -c bioconda trinity=2.15.1
    #创建环境并安装指定版本的trinity
    

    1.3 transdecoder

    conda create -n transdecoder
    conda activate transdecoder
    conda install -c bioconda transdecoder=5.7.1
    #创建环境并安装指定版本的transdecoder
    

    2.蛋白序列获得

    2.1 转录本拼接

    Trinity --seqType fq --max_memory 50G --left reads_1.fq  --right reads_2.fq --CPU 6
    

    --seqType fq指定测序文件的类型
    --max_memory指定最大使用内存
    --left/right双端测序文件名称
    --CPU 最大CPU使用数目

    2.2 提取最长转录本

    get_longest_isoform_seq_per_trinity_gene.pl Trinity.fasta > longest.fasta
    

    Trinity.fasta输入需要查找最长转录本的转录本文件,longest.fasta输出文件名称。

    2.3转录本翻译

    TransDecoder.LongOrfs -t longest.fasta --output_dir /path/to/your/PEP
    

    longest.fasta上一步获得的最长转录本,/path/to/your/PEP输出文件夹路径。

    3.查找基因

    3.1下载结构域

    wget https://www.ebi.ac.uk/interpro/wwwapi//entry/pfam/PF02441?annotation=hmm
    gunzip PF02441.hmm.gz
    

    从Pfam网站(Browse - InterPro (ebi.ac.uk))上下载需要的结构域并解压缩。

    3.2构建索引与运行

    hmmpress PF02441.hmm
    hmmscan --tblout output.txt PF02441.hmm protein.fasta 
    

    output.txt是输出文件的名称,protein.fasta是蛋白序列文件。
    output.txt的基本内容如下:

    #                                                                      --- full sequence ---- --- best 1 domain ---- --- domain number estimation ----
    # target name        accession  query name                  accession    E-value  score  bias   E-value  score  bias   exp reg clu  ov env dom rep inc description of target
    #------------------- ----------        -------------------- ---------- --------- ------ ----- --------- ------ -----   --- --- --- --- --- --- --- --- ---------------------
    Flavoprotein         PF02441.23 TRINITY_DN25061_c0_g5_i2.p1 -            2.9e-34  104.2   0.0   4.3e-34  103.6   0.0   1.3   1   1   0   1   1   1   1 Flavoprotein
    #
    # Program:         hmmscan
    # Version:         3.4 (Aug 2023)
    # Pipeline mode:   SCAN
    # Query file:      protein.fasta
    # Target file:     PF02441.hmm
    # Option settings: hmmscan --tblout CHS.txt PF02441.hmm protein.fasta 
    # Current dir:     /home/oldhome/monkeyflower/xiaodeng/bin/HMMERDB/HTHC
    # Date:            Tue Jan  2 09:22:11 2024
    # [ok]
    

    相关文章

      网友评论

          本文标题:使用HMMER从转录组数据中寻找基因家族

          本文链接:https://www.haomeiwen.com/subject/zicpndtx.html