美文网首页基因组生物信息学基因组组装
入门流程 | 三代测序基因组从[ 组装 ]到[ 评估 ]- Pa

入门流程 | 三代测序基因组从[ 组装 ]到[ 评估 ]- Pa

作者: 生信石头 | 来源:发表于2021-06-02 19:59 被阅读0次

    写在前面

    最近,带一个师妹了解并做了简单的基因组组装工作,感觉其上手速度还可以。慢慢地有初窥生物信息学数据分析门径的样式,于是....还是鼓励她整理整理流程,分享分享(其实....主要还是公众号明显有断更的趋势,赶紧补血....),与大伙共同学习。流程整理如下。

    获取并上传测序数据

    样品交付于公司后,公司开展Pacbio常规基因组建库测序,返回三个文件:

    • bam
    • bai
    • xml

    其中 BAM 文件保存的去除接头之后,所有subreads(来自同一个ZMW的reads在文件中连续排布)。使用 xftp 或 winscp 上传数据到服务器。

    Pacbio的 BAM 文件转换为 Fastq/a 文件

    计划使用 flye 软件进行组装。如果是 hifi 测序,我们可以直接使用 bam 文件。对于常规建库(其实也就是普通ccs),那么需要先转换为 fastq 或者 fasta 文件。使用Pacbio 官方的 bam2fastx 软件。
    **安装 bam2fastx **

    conda config --add channels defaults
    conda config --add channels bioconda
    conda config --add channels conda-forge
    conda install bam2fastx
    

    bam文件转换为fasta格式

    bam2fasta -o out.subreads.fasta in.subreads.bam 
    

    使用 flye 组装基因组

    由于运行时间较长,我们使用 tmux 软件,防止掉线。

    tmux new -s assembly
    

    安装 flye 软件

    conda install flye
    

    开始组装,使用 4 个线程

    cd /home/qi_zheng/PacbioGenomeAssembly
    flye --pacbio-raw out.subreads.fasta --out-dir flye_ressembly_results --threads 4
    

    查看组装结果

    ls -ahl flye_ressembly_results
    

    评估组装结果

    下载Quast软件(Python软件,无需安装)

    cd ~
    wget -c https://github.com/ablab/quast/releases/download/quast_5.1.0rc1/quast-5.1.0rc1.tar.gz
    tar -zxvf quast-5.1.0rc1.tar.gz
    

    对组装结果进行评估

    python /home/qi_zheng/quast-5.1.0rc1/quast.py assembly.fasta -t 10 -o quast_evalucation_results
    

    查看评估结果

    cd quast_evalucation_results
    ls -ahl 
    

    生成report.html文件,在浏览器上打开,即可查看评估结果

    html 文件中存在可交互元素,可以详细查看具体组装信息。

    写在最后

    整体上,仅仅是上述简单的操作。我个人觉得组装效果还挺不错,起码组装出约等于预期染色体数目的长度够大的contigs。详细还是需要做进一步分析,如与近源物种比较,才能更好确定是否有具体组装问题。当然,我对这个结果充满信心。

    相关文章

      网友评论

        本文标题:入门流程 | 三代测序基因组从[ 组装 ]到[ 评估 ]- Pa

        本文链接:https://www.haomeiwen.com/subject/rngosltx.html