美文网首页
在超算做生信分析

在超算做生信分析

作者: chSNP | 来源:发表于2020-09-27 10:49 被阅读0次
        本文以广州超算为例,广州超算天河2A为目前全球最大的X86超算中心,X86架构为为目前科学计算和工程计算通用架构,但是随着ARM的崛起,可能会在未来天河3和天河4上有所反应。
        我们来看下广州超算的生信软件配备:
    
    sentieon.png

    如此众多软件,可以通过Module的功能将这些工具的环境加载到自己账户下,进行提交计算。我们以一款商用NGS组装和比对工具Sentieon来演示整个过程:
    1、拿到超算发的VPN账户,使用Hillstone VPN工具进行登录:


    image.png
    1. 使用超算开通的账户登录Shell:


      sentieon.png
    2. 天河上 module load sentieon 加载环境即可使用 sentieon 命令
      在天河上的运行方法,可参考例子/BIGDATA1/app/sentieon/quick_start ,该路径下 包括有 fastq 数据,参考基因 reference 及运行脚本,如下图,用户可将该例子拷贝到账户 存储下进行测试(cp -r /BIGDATA1/app/sentieon/quick_start ~)。


      sentieon.png
    3. 运行脚本 sentieon_quickstart.sh 中给出了分析流程,用户可通过设定脚本中的 nt 值 (最大可设为 24)指定计算使用的线程数(第 8 行);可通过设定 DIR 路径指定样本的 路径(第 21 行);如需更换样本名及参考基因可设定脚本中的第 51~60 行,如下图:


      image.png

      5.然后执行命令:yhbatch -N 1 sentieon_quickstart.sh 提交作业到计算节点上运行。作 业开始运行后,会生成一个 quick_start_XXXX.log 文件,其中内容为作业运行的输出记 录,用户可通过查看 quick_start_XXXX.log 文件,获取作业的运行情况。


      Sentieon.png
      sentieon.png

    也可根据实际计算需要编写执行脚本,然后使用 yhbatch 的方式提交到计算节 点上运行,yhbatch 的作业提交步骤可参考:


    sentieon.png

    Sentieon软件特点
    --该软件能替换常规的分析工具(GATK4/GATK 3.7/Picard 2.9.0/BWA 0.7.15-r1140), 结 果匹配的同时,还具有如下突出的特点:
    --并行计算实现 10 – 50 倍的加速,天河二号上单节点测试,分析外显子组只需半小 时, 30X 全基因组 8 小时。
    --在高深度测序区域没有 down-sampling(GATK 对深度大于 500 的区域会做 downsampling),这对于高深度测序尤其是低 allele frequency 的变异的重要性尤其突 出,一个典型的应用是 ctDNA 测序结果分析。
    --没有 run-to-run difference:严谨的软件和算法工程实现,去除了原来 GATK 软件中 因为例如 thread-dependency,随机取样等原因导致的结果不可重复的问题 。
    --大量 WGS 的 joint-calling:软件能实现大到 10 万个 WGS 数据的一次性 jointcalling, 无需中间步骤,此功能已被软件客户广泛使用。
    --TNscope 获得 DREAM challenge 榜首的,自主设计的算法产品,除了能 call 结构变 异之外,对于 snv 和 indel,也给出了更高的准确度。

    更多介绍及详情可参考Sentieon中文网站

    相关文章

      网友评论

          本文标题:在超算做生信分析

          本文链接:https://www.haomeiwen.com/subject/viukuktx.html