融合基因检测软件-soapfusion

作者: 因地制宜的生信达人 | 来源:发表于2019-04-29 14:50 被阅读15次

    融合基因检测软件-soapfusion

    转自 生信菜鸟团

    开发单位:华大,SOAP系列软件套装!

    • 功能:检测融合基因

    • 优点:在现有的各种软件里面表现算是最好的(当时)

    • 算法:是 hash index,跟其它bwt算法不太一样

    官网:http://soap.genomics.org.cn/soapfuse.html
    paper:https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12

    其它软件有: FusionSeq [21], deFuse [22], TopHat-Fusion [23], FusionHunter [24], SnowShoes-FTD [25], chimerascan [26] and FusionMap [27]

    具体的算法我没看,因为只是有需求,正好有一些RNA-seq数据又想看看样本融合基因情况。所以就测试这个软件,通俗点说,融合基因原理其实很简单,如果有足够多的reads一部分比对到一个基因,另一部分比对到另一个基因,就可以说明它们两个基因发生了融合现象!如果是PE测序,那么更方便,左右两端reads比对情况也可以考虑。我就不多说废话了,直接上操作教程吧!

    一,软件安装

    软件下载地址:https://sourceforge.net/projects/soapfuse/files/SOAPfuse_Package/SOAPfuse-v1.27.tar.gz

    下载压缩包,解压后即可使用!!!

    推荐用最新版,然后看作者说明书的时候也要看清楚!

    我反正好几次都搞糊涂了,最后联系了作者才搞明白,作者说他想更新到2.0版本,直接用HISAT的比对sam文件来做,但是还在筹备中,我觉得有点悬!(写这个博客说这句话的时候是2016年,现在是2018年了,果然,作者没有兑现他的承诺)

    1

    解压后是一堆perl程序,都在source目录下,source目录下面还有bin下面附带了几个第三方软件,包括bwa,blast和soap,最后都用得着!

    有个很重要的问题,一定要软件自带的perl模块添加到perl的环境变量。不然那些perl程序运行会报错!

    配置文件需要修改,就把几个目录放进去即可。

    二,输入数据准备

    这里最重要的就是制作数据库!!!

    作者给了非常详细的制作过程,我觉得还是不够清楚,所以再讲一遍!

    https://sourceforge.net/p/soapfuse/blog/2013/07/strategy-for-recurrent-transcriptname-and-genename-in-ensembl-gtf-file

    首先下载5个文件:

    • 6.5K Jun 15 2009 cytoBand.txt.gz
    • 3.0G Oct 12 2012 hg19.fa
    • 2.5M Mar 15 10:30 HGNC_Gene_Family_dataset
    • 38M Feb 8 2014 Homo_sapiens.GRCh37.75.gtf.gz
    • 202 Jan 19 16:07 HumanRef_refseg_symbols_relationship.list

    文件下载地址,作者已经给出了!

    我把这些文件都放在的当前文件夹下面的raw这个子文件夹,作为该软件的database文件夹!!!

    然后运行命令!(那个时候写教程比较粗略,这句话其实有歧义)

    我在SOAPfuse-v1.27文件下面运行:

    perl ../SOAPfuse-v1.27/source/SOAPfuse-S00-Generate_SOAPfuse_database.pl  \
    -wg raw/hg19.fa  -gtf raw/Homo_sapiens.GRCh37.75.gtf.gz  -cbd raw/cytoBand.txt.gz   -gf raw/HGNC_Gene_Family_dataset \
    -rft raw/HumanRef_refseg_symbols_relationship.list \
    -sd ../SOAPfuse-v1.27 -dd ./
    

    这一步耗时很长,4~6小时,创造了 transcript.fagene.fa,然后还对他们建立bwa和soap的 index,所以有点慢!

    构建成功会有提示:

    Congratulations!
    You have constructed SOAPfuse database files successfully.
    These database files are all stored in directory you supplied:
    /home/jmzeng/biosoft/SOAPfuse/db_v1.27/
    They are all generated based on public data files you supplied:
    whole_genome_fasta_file:   /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/hg19.fa
    gtf_annotation_file:       /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/Homo_sapiens.GRCh37.75.gtf.gz
    Chr_Bandregion_file:       /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/cytoBand.txt.gz
    HGNC_gene_family_file:     /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/HGNC_Gene_Family_dataset
    gtf_segname2refseg_list:   /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/HumanRef_refseg_symbols_relationship.list
    

    这些目录很重要,接下来制作配置文件会用得着!

    To use these database files, just set the 'DB_db_dir' in config file as belowed:
    DB_db_dir  =   /home/jmzeng/biosoft/SOAPfuse/db_v1.27
    

    配置文件需要修改下面5个

    > DB_db_dir = /DATABASE_DIR/
    > PG_pg_dir = /TOOL_DIR/source/bin
    > PS_ps_dir = /TOOL_DIR/source
    > PD_all_out = /out_directory/
    > PA_all_fq_postfix = PostFix
    

    其实你仔细阅读了说明书,你就知道该修改成什么样子了!

    最后制作sample list文件

    我这里只有一个sample,所以文件就一句话即可

    test test test 100

    所以我的有下面两个文件,都是为了顺应作者的需求我才搞了test/test/test这么无聊的东西!!!

    /home/jmzeng/test_for_soapfuse/test/test/test_1.fq.gz
    /home/jmzeng/test_for_soapfuse/test/test/test_2.fq.gz
    

    如果你有多个sample需要一起运行,你就要仔细读作者的readme了,它把这个配置文件搞得特别复杂!!!

    三,运行命令

    如果文件都准备好了,运行命令非常简单!!

    perl SOAPfuse-RUN.pl -c <config_file> -fd <WHOLE_SEQ-DATA_DIR> -l <sample_list> -o <out_directory> [Options]
    

    运行的非常慢!!!

    因为需要重新比对

    四,数据结果解读

    结果,作者已经说的很清楚了,我就不多说了!

    相关文章

      网友评论

        本文标题:融合基因检测软件-soapfusion

        本文链接:https://www.haomeiwen.com/subject/cqmynqtx.html