美文网首页
教程及软件有错误是常态

教程及软件有错误是常态

作者: 因地制宜的生信达人 | 来源:发表于2018-12-17 21:43 被阅读17次

    有些时候,我们可能真的很努力了,但事情就是解决不了,这个时候仍然是自己的问题,努力能解决一些问题,但不是所有。

    最近在用star找融合基因,对人类物种的数据来说,没啥问题,很轻松就运行成功了,合作方给我了一些小鼠的测序数据,居然出现了问题,当然,我下载数据库肯定不会出错的啦。

    ├── [ 26G]  GRCh37_gencode_v19_CTAT_lib_Nov012017.plug-n-play.tar.gz
    ├── [ 20G]  GRCh38_gencode_v26_CTAT_lib_Nov012017.plug-n-play.tar.gz
    ├── [ 24G]  Mouse_M15_CTAT_lib_Nov012017.plug-n-play.tar.gz
    

    报错如下:

    -parsing GTF file: /home/jianmingzeng/biosoft/starFusion/db/Mouse_M15_CTAT_lib_Nov012017/ctat_genome_lib_build_dir//ref_annot.gtf
    Error, cannot get transcript_id from gene_id "ENSMUSG00000102693.1"; gene_type "TEC"; gene_name "4933401J01Rik"; level 2; havana_gene "OTTMUSG00000049935.1"; of line
    chr1    HAVANA  gene    3073253 3074322 .   +   .   gene_id "ENSMUSG00000102693.1"; gene_type "TEC"; gene_name "4933401J01Rik"; level 2; havana_gene "OTTMUSG00000049935.1"; at /home/jianmingzeng/miniconda3/lib/STAR-Fusion/util/../lib/GTF_utils.pm line 111, <$fh> line 6.
        GTF_utils::GTF_to_gene_objs("/home/jianmingzeng/biosoft/starFusion/db/Mouse_M15_CTAT_lib_N"...) called at /home/jianmingzeng/miniconda3/lib/STAR-Fusion/util/../lib/GTF_utils.pm line 30
        GTF_utils::index_GTF_gene_objs_from_GTF("/home/jianmingzeng/biosoft/starFusion/db/Mouse_M15_CTAT_lib_N"..., HASH(0x1998ac8)) called at /home/jianmingzeng/miniconda3/lib/STAR-Fusion/util/../lib/GTF_utils.pm line 20
        GTF_utils::index_GTF_gene_objs("/home/jianmingzeng/biosoft/starFusion/db/Mouse_M15_CTAT_lib_N"..., HASH(0x1998ac8)) called at /home/jianmingzeng/miniconda3/lib/STAR-Fusion/util/STAR-Fusion.predict line 331
        main::parse_GTF_features("/home/jianmingzeng/biosoft/starFusion/db/Mouse_M15_CTAT_lib_N"..., HASH(0x23174a8), HASH(0x23174d8)) called at /home/jianmingzeng/miniconda3/lib/STAR-Fusion/util/STAR-Fusion.predict line 100
    

    看起来很复杂,又是perl又是模块,还有gtf的问题,事实上只需要看第一句话,就是star-fusion自带的基因注释数据库文件里面的gtf问题,有一些基因是没有对应转录本的。

    我去gencode数据库里面搜索了同样的ID,发现这个问题一模一样,很有可能是gencode那边的人并没有做好这个数据库的维护,而star-fusion的开发团队直接沿用了这个数据库文件。

    但是为什么star-fusion的开发团队并没有去仔细检查呢?

    难道他们开发了数据库缺没有实际上运行任何一个小鼠的例子吗?

    当然了,解决方案非常简单:

    grep gene_id ref_annot.gtf |grep transcript_id
    

    就是挑选那些既有基因ID,又有转录本ID的那些咯,可以看到原来是1745955行,经过过滤只剩下1693314行。

    当然了,软件也成功运行了。

    ├── [4.0K]  star-fusion.filter.intermediates_dir
    │   ├── [ 47K]  star-fusion.pre_blast_filter
    │   ├── [ 19K]  star-fusion.pre_blast_filter.abridged
    │   ├── [105K]  star-fusion.pre_blast_filter.filt_info
    │   ├── [ 65K]  star-fusion.pre_blast_filter.filt_info.abridged
    │   ├── [ 48K]  star-fusion.pre_blast_filter.post_blast_n_promisc_filter
    │   └── [ 21K]  star-fusion.pre_blast_filter.post_blast_n_promisc_filter.abridged
    ├── [ 42K]  star-fusion.fusion_candidates.final
    ├── [ 17K]  star-fusion.fusion_candidates.final.abridged
    ├── [ 87K]  star-fusion.fusion_candidates.preliminary
    ├── [ 131]  star-fusion.predict.intermediates_dir
    │   ├── [ 22M]  star-fusion.junction_breakpts_to_genes.txt
    │   ├── [125K]  star-fusion.junction_read_names
    │   └── [1.6M]  star-fusion.spanning_frag_names
    ├── [   0]  star-fusion.STAR-Fusion.filter.ok
    └── [   0]  star-fusion.STAR-Fusion.predict.ok
    

    相关文章

      网友评论

          本文标题:教程及软件有错误是常态

          本文链接:https://www.haomeiwen.com/subject/fkrhkqtx.html