美文网首页linux
200918 Circ之旅4.2-CIRIquant

200918 Circ之旅4.2-CIRIquant

作者: dicklim | 来源:发表于2020-09-18 11:22 被阅读0次

    Kevinzjy/ CIRIquant
    CIRIquant-cookbook
    SciPy 1.2.2
    运行过程中报错处理的一些原理:200719 CIRIquant使用记录

    安装踩坑

    首先,这是个conda上没有的软件,所以只能pip,安装。配合生信别的软件使用,所以使用的是2.7的包:

    numexpr==2.6.9
    numpy==1.16.4
    pysam==0.15.2
    PyYAML==5.1.1
    scikit-learn==0.20.3
    scipy==1.2.2
    argparse==1.2.1
    

    坑1:这个scipy1.2.2是针对1.2.1的debug版本,这个软件conda没有,只能去github下了之后通过pip进行本地安装
    坑2:conda命令对于环境可以自己识别,你在哪个环境里安装,就安装到哪个环境里,但是pip不是,在创建环境的时候,会在环境里创建新的pip,所以激活环境之后如果想使用pip安装最好which一下,看看是用的哪个pip,如果是base下的pip可能会影响环境外的包配置。
    注3:这儿PyYAML很容易报错,因为版本过高,所以最好建个新环境然后先把5.1.1版本的PyYAML装好

    ## 可以用这一段命令进行安装
    conda install --yes --file requirements.txt
    
    (base) dick@aaa-virtual-machine:~ $ which conda
    /home/dick/anaconda3/bin/conda
    (rna) dick@aaa-virtual-machine:~ $ which conda
    /home/dick/anaconda3/bin/conda
    (base) dick@aaa-virtual-machine:~ $ which pip
    /home/dick/anaconda3/bin/pip
    (rna) dick@aaa-virtual-machine:~ $ which pip
    /home/dick/anaconda3/envs/rna/bin/pip
    

    pip一样可以换源:pip配置国内源

    安装本地的tar.bz软件(安装scipy):

    这里面是有不同的,有可能比如conda有,但是网络问题没法装,还有就是conda本身没有,这个可以去对应的源看,比如我用的清华源,那我就去清华源看有没有对应的包

    conda可以装,但是速度太慢

    这种可以把包下下来然后conda install --use-local

    Conda install 本地压缩包文件tar.bz2

    conda本身没有

    这种use local就不好使了,还是要靠pip,把tar.bz解压后,cd到文件夹里,然后python setup.py install,这是直接用包里面的setup文件来安装这个包。(注:Python2和Python3要区分一下可能,但是我这儿环境里是Python2所以我就没注意)

    注:这儿最好先which python一下,确定一下python用的是env里面的

    留个链接:{Python}安装第三方包(setup.py)

    CIRIquant

    nohup CIRIquant -t 30 \
              -1 /home/stu3/data/clean/SRR5635537_1_val_1.fq.gz \
              -2 /home/stu3/data/clean/SRR5635537_2_val_2.fq.gz \
              --config /home/stu3/data/config.yml \
              -o /home/stu3/data/out2log \
              -p SRR5635537 >nohup.log 2>&1 &
    

    本次使用,最高内存占用约 120G 多点。之前一直停滞在De novo alignment for circular RNAs,大概原因是因为内存不够,所以检测的东西没导出,所以就没继续往下了。

    以下为输出文件:

    [Tue 2020-07-21 05:02:53] [INFO ] Input reads: SRR5635537_1_val_1.fq.gz,SRR5635537_2_val_2.fq.gz
    [Tue 2020-07-21 05:02:53] [INFO ] Library type: unstranded
    [Tue 2020-07-21 05:02:53] [INFO ] Output directory: /home/stu3/Circ/5_CIRIouput/SRR5635537, Output prefix: SRR5635537
    [Tue 2020-07-21 05:02:53] [INFO ] Config: hg19 Loaded
    [Tue 2020-07-21 05:02:53] [INFO ] 48 CPU cores availble, using 20
    [Tue 2020-07-21 05:02:53] [INFO ] Align RNA-seq reads to reference genome ..
    [Tue 2020-07-21 07:02:35] [INFO ] Estimate gene abundance ..
    [Tue 2020-07-21 07:17:03] [INFO ] No circRNA information provided, run CIRI2 for junction site prediction ..
    [Tue 2020-07-21 07:17:03] [INFO ] Running BWA-mem mapping candidate reads ..
    [Tue 2020-07-21 08:20:31] [INFO ] Running CIRI2 for circRNA detection ..
    [Tue 2020-07-21 08:48:42] [INFO ] Extract circular sequence
    [Tue 2020-07-21 08:49:14] [100% ] [##################################################]
    [Tue 2020-07-21 08:49:14] [INFO ] Building circular index ..
    [Tue 2020-07-21 08:49:40] [INFO ] De novo alignment for circular RNAs ..
    [Tue 2020-07-21 10:01:28] [INFO ] Detecting reads containing Back-splicing signals
    [Tue 2020-07-21 10:04:06] [INFO ] Detecting FSJ reads from genome alignment file
    [Tue 2020-07-21 10:18:28] [INFO ] Merge bsj and fsj results
    [Tue 2020-07-21 10:18:28] [INFO ] Loading annotation gtf ..
    [Tue 2020-07-21 10:19:08] [INFO ] Output circRNA expression values
    [Tue 2020-07-21 10:19:22] [INFO ] circRNA Expression profile: SRR5635537.gtf
    [Tue 2020-07-21 10:19:22] [INFO ] Finished!
    

    差异表达

    这一步主要是找到差异基因

    Usage:
      CIRI_DE [options] -n <control> -c <case> -o <out>
    
      <control>         CIRIquant result of control sample
      <case>            CIRIquant result of treatment cases
      <out>             Output file
    
    Options (defaults in parentheses):
    
      -p                p value threshold for DE and DS score calculation (default: 0.05)
      -t                numer of threads (default: 4)
    
    Example usage:
      CIRI_DE -n control.gtf -c case.gtf -o CIRI_DE.tsv
    

    这里我不是非常理解为啥要导出成tsv,个人感觉csv也行,反正我是直接放到excel里面看差异表达

    CIRI_DE -t 10 -n SRR5635535.gtf -c SRR5635537.gtf -o ./output.tsv
    
    [Tue 2020-07-21 15:09:56] [INFO ] Experiment: SRR5635537.gtf
    [Tue 2020-07-21 15:09:56] [INFO ] Control: SRR5635535.gtf
    [Tue 2020-07-21 15:09:56] [INFO ] Threads: 10
    [Tue 2020-07-21 15:09:56] [INFO ] Threshold: 0.05
    [Tue 2020-07-21 15:09:56] [INFO ] Loading CIRIquant result: /home/stu3/Circ/6_allgtf/SRR5635537.gtf
    [Tue 2020-07-21 15:09:56] [INFO ] Loading CIRIquant result: /home/stu3/Circ/6_allgtf/SRR5635535.gtf
    [Tue 2020-07-21 15:11:43] [INFO ] Output csv: /home/stu3/Circ/6_allgtf/output.tsv
    [Tue 2020-07-21 15:11:43] [INFO ] Finished!
    

    多样本分析

    顺便记录一下多样本的分析吧,如果有很多样本,就要把样本分成control组和case组把所有的路径整理成如下,记录在sample_gene.lst
    注:这个samplelist里的文件和擀面那个sample的不一样,这儿的文件是每个输出文件夹里有个gene文件夹里的,应该是单纯做个count

    CONTROL1 ./c1/gene/c1_out.gtf
    CONTROL2 ./c2/gene/c2_out.gtf
    CONTROL3 ./c3/gene/c3_out.gtf
    CASE1 ./t1/gene/t1_out.gtf
    CASE2 ./t2/gene/t2_out.gtf
    CASE3 ./t3/gene/t3_out.gtf
    

    接着使用命令prepDE.py -i sample_gene.lst获得gene_count_matrix.csv文件,这个文件后面会用到。
    这儿要安装R环境,以及edgeR包所以使用命令安装一下

    conda install r-base=3.6 #安装R语言
    # 220104更新一点小问题
    conda install r-optparse # R包 以 r- 开头 
    #这儿用conda总是有问题,所以我打开R,在R里面装
    install.packages("BiocManager")
    install.packages("statmod")
    library(BiocManager)
    BiocManager::install("edgeR")
    

    接着使用CIRI_DE_replicate命令来完成分析

    Usage:
      CIRI_DE_replicate [options]
    
      --lib             library information by CIRIquant
      --bsj             circRNA expression matrix
      --gene            gene expression matrix
      --out             output differential expression result
    
    Example:
      CIRI_DE_replicate --lib  library_info.csv \
                --bsj  circRNA_bsj.csv \
                --gene gene_count_matrix.csv \
                --out  circRNA_de.tsv
    

    至此Circ的上游分析已经告一段落了,回头可能会整理一下RnaSeq不一样的地方

    相关文章

      网友评论

        本文标题:200918 Circ之旅4.2-CIRIquant

        本文链接:https://www.haomeiwen.com/subject/znudyktx.html