美文网首页
MultiQC软件安装运行

MultiQC软件安装运行

作者: 努力再努力_cf77 | 来源:发表于2019-11-21 22:04 被阅读0次

    安装步骤如下:

    一、安装MultiQC

    conda install -c bioconda multiqc
    

    发现之前安装的conda用不了了,出现下面的问题

    image.png 于是我去搜索了一下解决办法,以下解决方法借鉴https://www.jianshu.com/p/edaa744ea47d

    1.删除原有安装包

    rm -rf anaconda3
    

    2.重新下载conda

    sh Anaconda3-5.2.0-Linux-x86_64.sh
    

    3.下载过程中,在其中是否需要将conda加入环境变量的时候选择No,因为下载的程序会随Python版本的更新而更新,但conda不会,反而会污染环境,所以需要我们手动添加环境变量 image.png

    4.给activate添加权限,再启动conda

    1 cd anaconda3
    2 ls
    3 cd bin
    4 ls
    5 chmod 777 activate
    6 source ./activate
    
    结果如下,命令前面出现base说明已经在conda环境下了 image.png

    后面的python环境配置和conda channels环境配置在老师2.3PPT后面

    二、正式开始安装MultiQC

    1.

    conda install -c bioconda multiqc
    

    2.结果发现第一步执行失败,conda无法安装multiqc,处理方法引用https://blog.csdn.net/ada0915/article/details/78529877(该方法可能出现不稳定的情况)

    #首先先添加清华的镜像源
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
    conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
    conda config --set show_channel_urls yes
    
    #如果无法解决,则删除channels配置文件中部分内容
    
    #具体操作如下:
    #1、快速创建channels配置文件的备份(保险起见)
    cp ~/.condarc{,.bak}
    
    #查看配置文件的内容
    cat ~/.condarc.bak 
    channels:
      - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
      - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
      - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
      - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud
      - defaults
      - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
      - https://nanomirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/conda
      - bioconda
      - r
      - conda-forge
    show_channel_urls: true
    
    #2、删除部分内容
    ## 主要是删除此行: - defaults
    #修改后配置文件的内容如下:
    vim ~/.condarc
    channels:
      - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
      - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
      - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
    show_channel_urls: true
    

    一般不建议使用这个方法,conda不能使用可能是安装之后没有更新python环境等一系列原因,实在不行就用pip下载

    sudo apt-get install python-pip
    pip install multiqc
    

    三、下载SRA序列

    1.从NCBI的SRA库中SRR序列 image.png

    image.png

    2.下载单个SRA文件

    prefetch SRR7511222
    prefetch SRR7511256
    

    3.单个拆解SRA文件

    fastq-dump --split-files SRR7511222
    fastq-dump --split-files SRR7511256
    
    结果如下 image.png

    或批量拆散SRA文件
    (引用https://www.jianshu.com/p/eeaa78f6c6c4

    (1)新建脚本文件

    vim fqdump.sh
    

    (2)输入以下内容

    #!/bin/sh
    for i in *sra
    do
    echo $i
    fastq-dump --gzip --split-files $i
    done
    

    (3)运行

    sh fqdump.sh
    

    四、用fastqc进行数据质量评价

    fastqc SRR7511222_1.fastq
    fastqc SRR7511222_2.fastq
    fastqc SRR7511256_1.fastq
    fastqc SRR7511256_2.fastq
    
    结果如下 image.png

    通过Winscp或者共享文件夹下载到本地,用浏览器打开fastqc_report.html浏览

    五、使用MultiQC

    以下内容引用https://www.jianshu.com/p/85da4dcc6020

    1.输入以下命令

    cd ~/ncbi/public/sra
    multiqc .
    
    结果如下 image.png

    生成两个文件,multiqc_report.html和multiqc_data,前者用网页查看,后者包含一些数据的基本信息和日志文档

    2.整合的fastqc文件包括以下几部分

    (1)General Statistics:所有样本数据基本情况统计 image.png %Dups——重复reads的比例、%GC——GC含量占总碱基的比例,比例越小越好、M Seqs——总测序量(单位:millions)

    (2)Sequence Counts:序列计数 image.png

    黑色代表重复reads的数量,这四个reads重复序列都比较高,说明两个样本序列中有用的reads比较少。

    (3)Sequence Quality Histograms:每个read各位置碱基的平均测序质量 image.png

    横坐标——碱基的位置,纵坐标——质量分数,质量分数=-10log10p(p代表错误率),所以当质量分数为40的时候,p就是0.0001。此时说明测序质量非常好。绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好。如图可以看出我的四条序列总的质量都比较合理,SRR7511256-2在240个碱基之后平均质量都落在红色区域,测序质量不太好。

    (4)PerSequence Quality Scores 具有平均质量分数的reads的数量 image.png

    横坐标——平均序列质量分数,纵坐标——reads数,绿色区间——质量很好,橙色区间——质量合理,红色区间——质量不好,当峰值小于27时——warning,当峰值小于20时——fail,由此图中可以看出低质量reads占整体reads的比例(估算各颜色区域曲线下面积)。如图可以看出4条序列在28以后都是绿色位置,最高峰在35左右,总体测序质量不错。

    (5)Per Base Sequence Content :每个read各位置碱基ATCG的比列 image.png

    reads每个位置的颜色显示由4种颜色的比例混合而成,哪一个碱基的比例大,则趋近于这个碱基所代表的颜色。正常情况下每个位置每种碱基出现的概率是相近的。如图,reads每个位置的ATGC含量比例是非常不均匀的,都报错,可能有过表达的序列的污染。

    (6)5 Per Sequence GC Content :reads的平均GC含量 image.png

    横坐标——GC含量百分比,纵坐标——数量,正常的样本的GC含量曲线会趋近于正态分布曲线,曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差,形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。如图,四个样本和正态分布曲线相差很远,说明有文库污染或者部分reads构成的子集有偏差。

    (7)Per Base N Content :每条reads各位置N碱基含量比例 image.png

    横坐标——read中的位置,纵坐标——N的数量比,当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”,统计N的比率。正常情况下,N值非常小。如图,说明测序仪器能辨别每条reads的每个位置。

    (8)Sequence Length Distribution 序列长度分布 image.png

    该序列长度为250bp

    (9)Sequence Duplication Levels:每个序列的相对重复水平 image.png

    四个序列中的重复的reads的程度都超过了范围,unique reads比例太少。

    (10)Overrepresented sequences:文库中过表达序列的比例 image.png

    横坐标——过表达序列的比例,纵坐标——样本。如图这四个序列中过表达的序列的比例都远远超过1%,如果出现这种情况,不是这种转录本巨量表达,就是样品被污染。

    (11) Adapter Content 接头含量 image.png

    如图没有找到超过0.1%的接头序列含量。

    相关文章

      网友评论

          本文标题:MultiQC软件安装运行

          本文链接:https://www.haomeiwen.com/subject/ktbgictx.html