美文网首页metagenomic
宏基因组分析2-原始数据质检(fastqc)

宏基因组分析2-原始数据质检(fastqc)

作者: nitrostarch | 来源:发表于2019-02-01 16:56 被阅读0次

    根据以下教程进行宏基因组分析的练习。
    https://2016-metagenomics-sio.readthedocs.io/en/latest/index.html

    创建并移动到指定路径。下载原始数据,这个原始数据需要搭梯子才能下载

    mkdir /home/llt/test/data/raw
    cd /home/llt/test/data/raw
    curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_1.fastq.gz
    curl -O -L https://s3-us-west-1.amazonaws.com/dib-training.ucdavis.edu/metagenomics-scripps-2016-10-12/SRR1976948_2.fastq.gz
    

    fastqc的安装

    用apt安装fastqc,发现软件版本是0.11.5,为了用上最新版本的软件,所以在不删除依赖软件包,且保留配置文件的情况下删除该软件包

    apt-get install fastqc
    fastqc --version
    sudo apt remove fastqc
    

    下载最新版本fastqc,并解压(解压方式:https://www.cnblogs.com/ccyum/p/8616575.html)

    mkdir /home/llt/software
    cd /home/llt/software
    wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
    sudo apt install unzip default-jre
    
    unzip fastqc_v0.11.8.zip
    cd FastQC/
    chmod 755 fastqc
    ./ fastqc --version
    

    到这里最新版的fastqc就安装完了,此时最新的版本是0.11.8,之后可以在http://www.bioinformatics.babraham.ac.uk/projects/fastqc/下载最新的版本。由于软件没有安装在系统的环境变量路径中,所以运行时需要加上路径。可以看出fastqc的软件版本变成了v0.11.8

    fastqc的运行

    我这个ubuntu子系统没有安装图形界面,直接运行fastqc会出现以下提示

    需要通过命令行来完成操作,命令可以通过-h 或者 --help 来查看。

    ./ fastqc
    ./ fastqc -h
    

    利用以下命令来查看原始数据的质量

    cd /home/llt/test/data/raw/
    mkdir QC
    /home/llt/software/FastQC/fastqc SRR1976948_1.fastq.gz SRR1976948_2.fastq.gz -o QC
    

    可以一次性输入多个文件,fastqc会依次对这些文件进行检查。

    注意:输出目录必须是已经存在的目录,若没有需要先建立。fastqc还有其他的参数可供选择,可通过-h 来查看:
    --casava 输入Illumina CASAVA 输出的文件
    --nano 输入nanopore的序列文件



    最终输出的文件在指定的名为QC的文件夹中,win10系统可以直接访问子系统的文件,直接通过资源管理器访问C:\Users\Administrator\AppData\Local\Packages\CanonicalGroupLimited.Ubuntu18.04onWindows_79rhkp1fndgsc\LocalState\rootfs
    在这里我们可以看到ubuntu的根目录,建议在这个位置建立一个快速访问,方便以后的操作。进入到刚才输出的目的QC,可以看到生成了四个文件,可以直接打开html文件直接查看原始数据的质检报告。
    报告中有很多参数,这些参数的意义在官网上都有对应的解释文档。http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/

    fastqc的结果分析

    以SRR1976948_1的质检结果为例。

    Basic Statistics

    序列名,文件类型,质量值的编码方式,序列条数,过滤的低质量序列数,序列长度,GC含量。


    此视图显示整个FastQ文件中每个位置的所有碱基的质量值的范围。这个结果使用箱线图来呈现,中央红线表示中值,黄色框表示四分位数范围(25-75%),上下线代表前10%和90%的质量值,蓝线代表平均质量值。
    Warning:任何位置的碱基的下四分位数小于10,或者任何位置的碱基的中位数小于25。Failure:任何位置的碱基的下四分位数小于5或任何位置的碱基的中位数小于20。值得注意的是,显示warning或者显示failure并不意味着测序结果不能使用,可以通过质控来提高数据的质量。


    此视图展示序列的子集是否具有普遍的低质量值。如果序列子集的质量普遍较差,通常是因为它们的成像效果很差(在视场边缘等),但是这些序列只占序列总数的一小部分。如果有相当大比例的序列整体质量低,那么这可能表明测序运行中系统存在某种问题。
    Warning:最多的碱基平均质量低于27,相当于0.2%的错误率。Failure:最多的碱基平均质量低于20,相当于1%的错误率。

    此图展示每个位置中各碱基的比例。







    相关文章

      网友评论

        本文标题:宏基因组分析2-原始数据质检(fastqc)

        本文链接:https://www.haomeiwen.com/subject/fzedsqtx.html