美文网首页豆花转录组第一小分队
生信星球转录组培训第一期Day4--郝志刚

生信星球转录组培训第一期Day4--郝志刚

作者: 马连洼小法师 | 来源:发表于2019-06-09 14:31 被阅读18次

    软件环境

    • 数据转换: 将SRA转变为fq格式。用到软件fastq-dump,它属于sratools工具包中的一个。
    • 数据质控:检测原始数据质量如何,有没有接头,低质量碱基,用到软件fastqcmultiqc。其中multiqc整合多个样本的fastqc结果于一个文件中。
    • 数据过滤:去掉接头和低质量的碱基,软件时trim_galoretrimmomatic
    • 比对:基于基因组比对(starhisat2),基于转录组比对(bowtiebwa)、不基于比对(salmon)。
    • 定量:推荐使用featureCounts,它是subread软件下的一个小软件

    实际操作

    • 下载软件
    conda activate RNAseq
    conda install fastqc multiqc trim-galore trimmomatic hisat2 bowtie2 subread salmon -y
    
    下载结果
    • 数据转换:
      目的:将sra转变为fq文件
    raw=~/RNAseq/raw
    cat $raw/srr.ids | while read i ;do
    #echo $i
    time fastq-dump --gzip --split-3 -A $i $raw/${i}.sra -O $raw 1>sra2fq.log 2>&1;
    done
    
    • 下载参考基因组及注释文件
    rna=~/rnaseq
    cd $rna/ref
    # genome (从ensembl下载)
    wget -c ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
    # annotation (从ensembl下载)
    wget -c ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.96.gtf.gz
    # -c的含义是断点续传
    
    下载
    • 利用fastqc质控
    cd $rna/qc
    fastqc $rna/raw/*.gz -o ./ -t 10
    # -t指定线程数;-o输出路径
    

    将质控文件结果html合而为一,可以在当前目录下

    multiqc ./
    
    质控结果
    结果解读

    解析结果

    SRR1039508

    以SRR1039508为例,整体Summary,绿色表示通过,黄色表示警告。

    • 第一个模块 Basic Statistics


      基本信息

      序列总数22935521,序列测序长度63,GC含量50

    • 第二个模块


      每个碱基质量

      其中纵轴表示Phred碱基质量,横轴表示碱基在reads上的位置。比如:横坐标的1表示所有reads的第一个碱基的质量值分布,结果用一个箱线图表示。箱线图的红线表示中位数,其余的四条线为10、25、75、90四分位数。然后又看到有一条贯穿箱线图的蓝色线,它表示平均碱基质量值。

    整个图又有三块背景:红色背景区域表示reads质量很差(Phred < 20),绿色背景表示质量不错(Phred > 28),由此可见,这个样本测序质量很不错。

    • 3、 Per sequence quality scores
    per tile sequence quality
    • 4、 碱基总体质量值分布 Per sequence quality scores


      总体质量值分布

      它的横轴是平均质量分数,纵轴是测序reads数。我们比较希望在低质量区域(也就是x轴前端)没有较大的峰(也就是没有太多的reads),由图可知,测序质量非常好。

    • 5、 read各个位置上碱基比例分布 Per base sequence content


      碱基比例分布

    这个图经常会蹦出来FAIL 字眼吓唬我们。因为前10-12bp的碱基是RNA测序文库制备时使用的随机六聚体引物( 'random' hexamer priming)
    随机引物是人工合成的随机序列六核苷酸混合物,这些引物可以随机地与 mRNA的任何部位互补,其优点是容易合成完整的cDNA

    作者:刘小泽
    链接:https://www.jianshu.com/p/efb1fd3fa390


    那么根据A-T配对、G-C配对,就可以得到每个位置的A和T比例应该差不多,GC比例应该差不多。但由于六聚体引物的存在,而且它也并不是真正的"随机",还是存在一些碱基偏好性的,因此前10-12bp会有较大的波动
    我们只要通过这个图,能看出没有特别大的碱基偏好性就好(也就是除了特殊的六聚体引物以外,A-T或C-G的比例差在1%以内就可以)

    • GC含量分布图 Per sequence GC content


      GC含量

      这个图表示了所有reads的GC分布,符合正态分布(也就是钟形曲线)

    • Per base N content


      N含量
    • Sequence Length Distribution


      image.png
    • Sequence Duplication Levels


      image.png

      这个图可以帮助判断文库的复杂程度,如果PCR扩增次数太多或者起始扩增底物太少,都会降低文库的复杂度。

    • 过表达序列表 Overrepresented sequences


      image.png
    • Adapter Content


      image.png

    相关文章

      网友评论

        本文标题:生信星球转录组培训第一期Day4--郝志刚

        本文链接:https://www.haomeiwen.com/subject/jpxnxctx.html