美文网首页linux生物信息学
测序数据基本信息

测序数据基本信息

作者: Htt_1996 | 来源:发表于2020-06-02 21:00 被阅读0次

一、测序数据

1.Raw data(原始数据)

  • 公司一次测序产生的全部原始数据。理论上,它们应该是没有经过任何过滤的,无论好坏。
image.png

2. PF data(PF数据)

在测序过程中,Illumina内置软件根据每个测序片段(read,通常每个片段长100个碱基)前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准,则该read的全部碱基都被抛弃;达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。

3. Q30 data

Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性,为每个碱基给予一个质量评分(QV)。PF data里质量评分>=30分的数据称为Q30 data。 Q30的意思是该碱基的可靠性为99.9%。Q30数据通常占PF数据的80%左右。视样本质量、操作水平、试剂质量、仪器状态的不同,这一比例有很大波动。

4. Clean data

  • 某些实验室根据其自身的判断标准,在PF data的基础上,进一步删除质量不好的reads后得到的数据。常见的删除动作有:去接头、去N含量高的reads、去质量评分低的reads、去掉每个read的最后几个碱基,等等。

  • Clean data是国内叫法;PF data是来自Illumina的概念,是广为接受的国际通行标准。

  • PF算法实质上是选取每个测序片段(read)前25个碱基的质量来代表整条片段的质量,从而决定该片段的去留。Illumina之所以这样做,而不是逐个检查整条片段所有碱基的质量,一方面是为了节省电脑资源,不致于花费太多时间进行运算,拖累测序进程,另一方面也是在大量测序数据的统计结果基础上选择的平衡点,只要前25个碱基是正常的,后75个碱基出问题的概率比较小。

  • 一次测序实验完成,测序仪上展示的数据量和%Q30都是以PF数据为基础的。只要对数据质量有足够信心,就不会对PF数据再进行加工,可以直接把PF数据交给客户,进行下游的生物信息学分析。一般公司会提供clean data和后续的基础分析结果。

二、测序数据信息的统计

image.png

1. Clean reads (millions)

  • 计算Clean reads数
   vim readfq
  1 #reads number 
  2 #!/bin/bash
  3 
  4 ls /public/home/thu/3.RNA_seq/3.sra_to_fastq/*.fastq.gz >fq.list
  5 
  6 for i in $(cat fq.list)
  7 do 
  8   i=`basename $i`
  9   printf $i "\t" >>fq.reads_num
 10   readfq $i >> fq.reads_num    #readfq函数
 11 done
  • 结果-得到reads和碱基数
ZT6_RNASeq_rep1.sra_1.fastqNum reads:36189024   Num Bases: 5168633934
ZT6_RNASeq_rep1.sra_2.fastqNum reads:36189024   Num Bases: 5169091324
ZT6_RNASeq_rep2.sra_1.fastqNum reads:25599326   Num Bases: 3562568383
ZT6_RNASeq_rep2.sra_2.fastqNum reads:25599326   Num Bases: 3563756693
control_RNASeq_rep1_1.fastq.gzNum reads:24119971    Num Bases: 3617995650
control_RNASeq_rep1_2.fastq.gzNum reads:24119971    Num Bases: 3617995650
control_RNASeq_rep2_1.fastq.gzNum reads:24041041    Num Bases: 3606156150
control_RNASeq_rep2_2.fastq.gzNum reads:24041041    Num Bases: 3606156150

2. Total mapping rate

  • samtools flagstat 函数输出mapping rate
ls  *sorted.bam  | while read id ;do (samtools flagstat $id > $(basename $id ".sorted.bam").stat);done
  • 结果分析
  1 40621782 + 0 in total (QC-passed reads + QC-failed reads)  #通过质控的总reads数
  2 0 + 0 secondary
  3 0 + 0 supplementary
  4 0 + 0 duplicates
  5 40621782 + 0 mapped (100.00% : N/A)  #对比到基因组上的 reads数
  6 40621782 + 0 paired in sequencing  # paired reads 数目
  7 20445256 + 0 read1   # read1 的数量
  8 20176526 + 0 read2   # read2 的数量
  9 37510016 + 0 properly paired (92.34% : N/A) #完美匹配的reads数:比对到同一条参考序列,并且两条reads之间的距离符合设置的阈值
 10 37883263 + 0 with itself and mate mapped   #paired reads中两条都比对到参考序列上的reads数
 11 2738519 + 0 singletons (6.74% : N/A)  #单独一条匹配到参考序列上的reads数,和上一个相加,则是总的匹配上的reads数。
 12 10639 + 0 with mate mapped to a different chr #paired reads中两条分别比对到两条不同的染色体的reads数
 13 10639 + 0 with mate mapped to a different chr (mapQ>=5) #paired reads中两条分别比对到不同染色体的且比对质量值大于5的数量
  • 输出结果
for id in *.stat ;do echo -e $id >>test `sed -n "5p" $id` >> test ;done  #整理结果输出第五行
cat test
#得到文件
control_RNASeq_rep1.stat 28100200 + 0 mapped (100.00% : N/A)
control_RNASeq_rep2.stat 28246701 + 0 mapped (100.00% : N/A)
ZT6_RNASeq_rep1.stat 40621782 + 0 mapped (100.00% : N/A)
ZT6_RNASeq_rep2.stat 32144781 + 0 mapped (100.00% : N/A)

参考

相关文章

网友评论

    本文标题:测序数据基本信息

    本文链接:https://www.haomeiwen.com/subject/cqdpzhtx.html