数据质控进行的过滤

作者: Peng_001 | 来源:发表于2020-06-12 23:24 被阅读0次

数据质控进行的过滤
2021-05-23 批量下载sra文件及转换为fastq
Fastp:质控 +过滤数据
捋一下测序后生信分析内容及其常用软件
主成分分析
NBIS系列单细胞转录组数据分析实战（二）：数据降维可视化
转录组分析——四、数据质控
fastp：数据质控 + 过滤
序列数据质量控制及ubuntu安装配置JDK环境
10X单细胞转录组下游流程-4-差异分析及可视化

在数据质控中，通过测序数据碱基质量值与碱基分布值的评估，我们可以了解一个测序数据的好坏。

但在实际的测序中，并非所有的数据在数据质控后都是好或坏，用或不用的非此即彼的关系。而是根据相应的需求，对测序数据进行过滤。

过滤选项

1. 去除非基因组序列

主要是建库过程中加入的接头、引物、index 等。

若不进行去除，则测序分析结果中可能会包含这些外来片段。

2. 去除N碱基过多的reads

含有过多的N碱基会导致后面无法比对。

一般N包含总长10%以上的reads 就会被去除。

3. 去除低质量reads

一般以Q20 为标准，设定Q20 以下质量值的碱基占总碱基的固定比重。若高于某个标准，则删去该reads。

4. pairend 要留心

若采用了PE测序，则只要成对的read 有一条不满足，则另外对应的一条也要去掉。

5. 去除duplication

若存在两对read，且这两对read 的read1 与read2 均完全一致。这样的情况称为duplication。

对于测序来说，duplication 产生的原因主要是建库过程中打断不随机造成的。

一般来说建库序列长度越大，越容易产生duplication（更容易被切成相同的片段）。

影响：
如果duplication 过多，则后续处理过程可能会将其视为基因组上的重复序列片段，因而影响结果。

特别之处

一些测序样本本身就比较小的序列，其自身原因就会造成duplication 的产生。

RNA-seq 与16S 测序的duplication 不能去除，其并非是打断不随机造成的。
去除duplication 会造成丰度信息缺失。

6. 去除insertsize 偏差过大read

insertsize 就是插入片段的大小，就是文库片段的长度，也就是测序reads的物理距离。它是实际的文库长度，比设定的文库长要更加精确。

估计insertsize

使用reads 文件与基因组文件，借助短序列比对，得到比对文件，通过文件进行拼接。

在比对结果文件中，通过定位到染色体位置，即初始位置A1，加上其reads 长度就可以得到末端A2位置。

同样可以得到双末端测序的另一边的数据。

B2-A1 也即insertsize。

原则

网友评论

本文标题：数据质控进行的过滤

本文链接：https://www.haomeiwen.com/subject/ozsgtktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据质控进行的过滤

过滤选项

1. 去除非基因组序列

2. 去除N碱基过多的reads

3. 去除低质量reads

4. pairend 要留心

5. 去除duplication

特别之处

6. 去除insertsize 偏差过大read

估计insertsize

原则

相关文章

数据质控进行的过滤

2021-05-23 批量下载sra文件及转换为fastq

Fastp:质控 +过滤数据

捋一下测序后生信分析内容及其常用软件

主成分分析

NBIS系列单细胞转录组数据分析实战（二）：数据降维可视化

转录组分析——四、数据质控

fastp：数据质控 + 过滤

序列数据质量控制及ubuntu安装配置JDK环境

10X单细胞转录组下游流程-4-差异分析及可视化

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读