转录组分析(4) - 预处理

作者: 半夜一更 | 来源:发表于2021-03-12 21:00 被阅读0次

单细胞转录组数据分析|| scanpy教程：使用ingest和B
单细胞转录组数据分析|| scanpy教程：可视化套件
单细胞scRNA-seq学习笔记2-数据预处理
1.转录组 2.高通量测序 3.转录组数据分析 4.差异表达基因
转录组分析(4) - 预处理
生信菜鸟团-专题学习目录
单细胞转录组数据分析|| scanpy教程：PAGA轨迹推断
空间转录组第七讲：多样本合并、marker基因分析
1.转录组 | 上游分析（数据下载，比对，计数）
Hemberg-lab单细胞转录组数据分析（五）

目的

经过fastqc进行质量控制之后，我们能够发现在fastq数据里存在着一些会影响下游分析的因素，包括adapter和低质量reads等。因此，在正式进入比对之前，我们要将这些因素去掉，保证后续的分析结果更加贴近于真实的情况。

做法

fastp是一款开源的测序数据处理工具，它可以实现处理数据的一次性处理，包括过滤低质量、过滤adapter、截取reads、split分割大文件等操作。
fastp使用c++编写，执行效率非常高；同时，fastp支持长reads，这也意味着不仅仅适用与illumina测序平台，还可以处理Pacbio和Iontorrent的测序数据；最后，fastp能够直接输出质控和统计报告，包括json格式和html格式，这与fastqc功能上有一定的重合。

安装

# 源码编译
git clone https://github.com/OpenGene/fastp.git
cd fastp
make
make install
# 直接使用
wget http://opengene.org/fastp/fastp
chmod a+x fastp
# conda安装
conda install fastp

使用

fastp -i reads.1.fq.gz -I reads.2.fq.gz -o clean.1.fq.gz -O clean.2.fq.gz -z 4 -q 20 -u 30 -n 10 -h clean.html 
# -a 给定一个adapter序列文件；对于pairend reads 软件可以自动识别adapter并处理，对于single reads，需要给定一个adapter序列；
#-Q，-q，-u，-n是与过滤低质量相关的
#-Q 控制是否去除低质量，默认自动去除，设置-Q关闭；
#-q 设置低质量的标准，默认是15，也就是质量值小于15认为是低质量碱基，一般我们设置20，常说的Q20；
#-u 低质量碱基所占百分比，并不是包含低质量碱基就把一条reads丢掉，而是设置一定的比例，默认40代表40%，也就是150bpreads，包含60个以上低质量的碱基就丢掉，只要有一条reads不满足条件就成对丢掉；
#-n 过滤N碱基过多的reads；
#-L 关闭reads长度过滤选项；
#-l 接一个长度值，小于这个长度reads被丢掉，默认是30，这个在处理非illumina测序数据时很有用。