bulk RNA-Seq (1) 数据清洗

作者: Bioinfor生信云 | 来源:发表于2022-06-27 10:10 被阅读0次

bulk RNA-Seq (1) 数据清洗
bulk RNA-Seq （2）比对到参考基因组
文献学习069--[sc+st]单细胞和空间转录组分析揭示结直肠
CIBERSORT初探
数据分析：RNA-seq数据的批次校正方法
单细胞scRNA-seq学习笔记1-单细胞测序基础知识
Elasticsearch 7.x 深入数据准备
2022-01-21 课题设计和思路分享
Elasticsearch 入门: _bulk 批量导入数据
2022-05-11

欢迎关注bioinfor 生信云微信公众号！

今天我们来讲一讲bulk转录组测序的数据清洗部分。

RNA-Seq是技术相对更成熟，应用最广泛，最适合生物信息学人门的方向。bulk RNA-Seq是最普遍的转录组测序方法，所谓bulk就是我们测的是所有细胞的总RNA（mRNA）取平均值代表每个基因的表达量。

我们从公司得到的原始的下机数据是fastq格式的文件如图

FASTQ Format (Illumina example)

我们拿到原始数据之后首先做数据的质控过滤，常用的软件包括fastp、fastqc。

首先使用fastqc得到网页版的质量报告，再使用trim_galore去除质量低的和接头序列，trim_galore可以指定接头序列也可以自主查询，还可以通过--length设定长度的阈值，小于该阈值的序列会被扔掉

fastqc -t 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz #双端测序，-t表示线程数
trim_galore -q 20  -o ./  --fastqc --paired -j 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz
#--paired表示双端测序，-q 20表示去除Phred分数低于20的序列，-o表示输出（这里指输出到当前目录下），-j表示线程数，--fastqc表示清洗之后再交给fastqc做质控

fastqc结果报告

通过网页版的报告我们可以大致的了解到我的序列的质量情况，trim_galore后基本就可以用于后续的分析了。

还有一种常用的工具是fastp，整合了fasqc与trim_galore的功能

fastp -i CER3_1_R1.fastq.gz -I CER3_1_R2.fastq.gz -o CER3_1_R1.clean.fastq.gz -O CER3_1_R2.clean.fastq.gz -j CER3_1.json -h CER3_1.html -w 2 &
#-i -I表示两个双端文件，-o -O表示输出文件，-j .json的报告，-h 网页版报告文件，-w线程数