二代宏基因组测序数据的质控和过滤。
- 测序数据质量过滤,包括测序质量、adapter 等过滤
- 去除污染数据,一般是宿主数据。该步骤对于水体、土壤等样品可以跳过
数据质控
原始测序数据下机后,可能会包含低质量、接头等,我们可以使用 fastqc对数据质量进行检查。
fastqc --outdir ./ \ # 输出目录
--threads 4 \ # 线程数
./A1_1.fq.gz ./A1_2.fq.gz # 输入文件
结果:
- 网页版质控报告 fastqc.html
- 报告对应数据 fastqc.zip
质量过滤
使用 fastp 进行低质量数据过滤
fastp --thread 4 -i ./FQ/A1_1.fq.gz -I ./A1_2.fq.gz \
-o ./A1_1.clean.fq.gz -O ./A1_2.clean.fq.gz \
-h A1.html
输出结果:
过滤后 fq数据 clean data
可以使用 muiltQC 对 fastp 日志进行汇总
去除宿主
对于宿主来源的宏基因组测序数据,需要对其中的宿主序列进行去除
# 构建宿主基因组index
bowtie2-build genome.fa genome.db
# bowtie2比对
bowtie2 --threads 4 \ #线程数
-x ./genome.db \ # 基因组index名称
-1 ./A1_1.clean.fq.gz \ # 输入,fq1
-2 .//A1_2.clean.fq.gz \ # 输入,fq2
-S A1.sam \ # 输出,sam格式比对结果
2>A1.map.log
# 去除宿主数据
view -f 12 \ # 去除比对上的reads
A1.sam \ # 输入,sam文件
>A1.unmap.bam # 输出bam格式文件
# bam转换回fq格式
samtools fastq \
-1 A1_1.clean.fq.gz \ # 输出,fq1
-2 A1_2.clean.fq.gz \ # 输出,fq2
A1.unmap.bam # 输入,bam文件
网友评论