BSA分析（四）测序数据质控过滤

作者: Bioinfor生信云 | 来源:发表于2023-05-20 20:28 被阅读0次

转录组数据分析
nanopore测序数据质控
主成分分析
第2篇：原始数据的质控、比对和过滤
转录组直播学习笔记：第二天
宏基因组分析概述
RNA-Seq data analysis
序列组装
NBIS系列单细胞转录组数据分析实战（二）：数据降维可视化
转录组分析——四、数据质控

因业务拓展，想组建一个数据分析团队（目前已有RNA-Seq、Chip-Seq、重测序与群体遗传、基因家族、比较基因组、宏基因组、微生物多样性16s/18s/ITS方向专业人员），欢迎有各种数据分析基础的朋友加入我们！
——Bioinfor 生信云

数据质控

原始测序数据下机后，可能会包含低质量、接头等，我们可以使用 fastqc对数据质量进行查看。

fastqc --outdir ./  # 输出目录
--threads 4 \ # 线程数
S1_1.fq.gz S1_2.fq.gz  # 输入文件

结果文件：

网页版质控报告 *_fastqc.html
报告对应数据 *_fastqc.zip

数据过滤

使用 fastp 进行低质量数据过滤。

fastp --thread 4 \ # 线程数
-i S1_1.fq.gz \ # 输入数据fq1
-I S1_2.fq.gz \ # 输入数据fq2
-o S1_1_clean.fq.gz \ # 输出数据fq1
-O S1_2_clean.fq.gz \ # 输出数据fq2
-j S1.json \ # json格式结果
-h S1.html \ # 网页版结果
2>S1.log

输出文件：
过滤后的 fq 数据：clean.fq.gz
网页版结果：.html

对日志进行汇总统计

# 将json文件列到一个文件里面
ls *.json |awk -F "." '{print $1"\t"$0}' > fastp.json.list

# 汇总统计
Rscript json.R  fastp.json.list fastp.statout

# json.R
library("rjson")

json <- read.delim(input,header = F)

outtab <- data.frame()
for ( i in rownames(json)) {
  name <- json[i,1]
  jfile <- json[i,2]
  res <-as.data.frame(fromJSON(file = jfile)$summary)
  row.names(res) <- name
  res <- round(res,digits = 4)
  outtab <- rbind(outtab, res)
}

options(scipen = 100)
write.table(outtab , file = output, quote = F, sep = "\t", row.names = T, col.names = T,)