因业务拓展,想组建一个数据分析团队(目前已有RNA-Seq、Chip-Seq、重测序与群体遗传、基因家族、比较基因组、宏基因组、微生物多样性16s/18s/ITS方向专业人员),欢迎有各种数据分析基础的朋友加入我们!
——Bioinfor 生信云
数据质控
原始测序数据下机后,可能会包含低质量、接头等,我们可以使用 fastqc对数据质量进行查看。
fastqc --outdir ./ # 输出目录
--threads 4 \ # 线程数
S1_1.fq.gz S1_2.fq.gz # 输入文件
结果文件:
- 网页版质控报告 *_fastqc.html
- 报告对应数据 *_fastqc.zip
数据过滤
使用 fastp 进行低质量数据过滤。
fastp --thread 4 \ # 线程数
-i S1_1.fq.gz \ # 输入数据fq1
-I S1_2.fq.gz \ # 输入数据fq2
-o S1_1_clean.fq.gz \ # 输出数据fq1
-O S1_2_clean.fq.gz \ # 输出数据fq2
-j S1.json \ # json格式结果
-h S1.html \ # 网页版结果
2>S1.log
输出文件:
过滤后的 fq 数据 :clean.fq.gz
网页版结果:.html
对日志进行汇总统计
# 将json文件列到一个文件里面
ls *.json |awk -F "." '{print $1"\t"$0}' > fastp.json.list
# 汇总统计
Rscript json.R fastp.json.list fastp.statout
# json.R
library("rjson")
json <- read.delim(input,header = F)
outtab <- data.frame()
for ( i in rownames(json)) {
name <- json[i,1]
jfile <- json[i,2]
res <-as.data.frame(fromJSON(file = jfile)$summary)
row.names(res) <- name
res <- round(res,digits = 4)
outtab <- rbind(outtab, res)
}
options(scipen = 100)
write.table(outtab , file = output, quote = F, sep = "\t", row.names = T, col.names = T,)

网友评论