1.数据来源
image.png2022年新发布的一篇文章,是CHIP-Seq和RNA-Seq的综合性分析文章,这里先拿CHIP-Seq数据先跑一趟流程,有时间再跑RNA-Seq。
CHIP-Seq目的:探究B细胞中不同激动剂刺激对STAT3结合位点影响
CpG:TLR9激动剂
R848:TLR7/TLR8激动剂
CTR:对照组
2.数据下载
nohup wget https://download.cncb.ac.cn/gsa-human/HRA001909/HRR596133/HRR596133.fq.gz > HRR596133.log 2>&1 &
nohup wget https://download.cncb.ac.cn/gsa-human/HRA001909/HRR596134/HRR596134.fq.gz > HRR596134.log 2>&1 &
nohup wget https://download.cncb.ac.cn/gsa-human/HRA001909/HRR596135/HRR596135.fq.gz > HRR596135.log 2>&1 &
#重命名
mv HRR596133.fq.gz D4_CTR_STAT3_ChIP.fq.gz
mv HRR596134.fq.gz D4_R848_STAT3_ChIP.fq.gz
mv HRR596135.fq.gz D4_CpG_STAT3_ChIP.fq.gz
3.原始文件质控
mkdir fastqc #创造一个文件夹存放质控结果
fastqc --outdir fastqc --threads 16 *.fq.gz
cd fastqc
multiqc *zip#将质控结果整合
整合结果
image.png
4.过滤低质量的fq文件
mkdir ../clean_fq #创造一个文件夹用来存放clean后的.gz文件
ls *.gz | while read id;do trim_galore --phred33 -q 5 --length 36 $id --fastqc -o ../clean_fq ;done
multiqc *zip
可以看到与修剪之前相比,%Dups和%GC降低不太明显。
image.png
网友评论