这里是佳奥,继续处理数据吧。
1 质量控制(trim_galore)
##本次数据是单端测序数据
##进入到raw目录
(chipseq) root 21:24:01 /home/kaoku/chipseq/mouse_project/raw
$ ls
Control_1.fastq.gz H3K36me3_1.fastq.gz Ring1B_3.fastq.gz RNAPII_S2P_2.fastq.gz RNAPII_S5PRepeat_1.fastq.gz
Control_2.fastq.gz H3K36me3_2.fastq.gz RNAPII_8WG16_1.fastq.gz RNAPII_S2P_3.fastq.gz RNAPII_S7P_1.fastq.gz
H2Aub1_1.fastq.gz Ring1B_1.fastq.gz RNAPII_8WG16_2.fastq.gz RNAPII_S5P_1.fastq.gz RNAPII_S7P_2.fastq.gz
H2Aub1_2.fastq.gz Ring1B_2.fastq.gz RNAPII_S2P_1.fastq.gz RNAPII_S5P_2.fastq.gz
##首先进行fastqc,进入qc目录,qc文件在raw目录,结果会输入到qc目录
ls ../raw/*gz|xargs fastqc -t 10 -o ./
(chipseq) root 21:43:49 /home/kaoku/chipseq/mouse_project/qc
$ ls
Control_1_fastqc.html H3K36me3_1_fastqc.html Ring1B_3_fastqc.html RNAPII_S2P_2_fastqc.html RNAPII_S5PRepeat_1_fastqc.html
Control_1_fastqc.zip H3K36me3_1_fastqc.zip Ring1B_3_fastqc.zip RNAPII_S2P_2_fastqc.zip RNAPII_S5PRepeat_1_fastqc.zip
Control_2_fastqc.html H3K36me3_2_fastqc.html RNAPII_8WG16_1_fastqc.html RNAPII_S2P_3_fastqc.html RNAPII_S7P_1_fastqc.html
Control_2_fastqc.zip H3K36me3_2_fastqc.zip RNAPII_8WG16_1_fastqc.zip RNAPII_S2P_3_fastqc.zip RNAPII_S7P_1_fastqc.zip
H2Aub1_1_fastqc.html Ring1B_1_fastqc.html RNAPII_8WG16_2_fastqc.html RNAPII_S5P_1_fastqc.html RNAPII_S7P_2_fastqc.html
H2Aub1_1_fastqc.zip Ring1B_1_fastqc.zip RNAPII_8WG16_2_fastqc.zip RNAPII_S5P_1_fastqc.zip RNAPII_S7P_2_fastqc.zip
H2Aub1_2_fastqc.html Ring1B_2_fastqc.html RNAPII_S2P_1_fastqc.html RNAPII_S5P_2_fastqc.html
H2Aub1_2_fastqc.zip Ring1B_2_fastqc.zip RNAPII_S2P_1_fastqc.zip RNAPII_S5P_2_fastqc.zip
##multiqc看一下
(chipseq) root 22:03:24 /home/kaoku/chipseq/mouse_project/qc
$ multiqc ./
有点窒息,这个结果
QQ截图20220809220656.png
所以需要进一步过滤。
##选择trim_galore软件进行过滤
analysis_dir=/home/kaoku/chipseq/mouse_project
ls /home/kaoku/chipseq/mouse_project/raw/*.gz | while read fq1;
do
trim_galore -q 25 --phred33 --length 25 -e 0.1 --stringency 4 -o $analysis_dir/clean $fq1 &
done
##过滤结果
Total reads processed: 5,861,669
Reads with adapters: 80,435 (1.4%)
Reads written (passing filters): 5,861,669 (100.0%)
Total basepairs processed: 211,020,084 bp
Quality-trimmed: 25,712,707 bp (12.2%)
Total written (filtered): 183,863,864 bp (87.1%)
##把原本qc目录清空,把过滤后的数据再次进行qc
ls ../clean/*gz| xargs fastqc -t 10 -o ./
multiqc ./
QQ截图20220809223626.png
发现过滤效果不错,可以进行下一步的比对了。
2 建立索引(bowtie2)
用bowtie2进行比对和统计比对率, 需要提前下载参考基因组然后使用命令构建索引,或者直接就下载索引文件:
下载小鼠参考基因组的索引和注释文件, 这里用常用的mm10
2.1 官方索引
##索引大小为3.2GB, 可以直接下载索引文件,代码如下:
mkdir referece && cd reference
wget -4 -q ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip
unzip mm10.zip
##这个方法,简便,省事,但是我下载不下来啊orz
mm10.zip 3%[=> ] 104.95M 33.0KB/s 剩余 19h 53m
2.2 自建索引
##使用浏览器下载或者wget
wget http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
tar -zxvf chromFa.tar.gz
cat *.fa > mm10.fa
##构建索引
bowtie2-build mm10.fa mm10
##这个方法很好,但是8G内存不够,提示out of memory。。。orz
2.3 遇事不决浏览器
##如果wget下载过慢,自建索引内存不足的话,回到官网
http://ccb.jhu.edu/software.shtml
##选择Software&Data,bowtie进入网页,选择侧边的bowtie2,可以查看到对应软件的索引文件
##复制该链接到浏览器或wget即可下载
https://genome-idx.s3.amazonaws.com/bt/mm10.zip
(chipseq) root 13:47:52 /home/kaoku/reference/mouse
$ ls -lh
总用量 6.7G
-rwxr-xr-x 1 root root 2.7K 5月 3 2012 make_mm10.sh
-rw-r--r-- 1 root root 848M 5月 2 2012 mm10.1.bt2
-rw-r--r-- 1 root root 633M 5月 2 2012 mm10.2.bt2
-rw-r--r-- 1 root root 6.0K 5月 2 2012 mm10.3.bt2
-rw-r--r-- 1 root root 633M 5月 2 2012 mm10.4.bt2
-rw-r--r-- 1 root root 848M 5月 3 2012 mm10.rev.1.bt2
-rw-r--r-- 1 root root 633M 5月 3 2012 mm10.rev.2.bt2
-rw-r--r-- 1 kaoku kaoku 3.2G 8月 10 13:43 mm10.zip
3 序列比对(bowtie2)
##明确软件安装的的位置和参考文件的位置
##从过滤后clean目录的文件开始,进入align目录
(chipseq) root 14:50:51 /home/kaoku/chipseq/mouse_project
$ cd align/
##比对流程
bowtie2_index=/home/kaoku/reference/mouse/mm10
ls ../clean/*gz | while read id;
do
file=$(basename $id )
sample=${file%%.*}
echo $file $sample
bowtie2 -p 5 -x $bowtie2_index -U $id | samtools sort -O bam -@ 5 -o - > ${sample}.bam
done
##大约4-5分钟一个结果,耐心等待(8G内存)
##约1.2小时,跑完全部bam文件
(chipseq) root 16:10:27 /home/kaoku/chipseq/mouse_project/align
$ ls -lh
总用量 9.4G
-rw-r--r-- 1 root root 369M 8月 10 15:00 Control_1_trimmed.bam
-rw-r--r-- 1 root root 463M 8月 10 15:03 Control_2_trimmed.bam
-rw-r--r-- 1 root root 496M 8月 10 15:07 H2Aub1_1_trimmed.bam
-rw-r--r-- 1 root root 759M 8月 10 15:12 H2Aub1_2_trimmed.bam
-rw-r--r-- 1 root root 824M 8月 10 15:19 H3K36me3_1_trimmed.bam
-rw-r--r-- 1 root root 764M 8月 10 15:23 H3K36me3_2_trimmed.bam
-rw-r--r-- 1 root root 235M 8月 10 15:24 Ring1B_1_trimmed.bam
-rw-r--r-- 1 root root 235M 8月 10 15:26 Ring1B_2_trimmed.bam
-rw-r--r-- 1 root root 751M 8月 10 15:33 Ring1B_3_trimmed.bam
-rw-r--r-- 1 root root 421M 8月 10 15:36 RNAPII_8WG16_1_trimmed.bam
-rw-r--r-- 1 root root 679M 8月 10 15:42 RNAPII_8WG16_2_trimmed.bam
-rw-r--r-- 1 root root 716M 8月 10 15:50 RNAPII_S2P_1_trimmed.bam
-rw-r--r-- 1 root root 298M 8月 10 15:52 RNAPII_S2P_2_trimmed.bam
-rw-r--r-- 1 root root 478M 8月 10 15:56 RNAPII_S2P_3_trimmed.bam
-rw-r--r-- 1 root root 589M 8月 10 16:00 RNAPII_S5P_1_trimmed.bam
-rw-r--r-- 1 root root 603M 8月 10 16:05 RNAPII_S5P_2_trimmed.bam
-rw-r--r-- 1 root root 215M 8月 10 16:06 RNAPII_S5PRepeat_1_trimmed.bam
-rw-r--r-- 1 root root 411M 8月 10 16:08 RNAPII_S7P_1_trimmed.bam
-rw-r--r-- 1 root root 304M 8月 10 16:10 RNAPII_S7P_2_trimmed.bam
##对bam文件进行QC
ls *.bam | xargs -i samtools index {}
ls *.bam | while read id ;do ( samtools flagstat $id > $(basename $id ".bam").stat & ); done
##查看结果
(chipseq) root 16:53:09 /home/kaoku/chipseq/mouse_project/align
$ ls -lh
总用量 9.5G
-rw-r--r-- 1 root root 369M 8月 10 15:00 Control_1_trimmed.bam
-rw-r--r-- 1 root root 3.6M 8月 10 16:13 Control_1_trimmed.bam.bai
-rw-r--r-- 1 root root 473 8月 10 16:15 Control_1_trimmed.stat
-rw-r--r-- 1 root root 463M 8月 10 15:03 Control_2_trimmed.bam
-rw-r--r-- 1 root root 3.3M 8月 10 16:13 Control_2_trimmed.bam.bai
-rw-r--r-- 1 root root 473 8月 10 16:15 Control_2_trimmed.stat
-rw-r--r-- 1 root root 496M 8月 10 15:07 H2Aub1_1_trimmed.bam
-rw-r--r-- 1 root root 3.0M 8月 10 16:13 H2Aub1_1_trimmed.bam.bai
-rw-r--r-- 1 root root 473 8月 10 16:15 H2Aub1_1_trimmed.stat
-rw-r--r-- 1 root root 759M 8月 10 15:12 H2Aub1_2_trimmed.bam
-rw-r--r-- 1 root root 2.6M 8月 10 16:14 H2Aub1_2_trimmed.bam.bai
-rw-r--r-- 1 root root 477 8月 10 16:15 H2Aub1_2_trimmed.stat
-rw-r--r-- 1 root root 824M 8月 10 15:19 H3K36me3_1_trimmed.bam
-rw-r--r-- 1 root root 2.8M 8月 10 16:14 H3K36me3_1_trimmed.bam.bai
-rw-r--r-- 1 root root 477 8月 10 16:15 H3K36me3_1_trimmed.stat
-rw-r--r-- 1 root root 764M 8月 10 15:23 H3K36me3_2_trimmed.bam
-rw-r--r-- 1 root root 3.0M 8月 10 16:14 H3K36me3_2_trimmed.bam.bai
-rw-r--r-- 1 root root 477 8月 10 16:15 H3K36me3_2_trimmed.stat
略
##查看比对结果
ls *.stat | while read id; do echo $id; cat $id | awk 'NR'==7; done > result1
sed 'N; s/\n/ /' result1
Control_1_trimmed.stat 7438540 + 0 mapped (88.03% : N/A)
Control_2_trimmed.stat 7221780 + 0 mapped (86.40% : N/A)
H2Aub1_1_trimmed.stat 8969576 + 0 mapped (97.40% : N/A)
H2Aub1_2_trimmed.stat 13229915 + 0 mapped (97.53% : N/A)
H3K36me3_1_trimmed.stat 11737311 + 0 mapped (98.89% : N/A)
H3K36me3_2_trimmed.stat 13414318 + 0 mapped (98.45% : N/A)
Ring1B_1_trimmed.stat 4634240 + 0 mapped (93.59% : N/A)
Ring1B_2_trimmed.stat 4646919 + 0 mapped (93.85% : N/A)
Ring1B_3_trimmed.stat 22937484 + 0 mapped (95.34% : N/A)
RNAPII_8WG16_1_trimmed.stat 7472851 + 0 mapped (96.16% : N/A)
RNAPII_8WG16_2_trimmed.stat 20697874 + 0 mapped (95.50% : N/A)
RNAPII_S2P_1_trimmed.stat 25018794 + 0 mapped (97.26% : N/A)
RNAPII_S2P_2_trimmed.stat 6112834 + 0 mapped (95.00% : N/A)
RNAPII_S2P_3_trimmed.stat 8675513 + 0 mapped (96.99% : N/A)
RNAPII_S5P_1_trimmed.stat 11801469 + 0 mapped (97.53% : N/A)
RNAPII_S5P_2_trimmed.stat 12182274 + 0 mapped (98.17% : N/A)
RNAPII_S5PRepeat_1_trimmed.stat 4163762 + 0 mapped (82.81% : N/A)
RNAPII_S7P_1_trimmed.stat 6386270 + 0 mapped (80.90% : N/A)
RNAPII_S7P_2_trimmed.stat 5971177 + 0 mapped (82.66% : N/A)
##可以看到比对结果还是挺好的
获得bam文件后,下一步就是判断是否去除PCR重复。
那么我们下一篇再见!
网友评论