美文网首页Chip seq
ChIP-seq(一)

ChIP-seq(一)

作者: 木夕月 | 来源:发表于2022-04-13 21:22 被阅读0次

Homo sapiens,neuron神经元细胞的数据分析;

1. rawdata数据处理

了解ChIP-seq的实验流程 (qq.com)

下载数据

vim download_data.sh
#!/bin/bash
for i in 806 807 809 810 811 812 813 817 
do
  prefetch-orig.2.10.8 `srapath-orig.2.10.8 SRR13764${i}`
done
qsub -N download -cwd download.sh -q g5.q 

sra2fastq

single end 75 bp

vim sra2fastq.sh
#!/bin/bash
for i in 806 807 809 810 811 812 813 817 
do
  fastq-dump-orig.2.10.8 --split-3 -O fastq --gzip SRR13764${i}/SRR13764${i}.sra
done
qsub -N fastq -cwd sra2fastq.sh

fastqc

vim fastqc.sh
#!bin/bash
for i in 806 807 809 810 811 812 813 817
do
  fastqc SRR13764${i}.fastq.gz -o fastqc
done
qsub -N fastqc -cwd fastqc.sh -q g5.q

trim_galore

vim trim_galore.sh
#!bin/bash
for i in 806 807 809 810 811 812 813 817
do
  trim_galore --output_dir clean_data -q 25 --phred33 --length 36  SRR13764${i}.fastq.gz 
done
qsub -N trim_galore -cwd trim_galore.sh -q g5.q

2. Bowtie2 比对

介绍:生信软件 | bowtie2(测序序列与参考序列比对) - 云+社区 - 腾讯云 (tencent.com)
下载基因组hg19

wget -t 0 -c -b https://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz

-c :如果下载一半断网中断了,wget -c +网址 可以续下载;
-t 0 :如果网速很慢, 总断开重新连接,“-t 0 ”会让他一直重试,直到把文件下载完成;
-b:后台下载;
检查下载数据的完整性

$md5sum hg19.fa.gz
806c02398f5ac5da8ffd6da2d1d5d1a9  hg19.fa.gz
$echo "806c02398f5ac5da8ffd6da2d1d5d1a9  hg19.fa.gz" > check_md5sum.txt
#将数据写入check_md5sum.txt文件
$md5sum -c check_md5sum.txt
#检测数据是否一致
hg19.fa.gz: OK

构建bowtie2索引文件

vim index.sh
#!/bin/bash
bowtie2-build hg19.fa hg19
qsub -N index -cwd index.sh

生成6个文件:
926M Apr 14 17:41 hg19.1.bt2
691M Apr 14 17:41 hg19.2.bt2
4.8K Apr 14 17:18 hg19.3.bt2
691M Apr 14 17:18 hg19.4.bt2
926M Apr 14 18:01 hg19.rev.1.bt2
691M Apr 14 18:01 hg19.rev.2.bt2

bowtie2比对 一步完成

vim bowtie2.sh
for i in 806 807 809 810 811 812 813 817
do
  bowtie2 -p 10 -x ~/chipseq/genome/index/bowtie_index/hg19 -U SRR13764${i}_trimmed.fq | samtools sort -O bam -@ 10 -o - > SRR13764${i}.bam
done
#循环生成bam文件

sort:对bam文件进行排序(不能对sam文件进行排序)
-O:--output format (SAM, BAM)
-@:samtools中设置排序和压缩的线程数,默认单线程
分两步完成的步骤:(1)运行bowtie2 获取 SAM 文件

nohup bowtie2 -p 10 -x ~/chipseq/genome/index/bowtie_index/hg19 -U SRR13764809_trimmed.fq -S CTCF_ChIP-seq.hg19.sam&

-S:write hits in SAM format;-q:query input files are fastq
(2) samtools转换排序为bam格式

samtools view -bS CTCF_ChIP-seq.hg19.sam  > CTCF_ChIP-seq.hg19.bam
#sam转bam
samtools sort -@ 10 CTCF_ChIP-seq.hg19.bam > CTCF_ChIP-seq.hg19.sorted.bam
#排序

sam格式详解:SAM文件的每一行代表一个reads的比对情况,包含12列(tab分割),从左往右,每一列的含义不同。参考讲解:BOWTIE2 进行基因组比对 - 简书 (jianshu.com)
第二列flag的含义 :(1,2,4,8,16,32…)每个整数代表不同的含义。参考讲解:(5条消息) 2019/2/20_*.bam 与 *.sam文件中的flag的含义和统计结果_super_qun的博客-CSDN博客_bam flag

图片2.jpg

第六列GIGAR的含义

图片1.jpg

相关文章

网友评论

    本文标题:ChIP-seq(一)

    本文链接:https://www.haomeiwen.com/subject/bcvgsrtx.html