美文网首页chipseq
【ChIP-seq 实战】三、得到fastq格式测试数据

【ChIP-seq 实战】三、得到fastq格式测试数据

作者: 佳奥 | 来源:发表于2022-08-09 16:38 被阅读0次

这里是佳奥!

我们开始转化下载的sra数据。

##回到网页下载Metdata数据
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP009883&o=acc_s%3Aa

##新建文件
touch sra.table
把内容用vim编辑复制过去

##查看数据,把,间隔改为行间隔(如果是空格则是'\t'),查看
$ head -1 sra.table | tr ',' '\n' | cat -n
     1  Run
     2  Assay Type
     3  AvgSpotLen
     4  Bases
     5  beads
     6  BioProject
     7  BioSample
     8  Bytes
     9  Cell_Line
    10  Center Name
    11  chip_antibody
    12  chromatin
    13  Consent
    14  DATASTORE filetype
    15  DATASTORE provider
    16  DATASTORE region
    17  Experiment
    18  GEO_Accession (exp)
    19  Instrument
    20  Library Name
    21  LibraryLayout
    22  LibrarySelection
    23  LibrarySource
    24  modification
    25  Organism
    26  Platform
    27  ReleaseDate
    28  Sample Name
    29  source_name
    30  SRA Study
    31  chip_antibody_manufacturer
    32  instrument_model (run)

##需要提取内容,制作配置文件
$ cut -f 4,7 sra.table |cut -d":" -f 2 | cut -d ' ' -f 2-3 | tr ' ' '_'
Type,AvgSpotLen,Bases,beads,BioProject,BioSample,Bytes,Cell_Line,Center_Name,chip_antibody,chromatin,Consent,DATASTORE
RNAPII_S5P
RNAPII_S5P
RNAPII_S2P
RNAPII_S7P
RNAPII_8WG16
RNAPII_8WG16
RNAPII_S2P
RNAPII_S2P
RNAPII_S7P
H2Aub1_ChIPSeq,SINGLE,ChIP,GENOMIC,H2Aub1,Mus
H2Aub1_ChIPSeq,SINGLE,ChIP,GENOMIC,H2Aub1,Mus
H3K36me3_ChIPSeq,SINGLE,ChIP,GENOMIC,H3K36me3,Mus
H3K36me3_ChIPSeq,SINGLE,ChIP,GENOMIC,H3K36me3,Mus
Control_MockIP,SINGLE,ChIP,GENOMIC,Control,Mus
Control_MockIP,SINGLE,ChIP,GENOMIC,Control,Mus
Ring1B_ChIPSeq,SINGLE,ChIP,GENOMIC,none,Mus
Ring1B_ChIPSeq,SINGLE,ChIP,GENOMIC,none,Mus
Ring1B_ChIPSeq,SINGLE,ChIP,GENOMIC,none,Mus
RNAPII_S5PRepeat

##艰难,然后把第一列内容复制出来,与SRR序号对应,就像这样(中间Tab隔开),有余力可以使用perl语言(jimmy总结到,可以直接用Excel做)
##保存到config文件

$ cat config
RNAPII_S5P_1    SRR391032
RNAPII_S5P_2    SRR391033
RNAPII_S2P_1    SRR391034
RNAPII_S7P_1    SRR391035
RNAPII_8WG16_1  SRR391036
RNAPII_8WG16_2  SRR391037
RNAPII_S2P_2    SRR391038
RNAPII_S2P_3    SRR391039
RNAPII_S7P_2    SRR391040
H2Aub1_1        SRR391041
H2Aub1_2        SRR391042
H3K36me3_1      SRR391043
H3K36me3_2      SRR391044
Control_1       SRR391045
Control_2       SRR391046
Ring1B_1        SRR391047
Ring1B_2        SRR391048
Ring1B_3        SRR391049
RNAPII_S5PRepeat_1      SRR391050

##有了上面的配置文件就可以批量sra转fq文件。使用fastq-dump(已经提前将程序添加到环境变量,已切换chipseq环境变量)

##进入到上层目录
(chipseq) root 16:09:57 /home/kaoku/chipseq/mouse_project
$ ls
align  clean  config  motif  peaks  qc  raw  sra

##单端测序数据批量sra转fasq
analysis_dir=raw
cat config | while read id;
do 
echo $id
arr=($id)
srr=${arr[1]}
sample=${arr[0]}

fastq-dump -A  $sample -O $analysis_dir  --gzip --split-3  sra/$srr.sra & 
done 
QQ截图20220809161147.png

top查看进程,正在运行。

fast-dump进程结束后查看文件,转化完成。

(chipseq) root 16:18:58 /home/kaoku/chipseq/mouse_project/raw
$ ls -lh
总用量 11G
-rw-r--r-- 1 root root 427M  8月  9 16:14 Control_1.fastq.gz
-rw-r--r-- 1 root root 527M  8月  9 16:15 Control_2.fastq.gz
-rw-r--r-- 1 root root 507M  8月  9 16:16 H2Aub1_1.fastq.gz
-rw-r--r-- 1 root root 843M  8月  9 16:17 H2Aub1_2.fastq.gz
-rw-r--r-- 1 root root 881M  8月  9 16:18 H3K36me3_1.fastq.gz
-rw-r--r-- 1 root root 839M  8月  9 16:17 H3K36me3_2.fastq.gz
-rw-r--r-- 1 root root 266M  8月  9 16:13 Ring1B_1.fastq.gz
-rw-r--r-- 1 root root 274M  8月  9 16:13 Ring1B_2.fastq.gz
-rw-r--r-- 1 root root 875M  8月  9 16:18 Ring1B_3.fastq.gz
-rw-r--r-- 1 root root 506M  8月  9 16:15 RNAPII_8WG16_1.fastq.gz
-rw-r--r-- 1 root root 794M  8月  9 16:18 RNAPII_8WG16_2.fastq.gz
-rw-r--r-- 1 root root 858M  8月  9 16:18 RNAPII_S2P_1.fastq.gz
-rw-r--r-- 1 root root 326M  8月  9 16:13 RNAPII_S2P_2.fastq.gz
-rw-r--r-- 1 root root 489M  8月  9 16:15 RNAPII_S2P_3.fastq.gz
-rw-r--r-- 1 root root 740M  8月  9 16:17 RNAPII_S5P_1.fastq.gz
-rw-r--r-- 1 root root 745M  8月  9 16:17 RNAPII_S5P_2.fastq.gz
-rw-r--r-- 1 root root 283M  8月  9 16:13 RNAPII_S5PRepeat_1.fastq.gz
-rw-r--r-- 1 root root 533M  8月  9 16:15 RNAPII_S7P_1.fastq.gz
-rw-r--r-- 1 root root 393M  8月  9 16:14 RNAPII_S7P_2.fastq.gz

下一步就是质量控制,我们下一篇再见!

相关文章

网友评论

    本文标题:【ChIP-seq 实战】三、得到fastq格式测试数据

    本文链接:https://www.haomeiwen.com/subject/xlmnwrtx.html