这里是佳奥!
到了数据下载这一步,之前我都是在NCBI上直接用浏览器下载,不过有的数据寻找链接比较耗时,这一次开始我就使用sratoolkit来下载处理原始数据。
1 软件安装
1.1 Linux环境:
##新建环境
conda create -n chipseq python=2
conda activate chipseq
##确保软件都在chipseq环境下
conda install -c bioconda trim-galore
conda install -c bioconda samtools
conda install -c bioconda deeptools 或 conda install -c bioconda/label/cf201901 deeptools
conda install -c bioconda homer
conda install -c bioconda meme 或 conda install -c bioconda/label/cf201901 meme
conda install -c bioconda macs2 或 conda install -c bioconda/label/cf201901 macs2
conda install -c bioconda bowtie
conda install -c bioconda bowtie2
1.2 R环境:
install.packages("devtools",
repos="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")
library(devtools)
BiocManager::install(c('airway','DESeq2','edgeR','limma'))
BiocManager::install(c('ChIPpeakAnno','ChIPseeker'))
##这几个数据集包比较特殊
BiocInstaller::biocLite('TxDb.Hsapiens.UCSC.hg19.knownGene',
ask=F,suppressUpdates=T)
BiocInstaller::biocLite('TxDb.Hsapiens.UCSC.hg38.knownGene',
ask=F,suppressUpdates=T)
BiocInstaller::biocLite('TxDb.Mmusculus.UCSC.mm10.knownGene',
ask=F,suppressUpdates=T)
##如果安装不成功的话,用这样的方法
BiocManager::install("TxDb.Hsapiens.UCSC.hg19.knownGene",force = TRUE)
BiocManager::install("TxDb.Hsapiens.UCSC.hg38.knownGene",force = TRUE)
BiocManager::install("TxDb.Mmusculus.UCSC.mm10.knownGene",force = TRUE)
2 公共数据下载
##Linux系统下,新建目录
mkdir {sra,raw,clean,align,peaks,motif,qc}
cd sra
##从文章找到数据ID,NCBI的原始数据,查看并复制Accession List
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP009883&o=acc_s%3Aa
##新建srr.list
touch srr.list
vim srr.list
$ cat srr.list
SRR391032
SRR391033
SRR391034
SRR391035
SRR391036
SRR391037
SRR391038
SRR391039
SRR391040
SRR391041
SRR391042
SRR391043
SRR391044
SRR391045
SRR391046
SRR391047
SRR391048
SRR391049
SRR391050
##下载sra文件
export PATH="$PATH:/home/kaoku/biosoft/sratoolkit/sratoolkit.3.0.0-ubuntu64/bin"##添加sratoolkit到环境变量
##批量下载代码
cat srr.list | while read id; do ( prefetch $id & ); done
QQ截图20220808190556.png
##下载文件在我设定的路径/root/ncbi/
$ ls -lh
总用量 6.6G
-rw-r--r-- 1 root root 474M 8月 8 18:52 SRR391032.sra
-rw-r--r-- 1 root root 473M 8月 8 18:53 SRR391033.sra
-rw-r--r-- 1 root root 406M 8月 8 18:51 SRR391034.sra
-rw-r--r-- 1 root root 346M 8月 8 18:49 SRR391035.sra
-rw-r--r-- 1 root root 324M 8月 8 18:51 SRR391036.sra
-rw-r--r-- 1 root root 393M 8月 8 18:51 SRR391037.sra
-rw-r--r-- 1 root root 191M 8月 8 18:47 SRR391038.sra
-rw-r--r-- 1 root root 304M 8月 8 18:51 SRR391039.sra
-rw-r--r-- 1 root root 234M 8月 8 18:46 SRR391040.sra
-rw-r--r-- 1 root root 322M 8月 8 18:49 SRR391041.sra
-rw-r--r-- 1 root root 548M 8月 8 18:53 SRR391042.sra
-rw-r--r-- 1 root root 597M 8月 8 18:52 SRR391043.sra
-rw-r--r-- 1 root root 537M 8月 8 18:52 SRR391044.sra
-rw-r--r-- 1 root root 255M 8月 8 18:51 SRR391045.sra
-rw-r--r-- 1 root root 342M 8月 8 18:51 SRR391046.sra
-rw-r--r-- 1 root root 159M 8月 8 18:44 SRR391047.sra
-rw-r--r-- 1 root root 164M 8月 8 18:44 SRR391048.sra
-rw-r--r-- 1 root root 438M 8月 8 18:52 SRR391049.sra
-rw-r--r-- 1 root root 165M 8月 8 18:45 SRR391050.sra
可以看到下载成功,速度还是很快的。
下一篇我们继续处理下载好的sra数据。
我们下一篇再见!
网友评论