这里是佳奥!我们开始新篇章的学习吧!
本次复现的文章:
##Global changes of H3K27me3 domains and Polycomb group protein distribution in the absence of recruiters Spps or Pho
https://pubmed.ncbi.nlm.nih.gov/29432187/
代码参考:
https://mp.weixin.qq.com/s/42KnyHNJ8CwY6ID1P2suaw
1 果蝇参考基因组和注释文件准备
1.1 参考基因组网站
https://asia.ensembl.org/Drosophila_melanogaster/Info/Index
##ftp下载,原文是6.22但是ftp页面打不开,这里就使用更新的6.32
http://ftp.ensembl.org/pub/release-107/fasta/drosophila_melanogaster/dna/
##浏览器下载toplevel.fa.gz 或者wget
http://ftp.ensembl.org/pub/release-107/fasta/drosophila_melanogaster/dna/Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz
1.2 gtf注释文件
##gtf目录
http://ftp.ensembl.org/pub/release-107/gtf/drosophila_melanogaster/
##浏览器下载chr.gtf.gz 或者wget
http://ftp.ensembl.org/pub/release-107/gtf/drosophila_melanogaster/Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz
1.3 RNA-Seq需要的hisat2的索引文件
可以根据参考基因组构建,但是推荐下载构建好的索引。
http://daehwankimlab.github.io/hisat2/download/#h-sapiens
QQ截图20220822104616.png
##浏览器下载bdgp6.tar.gz 或者wget
https://genome-idx.s3.amazonaws.com/hisat/bdgp6.tar.gz
(rnaseq) root 10:41:02 /home/kaoku/project/fly/refer
$ ls -lh
总用量 252M
-rw-r--r-- 1 kaoku kaoku 203M 8月 22 11:01 bdgp6.tar.gz
-rw-r--r-- 1 kaoku kaoku 6.5M 8月 22 10:40 Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz
-rw-r--r-- 1 kaoku kaoku 43M 8月 22 10:29 Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz
解压下载的索引文件
$ tar -zxvf bdgp6.tar.gz
##改名好辩认
$ mv bdgp6 hisat2-index
1.4 bowtie2的索引文件
同理:
##浏览器下载或者wget
http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml
##解压压缩包
$ unzip bowtie2indexBDGP6.zip
##并改名
$ mv BDGP6 bowtie2-index
前期准备至此结束,下一步便是下载实验数据。
(rnaseq) root 11:11:49 /home/kaoku/project/fly/refer
$ ls -lh
总用量 50M
drwxr-xr-x 2 root root 4.0K 6月 12 2020 bowtie2-index
-rw-r--r-- 1 kaoku kaoku 6.5M 8月 22 10:40 Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz
-rw-r--r-- 1 kaoku kaoku 43M 8月 22 10:29 Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz
drwxr-sr-x 2 1041 1008 4.0K 3月 17 2016 hisat2-index
2 文献测序原始数据下载
2.1 配置sratoolkit
先把文件夹添加到环境变量
$ export PATH="$PATH:/home/kaoku/biosoft/sratoolkit/sratoolkit.3.0.0-ubuntu64/bin"
配置软件:这个界面是可以鼠标点击的,设置路径到root/ncbi即可
$ vdb-config --interactive
QQ截图20220822113405.png
红色字母就是选择,多试一下就会使用了。
2.2 找到文章的GSE序号
QQ截图20220822113736.png点击蓝色的GSE便可跳转到GEO数据库。
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE102339
网页往下翻,找到SRA序号。
QQ截图20220822113955.png
点击send result to run selector
https://www.ncbi.nlm.nih.gov/Traces/study/?query_key=1&WebEnv=MCID_6302faaf5c311c6a7328f00f&o=acc_s%3Aa&s=SRR5907429,SRR5907430,SRR5907431,SRR5907432,SRR5907433,SRR5907434,SRR5907436,SRR5907437,SRR5907438,SRR5907439,SRR5907440,SRR5907441,SRR5907442,SRR5907443,SRR5907444,SRR5907445,SRR5907446,SRR5907447,SRR5907448,SRR5907449,SRR5907450,SRR5907451,SRR5907452,SRR5907453,SRR5907454,SRR5907455,SRR5907456,SRR5907457,SRR5907458,SRR5907459,SRR5907460,SRR5907461,SRR5907462,SRR5907463,SRR5907464,SRR5907465,SRR5907466,SRR5907467,SRR5907468,SRR5907469,SRR5907470,SRR5907471,SRR5907472,SRR5907473,SRR5907474,SRR5907475,SRR5907476,SRR5907477,SRR5907478,SRR6490544,SRR9967697,SRR9967698
QQ截图20220822114215.png
可以看到数据规模还是挺大的,117G的原始数据。
点击Metadata、Accession List下载。
2.3 sra文件下载及转fastq
##批量下载代码
cat SRR_Acc_List.txt | while read id; do ( prefetch $id & ); done
需要判断文库的测序文件是单端测序还是双端测序。在LibraryLayout:PAIRED即为双端。
##明确目录,原始sra数据以及转化后的fastq数据目录
sra目录:sra_data
fastq目录:raw_fq
##sra转fastq
for id in ~/sra_data
do
fastq-dump --gzip --split-3 -O ~/raw_fq $id &
done
SRR8980083_1.fastq.gz是一个双端测序文件,经过fastq-dump转换后形成两个文件,分别为:
SRR8980083_1.fastq.gz
SRR8980083_2.fastq.gz
下一篇我们继续演示ChIP-Seq的比对流程。
我们下一篇再见!
网友评论