美文网首页走进转录组表观遗传
【表观调控(RNA-Seq和ChIP-Seq联合分析) 实战】一

【表观调控(RNA-Seq和ChIP-Seq联合分析) 实战】一

作者: 佳奥 | 来源:发表于2022-08-22 16:04 被阅读0次

    这里是佳奥!我们开始新篇章的学习吧!

    本次复现的文章:

    ##Global changes of H3K27me3 domains and Polycomb group protein distribution in the absence of recruiters Spps or Pho
    https://pubmed.ncbi.nlm.nih.gov/29432187/
    

    代码参考:

    https://mp.weixin.qq.com/s/42KnyHNJ8CwY6ID1P2suaw
    

    1 果蝇参考基因组和注释文件准备

    1.1 参考基因组网站

    https://asia.ensembl.org/Drosophila_melanogaster/Info/Index
    
    ##ftp下载,原文是6.22但是ftp页面打不开,这里就使用更新的6.32
    http://ftp.ensembl.org/pub/release-107/fasta/drosophila_melanogaster/dna/
    
    ##浏览器下载toplevel.fa.gz 或者wget
    http://ftp.ensembl.org/pub/release-107/fasta/drosophila_melanogaster/dna/Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz
    

    1.2 gtf注释文件

    ##gtf目录
    http://ftp.ensembl.org/pub/release-107/gtf/drosophila_melanogaster/
    
    ##浏览器下载chr.gtf.gz 或者wget
    http://ftp.ensembl.org/pub/release-107/gtf/drosophila_melanogaster/Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz
    

    1.3 RNA-Seq需要的hisat2的索引文件

    可以根据参考基因组构建,但是推荐下载构建好的索引。

    http://daehwankimlab.github.io/hisat2/download/#h-sapiens
    
    QQ截图20220822104616.png
    ##浏览器下载bdgp6.tar.gz 或者wget
    https://genome-idx.s3.amazonaws.com/hisat/bdgp6.tar.gz
    
    (rnaseq) root 10:41:02 /home/kaoku/project/fly/refer
    $ ls -lh
    总用量 252M
    -rw-r--r-- 1 kaoku kaoku 203M  8月 22 11:01 bdgp6.tar.gz
    -rw-r--r-- 1 kaoku kaoku 6.5M  8月 22 10:40 Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz
    -rw-r--r-- 1 kaoku kaoku  43M  8月 22 10:29 Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz
    

    解压下载的索引文件

    $ tar -zxvf bdgp6.tar.gz
    
    ##改名好辩认
    $ mv bdgp6 hisat2-index
    

    1.4 bowtie2的索引文件

    同理:

    ##浏览器下载或者wget
    http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml
    
    ##解压压缩包
    $ unzip bowtie2indexBDGP6.zip
    
    ##并改名
    $ mv BDGP6 bowtie2-index
    

    前期准备至此结束,下一步便是下载实验数据。

    (rnaseq) root 11:11:49 /home/kaoku/project/fly/refer
    $ ls -lh
    总用量 50M
    drwxr-xr-x 2 root  root  4.0K  6月 12  2020 bowtie2-index
    -rw-r--r-- 1 kaoku kaoku 6.5M  8月 22 10:40 Drosophila_melanogaster.BDGP6.32.107.chr.gtf.gz
    -rw-r--r-- 1 kaoku kaoku  43M  8月 22 10:29 Drosophila_melanogaster.BDGP6.32.dna_sm.toplevel.fa.gz
    drwxr-sr-x 2  1041  1008 4.0K  3月 17  2016 hisat2-index
    

    2 文献测序原始数据下载

    2.1 配置sratoolkit

    先把文件夹添加到环境变量

    $ export PATH="$PATH:/home/kaoku/biosoft/sratoolkit/sratoolkit.3.0.0-ubuntu64/bin"
    
    配置软件:这个界面是可以鼠标点击的,设置路径到root/ncbi即可
    $ vdb-config --interactive
    
    QQ截图20220822113405.png

    红色字母就是选择,多试一下就会使用了。

    2.2 找到文章的GSE序号

    QQ截图20220822113736.png

    点击蓝色的GSE便可跳转到GEO数据库。

    https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE102339
    

    网页往下翻,找到SRA序号。


    QQ截图20220822113955.png

    点击send result to run selector

    https://www.ncbi.nlm.nih.gov/Traces/study/?query_key=1&WebEnv=MCID_6302faaf5c311c6a7328f00f&o=acc_s%3Aa&s=SRR5907429,SRR5907430,SRR5907431,SRR5907432,SRR5907433,SRR5907434,SRR5907436,SRR5907437,SRR5907438,SRR5907439,SRR5907440,SRR5907441,SRR5907442,SRR5907443,SRR5907444,SRR5907445,SRR5907446,SRR5907447,SRR5907448,SRR5907449,SRR5907450,SRR5907451,SRR5907452,SRR5907453,SRR5907454,SRR5907455,SRR5907456,SRR5907457,SRR5907458,SRR5907459,SRR5907460,SRR5907461,SRR5907462,SRR5907463,SRR5907464,SRR5907465,SRR5907466,SRR5907467,SRR5907468,SRR5907469,SRR5907470,SRR5907471,SRR5907472,SRR5907473,SRR5907474,SRR5907475,SRR5907476,SRR5907477,SRR5907478,SRR6490544,SRR9967697,SRR9967698
    
    QQ截图20220822114215.png

    可以看到数据规模还是挺大的,117G的原始数据。

    点击Metadata、Accession List下载。

    2.3 sra文件下载及转fastq

    ##批量下载代码
    cat SRR_Acc_List.txt | while read id; do ( prefetch $id & ); done
    

    需要判断文库的测序文件是单端测序还是双端测序。在LibraryLayout:PAIRED即为双端。

    ##明确目录,原始sra数据以及转化后的fastq数据目录
    
    sra目录:sra_data
    fastq目录:raw_fq
    
    ##sra转fastq
    for id in ~/sra_data
    do
    fastq-dump --gzip --split-3 -O ~/raw_fq $id &
    done
    
    SRR8980083_1.fastq.gz是一个双端测序文件,经过fastq-dump转换后形成两个文件,分别为:
    SRR8980083_1.fastq.gz
    SRR8980083_2.fastq.gz
    

    下一篇我们继续演示ChIP-Seq的比对流程。

    我们下一篇再见!

    相关文章

      网友评论

        本文标题:【表观调控(RNA-Seq和ChIP-Seq联合分析) 实战】一

        本文链接:https://www.haomeiwen.com/subject/rlmigrtx.html