美文网首页单细胞转录组R包单细胞测序技术
RNA velocity分析练习(一)文件下载以及预处理

RNA velocity分析练习(一)文件下载以及预处理

作者: 生信start_site | 来源:发表于2020-05-21 02:52 被阅读0次

    目前有多种方法可以进行RNA velocity的分析:

    1. scVelo(参考文章:单细胞转录组数据分析|| scVelo 教程:RNA速率分析工具
    2. velocyto (官网:Welcome to velocyto.py!
    3. Seurat (参考文章:用Seurat做RNA Velocity

    在前一篇的文献学习里(RNA velocity of single cells文献学习),作者使用的是velocyto软件,也就是上面的第二个软件进行分析的,所以我也主要学习这个软件的使用。作者的详细代码见:here,里面有R和python两种版本。

    由于RNA velocity分析的前提,是要我们从单细胞RNA-seq的数据里区分出未成熟mRNA(unspliced)和成熟的mRNA(spliced),所以你需要从fastq文件开始,与基因组进行对比后得到sam文件,从sam文件转成bam,再从bam文件里提取这些信息,最后你会得到.loom为后缀的文件,这个文件才是我们需要的。

    你可以在这个网站(http://velocyto.org/velocyto.py/tutorial/cli.html)里学习如何从bam文件里提取我们需要的信息,你可以使用10X、SMART-seq2、dropseq等平台测序得到的fastq文件,每一种情况都有详细的说明。

    这次练习的原始数据是GSE99933,有768个文件,这个project是应用SMART-Seq2平台进行测序的。

    懒得从fastq文件走一遍完整流程的童鞋可以直接下载bam文件:
    http://pklab.med.harvard.edu/velocyto/chromaffin/bams.tar
    或者你可以直接下载loom文件进行分析:
    http://pklab.med.harvard.edu/velocyto/chromaffin/dat.rds

    (一)fastq文件下载以及文件名的批量修改

    关于如何批量下载fastq文件,如何比对,如何从sam文件转成bam文件,我在单细胞测序实战(第一部分)写的非常详细。这里一共768个fastq文件,大约是12G左右。

    (其实批量修改文件名不是必要的,完全可以跳过这一步,但是不知道为什么自己突发奇想要改名,可能是看着SRR文件名不舒服吧。。。想节约时间的童鞋可以直接跳到fastqc步骤)

    下载fastq文件后,文件名都是SRR开头的,那么我想把前缀改成细胞的编号:E13.5_E之类的,应该怎么弄?首先你要先拿到细胞编号的list,在GEO页面里:

    点击“Accession list truncated, click here to browse through all related public accessions”

    在新页面里,点击“Export”:

    选择All search results

    现在你下载了所有样品的信息,是一个csv表,用excel打开是这样的:

    用查找/替换功能把[single cell RNA-seq]替换成空白(注意是空白,不是空格):

    从这个表里提取第二列的细胞编号:

    $ awk -F"," '{print $2}' sample.csv>> cell_name.txt
    $ head cell_name.txt 
    E12.5_A1
    E12.5_A2
    E12.5_A3
    E12.5_A4
    E12.5_A5
    E12.5_A6
    E12.5_A7
    E12.5_A8
    E12.5_A9
    E12.5_A10
    

    在win10系统下批量修改文件名,看视频:here或者windows如何批量修改文件名

    修改后的fastq文件的名字就变成了:

    (二)fastqc

    随便抽取几个fastq文件看一下:

    整体的测序质量看起来都不错

    (三)比对

    进入fastq文件夹里进行比对:

    $ ls *.gz | while read i;do hisat2 -p 10 -x /media/yanfang/FYWD/RNA_seq/ref_genome/index/mm10/genome -U $i -S /media/yanfang/FYWD/scRNA_seq/RNA_relocity/GSE99933_sam/${i}.sam;done
    

    这一步要过夜(大概10个小时多一点),因为是用自己的电脑跑的,所以比较慢。生成的sam文件:

    (四)生成bam文件

    可以先看一下后续分析要去的bam文件是什么样的:

    需要的bam文件是要sort后的,所以一定要注意!
    $ ls *.fastq.gz.sam | while read i ;do (samtools sort -O bam -@ 10 -o /media/yanfang/FYWD/scRNA_seq/RNA_relocity/GSE99933_bam/$(basename ${i} ".fastq.gz.sam").bam ${i});done
    

    (五)下载mouse_repeat_msk.gtf

    除了mm10_annotation.gtf以外(可在https://www.gencodegenes.org/下载),我们还需要一个文件进行后续的分析,这个文件叫repeat_msk.gtf,你可以在这个网站:here下载到:

    选项都填好,点击左下角“get output”。就行了。

    这个gtf文件是帮助我们去除表达的重复元素(expressed repetitive elements),因为这些reads可能在下游分析中构成一个混淆因素。

    到此,生成loom文件的必需文件就都准备齐全了。下一篇会介绍生成loom文件需要哪些软件。

    相关文章

      网友评论

        本文标题:RNA velocity分析练习(一)文件下载以及预处理

        本文链接:https://www.haomeiwen.com/subject/hxjyohtx.html