美文网首页rna_seq
RBP AS生信流程(二)STAR比对

RBP AS生信流程(二)STAR比对

作者: cHarden13 | 来源:发表于2020-08-22 21:00 被阅读0次

    STAR比对

    比对原理参考生信媛的文章:https://www.jianshu.com/p/16c938fd3bd6
    建立索引:

    STAR --runMode genomeGenerate \
    --genomeDir ~/HF/GSE55296/HF/afterfastp/SRR1175538\index --genomeFastaFiles ~/HF/Homorefer/humanhg38/hg38.fa \
    --sjdbGTFfile ~/HF/Homorefer/humangtf/gencode37.gtf --sjdbOverhang 75 
    #这个参数是用于可变剪接的预测,一般设置为100(101-1),也可设置为测序长度减1
    

    注意参考基因组fasta和gtf注释文件的染色体名称必须保持一致,都是chr1、chr2、chr3或1、2、3。


    STAR报错1
    2020-08-10:

    用中科院服务器构建好了STAR的index文件,中科院代码如下所示:

    STAR --runMode genomeGenerate --runThreadN 10 \
    --genomeDir /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/StarIndex/ \
    --genomeFastaFiles /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/GRCh37.primary_assembly.genome.fa \
    --sjdbGTFfile /picb/rnasys/share/database/Homo_sapiens/GENCODE/hg19/gencode.v27lift37.annotation.gtf 
    --genomeSAindexNbases 14 --genomeChrBinNbits 18 --genomeSAsparseD 1 --sjdbOverhang 100
    

    放在/home/sxw/HF/index里,现在尝试在GSE46224里运行STAR:

    #在/home/sxw/HF/GSE46224/normal/afterfastp文件夹里,目前有SRR830965-SRR830972这8个双端测序文件
    STAR \
    --genomeDir /home/sxw/HF/Index \ #索引文件夹
    --runThreadN 20 \ #20个线程
    --readFilesCommand zcat \ #输入的测序文件是fq.gz格式的(未解压缩的)
    --readFilesIn SRR830965_1.fastp.fq.gz SRR830965_2.fastp.fq.gz \ #双端测序(空格空开)
    --outSAMtype BAM SortedByCoordinate \ #输出格式为BAM并排序
    --outBAMsortingThreadN 10 \ #SAM排序成BAM时调用线程数
    --outFileNamePrefix ./SRR830965_ #输出文件的前缀
    --quantMode TranscriptomeSAM GeneCounts
    #STAR是基于基因组比对,RSEM是基于转录本比对,这个参数是将基于基因组比对转化为基于转录本比对,
    #为使用RSEM定量分析做准备;GeneCounts可生成每个gene上有几个reads
    

    报错:


    STAR报错2

    报错原因:版本错误?应该用2.7.4a版本

    STAR输出文件解读:

    *_log.out记录STAR运行时的参数和命令,用于检测运行的是否正确
    *_log.final.out储存了对比对结果的统计信息(可以放在大论文里),RNA-seq总数(number of input reads)、平均reads长度
    *_ST.out.tab记录剪接位点的信息


    ST.out.tab

    *_Aligned.sortedByCoord.out.bam是比对排序过的bam文件
    *_Aligned.toTranscriptome.out.bam转换后基于转录本(非基因组)的bam文件
    *_ReadsPerGene.out.tab是每个基因上有多少reads的统计信息

    2020-08-15:

    在/home/sxw/HF/GSE46224/HF/afterfastp这个文件夹里建立索引,代码如下所示:

    STAR  --runMode genomeGenerate \ #运行程序模式,默认是比对
    --genomeDir /home/sxw/HF/Homorefer/index \ #这个index文件夹一定是事先建立好的
    --runThreadN 20 \ #线程数
    --genomeFastaFiles /home/sxw/HF/Homorefer/humanhg38/hg38.fa \ #基因组fasta文件路径
    --sjdbGTFfile /home/sxw/HF/Homorefer/humangtf/genecode38.gtf \ #gtf文件路径
    --sjdbOverhang 100  #读段长度减1,这个就用默认参数100
    

    建立索引成功,接下来在/home/sxw/HF/GSE46224/HF/afterfastp文件夹里进行比对,写循环进行比对:

    for i in $(ls *_1.fastp.fq.gz)
    do
        i=${i/_1.fastp.fq.gz/}
        STAR --genomeDir /home/sxw/HF/GSE46224/HF/afterfastp/index --runThreadN 10 \
        --readFilesCommand zcat --readFilesIn ${i}_1.fastp.fq.gz ${i}_2.fastp.fq.gz \
        --outSAMtype BAM SortedByCoordinate --outFileNamePrefix ./${i}_
    done
    

    以上GSE46224是双端测序,接下来GSE116250是单端测序:

    for i in $(ls *.fastp.fq.gz)
    do
        i=${i/.fastp.fq.gz/}
        STAR --genomeDir /home/sxw/HF/Homorefer/index --runThreadN 20 \
        --readFilesCommand zcat --readFilesIn ${i}.fastp.fq.gz \
        --outSAMtype BAM SortedByCoordinate --outFileNamePrefix ./${i}_
    done
    
    
    2021-03-26:对小鼠基因组进行操作

    ftp://ftp.ensembl.org/pub/中下载小鼠参考基因组文件和注释文件
    在跑流程时遇到一个问题,GTF和FASTA里染色体命名方式不同,fasta里为chr1,gtf文件里为1,将gtf文件里的1替换为chr1,方式:sed -i ‘s/^/chr&/’ *.gtf

    相关文章

      网友评论

        本文标题:RBP AS生信流程(二)STAR比对

        本文链接:https://www.haomeiwen.com/subject/zsfbjktx.html