美文网首页RNA-seq
RNA-seq上游分析

RNA-seq上游分析

作者: dandanwu90 | 来源:发表于2019-01-16 22:50 被阅读0次

    count计数

    1. 注释基因下载
    mkdir gtf && cd gtf
    wget -c ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz
    
    1. 全部比对
    cd ~/project/rna/alignment
    cat >fcount.sh
    vim fcount.sh
    featureCounts -T 2 -p -t exon -g gene_id -a /home/vip11/project/rna/gtf/gencode.v29.annotation.gtf.gz -o ~/all.id.txt  *.bam
    nohup bash fcount.sh &
    
    1. 生成表查看
    multiqc all.id.txt.summary
    

    file:///private/var/folders/5w/58ldv1kn7tn2n0_n8jq8w9840000gn/T/fz3temp-2/multiqc_report.html/#featurecounts

    salmon fastq到差异分析

    1. 下载cdna数据构建索引,存储路径 /home/vip11/project/rna/gtf/
    wget -c ftp://ftp.ensembl.org/pub/release-95/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz
    
    1. 建立路径及索引
    mkdir salmon && cd salmon
    salmon index -t /home/vip11/project/rna/gtf/Homo_sapiens.GRCh38.cdna.all.fa.gz -i hg38_index
    

    reads 计数

    index=“/home/vip11/project/rna/salmon/hg38_index”
    cat /home/vip11/project/rna/SRR_Acc_List.txt |while read sample
    do
    echo "Processin sample ${sample}"
    salmon quant -i $index -l A -1 /home/vip11/project/rna/clean/${sample}_1_val_1.fq.gz -2 /home/vip11/project/rna/clean/${sample}_2_val_2.fq.gz -p 2 -o ${sample}_quant 1>/home/vip11/project/rna/salmon/${sample}.salmon.log 2>&1
    done
    


    未整理,自行忽略
    查看基因和转录本之间的对应关系,需要用注释包gencode.v29.annotation.gtf.gz 得到的salmon 结果没有整合
    zcat gencode.v29.annotation.gtf.gz |less -SN #查看之后发现有以#开头的表头
    所以去掉表头
    zcat gencode.v29.annotation.gtf.gz | grep -v "^#"|awk '{if (3=='trnascript')print12"\t"$10}'|sed 's/;//g'|sed 's/"//g' >hg38_tx2gene.txt

    zcat gencode.v29.annotation.gtf.gz |grep -v "^#"|awk '{if(3=="transcrit")print 12"/t"10}'|head

    id 为ls输出额结果,作为一个变量
    top临时节点

    nohup 在外面的时候
    ps -ef | grep vip11 查看节点上所有的任务, kill PID只杀掉一个任务,若是循环,kill -9 PID(bash.sh)

    循环报错,在前面加一个echo

    第0个表示是第一个的下标

    nohup在循环里面的时候
    ps -ef |grep qmcui|grep python|awk '{print 2}'|while read id, do killid;done

    日志信息
    1来补货正确信息,不显示在屏幕,
    2捕获错误信息,不输出在屏幕
    将1和2同时输出到一个.log日志里面1>*.log 2>&1

    salmon 从fastq到差异分析 省去比对过程。

    不同软件的index
    没有排序的未见
    ls *.sam |while read id;do (samtools sort -O bam -@ 2 -o (basename{id} ".sam").bam ${id});done

    检查文件是否完整要进行校验, md5sum ‘filename’

    ls *sra|while read id;do echo $id;echo "1111";echo "4444";done

    相关文章

      网友评论

        本文标题:RNA-seq上游分析

        本文链接:https://www.haomeiwen.com/subject/vfnvdqtx.html