ZT:lncrna分析流程

作者: felixhell | 来源:发表于2019-12-03 15:27 被阅读0次

    author:风吹过的94
    data:2016-05
    1.QC
    2.比对(tophat2)

    bowtie2-build genome.fa *.bowtie2 #建立索引
    tophat2 -p 16 -G genome.gtf *.bowtie2 MTncRNA1_1.fastq MTncRNA1_2.fastq # 比对
    

    3.组装(cufflinks)

    cufflinks -o ./ -p 6 -g genome.gtf -u accepted_hits.bam
    

    4.合并(cuffmerge)

    ​cuffmerge -g genome.gtf -s genome.fa -p 32 assemble
    

    5.差异表达分析(cuffdiff)

    cuffdiff -b genome.fa -p 32 -u merged.gtf -L M1,M2,M3,W1,W2,W3 MTncRNA1.bam MTncRNA2.bam MTncRNA3.bam \
    WTncRNA1.bam WTncRNA2.bam WTncRNA3.bam
    # isoforms.count_tracking用于过滤lncrna,提供了覆盖度的信息,
    # isoforms.fpkm_tracking和genes.fpkm_tracking用于trans预测,计算两者的相关性
    
    cuffdiff -b genome.fa -p 32 -u merged.gtf -L MT,WT MTncRNA1.bam,MTncRNA2.bam,MTncRNA3.bam \
    WTncRNA1.bam,WTncRNA2.bam,WTncRNA3.bam
    # 生成的isoform_exp.diff用于寻找差异表达的转录本,生成的gene_exp.diff用于寻找差异表达的基因
    

    6.过滤merged文件(自己写)

    exon>=1(merged.gtf),reads>=3(isoforms.count_tracking)​,length>=200(merged.gtf),classcode=x j o u i(merged.gtf)
    

    7.编码能力预测(CPC,CNCI,PLEK)
    CPC需要使用blast,它调用的是blastall,也就是老版本的blast,而不是新版本的blast+。​需要使用蛋白质库,UniRef90或者NCBI的nr都可以,用formatdb命令建库时,必须命名为”prot_db”, 且放在CPC安装目录下的data目录下面。

    nr数据库:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
    uniprot数据库:ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/

    # CPC的安装
    # 下载cpc-0.9-r2.tar.gz
                        tar -zxvf cpc-0.9-r2.tar.gz
                         cd cpc-0.9-r2/libs/libsvm
                        tar -zxvf libsvm-2.81.tar.gz
                        cd libsvm-2.81
                         make clean && make
                         cd ../..
                         tar -zxvf estate.tar.gz
                         cd estate
                         make clean && make
    
    # 建立本地blast数据库: 
    cd cpc-0.9-r2/data
    formatdb -i (your_fasta_file) -p T -n prot_db
    #运行CPC:
    cd cpc-0.9-r2/bin/run_predict.sh (input_seq) (result_in_table) (working_dir) (result_evidence)run_predict.sh
    
    #建议将原始文件分割成比较小的文件去跑会快很多​
    
    # CNCI的安装:CNCI使用了SVM(支持向量机)分类,其安装过程主要是编译libsvm。
    tar zxvf CNCI_version2.tar.gz
    cd CNCI_package
    unzip libsvm-3.0.zip
    cd libsvm-3.0
    make
    
    #CNCI的运行:
    
    基本命令为:python CNCI_package/CNCI.py -f novel.fasta -o CNCI_out -m ve -p 4参数说明:
    
    -f 输入fasta文件(可以使用-g参数输入GTF文件,但是同时需要使用-d参数指定参考基因组的目录)
    -o 输出结果目录
    -m 指定模式,脊椎动物选择ve,植物选择pl
    -p 指定CPU核数
    #小提示:CNCI的运行目录一定要在CNCI_package所在目录,不要到CNCI_package目录下运行CNCI,否则会报错。
    

    8.靶基因预测
    cis预测:寻找在lncrna附近10K~100K附近的基因(自己写很容易)

    trans预测:在全基因组水平上根据表达量寻找与lncrna表达量相关系数高的基因(自己写或者真的是很多样本可以用WGCNA)​

    相关文章

      网友评论

        本文标题:ZT:lncrna分析流程

        本文链接:https://www.haomeiwen.com/subject/vvicgctx.html