ZT:lncrna分析流程

作者: felixhell | 来源:发表于2019-12-03 15:27 被阅读0次

author:风吹过的94
data:2016-05
1.QC
2.比对(tophat2)

bowtie2-build genome.fa *.bowtie2 #建立索引
tophat2 -p 16 -G genome.gtf *.bowtie2 MTncRNA1_1.fastq MTncRNA1_2.fastq # 比对

3.组装(cufflinks)

cufflinks -o ./ -p 6 -g genome.gtf -u accepted_hits.bam

4.合并(cuffmerge)

cuffmerge -g genome.gtf -s genome.fa -p 32 assemble

5.差异表达分析(cuffdiff)

cuffdiff -b genome.fa -p 32 -u merged.gtf -L M1,M2,M3,W1,W2,W3 MTncRNA1.bam MTncRNA2.bam MTncRNA3.bam \
WTncRNA1.bam WTncRNA2.bam WTncRNA3.bam
# isoforms.count_tracking用于过滤lncrna，提供了覆盖度的信息，
# isoforms.fpkm_tracking和genes.fpkm_tracking用于trans预测，计算两者的相关性

cuffdiff -b genome.fa -p 32 -u merged.gtf -L MT,WT MTncRNA1.bam,MTncRNA2.bam,MTncRNA3.bam \
WTncRNA1.bam,WTncRNA2.bam,WTncRNA3.bam
# 生成的isoform_exp.diff用于寻找差异表达的转录本，生成的gene_exp.diff用于寻找差异表达的基因

6.过滤merged文件（自己写）

exon>=1(merged.gtf),reads>=3(isoforms.count_tracking),length>=200(merged.gtf),classcode=x j o u i(merged.gtf)

7.编码能力预测(CPC,CNCI,PLEK)
CPC需要使用blast，它调用的是blastall，也就是老版本的blast，而不是新版本的blast+。需要使用蛋白质库，UniRef90或者NCBI的nr都可以，用formatdb命令建库时，必须命名为”prot_db”, 且放在CPC安装目录下的data目录下面。

nr数据库：ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
uniprot数据库：ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/

# CPC的安装
# 下载cpc-0.9-r2.tar.gz
                    tar -zxvf cpc-0.9-r2.tar.gz
                     cd cpc-0.9-r2/libs/libsvm
                    tar -zxvf libsvm-2.81.tar.gz
                    cd libsvm-2.81
                     make clean && make
                     cd ../..
                     tar -zxvf estate.tar.gz
                     cd estate
                     make clean && make

# 建立本地blast数据库: 
cd cpc-0.9-r2/data
formatdb -i (your_fasta_file) -p T -n prot_db
#运行CPC：
cd cpc-0.9-r2/bin/run_predict.sh (input_seq) (result_in_table) (working_dir) (result_evidence)run_predict.sh

#建议将原始文件分割成比较小的文件去跑会快很多

# CNCI的安装：CNCI使用了SVM（支持向量机）分类，其安装过程主要是编译libsvm。
tar zxvf CNCI_version2.tar.gz
cd CNCI_package
unzip libsvm-3.0.zip
cd libsvm-3.0
make

#CNCI的运行：

基本命令为：python CNCI_package/CNCI.py -f novel.fasta -o CNCI_out -m ve -p 4参数说明：

-f 输入fasta文件（可以使用-g参数输入GTF文件，但是同时需要使用-d参数指定参考基因组的目录）
-o 输出结果目录
-m 指定模式，脊椎动物选择ve，植物选择pl
-p 指定CPU核数
#小提示：CNCI的运行目录一定要在CNCI_package所在目录，不要到CNCI_package目录下运行CNCI，否则会报错。

8.靶基因预测
cis预测：寻找在lncrna附近10K~100K附近的基因（自己写很容易）

trans预测：在全基因组水平上根据表达量寻找与lncrna表达量相关系数高的基因（自己写或者真的是很多样本可以用WGCNA）

网友评论

本文标题：ZT:lncrna分析流程

本文链接：https://www.haomeiwen.com/subject/vvicgctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

ZT:lncrna分析流程

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信分析流程宝库

转录组

【康华同学】:优秀生物信息学博客