author:风吹过的94
data:2016-05
1.QC
2.比对(tophat2)
bowtie2-build genome.fa *.bowtie2 #建立索引
tophat2 -p 16 -G genome.gtf *.bowtie2 MTncRNA1_1.fastq MTncRNA1_2.fastq # 比对
3.组装(cufflinks)
cufflinks -o ./ -p 6 -g genome.gtf -u accepted_hits.bam
4.合并(cuffmerge)
cuffmerge -g genome.gtf -s genome.fa -p 32 assemble
5.差异表达分析(cuffdiff)
cuffdiff -b genome.fa -p 32 -u merged.gtf -L M1,M2,M3,W1,W2,W3 MTncRNA1.bam MTncRNA2.bam MTncRNA3.bam \
WTncRNA1.bam WTncRNA2.bam WTncRNA3.bam
# isoforms.count_tracking用于过滤lncrna,提供了覆盖度的信息,
# isoforms.fpkm_tracking和genes.fpkm_tracking用于trans预测,计算两者的相关性
cuffdiff -b genome.fa -p 32 -u merged.gtf -L MT,WT MTncRNA1.bam,MTncRNA2.bam,MTncRNA3.bam \
WTncRNA1.bam,WTncRNA2.bam,WTncRNA3.bam
# 生成的isoform_exp.diff用于寻找差异表达的转录本,生成的gene_exp.diff用于寻找差异表达的基因
6.过滤merged文件(自己写)
exon>=1(merged.gtf),reads>=3(isoforms.count_tracking),length>=200(merged.gtf),classcode=x j o u i(merged.gtf)
7.编码能力预测(CPC,CNCI,PLEK)
CPC需要使用blast,它调用的是blastall,也就是老版本的blast,而不是新版本的blast+。需要使用蛋白质库,UniRef90或者NCBI的nr都可以,用formatdb命令建库时,必须命名为”prot_db”, 且放在CPC安装目录下的data目录下面。
nr数据库:ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
uniprot数据库:ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/
# CPC的安装
# 下载cpc-0.9-r2.tar.gz
tar -zxvf cpc-0.9-r2.tar.gz
cd cpc-0.9-r2/libs/libsvm
tar -zxvf libsvm-2.81.tar.gz
cd libsvm-2.81
make clean && make
cd ../..
tar -zxvf estate.tar.gz
cd estate
make clean && make
# 建立本地blast数据库:
cd cpc-0.9-r2/data
formatdb -i (your_fasta_file) -p T -n prot_db
#运行CPC:
cd cpc-0.9-r2/bin/run_predict.sh (input_seq) (result_in_table) (working_dir) (result_evidence)run_predict.sh
#建议将原始文件分割成比较小的文件去跑会快很多
# CNCI的安装:CNCI使用了SVM(支持向量机)分类,其安装过程主要是编译libsvm。
tar zxvf CNCI_version2.tar.gz
cd CNCI_package
unzip libsvm-3.0.zip
cd libsvm-3.0
make
#CNCI的运行:
基本命令为:python CNCI_package/CNCI.py -f novel.fasta -o CNCI_out -m ve -p 4参数说明:
-f 输入fasta文件(可以使用-g参数输入GTF文件,但是同时需要使用-d参数指定参考基因组的目录)
-o 输出结果目录
-m 指定模式,脊椎动物选择ve,植物选择pl
-p 指定CPU核数
#小提示:CNCI的运行目录一定要在CNCI_package所在目录,不要到CNCI_package目录下运行CNCI,否则会报错。
8.靶基因预测
cis预测:寻找在lncrna附近10K~100K附近的基因(自己写很容易)
trans预测:在全基因组水平上根据表达量寻找与lncrna表达量相关系数高的基因(自己写或者真的是很多样本可以用WGCNA)
网友评论