今天的学习主要包括两个部分;
- 截图的表示 conda 安装过程,
- conda 没有的用官网下载;
1,先加载 conda RNA 环境
图片.png
2,sratoolkit ,conda 没有找到;
3,blat conda install -y blat
图片.png
4,fastqc
图片.png
5,multiqc
图片.png
7,trim-galore (安装的时候需要中划线,)
图片.png
比对软件
8.0 star conda install -y star
8,hisat2
图片.png
9,bowtie2
图片.png
强大的比对工具:https://blog.csdn.net/soyabean555999/article/details/62235577
10,tophat
图片.pngTopHat是基于Bowtie的将RNA-Seq数据mapping到参考基因组上,从而鉴定可变剪切(exon-exon splice junctions)。
11,bwa
conda install -y bwa
图片.png
12,subread
13,samtools
图片.png
14,bcftools
图片.png
15,GATK
GATK 是 Genome Analysis ToolKit 的缩写,是一款从高通量测序数据中分析变异信息的软件,是目前最主流的snp calling 软件之一。
图片.png
- 查找变异的基因
17, Platypus --conda 里边没有,
http://www.biotrainee.com/thread-894-1-1.html
18,varScan
图片.png
19,LoFreq
图片.png
20,FreeBayes
图片.png
21,SNVer
图片.png
22,SAMtools
图片.png
23,VarDict
图片.png
24,cnvkit 报错
ImportError: Missing required dependencies ['numpy']
25,sequenza ,conda 库里边没有
计数软件
26,featureCounts
conda 库里边没有
27, htseq
28,bedtools
图片.png
29, deeptools
图片.png
30,salmon
图片.png
- 外边安装:
- sequenza
搜索了一下发现 sequence 是一个R 包; - Platypus
这个需要注册的,暂时不考虑下载,考虑用同功能的替代软件;
- sequenza
Platypus reads data from BAM files, and outputs a single VCF file containing a list of identified variants, and genotype calls and likelihoods for all samples. It can identify SNPs, MNPs and short (less than one read length) indels, and larger (up to several kb deletions and maybe 200bp insertions) variants using local assembly. Platypus can process large amounts of BAM data very efficiently, and can handle samples spread across multiple BAM files. Duplicate read marking, local re-alignment, and variant identification and filtering are performed on-the-fly using a single command. Platypus will run on any input data in BAM format, but has only been properly tested on Illumina data.
sratoolkit
是一个编译的二进制 文档;没有找到安装教程;
https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz;
2018.12.12 作业要求:需要fastqc及multiqc,trim-galore 或者很多其它软件 trimmomatic, cutadapt**
比对的软件:star, hisat2,bowtie2,tophat,bwa,subread
中间软件,samtools,bcftools,GATK
包括找变异的:GATK, Platypus, VarScan, LoFreq,FreeBayes, SNVer, SAMtools, VarDict,cnvkit,sequenza
计数软件也很多:featureCounts,htseq, bedtools ,deeptools, salmon
资料总结:
blastp:蛋白序列与蛋白库作比对,直接比对蛋白序列的同源性。
blastx:核酸序列与蛋白库作比对,将核酸序列先翻译成蛋白序列,再将其与蛋白库作比对。
blastn:核酸序列与核酸库的比对,直接比对核酸序列的同源性。
tblastn:蛋白序列对核算库的比对,现将核酸库翻译成蛋白库,再将蛋白序列与翻译后的蛋白库进行比对。
tblastx:核酸与核酸数据库在蛋白质水平比较
网友评论