Bioinformatics资源推荐
生物信息学是一个跨学科领域,主要目标开发用于理解生物数据的方法和软件工具。https://en.wikipedia.org/wiki/Bioinformatics;由于测序技术的革新,生物信息学蓬勃发展,产生了大量有价值的工具和数据分析方法,我们从其中精选了部分生物信息学软件、学习资源和库分享给大家。
常用数据处理工具
命令行工具
Bioinformatics One Liners
生物信息学的常用的单行bash程序集合
https://github.com/stephenturner/oneliners
BioNode
https://www.bionode.io/
Bionode为生物信息学分析工作流程提供可管理的UNIX命令行工具和JavaScript API
bioSyntax
http://www.bioSyntax.org
语法高亮显示插件,用于常见计算生物学文件格式(SAM,VCF,GTF,FASTA,PDB等),包含vim/less/gedit/sublime等编辑器
CSVKit
https://github.com/wireservice/csvkit
用于处理CSV /制表符分隔文件的实用程序
csvtk
https://github.com/shenwei356/csvtk
另一个跨平台,高效,实用且漂亮的CSV / TSV工具包
datamash
http://www.gnu.org/software/datamash/
数据转换和统计
easy_qsub
https://github.com/shenwei356/easy_qsub
轻松提交PBS作业。通过使用脚本模板,支持多个输入文件
GNU parallel
http://www.gnu.org/software/parallel/
在单个多核计算机上并行运行作业的通用并行程序
https://www.biostars.org/p/63816/是一些使用GNU Parallel的示例脚本。
grabix
https://github.com/arq5x/grabix
用于随机访问BGZF文件的小工具
tabix
https://github.com/samtools/tabix
表文件索引工具
wormtable
https://github.com/wormtable/wormtable
Wormtable是大规模数据集的一次写入多次读取表。 它为Python程序员提供了一种简单有效的方法来存储,处理和搜索基本上无限大小的数据集。
zindex
https://github.com/mattgodbolt/zindex
用于在压缩文本文件上创建索引的工具
二代测序相关
Pipelines/Pipeline框架
Pipeline工具或者框架推荐列表
https://github.com/pditommaso/awesome-pipeline
Pipeline工具或者框架推荐列表
bcbio-nextgen
https://github.com/chapmanb/bcbio-nextgen
提供用于变异和RNA-Seq分析、结构变异Calling,注释和预测的基因组分析Pipeline。
BigDataScript
https://pcingola.github.io/BigDataScript/
一种跨系统脚本语言,用于处理不同大小和功能的计算机系统中的大数据分析Piepeline。
Bpipe
http://docs.bpipe.org
一种用于定义Pipeline不同阶段并将它们链接在一起以形成完整Pipeline的小型描述语言。
Common Workflow Language
http://www.commonwl.org/
用于描述分析工作流程和工具的规范,这些工作流程和工具可在各种软件和硬件环境(从工作站到集群,云和高性能计算(HPC)环境)中移植和扩展。
Cromwell
https://github.com/broadinstitute/cromwell
面向科学工作流程的工作流管理系统。
GATK Queue
https://gatkforums.broadinstitute.org/gatk/discussion/1288/howto-run-queue-for-the-first-time
一个Pipeline系统,可与GATK以及其他高通量序列分析软件协同工作。
Nextflow
https://www.nextflow.io
一个流畅的DSL模仿UNIX管道概念,简化了以可移植的方式编写并行和可扩展的Pipeline。
Ruffus
http://www.ruffus.org.uk
Computation Pipeline library for python widely used in science and bioinformatics.
SeqWare
https://seqware.github.io/
基于Hadoop Oozie的工作流系统,专注于云环境中的基因组数据分析。
Snakemake
https://bitbucket.org/snakemake/snakemake/wiki/Home
Python中的工作流管理系统,旨在通过提供快速,舒适的执行环境来降低创建工作流的复杂性。
Workflow Descriptor Language
https://github.com/broadinstitute/wdl
Broad开发的工作流标准
序列处理相关工具
序列处理包括诸如原始数据读取和修剪低质量碱基之类的任务。
AfterQC
https://github.com/OpenGene/AfterQC
fastq数据的自动过滤,修整,错误删除和质量控制
FastQC
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
用于高通量序列数据的质量控制工具。
Fastqp
https://github.com/mdshw5/fastqp
FASTQ and SAM质量控制工具
Fastx Tookit
http://hannonlab.cshl.edu/fastx_toolkit/
FASTQ/A短读长预处理工具: 包含Demultiplexing, trimming, clipping, quality filtering, and masking等常用功能
MultiQC
http://multiqc.info/
将多个样本的生物信息学分析的结果汇总到单份报告中。
SeqKit
https://github.com/shenwei356/seqkit
olang中用于FASTA/Q文件操作的工具包,具备跨平台和速度快等优点
seqmagick
http://seqmagick.readthedocs.io/en/latest/
Biopython中方便快捷的文件格式转换工具
Seqtk
https://github.com/lh3/seqtk
用于处理FASTA / Q格式序列的工具包。
序列比对
Bowtie 2
https://github.com/BenLangmead/bowtie2
一种超快速且记忆效率高的工具,用于将测序读数与长参考序列对齐。
BWA
https://github.com/lh3/bwa
用于DNA序列之间成对比对的Burrow-Wheeler Aligner
Variant Calling
freebayes
https://github.com/ekg/freebayes
基于贝叶斯单倍型的多态性发现和基因分型工具
GATK
https://software.broadinstitute.org/gatk/
可从高通量测序数据中的分析挖掘变异位点
samtools/bcftools/htslib
https://github.com/samtools/samtools
一套用于处理下一代测序数据的工具集
BAM文件处理工具
Bamtools
https://github.com/pezmaster31/bamtools
用于处理BAM文件的工具集
bam toolbox
https://github.com/AndersenLab/bam-toolbox
MtDNA:核覆盖; BAM工具箱可输出MtDNA:核覆盖率,代表线粒体含量。
mergesam
https://github.com/DarwinAwardWinner/mergesam
自动执行常见的SAM和BAM转换
SAMstat
https://github.com/TimoLassmann/samstat
展示二代测序的序列统计数据。
Telseq
https://github.com/zd1/telseq
Telseq是一种从全基因组序列数据中估计端粒长度的工具
VCF文件处理工具
bcftools
https://github.com/samtools/bcftools
用于操作VCF文件的工具集
vcfanno
https://github.com/brentp/vcfanno
使用其他VCF / BED / tabixed文件注释VCF
vcflib
https://github.com/vcflib/vcflib
用于解析和操作VCF文件的C++库
vcftools
https://github.com/vcftools/vcftools
VCF操作和统计(例如连锁不平衡,等位基因频率,Fst)
GFF BED文件处理工具
gffutils
https://github.com/daler/gffutils
GFF和GTF文件操作和相互转换
BEDOPS
https://bedops.readthedocs.io/en/latest/index.html
快速,高度可扩展且易于并行化的基因组分析工具包
Bedtools2
https://github.com/arq5x/bedtools2
用于基因组算术的瑞士军刀
变异位点模拟
Bam Surgeon
https://github.com/adamewing/bamsurgeon
用于向现有.bam文件添加突变的工具,用于测试突变分析的caller
wgsim
https://github.com/lh3/wgsim
Reads模拟器.
变异位点过滤与质量控制
变异位点预测与注释
SIFT
http://sift.jcvi.org/
预测氨基酸取代是否影响蛋白质功能的工具
SnpEff
https://github.com/pcingola/SnpEff
遗传变异注释和效果预测工具箱
Python模块
数据模块
cruzdb
https://github.com/brentp/cruzdb
可用Pythonic的方式访问UCSC基因组数据库
pyensembl
https://github.com/openvax/pyensembl
可用Pythonic的方式访问Ensembl数据库
bioservices
https://github.com/cokelaer/bioservices
通过Python访问Biological Web Services
工具模块
cyvcf
https://github.com/arq5x/cyvcf
A port of pyVCF (https://github.com/jamescasbon/PyVCF) using Cython for speed.
cyvcf2
https://github.com/brentp/cyvcf2
Cython + HTSlib == 快速VCF文件解析器; 相比pyVCF速度更快.
pyBedTools
https://github.com/daler/pybedtools
bedtools工具的Python封装版[bedtools https://github.com/arq5x/bedtools).
pyfaidx
https://github.com/mdshw5/pyfaidx
通过Pythonic的方式访问FASTA文件.
pysam
https://github.com/pysam-developers/pysam
samtools工具的Python封装版 [samtools https://github.com/samtools/samtools).
pyVCF
https://github.com/jamescasbon/PyVCF
用于Python的VCF解析器
可视化
Genome Browsers / Gene Diagrams
以下工具可用于可视化基因组数据或构建基因组数据的定制可视化,包括来自DNA-Seq,RNA-Seq和ChIP-Seq,变异等的序列数据
biodalliance
http://www.biodalliance.org/
嵌入的基因组查看器。 集成来自各种来源的数据,可以直接从流行的基因组学文件格式加载数据,包括bigWig,BAM和VCF
BioJS
https://biojs.net/
BioJS是一个包含数百种JavaScript组件的库,使您能够使用当前的Web技术可视化和处理数据
Circleator
https://github.com/jonathancrabtree/Circleator
使用BioPerl和SVG灵活地对基因组相关数据进行循环可视化
DNAism
https://github.com/drio/dnaism
Horizon chart基于D3的DNA数据库JavaScript库.
IGV js
https://www.broadinstitute.org/igv
基于Java的浏览器。用于基因组学数据和注释的快速,高效,可扩展的可视化工具。支持各种格式详见:http://software.broadinstitute.org/software/igv/fileformats
Island Plot
https://github.com/lairdm/islandplot
基于D3 JavaScript库的基因组查看器
JBrowse
https://jbrowse.org
JavaScript基因组浏览器,可通过插件和跟踪自定义进行高度自定义
PHAT
https://github.com/chgibb/PHAT
点击式跨平台套件,用于分析和可视化二代测序数据集
pileup.js
https://github.com/hammerlab/pileup.js
JavaScript库,可用于生成交互式和高度可定制的基于Web的基因组浏览器
scribl
https://github.com/chmille4/Scribl
用于绘制基于画布的基因图的JavaScript库. http://chmille4.github.io/Scribl/可查看更多示例
Circos相关
Circos
http://circos.ca/
用于圆形图的Perl包,非常适合基因组重排。
ClicO FS
https://academic.oup.com/bioinformatics/article/31/22/3685/241292
基于Web的用于Circos的交互式服务。
OmicCircos
http://www.bioconductor.org/packages/release/bioc/html/OmicCircos.html
用于绘制组学数据的圆形图的R包
J-Circos
http://www.australianprostatecentre.org/research/software/jcircos
用于与circos图进行交互式工作的Java应用程序
rCircos
https://cran.r-project.org/web/packages/RCircos/index.html
用于绘制圆形图的R包
数据库访问
Entrez Direct: E-utilities on the UNIX command line
http://www.ncbi.nlm.nih.gov/books/NBK179288/
以编程方式访问NCBI的数据库的UNIX命令行工具。可在链接中找到安装说明和示例。
转载:智汇医圈
网友评论