美文网首页
生信常用工具集合

生信常用工具集合

作者: 千千罐 | 来源:发表于2022-10-20 10:33 被阅读0次

Bioinformatics资源推荐
生物信息学是一个跨学科领域,主要目标开发用于理解生物数据的方法和软件工具。https://en.wikipedia.org/wiki/Bioinformatics;由于测序技术的革新,生物信息学蓬勃发展,产生了大量有价值的工具和数据分析方法,我们从其中精选了部分生物信息学软件、学习资源和库分享给大家。

常用数据处理工具
命令行工具
Bioinformatics One Liners
生物信息学的常用的单行bash程序集合
https://github.com/stephenturner/oneliners

BioNode
https://www.bionode.io/
Bionode为生物信息学分析工作流程提供可管理的UNIX命令行工具和JavaScript API

bioSyntax
http://www.bioSyntax.org
语法高亮显示插件,用于常见计算生物学文件格式(SAM,VCF,GTF,FASTA,PDB等),包含vim/less/gedit/sublime等编辑器

CSVKit
https://github.com/wireservice/csvkit
用于处理CSV /制表符分隔文件的实用程序

csvtk
https://github.com/shenwei356/csvtk
另一个跨平台,高效,实用且漂亮的CSV / TSV工具包

datamash
http://www.gnu.org/software/datamash/
数据转换和统计

easy_qsub
https://github.com/shenwei356/easy_qsub
轻松提交PBS作业。通过使用脚本模板,支持多个输入文件

GNU parallel
http://www.gnu.org/software/parallel/
在单个多核计算机上并行运行作业的通用并行程序
https://www.biostars.org/p/63816/是一些使用GNU Parallel的示例脚本。

grabix
https://github.com/arq5x/grabix
用于随机访问BGZF文件的小工具

tabix
https://github.com/samtools/tabix
表文件索引工具

wormtable
https://github.com/wormtable/wormtable
Wormtable是大规模数据集的一次写入多次读取表。 它为Python程序员提供了一种简单有效的方法来存储,处理和搜索基本上无限大小的数据集。

zindex
https://github.com/mattgodbolt/zindex
用于在压缩文本文件上创建索引的工具

二代测序相关
Pipelines/Pipeline框架
Pipeline工具或者框架推荐列表
https://github.com/pditommaso/awesome-pipeline
Pipeline工具或者框架推荐列表

bcbio-nextgen
https://github.com/chapmanb/bcbio-nextgen
提供用于变异和RNA-Seq分析、结构变异Calling,注释和预测的基因组分析Pipeline。

BigDataScript
https://pcingola.github.io/BigDataScript/
一种跨系统脚本语言,用于处理不同大小和功能的计算机系统中的大数据分析Piepeline。

Bpipe
http://docs.bpipe.org
一种用于定义Pipeline不同阶段并将它们链接在一起以形成完整Pipeline的小型描述语言。

Common Workflow Language
http://www.commonwl.org/
用于描述分析工作流程和工具的规范,这些工作流程和工具可在各种软件和硬件环境(从工作站到集群,云和高性能计算(HPC)环境)中移植和扩展。

Cromwell
https://github.com/broadinstitute/cromwell
面向科学工作流程的工作流管理系统。

GATK Queue
https://gatkforums.broadinstitute.org/gatk/discussion/1288/howto-run-queue-for-the-first-time
一个Pipeline系统,可与GATK以及其他高通量序列分析软件协同工作。

Nextflow
https://www.nextflow.io
一个流畅的DSL模仿UNIX管道概念,简化了以可移植的方式编写并行和可扩展的Pipeline。

Ruffus
http://www.ruffus.org.uk
Computation Pipeline library for python widely used in science and bioinformatics.

SeqWare
https://seqware.github.io/
基于Hadoop Oozie的工作流系统,专注于云环境中的基因组数据分析。

Snakemake
https://bitbucket.org/snakemake/snakemake/wiki/Home
Python中的工作流管理系统,旨在通过提供快速,舒适的执行环境来降低创建工作流的复杂性。

Workflow Descriptor Language
https://github.com/broadinstitute/wdl
Broad开发的工作流标准

序列处理相关工具
序列处理包括诸如原始数据读取和修剪低质量碱基之类的任务。

AfterQC
https://github.com/OpenGene/AfterQC
fastq数据的自动过滤,修整,错误删除和质量控制

FastQC
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
用于高通量序列数据的质量控制工具。

Fastqp
https://github.com/mdshw5/fastqp
FASTQ and SAM质量控制工具

Fastx Tookit
http://hannonlab.cshl.edu/fastx_toolkit/
FASTQ/A短读长预处理工具: 包含Demultiplexing, trimming, clipping, quality filtering, and masking等常用功能

MultiQC
http://multiqc.info/
将多个样本的生物信息学分析的结果汇总到单份报告中。

SeqKit
https://github.com/shenwei356/seqkit
olang中用于FASTA/Q文件操作的工具包,具备跨平台和速度快等优点

seqmagick
http://seqmagick.readthedocs.io/en/latest/
Biopython中方便快捷的文件格式转换工具

Seqtk
https://github.com/lh3/seqtk
用于处理FASTA / Q格式序列的工具包。

序列比对
Bowtie 2
https://github.com/BenLangmead/bowtie2
一种超快速且记忆效率高的工具,用于将测序读数与长参考序列对齐。

BWA
https://github.com/lh3/bwa
用于DNA序列之间成对比对的Burrow-Wheeler Aligner

Variant Calling
freebayes
https://github.com/ekg/freebayes
基于贝叶斯单倍型的多态性发现和基因分型工具

GATK
https://software.broadinstitute.org/gatk/
可从高通量测序数据中的分析挖掘变异位点

samtools/bcftools/htslib
https://github.com/samtools/samtools
一套用于处理下一代测序数据的工具集

BAM文件处理工具
Bamtools
https://github.com/pezmaster31/bamtools
用于处理BAM文件的工具集

bam toolbox
https://github.com/AndersenLab/bam-toolbox
MtDNA:核覆盖; BAM工具箱可输出MtDNA:核覆盖率,代表线粒体含量。

mergesam
https://github.com/DarwinAwardWinner/mergesam
自动执行常见的SAM和BAM转换

SAMstat
https://github.com/TimoLassmann/samstat
展示二代测序的序列统计数据。

Telseq
https://github.com/zd1/telseq
Telseq是一种从全基因组序列数据中估计端粒长度的工具

VCF文件处理工具
bcftools
https://github.com/samtools/bcftools
用于操作VCF文件的工具集

vcfanno
https://github.com/brentp/vcfanno
使用其他VCF / BED / tabixed文件注释VCF

vcflib
https://github.com/vcflib/vcflib
用于解析和操作VCF文件的C++库

vcftools
https://github.com/vcftools/vcftools
VCF操作和统计(例如连锁不平衡,等位基因频率,Fst)

GFF BED文件处理工具
gffutils
https://github.com/daler/gffutils
GFF和GTF文件操作和相互转换

BEDOPS
https://bedops.readthedocs.io/en/latest/index.html
快速,高度可扩展且易于并行化的基因组分析工具包

Bedtools2
https://github.com/arq5x/bedtools2
用于基因组算术的瑞士军刀

变异位点模拟
Bam Surgeon
https://github.com/adamewing/bamsurgeon
用于向现有.bam文件添加突变的工具,用于测试突变分析的caller

wgsim
https://github.com/lh3/wgsim
Reads模拟器.

变异位点过滤与质量控制
变异位点预测与注释
SIFT
http://sift.jcvi.org/
预测氨基酸取代是否影响蛋白质功能的工具

SnpEff
https://github.com/pcingola/SnpEff
遗传变异注释和效果预测工具箱

Python模块
数据模块
cruzdb
https://github.com/brentp/cruzdb
可用Pythonic的方式访问UCSC基因组数据库

pyensembl
https://github.com/openvax/pyensembl
可用Pythonic的方式访问Ensembl数据库

bioservices
https://github.com/cokelaer/bioservices
通过Python访问Biological Web Services

工具模块
cyvcf
https://github.com/arq5x/cyvcf
A port of pyVCF (https://github.com/jamescasbon/PyVCF) using Cython for speed.

cyvcf2
https://github.com/brentp/cyvcf2
Cython + HTSlib == 快速VCF文件解析器; 相比pyVCF速度更快.

pyBedTools
https://github.com/daler/pybedtools
bedtools工具的Python封装版[bedtools https://github.com/arq5x/bedtools).

pyfaidx
https://github.com/mdshw5/pyfaidx
通过Pythonic的方式访问FASTA文件.

pysam
https://github.com/pysam-developers/pysam
samtools工具的Python封装版 [samtools https://github.com/samtools/samtools).

pyVCF
https://github.com/jamescasbon/PyVCF
用于Python的VCF解析器

可视化
Genome Browsers / Gene Diagrams
以下工具可用于可视化基因组数据或构建基因组数据的定制可视化,包括来自DNA-Seq,RNA-Seq和ChIP-Seq,变异等的序列数据

biodalliance
http://www.biodalliance.org/
嵌入的基因组查看器。 集成来自各种来源的数据,可以直接从流行的基因组学文件格式加载数据,包括bigWig,BAM和VCF

BioJS
https://biojs.net/
BioJS是一个包含数百种JavaScript组件的库,使您能够使用当前的Web技术可视化和处理数据

Circleator
https://github.com/jonathancrabtree/Circleator
使用BioPerl和SVG灵活地对基因组相关数据进行循环可视化

DNAism
https://github.com/drio/dnaism
Horizon chart基于D3的DNA数据库JavaScript库.

IGV js
https://www.broadinstitute.org/igv
基于Java的浏览器。用于基因组学数据和注释的快速,高效,可扩展的可视化工具。支持各种格式详见:http://software.broadinstitute.org/software/igv/fileformats

Island Plot
https://github.com/lairdm/islandplot
基于D3 JavaScript库的基因组查看器

JBrowse
https://jbrowse.org
JavaScript基因组浏览器,可通过插件和跟踪自定义进行高度自定义

PHAT
https://github.com/chgibb/PHAT
点击式跨平台套件,用于分析和可视化二代测序数据集

pileup.js
https://github.com/hammerlab/pileup.js
JavaScript库,可用于生成交互式和高度可定制的基于Web的基因组浏览器

scribl
https://github.com/chmille4/Scribl
用于绘制基于画布的基因图的JavaScript库. http://chmille4.github.io/Scribl/可查看更多示例

Circos相关
Circos
http://circos.ca/
用于圆形图的Perl包,非常适合基因组重排。

ClicO FS
https://academic.oup.com/bioinformatics/article/31/22/3685/241292
基于Web的用于Circos的交互式服务。

OmicCircos
http://www.bioconductor.org/packages/release/bioc/html/OmicCircos.html
用于绘制组学数据的圆形图的R包

J-Circos
http://www.australianprostatecentre.org/research/software/jcircos
用于与circos图进行交互式工作的Java应用程序

rCircos
https://cran.r-project.org/web/packages/RCircos/index.html
用于绘制圆形图的R包

数据库访问
Entrez Direct: E-utilities on the UNIX command line
http://www.ncbi.nlm.nih.gov/books/NBK179288/
以编程方式访问NCBI的数据库的UNIX命令行工具。可在链接中找到安装说明和示例。

转载:智汇医圈

相关文章

  • 生信常用工具集合

    Bioinformatics资源推荐生物信息学是一个跨学科领域,主要目标开发用于理解生物数据的方法和软件工具。ht...

  • java常用类库

    commons-lang(常用工具集合包) commons-io(io操作类库) guava jsch(远程执行命...

  • 常用工具集合

    绘制流程图 ProcessOn

  • 常用工具集合

    ShoeBox[http://renderhjs.net/shoebox/] ShoeBox[http://ren...

  • 〖分享〗2017生信学习终极豪华套餐

    一个资源大集合 2017生信学习终极豪华套餐

  • IOS 小功能封装

    常用工具集合 URL 中文处理 视图设置圆角 通过 url 地址 获取一个 UIImage 类型的图片、通过颜色创...

  • Linux常用工具集合

    1、filefrag:查看文件在文件系统里block号地址区间。 2、parted获取分区信息 3、od读取裸设备...

  • 接口常用工具集合

    1.postman 是一个google chrome插件,用于接口调试。2.http://markdown.xia...

  • Java 常用工具-集合

    1.集合简介 什么是集合? 简称集,是用来存储多个元素的容器 集合和数组的区别 1.元素类型 集合:引用类型(存储...

  • Java常用工具_集合

    1. 集合的基本概念 Collection List Set Map都是接口,实例化要通过子类来实现,List接口...

网友评论

      本文标题:生信常用工具集合

      本文链接:https://www.haomeiwen.com/subject/ekapzrtx.html