Fastx-Toolkit网址,这里简单说说,更详细的描述使用去官网溜达溜达吧!!!
介绍
FASTX-Toolkit 是用于 Short-Reads FASTA/FASTQ 文件预处理的命令行工具集合。
下一代测序仪通常会生成 FASTA 或 FASTQ 文件,其中包含多个短读序列(可能带有质量信息)。
此类 FASTA/FASTQ 文件的主要处理是使用专门的程序将序列映射(也称为比对)到参考基因组或其他数据库。此类映射程序的示例有: Blat、 SHRiMP、 LastZ、 MAQ 和许多其他程序。
但是,
有时在将序列映射到基因组之前对 FASTA/FASTQ 文件进行预处理会更有效率——操纵序列以产生更好的映射结果。
FASTX-Toolkit 工具执行其中一些预处理任务。
2010年之后就没再更新了,不知道是不是效果不好呢还是不好用或者是没有人来维护
可用工具还挺多(如下):
FASTQ-to-FASTA converter:
Convert FASTQ files to FASTA files.
FASTQ Information:
Chart Quality Statistics and Nucleotide Distribution
FASTQ/A Collapser:
Collapsing identical sequences in a FASTQ/A file into a single sequence (while maintaining reads counts)
FASTQ/A Trimmer:
Shortening reads in a FASTQ or FASTQ files (removing barcodes or noise).
FASTQ/A Renamer:
Renames the sequence identifiers in FASTQ/A file.
FASTQ/A Clipper:
Removing sequencing adapters/linkers
FASTQ/A Reverse-Complement:
Producing the Reverse-complement of each sequence in a FASTQ/FASTA file.
FASTQ/A Barcode splitter:
Splitting a FASTQ/FASTA files containing multiple samples
FASTA Formatter:
changes the width of sequences line in a FASTA file
FASTA Nucleotide Changer:
Converts FASTA sequences from/to RNA/DNA
FASTQ Quality Filter:
Filters sequences based on quality
FASTQ Quality Trimmer:
Trims (cuts) sequences based on quality
FASTQ Masker:
Masks nucleotides with 'N' (or other characters) based on quality
我使用一下:
$ mkdir fastx_toolkit && cd fastx_toolkit
# download and untar fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
$ ls
bin fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
# tools 就都在bin里面,直接用
quality 一个miRNA数据(eg)
1)去除 reads 中的 3’接头序列,去除由于接头自连等原因导致没有插入片段的 reads;
$ fastx_clipper -a ADAPTER -i in.fq -o out.fq
2)剪切 3’端测序质量较低的碱基(质量值小于 20) ;
$ fastq_quality_trimmer -t 20 -i out.fq -o out1.fq
3)去除含未知碱基 N 的 reads;
fastx_clipper [默认去除],-n[则keep,不去除]
4)去除长度过短的 reads(<18nt);
$ fastx_trimmer -m 18
or
$ fastx_clipper -l 18
5)去除长度过长的 reads(>32nt);
$ fastx_trimmer -v -f 1 -l 32
## 多找找 多看看参数 还有其他软件代替。。。。。。
网友评论