数据clean--1. Fastx-Toolkit使用

作者: MYS_bio_man | 来源:发表于2022-10-30 16:23 被阅读0次

FASTX-Toolkit
FASTX-Toolkit
Fastx-toolkit安装及报错解决
生物科研数据库使用教程
SpringMVC 数据转换 Day22 2018-12-12
SpringMVC多种数据类型转换器 Day30 2018-12
mysql数据操作（插入与修改）
第五章 Activity跳转及Fragment
SharedPreferences存储数据
MongoDB学习笔记之操作数据

Fastx-Toolkit网址，这里简单说说，更详细的描述使用去官网溜达溜达吧！！！

介绍

FASTX-Toolkit 是用于 Short-Reads FASTA/FASTQ 文件预处理的命令行工具集合。
下一代测序仪通常会生成 FASTA 或 FASTQ 文件，其中包含多个短读序列（可能带有质量信息）。
此类 FASTA/FASTQ 文件的主要处理是使用专门的程序将序列映射（也称为比对）到参考基因组或其他数据库。此类映射程序的示例有： Blat、 SHRiMP、 LastZ、 MAQ 和许多其他程序。
但是，
有时在将序列映射到基因组之前对 FASTA/FASTQ 文件进行预处理会更有效率——操纵序列以产生更好的映射结果。
FASTX-Toolkit 工具执行其中一些预处理任务。

2010年之后就没再更新了，不知道是不是效果不好呢还是不好用或者是没有人来维护
可用工具还挺多（如下）：
FASTQ-to-FASTA converter：
    Convert FASTQ files to FASTA files.
FASTQ Information：
    Chart Quality Statistics and Nucleotide Distribution
FASTQ/A Collapser：
    Collapsing identical sequences in a FASTQ/A file into a single sequence (while maintaining reads counts)
FASTQ/A Trimmer：
    Shortening reads in a FASTQ or FASTQ files (removing barcodes or noise).
FASTQ/A Renamer：
    Renames the sequence identifiers in FASTQ/A file.
FASTQ/A Clipper：
    Removing sequencing adapters/linkers
FASTQ/A Reverse-Complement：
    Producing the Reverse-complement of each sequence in a FASTQ/FASTA file.
FASTQ/A Barcode splitter：
    Splitting a FASTQ/FASTA files containing multiple samples
FASTA Formatter：
    changes the width of sequences line in a FASTA file
FASTA Nucleotide Changer：
    Converts FASTA sequences from/to RNA/DNA
FASTQ Quality Filter：
    Filters sequences based on quality
FASTQ Quality Trimmer：
    Trims (cuts) sequences based on quality
FASTQ Masker：
    Masks nucleotides with 'N' (or other characters) based on quality

我使用一下：

$ mkdir fastx_toolkit && cd fastx_toolkit
# download and untar fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
$ ls
bin  fastx_toolkit_0.0.13_binaries_Linux_2.6_amd64.tar.bz2
# tools 就都在bin里面，直接用

quality 一个miRNA数据（eg）

1)去除 reads 中的 3’接头序列，去除由于接头自连等原因导致没有插入片段的 reads; 
$ fastx_clipper  -a ADAPTER -i in.fq -o out.fq
2)剪切 3’端测序质量较低的碱基(质量值小于 20) ;
$ fastq_quality_trimmer -t 20 -i out.fq -o out1.fq
3)去除含未知碱基 N 的 reads;
fastx_clipper [默认去除]，-n[则keep，不去除]
4)去除长度过短的 reads(<18nt);
$ fastx_trimmer -m 18
or
$ fastx_clipper -l 18
5)去除长度过长的 reads(>32nt);
$ fastx_trimmer -v -f 1 -l 32
## 多找找 多看看参数 还有其他软件代替。。。。。。

网友评论

本文标题：数据clean--1. Fastx-Toolkit使用

本文链接：https://www.haomeiwen.com/subject/ktnktdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据clean--1. Fastx-Toolkit使用

介绍

我使用一下：

quality 一个miRNA数据（eg）

相关文章

FASTX-Toolkit

FASTX-Toolkit

Fastx-toolkit安装及报错解决

生物科研数据库使用教程

SpringMVC 数据转换 Day22 2018-12-12

SpringMVC多种数据类型转换器 Day30 2018-12

mysql数据操作（插入与修改）

第五章 Activity跳转及Fragment

SharedPreferences存储数据

MongoDB学习笔记之操作数据

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读