生物信息百Jia软件（二）：fastp

作者: 基因学苑 | 来源:发表于2019-08-01 14:16 被阅读7次

编者按

欢迎订阅微信公众号：基因学苑

前面写了专题《手把手教你生物信息分析平台搭建》，然后又介绍了很多《生物神奇网站》资源，也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备，就开始学习生物信息吧。所以，我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢？可以是百佳，也可以是百家，还可以是百加。从100家中选择100款优秀软件，掌握这些软件，就可以扩展出更多内容，这就是百Jia。

一、功能分类： 数据质控过滤

二、软件官网：

https://github.com/OpenGene/fastp/blob/master/README.md

三、软件介绍：

fastp是一款用来处理测序数据的工具，作者是陈实富，来至于深圳海普洛斯公司。他们将这款工具开源免费使用，这一点是非常值得称赞的。其实国内很多测序公司都有自己开发的数据处理程序，不过很多都在内部使用。

1、fastp可以实现处理数据的一次性处理，包括过滤低质量，过滤adapter，截取reads，split分割大文件等操作

2、支持长reads，也就是不仅仅适用与illumina测序平台，还可以处理Pacbio和Iontorrent的测序数据

3、直接输出质控和统计报告，包括json格式和html格式；

4、使用c++写的，执行效率非常高；

四、下载安装

1、源代码安装

git clone https://github.com/OpenGene/fastp.git

cd fastp

make

make install

2、编译好版本

wget http://opengene.org/fastp/fastp

chmod a+x fastp

五、软件使用：

-i，-I是输入文件

-o，-O是输出文件，软件默认是根据扩展名识别压缩文件，所以输出文件需要加上*.gz扩展名；

-6 指定质量体系是phred64。目前主流测序数据都采用phred33，如果从NCBI下载以前hiseq 2000以及之前的数据，可能是Phred 64质量体系。

-z 输出压缩格式。给定一个数字1-9，调整压缩比率和效率的平衡；

-A 关闭adapter trimming，默认软件会切出adapter，如果设置-A，则关闭这个功能；

-a 给定一个adapter序列文件；对于pairend reads 软件可以自动识别adapter并处理，对于single reads，需要给定一个adapter序列；

-f -F，-t -T用来截取reads。

-5 和-3也是用来截取reads，分别对应5‘端和3’端，这两个选项与上面的-f和t有什么不同呢，-f 和-t是人为指定截取范围，比如首尾各5bp，得到的reads是相同长度；-5 和-3是根据质量值来截取，低质量数目可能不同，最终得到的reads长度也不同；

-W 滑动窗口过滤，这个类似于计算kmer，默认是4个碱基；

-M -W选择的窗口中，碱基平均质量值，默认是Q20，如果这个区域窗口平均低于20，则认为是一个低质量区域，处理掉。

-Q，-q，-u，-n是与过滤低质量相关的

-Q 控制是否去除低质量，默认自动去除，设置-Q关闭；

-q 设置低质量的标准，默认是15，也就是质量值小于15认为是低质量碱基，一般我们设置20，常说的Q20；

-u 低质量碱基所占百分比，并不是包含低质量碱基就把一条reads丢掉，而是设置一定的比例，默认40代表40%，也就是150bpreads，包含60个以上低质量的碱基就丢掉，只要有一条reads不满足条件就成对丢掉；

-n 过滤N碱基过多的reads；

-L 关闭reads长度过滤选项；

-l 接一个长度值，小于这个长度reads被丢掉，默认是30，这个在处理非illumina测序数据时很有用。

-c 是对overlap的区域进行纠错，所以只适用于pairend reads。

#报告格式选项

-j 输出json格式报告文件名

-h 输出html 格式报告文件名，可以用浏览器直接查看

-w 使用线程数，默认是3

最后是控制split选项，有时候单条reads文件太大，可以分割为多份分别比对，在合并bam结果，这样可以提高效率。

-s 切割数目，默认是0，不分割；

-d 输出前缀位数，默认是4，0001,002这种命名，如果设置为3，就是001,002这种；

-？输出帮助信息；

六、使用案例：

fastp -i reads.1.fq.gz -I reads.2.fq.gz -o clean.1.fq.gz -O clean.2.fq.gz -z 4 -q 20 -u 30 -n 10 -h clean.html

---------- END ----------

网友评论

本文标题：生物信息百Jia软件（二）：fastp

本文链接：https://www.haomeiwen.com/subject/mdbqdctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

生物信息百Jia软件（二）：fastp

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生信小白

科研信息学