编者按
欢迎订阅微信公众号:基因学苑
前面写了专题《手把手教你生物信息分析平台搭建》,然后又介绍了很多《生物神奇网站》资源,也介绍了《生物信息之独孤九剑》Linux操作。那么万事俱备,就开始学习生物信息吧。所以,我们开始新的篇章——《生物信息百jia软件》。百Jia是什么意思呢?可以是百佳,也可以是百家,还可以是百加。从100家中选择100款优秀软件,掌握这些软件,就可以扩展出更多内容,这就是百Jia。
一、功能分类: 数据质控过滤
二、软件官网:
https://github.com/OpenGene/fastp/blob/master/README.md
三、软件介绍:
fastp是一款用来处理测序数据的工具,作者是陈实富,来至于深圳海普洛斯公司。他们将这款工具开源免费使用,这一点是非常值得称赞的。其实国内很多测序公司都有自己开发的数据处理程序,不过很多都在内部使用。
1、fastp可以实现处理数据的一次性处理,包括过滤低质量,过滤adapter,截取reads,split分割大文件等操作
2、支持长reads,也就是不仅仅适用与illumina测序平台,还可以处理Pacbio和Iontorrent的测序数据
3、直接输出质控和统计报告,包括json格式和html格式;
4、使用c++写的,执行效率非常高;
四、下载安装
1、源代码安装
git clone https://github.com/OpenGene/fastp.git
cd fastp
make
make install
2、编译好版本
wget http://opengene.org/fastp/fastp
chmod a+x fastp
五、软件使用:
-i,-I是输入文件
-o,-O是输出文件,软件默认是根据扩展名识别压缩文件,所以输出文件需要加上*.gz扩展名;
-6 指定质量体系是phred64。目前主流测序数据都采用phred33,如果从NCBI下载以前hiseq 2000以及之前的数据,可能是Phred 64质量体系。
-z 输出压缩格式。给定一个数字1-9,调整压缩比率和效率的平衡;
-A 关闭adapter trimming,默认软件会切出adapter,如果设置-A,则关闭这个功能;
-a 给定一个adapter序列文件;对于pairend reads 软件可以自动识别adapter并处理,对于single reads,需要给定一个adapter序列;
-f -F,-t -T用来截取reads。
-5 和-3也是用来截取reads,分别对应5‘端和3’端,这两个选项与上面的-f和t有什么不同呢,-f 和-t是人为指定截取范围,比如首尾各5bp,得到的reads是相同长度;-5 和-3是根据质量值来截取,低质量数目可能不同,最终得到的reads长度也不同;
-W 滑动窗口过滤,这个类似于计算kmer,默认是4个碱基;
-M -W选择的窗口中,碱基平均质量值,默认是Q20,如果这个区域窗口平均低于20,则认为是一个低质量区域,处理掉。
-Q,-q,-u,-n是与过滤低质量相关的
-Q 控制是否去除低质量,默认自动去除,设置-Q关闭;
-q 设置低质量的标准,默认是15,也就是质量值小于15认为是低质量碱基,一般我们设置20,常说的Q20;
-u 低质量碱基所占百分比,并不是包含低质量碱基就把一条reads丢掉,而是设置一定的比例,默认40代表40%,也就是150bpreads,包含60个以上低质量的碱基就丢掉,只要有一条reads不满足条件就成对丢掉;
-n 过滤N碱基过多的reads;
-L 关闭reads长度过滤选项;
-l 接一个长度值,小于这个长度reads被丢掉,默认是30,这个在处理非illumina测序数据时很有用。
-c 是对overlap的区域进行纠错,所以只适用于pairend reads。
#报告格式选项
-j 输出json格式报告文件名
-h 输出html 格式报告文件名,可以用浏览器直接查看
-w 使用线程数,默认是3
最后是控制split选项,有时候单条reads文件太大,可以分割为多份分别比对,在合并bam结果,这样可以提高效率。
-s 切割数目,默认是0,不分割;
-d 输出前缀位数,默认是4,0001,002这种命名,如果设置为3,就是001,002这种;
-?输出帮助信息;
六、使用案例:
fastp -i reads.1.fq.gz -I reads.2.fq.gz -o clean.1.fq.gz -O clean.2.fq.gz -z 4 -q 20 -u 30 -n 10 -h clean.html
---------- END ----------
网友评论