最近在处理PacBio的HiFi数据,记录一下分析的过程。
背景介绍
今天介绍的这个软件叫做HiFiAdapterFilt
,是一个用于从PacBio的原始数据中去除掉HiFi的接头序列的软件。
下面是它的github地址和发表的文章地址:
github:
https://github.com/sheinasim/HiFiAdapterFilt.git文章:
https://bmcgenomics.biomedcentral.com/track/pdf/10.1186/s12864-022-08375-1.pdf
软件安装
conda create -n hifiada
conda activate hifiada
mamba install bamtools blast -y
cd /xxx/16_hifiAdapterFilt/HiFiAdapterFilt
数据处理
把数据用软链接链接过来一份
# 下面的路径记得修改成自己的数据的存储路径哦
ln -s /path/to/rawData/*hifi_reads.bam .
运行hifiadapterfiler
写一个for循环直接默认参数运行。
for i in `ls *.hifi_reads.bam`;
do
bash pbadapterfilt.sh -p ${i%%.*} -t 20 ;
done
官方说,不用指定文件格式,直接使用-p去指定文件,软件会自动检测工作目录下的所有 .bam, .fastq, .fastq.gz, .fq, .fq.gz
格式的文件。
因为当前服务器任务有点满,所以就先用默认的8个核慢慢跑吧。
结果展示
结果会生成四个文件:
- 一个过滤后的
*.fastq.gz
文件 - 一个
*.blastout
文件 - 一个
*.blocklist
文件 - 还有一个
*.stats
文件
下面是stats文件里的内容:
Started on Mon Jul 4 02:45:01 CDT 2022
For the xxxxx.hifi_reads dataset:
Removing reads containing adapters a minimum of 44 bp in length and 97% match.
Number of ccs reads: 1133284
Number of adapter contaminated ccs reads: 546 (0.0481786% of total)
Number of ccs reads retained: 1132738 (99.9518% of total)
Finished on Mon Jul 4 03:42:47 CDT 2022
大概就是检测到了有多少的reads,检测到多少的adapter contaminated和百分比,过滤后的结果等等。可以看出能够检测到的接头序列是不多的。过滤后的结果就可以直接用于组装了。
私货时间
这个软件。。怎么说呢,过滤后的组装效果比过滤前是否有提升不是很好说。比如文章里的table 1

(如果太小看不清可以直接打开原文查看)
Vespa mandarinia
这个物种的HiFiAsm的组装结果的N50就从2.59 MB
降低到了2.507 MB
。
我自己实测组装某脊椎动物的时候也出现了N50降低的情况。
我的建议是可以过滤前和过滤后的都组装一下试一试,如果有提升再好不过,如果没有提升就当无事发生过吧。
最近重拾分享的热情,希望每天都能给大家带来点科研方面的干货。
我们将会看。
网友评论