[准备花3天时间,写这个推文]
写在前面
前述提及,重测序数据分析上游常用软件三兄弟已经聚齐,于是所有用户可以在 Windows 下进行重测序数据分析。为了做实例测试,我找到一大学同学发表论文中的测序数据,给大伙过一遍。
查看数据
一共两个文库,一个是绿叶黄瓜 21 个F2子代的混池,一个是黄叶黄瓜 21个 F2子代的混池。按照PE150和黄瓜基因组大概是230Mb大来估算,我觉得 20M reads满足最低数据量需求。
话不多说,直接开整。
「BWA-MEM2 进行读段回帖」
设置输入如上图,我的电脑配置还可以(六年前,也就是2016年双十一购买的,一共 1w 不到,预算就这么多,这个我比较清楚),大体配置给大伙再看看:
六年来,增加了两三块固态,也重装过两三次系统,多半是....系统盘太小,于是换大一些的。其他的基本没变。我觉得主要就看:
- CPU如何,这个U是我目前最满意的,他主频足够高,我觉得办公电脑主频高好一些。那些睿频XXGHz的,其实我不信。另外AMD我也不想碰,Intel稳定实用;
- 内存如何,Emmm,这个电脑的配置是一生信转IT的朋友推荐的,叫「泣雨」,也不知道他现在咋样了,不过我相信应该过得非常好。至少有房有车。那会各种电脑硬件可能是最低的时候,反正我是踩到点了。内存是上满的。我想,如果没上满,那这几年肯定不会过得轻松。
Emmm,现在时间是2022年06月04日09时30分
,咱们就先干活,等着看啥时候能比对完。我估摸着 1M Reads 6 个线程大概是需要30min,这次要一共20M,但是用了 8 个线程,所以... 可能需要 2030/86 = 450min = 7.5h。一共两个样品,那么我估摸着,大体是晚上睡觉前可以跑完,也就是2022年06月05日00时30分
。那会可以回去睡觉了。不过无论如何,晚上下班或者睡觉前再看看。早知道,我就昨天晚上跑了,那就今天下午就可以看到结果了。
现在时间是2022年06月04日17:30
,我看了下,已经处理14809816
,也就是 14M 的 PE Reads 了。还剩下 6M reads。估摸一下,过去了 8 个小时,所以我们大概还需要 4 个小时。很好,整体上时间预估有问题。之前咱们预估的是单端的数据?Anyway。看起来,单纯 20M 的 PE Reads,咱们的 PC 就要跑 12 个小时。于是,整体上,这两个 Samples 需要跑到明天早上 10点 做过。至少猜想是。 24小时....其实,也还好。
刚才有一哥们找我聊天,他还真的已经跑了一轮了,做的好像是甜橙之类的。
我问他,为啥要整?
因为有人评论,说这系列基本没用。
结果他的意思是,多少可以给导师省一些钱,
经费有限。现在一般建库 200~300,测序就 30~50/G。总体上,纯测序,还是很便宜的,20M reads,费用应该是在 500 块钱,建库+测 6~8G 的数据。所以一个BSA下来,只要 1,000 块钱的测序费。至于分析,每个公司收费可能不同....或许是可以省一两千?这个不懂....
不过想自己分析就自己分析吧,有时候,你想着基因组更新了?对你的结果可能有点影响云云。这个真不知道。完事,继续等着吧。明天早上 10点 咱们期待结果。
早上8点出头到办公室,吃了一下早餐,哦吼,居然早就跑完了?
现在时间是2022年06月05日,看样子是白天一般我搞太多测试,影响整体比对和IO,大致速度慢一些。Anyway,整体时间比更新后的预计少了4个小时左右,也就是大概两个20M的PE150在我的PC上,每个跑10个小时,还不错。
PS: 上述文件名整错了,新版本应该是自动.bam后缀的,因为他是bam文件....
「SAMtools 进行比对结果排序」
Anyway,有了比对后的 bam 文件,咱们可以马上开始做BAM的位置排序。
Emmm,有点坑爹,我忘了给线程了,不过 4个线程,我觉得也没啥问题。新版本的 Samtools 其实挺快的。
这个是开始时间,我比较机制,现在直接写log信息,这样就方便确定花了多少时间
很快,不到15min,两个BAM文件就排序完了,结果如下
「SAMtools 进行重复标记」
比对排序完事了,咱们就可以来进行重复标记。这个在SNP Calling之前,还是挺重要,避免 PCR Duplicates 对 SNP 检测的影响。
好的,这次我学聪明了,直接开 8 个线程....咱们看看这个要等好久?
这个就很快,5min搞定
「BCFtools 进行变异检测」
对位置排序后的BAM文件进行重复标记后,咱们就可以直接 SNP Calling 了。
Emmm,这个也再等等,看看要多久。
「BCFtools 过滤SNP」
鉴定出来的变异位点一般是相对宽泛,假阳性位点相对较高。正常操作上,我们会尽可能保留「按照一定标准」认为是靠谱的位点。此处不过展开,因为这个过滤本身有不少学问,以至于后面会放出另一个变异检测路子。Anyway,其实对于 SNP (不含Indel)整体还行的。具体如下
由于速度太快,此处不展示时间
打完收工
现在时间是 2022年06月05日09:30,正好 24 小时,整完两个 20M PE150 Reads的重测序数据分析。后面可想而知,就是鉴定 QTL,毕竟这个是 BSAseq 数据。
这是最后输出的文件
咱们看看文件内容
写在最后
完美!比预计时间提前了 1 天完成。路漫漫,其修远兮~
游戏,才刚刚开始。
哦,对了。至于这三个插件获取,直接到「香蕉平行线」拿就是。
网友评论