美文网首页
世上至强 植物PhasiRNA 数据分析流程!

世上至强 植物PhasiRNA 数据分析流程!

作者: 生信石头 | 来源:发表于2020-06-11 18:10 被阅读0次

    写在前面

    没错,标题党就是我!
    这几天在忙课题的一些东西,其中涉及到一些 PhasiRNA 数据分析。讨论了一下,发现了一些陈年老 bugs。主要原因在于需求变了,所以代码逻辑也事实上需要更新。

    更新了逻辑,准确性提高了

    估计花了两个多小时,定位到了逻辑可调整的位置,一顿乱改。测试了下来,
    水稻大概112套小RNA测序数据,开 60 个线程,不到两分钟,鉴定完出所有PHAS位点。我印象中 30M 的reads,即使是单线程也只是50s左右?逻辑调整,可能还是稍微有点影响。不过没啥关系。
    出来的结果,似乎假阳性有一定的降低。当然本身结合下游过滤步骤,假阳性其实 很低。

    增加了出图步骤,方便人工校准

    前述,海南道明寺和小庭子在夏老师的指导下,对数据库做了一次不错的更新,增加了 PHAS位点的可视化。


    感兴趣地可以登录 http://plantsrna.org/ 查看。

    事实上,这个非常实用。人工校准,可以说是目前小RNA数据分析绝不可少的步骤。当然,在数据库上,重点就在于用户可以查看。图片是使用 ggplot2 绘制的,数据则是 python 脚本处理的。这个图的绘制方式,其实是文献中常见的PHAS位点可视化方式。项目这段时间不是我的工作重点,所以我前面主要只做了解。其中可以加速的步骤有很多,最简单的包括 py准备数据时可以注意内存损耗和频繁遍历,R绘图的调用要考虑终端调用的成本。

    既然流程更新了,很明显,我认为这个可视化确实实用(Emmm,值得进一步加速),于是用 JIGplot 实现了类似的图。


    是的,JIGplot 直接可以输出可交互的图片。然而在此处没啥用。不过 JIGplot 其实支持直接出图~~ 测试了下,大概2600+个 PHAS Loci

    单线程的情况下 10分钟搞定!换句话说,如果是开 60个线程,其实...加上开销,我估计 一分钟 搞定,没啥问题。

    题外话,IGV-sRNA

    还是要提一下,IGV-sRNA,我自认为这个工具应是目前植物小RNA数据分析必备!当然,其人工校正 PHAS 位点的部分可以用通过上线取代。但是他的交互,和多组学数据整合,以及其他专门定制的植物小RNA数据人工探索功能,几乎是无法被取代~~~还是贴一下张图。



    说实话,真的流弊,而且有用。之前我做的部分改进已经PR到IGV官方版并被接收啦。

    写在最后

    这里贴上之前写了一半的推文,我应是不会完善他了。不过希望我的朋友们明白,我一直都会是积极乐观,也非常感谢各位的关注和支持。

    Emmm... 最后还是要补充,流程属于sRNAminer的一部分,一个高效(超高速)且跨平台(超顺手)的 植物小RNA 数据分析工具,不过我估计他不会太快面世,毕竟....还有很多其他东西要整。所以感兴趣的,直接给PI: rxia@scau.edu.cn 丢邮件。
    当然,如果你有不错的物种或者数据,比如课题组做了某个物种的基因组测序和小RNA测序,那么应该试试 sRNAanno 的小RNA注释服务http://plantsrna.org/免费且快速,高效而专业

    相关文章

      网友评论

          本文标题:世上至强 植物PhasiRNA 数据分析流程!

          本文链接:https://www.haomeiwen.com/subject/uwiozhtx.html