美文网首页生信学习1
终止释放-20210320 - Free!公益释放 | 任何人都

终止释放-20210320 - Free!公益释放 | 任何人都

作者: 生信石头 | 来源:发表于2021-02-25 20:52 被阅读0次

    写在前面

    六年前,我着实开发 TBtools 的主要目的之一,即“减轻科研人员数据分析负担”,而后慢慢变化成现在的“降低甚至拆除部分生物信息学数据分析门槛”。基于这三五年的观察,不少人在每年的二三月份,都会比较焦虑。其实逻辑很简单:

    1. 本硕博,都有毕业压力
    2. 青椒,都有基金申请压力

    在这些压力下,大伙都希望能从数据分析中获取一些灵感,更或者,我们直接一点,拿到一些可以用来讲生物学故事的分析结果,更或者在直接一点,图稿!
    这对于我来说并不是好事,主要有两点:

    1. 着急的状态,往往做不好事情,那么即使 TBtools 设计的使用逻辑再简单,也可能用不起来,尽管这是少数情况;
    2. TBtools 由我一个人开发,R-plugin 插件由几个老铁用户开发,无论怎么说,整体功能有限,确实无法覆盖到几乎所有需求。毕竟,从某个角度来说,TBtools 属于科研软件,更或者,公益软件。每一个开发者,事实上都有自己的生物学课题在做,而功能多少是无偿分享出来。
      对相关内容感兴趣的朋友,详细可看推文《我的挣扎 与 TBtools 的开发》https://mp.weixin.qq.com/s/h_2qME-08b4sj1tAZmYxcg

    好吧,回到主题。

    转录组测序已然与 qPCR 一样廉价,可以说,绝大多数做分子机理研究的课题,会不涉及转录组。或者是实验设计上,需要通过转录组数据分析,挖掘可靠的差异表达基因,进而找到一些明星因子;或者是关注某一个基因甚至是一类基因,比如基因家族成员在不同材料,不同时期,不同处理下的表达趋势变化;更或者云云。


    无论是什么原因,转录组测序是普遍了,但是转录组数据分析并不普遍。
    我们绝大多数人会选择在公司开展转录组测序项目,而公司也自然而然地可以提供对应的转录组数据分析服务,更甚至是提供云平台。这些是最优选择。但有一个需求缺口是一直存在的,那就是公共数据的挖掘。对于这类数据,公司往往是难以提供服务的。这个原因有很多,但其一即无法定价。毕竟是免费的数据,跑上成熟的流程,定价高了科研用户不开心,定价低了无法提供良好的售后。于是,需求的缺口一直存在,但是软件的实现一直缺失。
    时间回到去年年初,我正式开放了 TBtools 的插件模式。在其后,陆陆续续公益 / 众筹开发了一系列插件,经过了近百名用户超过半年的测试。现,对外完全释放 TBtools RNAseq 系列插件,让任何人都能从转录组测序数据开始,针对自己的具体需求,挖掘自己需要的生物信息。

    RNAseq系列插件介绍

    往往,我为了实现一系列的分析,会分成多步走。比如 TBtools 的热图工具,他是一天写完,但也不是一天就写完。写之前,有 JIGplot 的各种优化,有聚类算法的实现,有Newick树的解析等等;写之后,还有大量新的思路和想法来优化。同样的情况也发生在 RNAseq 系列插件上。
    整体上,覆盖了数个功能,四个插件:

    1. SRA 数据查询与整理:SRA XML to Table,见推文:挖掘SRA的辅助小工具(NCBI高通量测序数据收录库)https://mp.weixin.qq.com/s/FnuSUqhpyKqm_HYpu6phnw


    2. SRA 数据链接获取:SRA XML to Table 和 SRA Number to ENA Info. 前者已经包括了 NCBI 和 DDBJ 数据下载链接,后者主要作为补充,附加 ENA 下载链接(更为稳点)。详细见:《公开可获取~没有下载不到的测序原始数据!》https://mp.weixin.qq.com/s/CS04e0QRjq0B-NZUfCpUAg

    3. Ascp GUI Wrapper:个人实测,每天清晨通过 FTP 链接下载测序原始数据,速度可以达到 10Mb/s。但更多时候数据只有不到 300Kb/s。网络合适的情况下,可以使用 Aspera ,速度可以达到 30Mb/s。于是写了并公开释放了这个插件,详细见:插件 | 人人-点点点-光速下载 NCBI/ENA NGS原始数据 https://mp.weixin.qq.com/s/YYneVPb3V6Dq5WXiq2JYTQ

    4. SRAtoFastq,sra 是 NCBI 定义的二代数据存储格式,文件大小比fastq.gz下,考虑网络带宽的情况下,下载 sra 数据更方便。下载后需要进行转换,于是有了插件,详细见:SRAtoFastq | 任何人都能自主分析测序原始数据 https://mp.weixin.qq.com/s/WC6Q1wr2M4CsdVZ2XYFjRA


    5. FastQC,无论是NCBI SRA等数据库下载,还是公司返还的测序数据,多少还是要看下测序质量,确保质量OK 或者不要有样品降解,严重污染云云,于是有插件,详细见:插件FastQC | 点点点,人人看看测序数据质量 https://mp.weixin.qq.com/s/Sz9enr_8s9P0goxEObn4TA


    6. Trimmomatic,无论转换得到,或者是公司测序后返还的 Fastq.gz 数据往往是原始数据,通过 FastQC 可以判断,随后进行质量控制,如去除接头和低质量碱基,于是有插件,详细见:Trimmomatic | 点点点,测序原始数据质控,技能√get https://mp.weixin.qq.com/s/Gmazcogi2KBNkv7J4hXh9Q

    7. Kallisto,RNAseq 数据的基本分析和目的,就是获得基因表达量矩阵。在普通笔记本上,如 4G 内存云云,那么 Kallisto 是最好的选择,于是有插件,详细见:
      Kallisto | 点点点,从 测序数据 到 基因表达量矩阵 人人都可以! https://mp.weixin.qq.com/s/zhYjsF-LiPzPetbVh7bfcA

    8. Trans Value Sum,Kallisto 分析结果是转录本水平的表达量或Counts矩阵,但很多人感兴趣的是基因水平的,于是,公开释放了功能,详细见:汇总 | 转录本表达矩阵 到 基因表达矩阵 https://mp.weixin.qq.com/s/JPM7ofuqZcKPZjySL7w5lA

    9.Differential Gene Expression Analysis-DESeq2 WrapperBatch DEGs,这两个插件是 R-plugin,分别是 我 和 利虎 写的,可以基于Counts鉴定差异表达基因。具体参考推文 https://mp.weixin.qq.com/s/vVj6r61jgtpvFI-9M0W_PAhttps://mp.weixin.qq.com/s/VKQSkVoTkZX_XnexxeumTQ


    。。。剩下的就是富集分析,热图,韦恩图云云,这些是 TBtools 的经典功能,大伙自行摸索。

    写在最后

    哦对了,如何获取插件?请翻看推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》https://mp.weixin.qq.com/s/mK_FcmwbJ_5v7dm8o2tjUQ
    另,感谢 RNAseq系列插件 众筹开发的各位老铁的支持,没有他们的物质支持和精神鼓励,我想我确实不会坚持写出来这系列的插件。

    山西农大 - 逯晓楠
    刘龙博-淮北师范
    甘鹏飞-西北农林科技大学
    尹跃-西北农林科技大学
    谢苏-华中农业大学
    杨永霞-河南农业大学
    陈浩维-福建农林大学
    周承哲-福建农林大学
    以及余下数十位不愿意透漏信息的小伙伴~~

    在我刚开始写的时候,我多少收到一些评论,亦即写不出来,写了也没用,写了没人用,不过我们一起用大半年的时间,证明了,他们都是扯淡!我们做我们想做的,其他的留给时间去评判。
    其他没啥好说的,看到这里,难道你还不点 在看 ,然后 转发 ?!
    导师转发,这样你的学生就可以自己做RNAseq测序数据分析了~
    学生转发,这样你和同学就可以自己做RNAseq测序数据分析了~
    公司转发,这样你的客户就可以自己做RNAseq测序数据分析了。不会再烦你帮他分析公共数据,老数据,旧数据了~ 只要他们找你,一定是要做新项目,要测序,要买单了。
    我们的口号是:科研若要酷,就用 TBtools !

    相关文章

      网友评论

        本文标题:终止释放-20210320 - Free!公益释放 | 任何人都

        本文链接:https://www.haomeiwen.com/subject/hdnufltx.html