《Bioinformatics Data Skills 2015

作者: Shalom小白 | 来源:发表于2019-08-15 15:49 被阅读2次
    Bioinformatics Data Skills 2015.png

    《Bioinformatics Data Skills 2015》1.8 可重复研究的建议

    1.8 可重复研究的建议

    采用可重复的研究实践并不需要额外的努力。就像强大的研究实践一样,可重复的方法最终会让您的生活更轻松,因为您自己可能需要在忘记细节后很久才能重现过去的工作。以下是在练习生物信息学时要考虑的一些基本建议,以使您的工作可以重现。

    发布您的代码和数据

    为了重现性,绝对最低要求是释放代码和数据。没有可用的代码和数据,您的研究是不可重复的(参见Peng,2001对此进行了很好的讨论)。我们将在本书稍后讨论如何共享代码和数据。

    记录一切

    科学家走进实验室的第一天,他们被告知要保留一个实验室笔记本。可悲的是,这种良好的做法经常被计算机研究人员抛弃。释放代码和数据是可重复性的最低要求,但是大量文档也是可重复性的重要组成部分。为了完全复制一项研究,必须更详细地描述每个分析步骤,而不是在学术文章中完成。因此,额外的文档对于再现性至关重要。

    采用的一个好习惯是在纯文本README文件中记录每个分析步骤。与详细的实验室笔记本一样,本文档可作为您步骤的有价值记录,包括文件,文件来源或包含内容。该文档可以与项目的代码和数据一起存储(我们将在第2章和第5章中看到更多相关内容),这可以帮助协作者确定您已完成的工作。文档还应包括所执行的每个程序的所有输入参数,这些程序的版本以及它们的运行方式。 R's knitr和iPython笔记本等现代软件是记录研究的有力工具;我在本章的Github自述文件中列出了一些资源来开始使用这些工具。

    使数据和统计数据成为脚本的结果

    确保科学项目具有可再现性不仅仅涉及对发现的重要统计检验的可复制性 - 论文的支持要素(例如图和表)也应该是可重复的。确保这些组件可重现的最佳方法是让每个图像或表都是脚本(或脚本)的输出。

    编写脚本来生成图像和表格似乎比在Excel或R中以交互方式生成这些脚本更耗时。但是,如果您在更改前面的步骤后不得不手动重新生成多个数字,那么您就知道了这种方法。生成表格和图像的脚本可以轻松重新运行,节省您的时间,并使您的研究更具可重复性。像iPython笔记本和knitr这样的工具(在上一节中提到)也极大地帮助了这些任务。

    相关文章

      网友评论

        本文标题:《Bioinformatics Data Skills 2015

        本文链接:https://www.haomeiwen.com/subject/frbzjctx.html