美文网首页
File operation模块(1)---随意的文件提取与切割

File operation模块(1)---随意的文件提取与切割

作者: 许东 | 来源:发表于2021-05-30 21:44 被阅读0次

    在对不少文件进行操作和处理后,发现其实对文件的处理,无非也就是替换关键词、删除、提取、排序,这样几个操作吧。但,在生物信息学以及分子生物学这个地方,大多涉及到的是一些较大的文件,这些文件的大体积使得操作往往不是那么随意,这种情况在windows系统下尤其严重。因此,在SPDE中,模仿linux系统的文件处理方面的特色开发了一些功能,下面将具体向同学们做一下介绍。

    一、批量替换

    批量替换

    ①放入文件;②放入需要替换的原内容以及替换内容,这里一共有两种模式,如果只需要替换同一个关键词,例如将下面文件中的ARF替换为GRF

    原文件ARF

    那么,在这种情况下,只需要在②中填入ARF,GRF或者A,G就可以。需要注意的是都是在英文状态下。然后,在③填入保存位置并命名文件即可。第二种模式是需要对多个关键词进行替换,这个时候需要把多个关键词整理到文件中,然后文件格式是关键词+tab+替换词,最好的方式是用excel,在保存文件的时候另存为制表符格式就好。例如:

    文件内容以及保存方式

    然后,放入②,再设置保存即可。当然,在生信这个地方,这个功能更多的可以用于批量替换基因ID。

    二、寻找两个文件相同部分和不同部分

    如果想要找两个文件的相同和不同部分,例如下面两个文件:

    具有相同内容和不同内容的两个文件

    然后,将文件放入①和②两个位置:

    自动分离两个文件中相同和不同部分

    这个功能需要注意两个问题,一个是③这里只需要放入文件夹名称即可,即:

    文件的填入方式

    点击按钮后,会自动生成两个文件:

    common是两个文件的相同内容/different是两个文件的不同部分

    这两个文件是同时生成的。注意的另外一个点是,含有不同内容的那个文件,其内容指的是文件1相对于文件2的不同点。

    三、gbk文件的生成

    由gff转为gbk文件

    有些软件可能会用到NCBI的gbk文件,这里提供一个转换的方式,转换需要两个文件:一个是gff文件(放入①),一个是基因组序列文件(放入②)。保存、命名③,点击按钮生成即可。

    四、gbk/gbff文件向gff转变

    GBK文件以及gff文件以及内容提取

    请大家注意在转变gff时,基因ID这个可能有问题需要进行稍微调整而按键 “extract protein seqs from GBK”可以将gbk/gff文件中的蛋白序列提取出来。

    相关文章

      网友评论

          本文标题:File operation模块(1)---随意的文件提取与切割

          本文链接:https://www.haomeiwen.com/subject/oeumsltx.html