File operation模块（2）---随意提取与切割文件内

作者: 许东 | 来源:发表于2021-06-01 17:14 被阅读0次

在组学，尤其是转录组的数据分析中，很多信息往往是我们并不需要的，比如没有达到差异显著的基因，再比如，分析重点只集中在某些通路。以分析重点只集中在某些通路的基因上为例。要进行下一步分析，首先，需要将涉及相关基因的信息提取出来。这个时候就需要根据关键词，对文件内容进行提取。

根据关键词提取文件内容

①放入文件。②输入关键词，如果只是单个关键词，那么直接输入即可；如果关键词很多，那么需要将关键词放入一个文件中，一个关键词一行。③是保存位置及文件命名，然后点击提取即可。其中，“delete duplicate lines”是删除文件中重复的行，而另外一个按钮则是删除文件中的空行。

根据行列ID以及阈值进行提取或者排序

这部分功能又可分为两块，其中一块是提取，另一块是针对blast结果的提取。首先，一般文件的内容提取：第一种情况，只是对文件中的行或者列进行提取，这个时候又包括了两种情况，一个是提取不连续的行或者列第二种情况是提取连续的行或者列。对文件格式的要求和之前一样，需要以制表符进行分隔不同的列。提取不连续的行，则输入的模式是row,1,3,7：表示提取第1，3和7行；提取列，则模式为column,1,4,6：表示提取第1，4，6列。如果是提取连续的行列，则row 1 4：表示提取第1到4行；column 2 5：表示提取第2到5列。如果想要根据阈值进行提取，例如想要提取文件中第三列大于等于70的行，参数的设置应该是3 >= 70:第一个是列ID，空格，加大于等于或者小于，空格，加阈值。如果需要根据某一列对文件内容进行排序，方法是类似的，在③中，参数设置为3 negative：第一个是列ID，第二个参数需要告诉软件，你是想要正向排序（positive）还是逆向排序（negative），中间需要加空格。

其次对比对结果进行提取。在对小物种，即非模式物种进行分子生物学实验的时候，往往需要将其基因与模式物种进行比对，以推测基因大致的功能。但，如果需要比对的基因很多，这个时候查看比对结果也是比较繁琐的过程。因此，我单纯为比对结果设置了一个提取选项，同学们要做的是将blast的结果，放入输入文件位置，然后保存、命名，点击按钮，即可将最佳的比对结果即相似度最好的结果从比对文件中提取出来，这里所指的blast结果是，如下格式：

blast文件格式

该格式也是SPDE本地blast通用格式。

对文件内容的重排与切割

对文件内容进行重新排列与根据符号对文件内容进行切割。设置对文件内容的重排是由于有些软件对输入文件的内容格式有严格的要求，比如，在使用R语言的时候，它要求第一列是基因ID，第二列是表达量，第三列是颜色。那么，这时候如果你的文件内容是基因ID，颜色，表达量，这个时候就需要对文件内容进行重排而对于生物大数据文件而言，这个过程会相当难受。为解决这个问题，所以设置了文件内容的重排。具体参数可设置为3,6,2：表示内容按第三列，第六列加第二列进行重组，中间有英文状态的逗号连接。功能②是根据分隔符对文件进行切割，比如按照逗号分号切割文件，然后取分割后的第二部分，参数设置为, : 2即每个元素以空格分隔，最后一个是切割文件后需要哪个部分。

网友评论

本文标题：File operation模块（2）---随意提取与切割文件内

本文链接：https://www.haomeiwen.com/subject/ymawsltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

File operation模块（2）---随意提取与切割文件内

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读