序列的比对及提取已知ID的序列

作者: 嗒嘀嗒嗒嘀嗒嘀嘀 | 来源:发表于2020-01-15 10:35 被阅读0次

小白我最近做的事有些杂乱，是时候整理一波了。

序列的比对及提取已知ID的序列

故事是这样开始的：

故事的主要内容

如图所示，我们遇到了三个问题，当然，这么difficult的问题我是搞不定的啦，在谢大佬的帮助下这三个问题是已经解决了，但我们不满足于此，我们想要把和这些探针序列匹配上的转座子序列提取出来，以便我们进一步设计更多的探针。谢大佬说剩下的工作比较简单，就把他前面的笔记给我们，让我们自己把转座子序列提取出来。于是乎，照猫画虎模式开启。

1st Step

去NCBI把blast+下载到服务器账号，ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/，在这个链接里选择合适的版本，然后

wget -c 网址 —— 解压 —— 添加环境变量 —— 搞定

注意：-c 断点续传顾名思义，划重点哦

此外还要在citrus.hzau.edu.cn下载甜橙csi.chromosome.fa序列, 并准备探针序列的fasta格式文件。

2nd Step

将探针序列blast到甜橙基因组上，生成格式7，以名为“CL”的探针为例，格式7包含以下信息

格式7包含的信息

blast过程也很简单，可以写个脚本，提交到队列中运行

blast 脚本

第一行，打点当前目录下文件，并将其作为运行参数

第二行，建立基因组的索引文件，数据为Nt即DNA

这个 “解析序列ID” 我还没懂是神马意思

第三行，将query序列blast到基因组上，输出.out7文件

num_threads参数表明运行blast所用CPU数，应该和向服务器申请的CPU数一致

3rd Step

从fish_csi.out7文件中提取出各个探针Identity>80%, 且coverage>80%的blast结果

提取blast结果，写入*_Ident0.8Cover0.8文件

这是以CL探针为例，我们就是这么一条探针一条探针地提取的，写到脚本文件中运行，也可能有其他更快捷的办法，但因为探针数量不多，为了节约时间成本就没再深入追究。

知识点：对于“&&”的解释可以参看下面的链接，意为 &&左边的command1执行成功(返回0表示成功)后，&&右边的command2才能被执行。与之对应的还有“||”和“()”。

https://www.cnblogs.com/chenggang816/p/10303508.html

4th Step

将上一步生成的每条序列的筛选后的结果文件转换成bed格式，用于下步分析, 通过vim TransToBed.sh新建脚本文件，并在TransToBed.sh脚本文件中写入

TransToBed.sh脚本文件中写入的内容

知识点：①Shell脚本for循环结构如图所示；②“$”为申请参数，形成队列；③“echo”为在Shell中打印，运行脚本后可以看到终端打印出一行行*.Ident0.8Cover0.8的文件，起到监视识别文件是否正确的作用，此外“echo”输出的结尾自带换行符，所以该命令结束后的 [账户名目录名]$ 是新开一行的，而如果用“cat”命令显示一个结尾无换行符的文本文件后 [账户名目录名]$ 是紧跟在文档最后一个字符后面的，而不是新开一行，这在有利于在合并FASTA文件之判断合并前的FASTA文件末尾是否有换行符；④bed文件的分隔符为“\t”；⑤awk工具的If,else语句如图；⑥图中提供了将目录下后缀相同的文件全部执行操作后分别输出到加了新后缀名的文件中；⑦在目录下对文件进行批量操作时同一批操作的文件使用相同的后缀名，方便进行批处理（我算是明白为何在NCBI的Gbrowse上检索下载的序列文件有那么长而且整齐的文件名了）

5th Step

将转座子的.gff3文件转为bed格式。谢大佬不知从哪里拿来了citrus中的转座子的注释文件，先看看长什么样子吧