【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作

作者: 番茄随笔 | 来源:发表于2020-09-03 02:11 被阅读0次

【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作
【陪你学·生信】一些你肯定也用过的生信工具和操作（2）
【陪你学·生信】一些你肯定也用过的生信工具和操作（1）
【陪你学·生信】生信能帮我们做什么（2）
关于生信技工
【陪你学·生信】三、核苷酸序列数据库的使用（3）
【陪你学·生信】序
生信在线工具
【陪你学·生信】Bioinformatics For Dummi
学习小组Day2 ----你不开花

今天的推送仍然是简单介绍。

【陪你学·生信】序

【陪你学·生信】一、生信能帮我们做什么

一、学会用PubMed/NCBI等搜索数据库

通过名字了解一个蛋白：

当我们得到一个氨基酸序列，通过blast发现它可能是个dUTPase，但是我们并不了解什么是dUTPase。这时候，可以用PubMed数据库搜索了解。

（1）打开网页www.ncbi.nlm.nih.gov/entrez/

（2）输入名字dUTPase，开始检索。

（3）然后就可以点进去看文章，了解蛋白了。

除了关键词，还可以通过作者，年份，领域等缩小范围；甚至在检索时加地名，缩小地理范围，找到距离你比较近的人发的文章（这个功能，嗯...方便去实验室学习。哈哈，还是蛮实用！）。与很多检索数据库一样，输入关键词可以用AND，OR，NOT使你的搜索更贴切。比如【dUTPase[TI] OR pyrophosphatase[TI] NOT Smith[AU]】的含义是关键词是dUTPase或者pyrophosphatase，但是不看作者是Smith的结果。

二、提取蛋白质序列

利用PubMed搜索文献可以说是大家最常用的（还有镜像谷歌学术啥的，以及大学图书馆买的很多类似PubMed的检索数据库），接下来也很常用的就是在提取蛋白质序列，并从分子水平进行分析。下面介绍个好用的网站ExPASy：

是由SIB 瑞士生物信息研究所开发运营的，这里可以找到蛋白质组学，基因组学，系统发育 / 进化，系统生物学，种群遗传学和转录组学的数据资源。

继续我们在【一、学会用PubMed/NCBI等搜索数据库】中的举例，我们通过序列得知与dUTPase相似，又在PubMed中找到了对应文献，现在我们想更了解它一些，准备从网上下载一些发挥dUTPase功能的蛋白质序列。我们假设找大肠杆菌中的dUTPase功能的蛋白序列。

（1）打开网站https://www.expasy.org/

（2）在合适的数据库中搜索【dUTPase coli】关键词

会看到一系列序列，我们点进去第一个P06968，就可以看到大肠杆菌中这个蛋白的很多详细信息啦。

内容相当丰富，介绍了蛋白功能，名称，分类，亚细胞定位，序列（可以下载FASTA文件），结构，相似蛋白等。

如果要下载多序列进行比对分析，勾选下载即可。

与所有检索数据库类似，关键词栏可以加各种高级设定缩小范围。举例中我们用的Advanced Search in the UniProt Knowledgebase中的数据由两部分构成。分别是TrEMBL和 Swiss-Prot，其中Swiss-Prot是从文献中提取的结果，另一个是计算机分析翻译的DNA序列，所以一般我们用filter by Swiss-Prot的数据。

三、提取DNA序列

蛋白质序列的大小差别不大，300±200aa的大小，而且不同生物的相似功能的蛋白质差异很小。DNA就不同了，首先，不是所有的DNA都编码蛋白质，它分为调节区（通常在编码区之前）；非翻译区（在编码区前后）以及蛋白质编码区。在真核生物中，编码区被内含子序列分开，叫做外显子。其次不同生物中DNA序列差异很大。

提取与蛋白质对应的DNA序列：

在数据库中蛋白质-DNA序列不是一一对应的，很多不同的DNA序列对应相同的蛋白质或基因名。继续我们的dUTPase举例，如果想要知道它的DNA序列，来克隆大肠的dUTPase，怎么做呢？

首先按照上述的步骤，点击去P06968蛋白的页面，下拉至Cross-References这个分类，会发现NCBI对应的序列数据资料，可以找到下载这个蛋白对应的DNA序列。这个分类里还有很多UniProtKB以外的数据库。

四、用BLAST比较蛋白序列

当我们有一个蛋白质序列，一般下一步就是BLAST（Basic Local Alignment Search Tool）来看看其他和选择的蛋白序列相似的蛋白。通过这些信息，可以预测所选蛋白的结构，功能等。

（1）首先，打开NCBI-blast网页

https://blast.ncbi.nlm.nih.gov/Blast.cgi

（2）点击protein-protein BLAST （blastp）

（3）进行比对，其中数据库一般就是nr数据库。结果显示中的query是我们输入的序列，另一个是数据库中序列。

NCBI-blast页面除了protein-protein，还有其他的。我们简单说一下好啦。

第一个nucleotide blast，就是blastn，用核苷酸序列在核苷酸数据库中检索；最后一个protein blast就是我们上面的blastp，蛋白序列在蛋白质数据库中检索；中间的blastx是核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对；而下面的tblastn是用蛋白质序列与翻译后的核苷酸数据库进行比对。一般blastn较为常用，blastx对分析新序列和EST（Expressed Sequence Tag）很有用。

关于比对结果中的得分，期望值，similarity和identity以及blast比对时采用的算法的简单介绍，请看之前的推送：

【现学现卖】序列比对之bit-score VS E-value

【现学现卖】序列比对之identity VS similarity

【现学现卖】序列比对之算法

五、利用ClustalW进行多序列比对

除了输入一个序列，在blast中搜索相似序列外，多序列比对也很常用。多序列比对可以确定特定氨基酸位置；定义蛋白质家族的特定序列；对蛋白进行分类和建树分析。

（1）首先又是打开网页，哈哈哈。这个PIR是protein information resource的缩写。在search/analysis里面选择multiple Alignment（如果两个序列就是 Pairwise Alignment）。

pir.georgetown.edu.