NCBI教程（一）获取基因（gene）或基因产物（gene pr

作者: 御用程序员任皓 | 来源:发表于2017-08-04 22:50 被阅读1654次

NCBI教程（一）获取基因（gene）或基因产物（gene pr
NCBI基因及启动子序列查找
RNA-seq名词解释（7）
如何了解一个人类基因的全部信息
用primer5设计qRT-PCR引物
GEOquery 下载 GEO 数据
查找一个基因的序列
CRISPR-sgRNA设计
GEPIA数据库
基因ID类型

原文地址：NCBI Find the function of a gene or gene product

下面开始哦，我花了很长时间想，到底应该从哪个地方开始介绍NCBI资源的具体使用教程，每次想要开始，却总是被担心掉坑里、恐惧后续的海量以及逼迫自己坚持做完的痛苦甚至于努力了完之后的无聊所影响。在浪费了两天之后，我突然想到应该从哪里开始了，那就是今天要说的内容，如何获取基因和基因产物的功能。这其实就是人们创建这一资源中心最本心的目的吧，就是可以方便知道一个基因的作用是什么。

根据文中的介绍，我们需要掌握就几个关键的术语，术语是堆积专业知识的基础。也是标识同行的身份识别牌，两句内行化一说，大家便自然的放下心来，开始说人话了，然而，据我多年的观察，说人话之前的术语，依然如黑道接头的切口一样必须。

第一个简单到极致，唤作基因名（gene name），通过基因名，你可以获取需要的基因记录（gene record），点开基因记录链接，基因的功能信息将通过几个基因信息节展示出来，分别是概述（Summary），参考文献（Bibliography）和通用基因信息（General gene info）。当然也可以通过链接查看其保守域（Conserved Domains）和生物系统（BioSystems）。这两个名词，反正我一开始是没看懂。啥叫个保守域？啥又是个生物系统？真是启船就遇顶头风啊，果然是万事开头难。不过我并不畏惧，反而继续坚定的深入探索。

先研究这个保守域（Conserved Domains），原来这个域（Domain）是蛋白质的功能及结构单元啊，在分子的进化（molecular evolution）中，这样的域可以被用来作为构造块（building blocks），这些块按照不同的序列排列会使得蛋白质呈现不同的功能。在分子进化中重现（recurring）的单元（units）被称为保守域（Conserved Domains）。那就可以理解了，在革命中不去变化创造新世界的可不是保守派嘛，这些在进化中不求思变的叫保守域那就太有道理了。关键这样有个用处了，因为这些保守域的序列模式（sequence patterns）或者模段（motifs）不会变哦，所以想要识别一个多肽（polypetide）序列，就看这个多肽里面有没有特定的序列模式或者模段就可以了。序列模式这个名词简单，就是那几十种氨基酸（Amino acid）的序列嘛。这个模段是什么鬼，他有好多中文名哦：超二结构，（这名字也真够二的），模体，基序，小单位，结构基元，模序。。。。。。反正你知道也是一小段氨基酸序列就行了，跟刚才提到保守域（Conserved Domain），也就是构造块（building blocks），也就是序列模式（sequence patterns）没有太大差别。

下一个是生物系统（BioSystems），看来绝对不是字面意思，可不敢望文生义。先拆一下，生物系统（biological system），竟然这么简单，但是又那么令人不解啊。又查看定义发现，你这不讲逻辑啊。生物系统，或者叫生物系统，是在生物系统中相互作用的一组分子。（A biosystem, or biological system, is a group of molecules that interact in a biological system. ）你这叫递归定义么？你这话人工智能读了内存溢出的好不好。果然不简单啊，暗藏杀机，我往后再看文章，突然意识到，这里文章想说的其实是系统生物学（Systems biology），因为后文中提到，这个系统生物学（Biosystem）的一种类型是生物学途径（biological pathway），研究的是基因（genes），蛋白质（proteins）和小分子（small molecules）之间的关系。另一类型的系统生物学（Biosystem)研究是疾病（disease），涉及到基因（genes），生物标志物（biomarkers）和药物（drugs）。文中提到，这个美国国家生物信息中心的系统生物学数据库（The NCBI BioSystems Database）是一个补充项目（complementary project），就是说是在已有数据库和注释文献链接的基础之上，提供数据的集中存储（centralized repository of data），提供Entrez系统，建立系统生物学条目（biosystem records）到文献（literature）、分子（molecular）和以及化学数据（chemical data）等资源间的连接，方便系统生物学（biosystems）数据的计算。

好了，回到开始，现在完成了对最简单的一个概念基因名称（gene name）的探讨。下面进行第二个，蛋白质登记号（protein accession number），形如NP_005537。文中提到，你尽可能的在基因数据库中（Gene database）找这个蛋白质登记号，就是这篇文章重点讨论的主要内容的库，而不是在蛋白质数据库（Protein database）中找。如果在基因数据库中找不到结果，那就只能在蛋白质数据库中找了，找到之后，要点击页面中的与XXX基因相关的更多内容（More about the XXX gene）链接，在页面的右侧，要滚到底部才能找到。也就是说，还是回去看基因。那抬杠的来了，如果连与XXX基因相关的更多内容没有呢？好，这个早就预料到了，你要点击蛋白质结果页的右上角，有一个识别保守域（Identify Conserved Domains），可以让你来分析这个序列（Analyze this sequence），就是这个蛋白质，也就是氨基酸序列。你将会得到这个蛋白质中，这些功能域（functional domains），就是保守域啦，的信息的列表。

好的，下面是第三个内容，核苷酸登记号（nucleotide accession number），形如NM_001126。文中提到，我NCBI就是这么啰嗦讨人烦的说话，所以我精简一下它的意思。还是老办法，现在基因数据库中找，没有的话，才来核苷酸数据库（Nucleotide database）中找。如果你正在看找到的核苷酸条目，点击与XXX基因相关的更多内容（More about the XXX gene）链接啦啦啦。如果连这个都没有，在核苷酸页面的右下方找一个叫相关序列（Related Sequences），蛋白质（Protein）或生物医学文献（PubMed）在名叫条目相关链接（All Links to this Record）节中。当然你也可以点击运行BLAST（Run BLAST）来分析这个序列（Analyze this sequence）来发现相关的核苷酸序列，使用BLASTn命令，或者发现相关的蛋白质序列，使用BLASTx命令。那么产生的结果将可能有链接到基因（gene）页面，那样的话你就会找到相关的信息了。

下面是第四个内容，蛋白质序列（protein sequence），这个是要用蛋白质blast（protein blast）这个软件操作的，可在BLAST的主页的基本BLAST（Basic BLAST）下面找到，方法就是在查询框中粘贴序列，然后按BLAST按钮。从结果中找出需要的序列，点击登记号（accession number），进入上面蛋白质登记号的操作。

最后一个是核苷酸序列（nucleotide sequence），显然，我们已经掌握了它的路数，无外乎就是上一个查蛋白质序列的时候用的是蛋白质blast软件，那显然，这里就应该使用核苷酸blast（nucleotide blast）软件了。随之得到结果之后，也应该点击结果的相应的登记号（accession number），进入上面的核苷酸登记号操作流程中。此外，还可以使用BLASTx，上面第三个内容核苷酸登记号里面提到过哦，输入序列来识别相应的蛋白质。

到此结束，归结到最后，我们可以看出其脉络来了，那就是从基因（gene）开始，基因使用其核苷酸序列（nucleotide sequence）表达了氨基酸（Amino acid）组成蛋白质（protein）的序列。所以，想要获得基因或基因产物（product）的信息，除了使用基因的名称外，还可以使用核苷酸序列和蛋白质的相关特性信息，进行查找。说白了，整个国家生物信息中心资源里，最主要的也就是这几个东西以及其之间的关系。