什么是转座子/转座单元？

作者: 上海唯那生物 | 来源:发表于2021-03-17 08:59 被阅读0次

什么是转座子/转座单元？
转座元件
自制转座子GTF
TEtranscripts：转座子元件差异表达
转座子
TE的鉴定
探针寻找之旅（2）——与探针匹配的基因组序列的提取
重复序列注释
名词讲解：转座子（TE）、LTR、假基因
转座子

转座子是一类在细菌染色体、质粒或噬菌体之间自行移动的遗传成分，是基因组中一段特异的具有转位特性的独立的DNA序列。最简单的转座子除专座相关的转座酶外不含有其他功能，称为插入序列（IS），它们是细菌染色体或质粒DNA的正常组成部分。复合型的转座因子称为转座子（transposon，Tn）。这种转座子除转座相关的基因外还携带其他功能基因，如抗药性基因，它的两端就是IS，构成了“左臂”和“右臂”。两端的重复序列可以作为Tn的一部分随同Tn转座，也可以单独作为IS转座。Tn两端的IS有的是完全相同的，有的则有差别。当两端的IS完全相同时，每一个IS都可使转座子转座；当两端是不同的IS时，则转座子的转座取决于其中的一个IS。Tn有抗生素的抗性基因，而Tn很容易从细菌染色体转座到噬菌体基因组或是接合型的质粒上。因此，Tn可以很快地传播到其他细菌细胞，这是自然界中细菌产生抗药性的重要来源。

Q2：为什么要进行CAZy分析？

A2：碳水化合物是广泛分布在自然界中，可作为碳储备，也可调节多种生理功能或者作为内部识别和细胞间的截至作用于生物体和生物体之间。

Q3：CAZy数据库将碳水化合物活性酶分为哪几个家族？

A3：CAZy数据库目前包括六大类家族，分别是：

1. Glycoside Hydrolases (GHs) 糖苷水解酶

2. Glycosyl Transferases (GTs)糖基转移酶

3. Polysaccharide Lyases (PLs) 多糖裂合酶

4. Carbohydrate Esterases (CEs) 碳水化合物酯酶

5. Auxiliary Activities (AAs) 辅助氧化还原酶

Carbohydrate-Binding Modules (CBMs)碳水化合物结合模块。

Q4：CAZy数据库有哪些功能？

A4：

a. 反应碳水化合物酶的结构特征，序列注释。

b. 揭示酶与酶之间的进化关系，家族分类。

c. 提供序列功能信息。

Q5：简述基因注释？

A5：基因注释包括DNA结构注释和功能注释，DNA结构注释，包括基因预测、重复序列和非编码RNA预测等，功能注释即通过各个功能数据库预测基因的功能，例如GO注释等。

Q6：细菌基因组注释常用的数据库有哪些？

A6：常用以下5个数据库进行注释：Nr、Swiss-prot、COG、GO、KEGG。

Q7：COG 的注释和统计有什么意义？

A7：COG是Clusters of Orthologous Groups of proteins的缩写(http://www.ncbi.nlm.nih.gov/COG/)。COG是在对已完成基因组测序的物种的蛋白质序列进行相互比较的基础上构建的，COG数据库选取的物种包括各个主要的系统进化谱系。每个COG家族至少由来自3个系统进化谱系的物种的蛋白所组成，所以一个COG对应于一个古老的保守结构域。构成每个COG的蛋白被假定来自于同一个祖先蛋白。进行COG数据库比对可以对预测蛋白进行功能注释、归类以及蛋白进化分析。

通过与string数据库进行blastp比对，可以获得基因所对应的COG 注释结果，并根据COG 注释结果对蛋白进行功能归类。

Q8：GO 数据库是什么？做GO注释有什么意义？

A8：GO是基因本体论Gene Ontology的缩写（详情请见：http://www.geneontology.org/）。由于不同物种、不同数据库中的关于基因和基因产物等生物学术语的描述存在差异，当查询某个研究领域的相关信息时，生物学家需要花费大量的时间和精力去分析生物学术语之间的联系，而Gene Ontology项目的目的就是为了标准化这些生物学术语，方便生物学家之间的相互交流。GO注释包括3个方面的内容：

Cellular component：the parts of a cell or its extracellular environment;

Molecular function：the elemental activities of a gene product at the molecular level, such as binding or catalysis;

Biological process：operations or sets of molecular events with a defined beginning and end, pertinent to the functioning of integrated living units: cells, tissues, organs, and organisms.

因此GO注释更加便于我们理解基因背后所代表的生物学意义。

Q9：KEGG 数据库是什么，注释有什么意义？

A9：KEGG（Kyoto Encyclopedia of Genes and Genomes， http://www.genome.jp/kegg/）是基因组研究方面的公共数据库。KEGG将从NCBI等数据库中获得的包括完整和部分测序的基因组序列及其基因序列存储于KEGG genes数据库中；将各种生物学通路信息存储在PATHWAY数据库中，包括各种代谢通路、合成通路、膜转运、信号传递、细胞周期以及疾病相关通路等。可以运用BLAST算法将所获得的预测基因与KEGG的基因数据库(GENES)进行比对，寻找代谢通路，以此更加便于我们理解基因背后所代表的生物学意义。

Q10：KEGG数据库序列来源是哪里？通过什么进行KO分配（基因注释）？

A10：KEGG GENES是从公共可用资源（主要是NCBI RefSeq和GenBank）生成的所有完整基因组的基因目录的集合。metagenomes是通过 GhostKOALA来对metagenomes数据进行KO分配的，其他动植物微生物等是通过 KOALA工具进行SSDB计算和KO分配（基因注释）。

http://weixin.qq.com/r/lziGnqPEFv5pref9922F (二维码自动识别)