在很久之前,我写了一篇关于质粒结构学习的文章:
解剖式学习一个质粒结构--做知识的搬运工
半年后阅读量已经达到6700,因此特别担心自己的初级之作没有起到很好的帮助,对读者造成误解,因此在这里增加一个新的版本,希望自己不要误导到别人。
对于没有任何分子克隆背景知识的萌新来说,看懂质粒map就已经是一个挑战了。之前写过一篇初级的质粒结构学习,这次算是回顾并尽量开展和加深。这次使用的例子是pSpCas9(BB)-2A-GFP (PX458)
首先我们在质粒出处尽可能的掌握质粒相关信息
plasmid information plasmid information 2除开上面看到的general的信息之外,最重要的还是打开质粒的map查看质粒是否拥有自己所需的原件,在都确定之后,下载质粒图谱,在SnapGene中查看更多详细信息。
1. 载体类型
载体按照属性分类,可分为:病毒载体和非病毒载体;
按照受体细胞分类,可分为:原核载体、真核载体和穿梭载体。穿梭载体是指具有两种不同复制起点和选择标记 的质粒
按照质粒功能分类,可分为:过表达、敲减/除、CRISPR等等质粒。
由此分析,pSpCas9(BB)-2A-GFP (PX458)是一个用于CRISPR的质粒,根据sgRNA作用的不同,可以敲减/除。
关于质粒等介绍,我想高师姐之前那篇应该是非常经典了,因此拿出来我再学习一遍,也供大家参考:有些研究生就跟质粒一样,还分严谨型和松弛型呢
2. 载体元件
2.1 ori
除了谷歌ori是什么,我们还可以双击SnapGene图谱上的ori原件查看SnapGene所做的注释。
oriOri是质粒的复制起点(也称origin),ori和它所控制的组分一起称为一个复制子。根据上图可知,在这个质粒中有两个origin:f1 ori和ori。f1 ori是f1噬菌体的ori,可以控制ssDNA(单链DNA)的复制,而ori则是大肠杆菌的复制起点,在质粒序列上开始以滚环式复制的模式进行DNA复制,使得质粒可以在大肠杆菌中复制。
明确ori类型之后,我们可以再查看一遍质粒图谱。可以看到:
(1)amp promoter+amplicon阅读框可以细菌获得氨苄西林抗性。需要提到的是,细菌的promoter很简单,所以很多基因就是没有promoter也可能在细菌中表达,只要在基因前面有一段类似序列,接着是基因再加一个尾巴terminater。
(2)ori调控整个质粒在大肠杆菌中滚环式复制,使得质粒可以得到大量扩增。
(3)通过查阅相关资料,知道该质粒ori,这是一个松弛型质粒,具体可参考下表(来源于Addgene):
Common Vectors | Copy Number+ | *ori* | Incompatibility Group | Control |
---|---|---|---|---|
pUC | ~500-700 | pMB1 (derivative) | A | Relaxed |
pBR322 | ~15-20 | pMB1 | A | Relaxed |
pET | ~15-20 | pBR322 | A | Relaxed |
pGEX | ~15-20 | pBR322 | A | Relaxed |
pColE1 | ~15-20 | ColE1 | A | Relaxed |
pR6K | ~15-20 | R6K* | C | Stringent |
pACYC | ~10 | p15A | B | Relaxed |
pSC101 | ~5 | pSC101 | C | Stringent |
pBluescript | ~300-500 | ColE1 (derivative) and F1** | A | Relaxed |
pGEM | ~300-500 | pUC and F1** | A | Relaxed |
需要说明的是:
-
质粒的拷贝数不是固定的,细菌的培养条件如曝气量、温度、培养基体积、抗生素浓度和培养基类型都会影响拷贝数。例如有些ori会受到氯霉素的“哄骗”,从而产生更多的拷贝数。
-
质粒之间也有相容性的问题,通常来说,相同ori的质粒是不相容的,因为它们会竞争相同的机制,造成不稳定和不可预测的环境。 因此,具有相同ori的质粒不适合共转。
-
拷贝数不是越多越好,根据实验目的去选择相应的ori,从而维持一个相对合适的拷贝数。换句话说,ori的最佳选择取决于你想要维持多少个质粒拷贝,你打算使用哪个宿主,以及你是否需要考虑你的质粒与一个或多个其他质粒的相容性。如上表中可看到多个质粒的incompatible group是A,则最好共转的质粒里面的ori不要是同一个组别的。
-
此外,如果质粒带有可产生毒性产物的基因,那么该质粒最好保持在低拷贝状态。
-
大多数大肠杆菌都可以用于质粒转化,但endA- E. coli是最好的选择。
2.2 U6 promoter
在说U6启动子之前,我们需要明白基因的转录需要以下几个元件的合作:基因表达启动子和RNA聚合酶结合,从而开始转录mRNA,而mRNA转录的起始位点(transcription start site,TSS)通常是一个A或G。对于U6启动子来说,其TSS是G。
U6启动子在SnapGene中的注释为RNA polymerase III promoter for human U6 snRNA,即这是一个RNA聚合酶III的结合位点,用于启动下游转录。在这里U6启动子后面紧接着的是gRNA scaffold。而gRNA scaffold是化脓性链球菌CRISPR/Cas9系统的gRNA骨架,主要作用是和Cas9蛋白binding。在序列中我们可以详细看到,gRNA是位于该骨架的前面,可用BbsI双酶切将gRNA插入到该位置,因此这里则是一个U6+gRNA的阅读框,可用于转录CRISPR/Cas9的gRNA。需要注意的是U6启动子的起始位点是G,因此在设计gRNA的时候要注意G的存在。
U6 promoter2.3 CBV promoter
CBV promoter由两个部分组成:CMV enhancer,chicken β-actin promoter。Map中没有指出,但是我们可以认出来。
- CMV enhancer:CMV enhancer是CMV强启动子的增强子。而CMV启动子来源于人巨细胞病毒(Cytomegalovirus, CMV)的强启动子 ,相当广泛的使用于分子克隆实验中。但有研究表明,CMV启动子容易在快速增殖和干细胞中沉默,从而导致表达缺失,沉默的原因有多种,有人认为是CMV甲基化,而有人则认为是毒性的原因。
- chicken β-actin promoter:经常被复制粘贴在各种启动子中,例如CBV、CAG等。
U6+gRNA阅读框结束之后,又是一个CBV启动子。你可能会疑惑,为什么前面已经有启动子了,后面还需要插入启动子。这就是每个启动子所适用的情况可能不同。RNA是由RNA聚合酶(RNAP)与DNA结合,从而转录出来的。在原核生物中RNAP就只有一种,而真核生物则有很多种RNAP:如果你想让基因表达,即转录mRNA,则此时需要RNAP II;而如果仅仅是要转录出RNA,例如shRNA,包括我们上面说的gRNA,此时我们需要的是RNAP III。为了保证能得到相应的产物,我们要选择合适的启动子。那么结合SnapGene的注释来看,在pSpCas9(BB)-2A-GFP (PX458)质粒中,U6启动子与RNAP III结合,产生gRNA,CMV启动子与RNAP II结合,诱导下游Cas9蛋白表达。
说到启动子,不得不又把高师姐的启动子文章拿出来分享了,果子学生信的其他两个实验专栏(豆子和高师姐)一直是我的标杆,我就是看着前辈的样子,然后模仿。关于启动子的知识介绍还有如何查找启动子,请看以下两篇文章:
2.4 Kozak sequence
M Kozak于1987年发表的发现,序列为(GCC) GCCA/GCCATGG,并解析其功能为: 脊椎动物通用的强启动翻译序列。因此得名Kozak sequence,Kozak sequence在质粒中作用是启动质粒插入基因在脊椎动物中的表达,而且如果一个不够用,那就两个,甚至多个。原文摘要第一句如下:
5'-Noncoding sequences have been compiled from 699 vertebrate mRNAs. (GCC) GCCA/GCCATGG emerges as the consensus sequence for initiation of translation in vertebrates
2.5 3X FLAG
顾名思义,其实这是一个标签蛋白(短肽),3X FLAG是标签蛋白里面比较优秀和特异的。标签蛋白的存在,提供了蛋白分离和定位的靶点,毕竟不是所有蛋白的抗体都有得买或者好用,但FLAG标签抗体已经相对成熟和特异。
2.6 SV40 NLS
SV40 NLS在SnapGene中的注释是:nuclear localization signal of SV40 (simian virus 40) large T antigen,即SV40大T抗原的核定位信号。随着了解的越多,我越来越觉得质粒就像一个小小AI,给它加上不同的功能元件,它就能行使不同功能,而这个小小AI的代码则是DNA。我们可以把不同物种的基因序列组装到一起,最后创造出一个新的产物,非常有意思。由下面对SV40 T的介绍我们可知,该抗原可进入细胞核中与p53结合,从而使得p53缺失。而SV40 T之所以可以进入细胞核中,是因为SV40 NLS的存在。因此我们将SV40 NLS序列单独摘出,放在Cas9序列的前面,则该序列将会引导Cas9进入细胞核中,起到基因剪刀的作用。
SV40 T antigen SV40大T抗原(猿猴空泡病毒40 TAg)是六聚体蛋白,它是衍生自SV40病毒的显性作用癌蛋白。TAg能够诱导多种细胞类型的恶性转化。TAg的转化活性很大程度上归因于它对视网膜母细胞瘤[pRb和p53肿瘤抑制蛋白的干扰。因此,SV40 T结合p53并导致细胞周期控制失调,从而使得细胞转化效率提高。
2.7 Cas9 and NLS
Cas9则不需要再多解释,我们在上文中已知Cas9前面已有一个SV40 NLS用于核定位引导,但在Cas9序列的末尾,仍有一个NLS信号是为什么呢?就像我们前面提到的Kozak sequence一样,如果一个序列信号不够,那就来两个,甚至多个。这个现象在质粒中非常常见,就比如FLAG还有3X FLAG,那么NLS信号也是一样的,在蛋白序列的头尾都加上NLS信号,有利于蛋白的核定位转导。
以上串联起来则是:U6启动子引导了sgRNA的表达,紧接着CBV启动子联合Kozak序列,使得Cas9在脊椎动物中表达,sgRNA和Cas9在同一个质粒中被转录,从而完整了CRISPR/Cas9系统,同时SV40 NLS的存在会将sgRNA-Cas9复合物传递到细胞核中,由于Cas9蛋白很大,Cas9蛋白后面再次连接了一个NLS信号,以确保sgRNA-Cas9的和定位,基因编辑得以发生。
2.8 T2A-EGFP
T2A可将Cas9蛋白的表达和EGFP断开。EGFP可用于指示质粒转染的成功。2A是一个断裂信号,但断裂并不是百分之百的,P2A是2A家族中目前断裂效率比较好的。具体可参考文献:Systematic comparison of 2A peptides for cloning multi-genes in a polycistronic vector
2.9 bGH poly(A) signal
转录终止信号,有时候担心信号不够强,还可以叠加几个polyA,如下:
3x SV40 poly A虽然启动子强度作为基因表达水平的决定因素,但终止子在RNA加工过程中也发挥着重要作用,有助于RNA半衰期的变化,并最终导致基因表达。在原核生物中,Poly A尾可促进RNA讲解,而在真核生物中,Poly A尾则可延长RNA的半衰期。
2.10 AAV ITR
2型腺相关病毒的ITR,质粒骨架残留吧,毕竟ITR要两个才能其作用呢(个人是这样认为的)
一通质粒结构学习下来,感觉自己又长知识了,但还是远远不够,大家一起加油吧。
网友评论