1、遗传密码的破译中的一个问题遗传密码的破译自从“一基因一酶”学说建立(1941 年)以后,人们逐步地认识到基因和蛋白的关系。“中心法则”提出后更为明确地指出了遗传信息传递的方向,总体上来说是从 DNARNA蛋白质。那么 DNA 和蛋白质之间究竟是什么关系?或者说 DNA 是如何决定蛋白质?这个有趣而深奥的问题在五十年代末就引起了人们的极大兴趣。早在 1944 年理论物理学家 Erwin Schriodinger 发表的什么是生命一书中就大胆地预言,染色体是由一些同分异构的单体分子连续所组成。这种连续体的精确性组成了遗传密码。他认为同分异构单体可能作为一般民用的莫尔斯电码的两个符号:“”、“”,通
2、过排列组合来储存遗传信息。此时遗传物质的化学本质尚未确定,同年 Avery 虽成功地完成了体外转化实验,但尚未改变人们认为蛋白质是遗传物质的传统观念。十年后 DNA 双螺旋模型才得以建立,在这样的背景下能将遗传信息设想成一种电码式的遗传密码形式,实在是一种超越时代的远见卓识。1953 年双螺旋模型的建立,给予科学家们以很大的激励。破译遗传密码也就成了势在必行的工作。薛丁谔(E Schriodinger)(18871963)要破译一个未知的密码,一般的思路就是比较编码的信息,即密码和相应的译文。对于遗传密码来说最简单的破译方法应是将 DNA 顺序或 mRNA 顺序和多肽相比较。但和一般破译密码不
3、同的是,遗传信息的译文蛋白的顺序是已知的,未知的都是密码。1954 年 Sanger 用纸层析分析了胰岛素的结构后,对蛋白质的氨基酸序列了解得越来越多。但是直到 1965 年前后经历了十年时间,多位科学家的执着研究才破译了遗传密码,其中最为重要的几项工作其思路之新颖,方法之精巧都闪烁着科学的智慧之光。一. 遗传密码的试拼 1954 年科普作家 Gamov, G.对破译密码首先提出了挑战。他以著有奇异王国的汤姆金斯等优秀的科学幻想作品而著称,具有丰富的想象力,但他不是一位实验科学家,所以只能从理论上来尝试密码的解读。他在Nature杂志首次发表了遗传密码的理论研究的文章,指出“氨基酸正好按 DN
4、A 的螺旋结构进入各自的洞穴”。他设想若一种碱基与一种氨基酸对应的话,那么只可能产生 4 种氨基酸,而已知天然的氨基酸约有 20 种,因此不可能由一个碱基编码一种氨基酸。若 2 个碱基编码一种氨基酸的话,4 种碱基共有 4 2 =16 种不同的排列组合,也不足以编码 20 种氨基酸。因此他认为 3 个碱基编码一种氨基酸的就可以解决问题。虽然 4 个碱基组成三联密码,经排列组合可产生 43=64 种不同形式,要比 20 种氨基酸大两倍多,但若是四联密码,就会产生 44=256 种排列组合。相比之下只有三联体(triplet)较为符合 20 种氨基酸。后来的实验证实这一推测是完全正确的。但人们不禁
5、要问在三联体中的每个碱基作为信息只读一次还是重复阅读呢?Gamov 也许是考虑到效率的问题,认为一个碱基可能被重复读多次,也就是说遗传密码的阅读是完全重叠的,因此氨基酸数目和核苷酸数目存在着一对一的关系。这一假定非常简洁地解释了核苷酸间距和多肽链上邻接氨基酸的间距(0.36nm)之间显示了明显的相关性。若真如此,重迭密码对多肽链上氨基酸的序列就形成了一种限制。例如,具有完全重迭密码的密码子 ATC,后面接着的密码子一定是 TC 开头,那么相应的氨基酸的顺序也会受到限制。再者若是重迭密码,那么任何一个碱基的突变都会影响到相连的 3 个重迭密码子,即三个氨基酸都会发生改变,但事实并非如此。1957
6、年 Brenner,S.发表了一篇令人兴奋的理论文章,他通过蛋白质的氨基酸序列分析,发现不存在氨基酸的邻位限制作用,从而否定了遗传密码重迭阅读的可能性。同时人们也发现在镰刀形细胞贫血的例子中,血红蛋白中仅有一个氨基酸发生改变。说明 Gamov 的后一推论是错误的。这就是智者千虑,必有一失。很多著名的科学家也有过类似的失误。在资料较少的情况下,对未知的真理作出推断,难免会发生偏差,人们对他们的那种敏锐、大胆、睿智和创新的精神,巧妙的构思仍敬佩不已。二. 三联密码的验证1961 年 Crick 和 Brenner,S.等设计了一个实验,有力地证实了三联密码的真实性。他们用 T4 染色体上的一个基因
7、(r位点)通过用原黄素(proflavin)处理,可以使 A 插入或删除单个碱基,插入叫“加字”突变,删除叫“减字”突变,无论加字和减字都可以引起移码突变(图 14-1)。Crick 小组用这种方法获得一系列的 T4“加字”和“减字”突变,再进行杂交来获得加入或减少 2 个、3 个不同碱基数的系列突变。悉尼布雷内(S.Brenner,)(1927)开始用原黄素诱导的突变称 FCO,它们只能在 E.coli B 菌株上生长形成噬菌斑,而不能在 K 菌株上生长,然后他们再用原黄素诱导产生回复突变,在E.coli K()菌株中出现了噬菌斑。用遗传学的方法和野生型杂交分析这些“回复突变体”,发现它们并
8、不是真正的野生型。表明此回复突变并非是突变位点又精确地回复到原来的状况,实际上这种所谓回复突变是在不同位点发生第二次突变而引起的。这种第二次突变“抑制”了原来 FCO 的表达。这种突变称校正突变或抑制突变(suppressor mutation),它可抵消或抑制前一次突变的效应,校正突变的特点如下:校正突变是在第一次突变不同位点发生的。因此原来的突变可以通过野生型和回复突变型之间的杂交又恢复为突变型(图 14-2);校正突变或发生在同一基因中,称基因内抑制,或发生在不同基因中,称基因外抑制。不同的抑制其作用的方式不同。如有的抑制是在转录和翻译水平,有的可能是通过生理功能来实现的。mRNA 上的
9、 3 个碱基作为一个密码子(codon),头 3 个就读成第一个字。当原黄素诱导使DNA 上的增加或减少了单个碱基将会使阅读框移动,导致“错误”,这样的移框突变可能导致遗传信息变成“无义”的。若第二次诱变相应地插入或缺失一个碱基可以恢复正确的阅读框。通过这样的方法他们发现加入或减少一个和二个碱基都会引起移码突变,而加入或减少 3个碱基时反而可以恢复正确的读框,表明每个密码的确是由 3 个碱基组成的。在这篇文章中 Crick 对遗传密码提出了 4 个特点:3 个碱基一组,编码一个氨基酸密码是不重迭的(实验证据来自 Wittmann 等的实验及 Tsugita A.,Fraenkel-Conrat
10、 H 用亚硝酸诱发烟草花叶病毒 TMV 产生的突变体的研究中得到的);碱基的顺序是从固定起点解读的,即 mRNA 具有固定的阅读框;密码子是简并(degeneracy)的,即某个特定的氨基酸可以由几个密码子来编码。三用突变来解读密码Tsugita, A.,Fraenkel-Connrat 小组和 Wittmann H.G.小组试图通过用亚硝酸来对 TMV进行诱变。当时(1960 年)已搞清了 TMV 肽链的一级结构由 158 个氨基酸组成,将突变型和野生型进行比较就能确定肽链上氨基酸取代的位点和类型。当时根据亚硝酸诱变的原理,推测诱变的产生必定是由于 mRNA 中的 AG 或 CU 的缘故。那
11、么取代与被取代的氨基酸之间,一定有两个碱基是相同的,而第三个碱基原来的氨基酸应是 A 或 C,也有可能 A,C 都有,而取代的氨基酸的第三个碱基应为 G 或 U。他们一共获得了约 200 个突变株,经反复比较分析结果破释了少数几个密码子,离全部破译尚有很大的距离。但他们直接地证实了密码子是不重叠的。若当时可以测序的话,用这一方法是可以破译所有的密码子。四细胞系统的建立1959 年,克里克和布伦纳(S. Brenner )在理论上确立了遗传密码由三个连续核苷酸构成,即三联体密码,并于 1961 年用一个设计精美的实验证实了这种推测,但却无法进一步提供证据说明具体的遗传密码。就在 1959 年,尼
12、伦伯格也对遗传密码产生了巨大兴趣,部分原因在于这个问题充满了挑战,极大地吸引了他的求知欲。尼伦伯格想知道 RNA 是否是遗传物质 DNA 与功能物质蛋白质之间的信使或者说中介分子,但是尼伦伯格未受过正规的分子遗传学训练,只是业余时间学习了少许相关知识。因此,他开始向周围有相关研究背景的同事请教。当同事获知尼伦伯格的研究计划时,都纷纷劝他放弃,他们认为对于缺乏分子遗传学背景的生物化学家而言,开始一个全新领域显得非常幼稚,其中一个同事甚至认为尼伦伯格的决定无异于“学术自杀”。尼伦伯格仍坚持着自己的想法,着手进行遗传密码方面的研究工作,特别是 1960 年马特伊(J. Matthaei)的到来更是加
13、速了遗传密码的研究。马特伊来自德国波恩大学,当时正在康奈尔大学进行博士后研究,他非常善于实验研究,熟练的操作对尼伦伯格的成功是一个极大保障。为了破译遗传密码,1961 年尼伦伯格首先需要建立一个稳定的实验体系,而对生物化学研究背景的他而言,无细胞体系最为理想。在尝试了几种生物后,尼伦伯格最终选定大肠杆菌无细胞体系作为研究对象。他首先想搞清楚的是 DNA 还是 RNA 直接指导了蛋白质的合成。尼伦伯格先制备了大肠杆菌无细胞体系. 他们的方法是: 去模板:用 DNase 处理 E.coli 抽提物,使 DNA 降解,除去原有的细菌模板。在抽提物中含有核糖体,ATP 及各种氨基酸,除 mRNA 以外
14、,是一个完整的翻译系统。由于 DNA 被降解,所以不再转录新的 mRNA,即使原来残留的的 mRNA 因其半衰期短,也很快会降解掉。加入poly U: Nirenberg 成功地破坏了翻译系统中的内源 mRNA,这样从理论上来说若加入任何外源 mRNA 就可以按新的信息合成蛋白。他们采用了多核苷酸磷酸化酶,仅以尿苷二磷酸为底物,人工合成 poly U。当他们把人工合成的 polyU 加入这种无细胞系统中代替天然的mRNA 时,惊喜地发现果真合成了单一的多肽,即多聚苯丙氨酸,它的氨基酸残基全是苯丙氨酸,这一结果不仅证实了无细胞系统的成功,同时还表明 UUU 是苯丙氨酸的密码子。他们用同样的方法分
15、别加入 polyA,polyC 和 polyG 结果相应地获得了多聚赖氨酸,多聚脯氨酸和多聚甘氨酸。从而顺利地破译了 4 个密码子。按比例加入种核苷混合的多聚物因当时还未分离 RNA 聚合酶,无法按设计的模板来合成 RNA,但除了 UUU,CCC,AAA,GGG 以外,还必须破译其他的密码,Nirenberg 又想出了一种新的方法,就是按一定的碱基比例来合成 RNA。比如在底物中加 5 份的 UDP 和 1 份的 GDP,碱基比为 U:G5:1,它们能组成的三联体不外乎 8 种:UUU,UUG,UGU,GUU,GGG,GGU,GUG,UGG。U 和 G 将随机地加入到三联体中,但各个位点上进入
16、 U 和 G 的概率不同,如 UUU:UGG (555):(511)25:1;同理 UUU:UUG5:1,根据这样的推测,在无细胞系统中以这种比例合成的 mRNA 产生的氨基酸的比例也应是相应的,这样可以推测出密码子的组成。如氨基酸测定结果:苯丙氨酸(UUU): 半胱氨酸(UGU) 5:1苯丙氨酸(UUU): 缬氨酸(GUU) 5:1苯丙氨酸(UUU): 甘氨酸(GGU) 24:1苯丙氨酸的密码子是已知的,由 3 个 U 组成那么半胱氨酸一定是由 2 个 U,1 个 G 组成;缬氨酸同样如此;甘氨酸应是由一个 U 两个 G 组成。Ochoa,S.及其合作者获悉 Nirenberg用 polyU
17、 大获成功之后,利用身边保存着多种多聚核苷酸也开展了破译密码的研究,采用的方法也是加入不同比例的混合多核苷酸两组展开了激烈的竞争,经过两个组一年多的努力,结果搞清了各种氨基酸的碱基组成,但是并不知其顺序。Nirenberg 于 1964 年又采用三联体结合实验,一举破译了所有密码,取得了重大的突破。五三联体结合实验 从上面的实验结果不难看出,按比例合成 RNA 的方法不能解决最关键的顺序问题,此时擅长 RNA 合成的.Khorana,G.就担负起直接合成有序多核苷酸的难题,1964 年正当 Khorana刚刚奋力完成了第一批排列的核糖多核苷酸时,Nirenberg 又有新的突破,使破译密码的艰
18、难工作迅速达到了光辉的顶点,这种新的突破就是建立了三联体结合的新方法。这个方法的思路是建立在两项基础上的: tRNA 和氨基酸及三联体的结合是特异的;上述结合的复合体大分子是不能通过硝酸纤维滤膜(NC)的微孔,而 tRNA-氨基酸的复合体是可以通过的。Nirenberg 采用了一把钥匙开一把锁的思路,进行破译密码。他们首先发现当简单的特定的核苷酸加入到 E.coli 的核糖体上时,它们并不促使蛋白质的合成,而引起了特定的 tRNA 及其携带的氨基酸结合到核糖体上,形成大的复合体。因此他们每次在无细胞系统中仅加一种已知顺序的三联体 RNA(如 ACA),同时在氨基酸中只用 14C 标记一种氨基酸
19、(如 Ser),若ACA 进入核糖体后,tRNA 上携带的不是所标记的 Ser,那么 tRNASer 和其携带的 Ser 就不能与核糖体上的 ACA 特异结合形成大的复合体,而从 NC 上透过,所以通过测定透过 NC 的tRNA-aa 小复合体是否带有标记,如带有标记就可以确定输入的三联体 ACA 不是 Ser 的密码子;那么就可重新输入另外的三联体 RNA,一直到 tRNA 所带有的标记的氨基酸不透过 NC,说明此三联体 RNA 正好是标记氨基酸的密码子(图 14-3),就这样 Nirenberg 小组一举破译了全部的密码。六 .利用重复共聚物破译密码1965 年 Khorana 以不同的思
20、路和方法也巧妙地破译了全部的密码,他发挥了自己合成 RNA的特长,用已知碱基组成二个、三个或四个碱基合成重复共聚物 mRNA,在体外翻译系统中加入同位素标记的氨基酸,然后分析所合成多肽的氨基酸顺序,再进行比较分析。Khorana 采用了有机合成一条短的单链 DNA 重复顺序,然后用 DNA 聚合酶 1 合成其互补链,再用 RNA 聚合酶及不同的底物合成两条重复的 RNA 共聚物(图 144),作为翻译的 mRNA,加入到体外表达系统中,根据合成的肽链的相应顺序来推测各氨基酸的密码子,如表 10-1 所示。当重复顺序为(UC)n 时,组成的重复 RNA 无论怎么阅读,只可能是 UCU-CUC,翻
21、译的多肽也是由丝氨酸和亮氨酸之间排列的顺序,但尚不能确定这两种氨基酸的相应密码子。当重复顺序为(UUC)n 时,无论怎么阅读,都只产生三种多聚氨基酸,即 poly Ser,poly Leu 和 poly Phe,和第一次比较,只有一个密码子CU 相同,但同样都有 Ser 和 Leu,所以仍不能确定。再看第三行重复顺序(UUAC)n,无论怎么读法,只会是四个密码子的循环;UUACUUACUUAC,但合成的肽链中氨基酸三种,Leu-Leu-Thr-Tyr 。将密码子和氨基酸与第二次作对照,彼此共有密码子 CUU 和 Leu,所以可以确定 CUU 是 Leu 的密码子。那么第二栏中既然 CUU 已知
22、是亮氨酸,毫无疑问 UCU 是丝氨酸。第一栏中原来 UCUCUC 难以确定那一个是 Ser,那一个是 Leu,现已确定 UCU 是 Ser,那么余下的 CUC 定是亮氨酸了。Khorana 就用这表 14-1 用二个或三个、四个核苷酸构造重复共聚体来确定密码子重复顺序 可组成的三联密码 多肽的氨基酸组成(UC)n UCU-CUC Ser-Leu(UUC)n (UUC); (UCU); (CUU)poly Phe, poly Ser, poly Leu(UUAC)n (UUA-CUU-ACU-UAC) Leu-Leu-Thr-Tye种方法将所有的遗传密码都破译了。这项实验还同时证实了三联密码的正
23、确性,以及兼并的存在。由于 Nirenberg 和 Khorana 二人在破译遗传密码研究中的卓越贡献,他们二人共同获得了 1968 年的诺贝尔生理或医学奖。遗传密码如表 14-2 所示。氨基酸缩写符号如表 14-3所示。七终止密码子的确定1964 年 Yanofsky 在研究 E.coli 色氨酸合成酶 A 蛋白时推测无义密码子(nonsense codons)(即终止密码子)的存在。他的推测/是从两个不同的角度:一是为 trp A 编码的mRNA 还编码了 trpB, trpC,trp D 和 trpE。那么有可能在翻译时中途在某个位点(两个肽的连接处)停止,然后再从下一个新的起点翻译,这
24、样使各个肽可以分开,而不至于产生一条很长的肽链。这就意味着终止密码子(stop codons)的存在。另一个角度是他发现E.coli Trp-的突变株是不能合成完整的色氨酸合成酶蛋白,但继续对它进行诱变可以得到回复突变。回复突变中有两种,一种是个别氨基酸发生了变化,而另一种是完全回复,没有任何氨基酸组成的变化,这表明, E.coliTrp-不可能是任何移码突变的结果,那么这类的突变很可能携带有阻止合成的无义密码子。直到 1965 年 Weigert,M.和 Garen,A 由碱性磷酸酶基因中色氨酸位点的氨基酸的置换证明 E.coli 中无义密码子的碱基组成揭示了琥珀和赭石(ochre)突变基因
25、分别是终止密码子 UAG 和 UAA。当时 64 个密码中的 61 个已破译,只留下了 UAA、UAG 和 UGA 有待确定。Garen 等为了鉴定无义密码子采用了和 Brenner 相似的策略。他们从 E.coli 的碱性磷酸酯酶基因 ( pho A)中的一个无义突变品系中分离了大量的回复突变株,然后来比较分析。结果从图 14-5 中可以看出无义密码子是从该基因的色氨酸位点的密码子产生的。在回复突变中,无义密码子变成了 Trp、Ser、Tyr、Leu、Glu、Gln 和Lys 的相应密码子。仅有 Trp 的 UGG 变成 UAG,然后在此基础上回复突变成 7 种氨基酸,因此 Trp 产生的无
26、义突变的密码子就是 UAG。最后 1967 年 Brennr 和 Crick 证明 UGA 是第三个无义密码子。根据无义突变的三种昵称,三个终止密码子 UAA 叫赭石(ochre)密码子(相应于赭石突变);UGA 叫琥珀密码子(相应于琥珀突变);UGA 叫蛋白石(opal)密码子(相应于蛋白石突变)或乳白密码子。表 14-2 遗传密码第二位U C A G UUU UCU UAU UGU UUUCPheUCC UACTyrUGCCysCUUA UCA UAA 终止 UGA 终止 AUUUGLeuUCGSerUAG 终止 UGG Trp GCUU CCU CAU CGU UCUC CCC CACH
27、isCGC CCUA CCA CAA CGA ACCUGLeuCCGProCAGGlnCGGArgGAUU ACU AAU AGU UAUC ACC AACAsnAGCSerCAUAIleACA AAA AGA AAAUG Met ACGThrAAGLysAGGArgGGUU GCU GAU GGU UGUC GCC GACAspGGC CGUA GCA GAA GGA A第一位GGUGValGCGAlaGAGGluGGGGlyG第三位表 14-3 氨基酸缩写符号缩写 氨基酸 缩写 氨基酸Ala A alamine 丙氨酸 Met M methionine甲硫氨酸Cys C cysteine
28、半胱氨酸 Asn N asparagine 天冬酰胺Asp D aspartic acid 天冬氨酸 Pro P proline 脯氨酸Glu E glutamic acid 谷氨酸 Gln Q glutamine 谷氨酰胺Phe F Phenylalanine苯丙氨酸 Arg R arginine 精氨酸Gly G glycine 甘氨酸 Ser S serine 丝氨酸His H Histidine 组氨酸 Thr T threonine 苏氨酸Ile I Isoleucine 异亮氨酸 Val V valine 纈氨酸Lys K lysine 赖氨酸 Trp W tryptophan 色
29、氨酸Leu L leucine 亮氨酸 Tyr Y tyrosine 酪氨酸八. 起始密码子的确定在 Nirenberg 的三联体结合实验和 Khorana 的重复共聚物的体外翻译实验中。合成能从任何碱基起始。但在体内却并非如此,而是需要一个起始密码子(initiator codons)。将各种蛋白质的氨基酸顺序和其编码顺序相比较,起始时都是 AUG 密码子,读码也都相同,在原核细胞中它编码甲酰甲硫氨酸,在真核细胞中编码未经修饰的甲硫氨酸。当正常的 AUG 起始密码子缺失时,GUG 也为起始密码子。但在离体条件下 GUG 的起始翻译的效率要比 AUG 低得多,可能因为它和甲酰甲硫氨酸-tRNA 的亲和力较低,这也可以作为调控该基因表达的一种手段。