1、人类疾病中的高级基因组改变研究进展北京世纪体医院心内科 杨水祥 崔育夏摘要:基因组通过 DNA 折叠成染色质纤维、染色体域、和最终的染色体组成高级复杂的结构。这种高级基因组织对基因调节和基因表达的控制起着重要的作用。染色体在组成过程中的缺陷与生理和病理过程有关。一些基因组织的突变和转录的错误调节与人类疾病和染色质结构整体的改变是有一定关系的,染色质结构对基因稳定的维持、凋亡和癌细胞的转移起着关键作用。关键词:基因组,DNA, 染色质,疾病基因组在原始状态下被折叠成更为高级复杂的结构。DNA 不同等级的折叠形成了染色质纤维、染色体域和最终的染色体,在最低级的水平,DNA 被包裹在八聚体和核心组蛋
2、白的周围,它们是染色质形成核小体的重要结构成分。成倍核小体通过 DNA 的伸展连接在一起,并且经常被一种连接组蛋白占据,从而形成串珠状的直径大约 10nm 的纤维。这些初级的纤维通过进一步的相互压缩形成不同直径更为高级的纤维,虽然这些高级纤维在体内精确的几何结构仍不为人们所知。在更进一步的水平,染色质纤维折叠成大小约 1Mb 左右的亚染色体域,这些亚染色体域依次被折叠从而进入到染色体间期。在哺乳动物的细胞中,裸露的 DNA 压缩形成染色体纤维大概需要 10000 次折叠。在细胞间期,染色体是以染色体域的形式存在的。一个染色体域被定义为特定染色体的 DNA占据在核中心的区域。这里所谓的“域”指的
3、是被占据的空间是紧凑的,有特点的,直径大约 2-3nm 的粗糙圆形区域染色体域的内在结构虽然不太清楚,但它很可能是由环状染色质纤维之间形成的通路通过相互紧密连接和网状分岔组成的。这种相对开放的结构可以使基因调节因子进入到染色体域的内部。虽然染色体域在核仁内部是离散的结构,但相邻的染色体能大部分地重叠在一起,而且染色质环能从一个域很容易地进入到相邻的另一个域。目前认为这种由更高级结构的基因形成的染色质纤维和染色体对基因的调节起着精密的作用。因此这些高级染色质和染色体的结构缺陷导致疾病并不值得惊讶。目前已经证实组蛋白修饰的改变可导致越来越多的疾病,虽然我们并不清楚这些改变究竟是疾病进程中的一个原因
4、还仅仅是其中的一个影响因素。而且,许多疾病相关的遗传改变被认为导致了高级染色质结构的改变,但这种显性疾病究竟是由于染色质结构的缺陷还是由于特定基因组蛋白修饰的改变引起基因表达的改变所导致,目前仍不太清楚。本文主要概述包括真正染色质结构缺陷在内疾病的发病机制进展。疾病中结构染色质蛋白染色质的高级结构是通过多数结构染色质蛋白调节的一些蛋白质,例如连接组蛋白、高迁移蛋白、异染色质蛋白1,广泛修饰着染色质纤维,另一些蛋白质则仅仅与纤维部分相连并且参与染色质环的形成。成环是一种基因调节的显著和强大的机制,因为环可以使相距很远的基因片段连接在一起,并通过这种方式导致调整序列和靶目标的自然相连。一些关键的结
5、构染色质蛋白参与成环,并与许多疾病有关。SATB1SATB1(特殊富含 AT的结合蛋白1)是一种胸腺细胞分泌的特殊的 DNA结合蛋白。它最初表现出这种特性是因为相对于超螺旋的张力它可以伸展的姿态拥有对富含AT序列结合的倾向,这种独特的结合特性已经提示SATB1在高级基因结构中可能的结构作用,并通过在胸腺细胞的核仁内找到SATB1的矩阵表现形式“cagelike”得以证实。这一特性对固定、环的形成和T 细胞分化过程中许多基因的精密调节起着一定的作用。一些T细胞分化基因的调节是由 SATB1决定的,SATB1 的缺失可导致巨大的分化缺陷。虽然一些效应很可能是因为SATB1补充组蛋白的修饰活动和染色
6、质的复合物重塑,但SATB1 的调节功能归因于它促进高级染色质环结构形成的能力。例如,T 辅助细胞细胞因子的激活在T细胞的分化过程中位于2号基因座,需要基因座控制区上游( LCR)的启动子控制区的叠加。环事件需要SATB1,并且已发现 SATB1与可能是环基点的基因座有关。SATB1 是充当这些环的结构支架还是作为基本的结构成分的连接物目前还没有定论。SATB1似乎在癌症中发挥着重要的作用。SATB1 的表达水平与乳腺癌的预后不良有关。在体外动物模型中,SATB1的表达可以促进乳腺癌细胞的浸润生长,而它的损耗则阻碍了癌细胞的转移。在转移的乳腺癌细胞中,SATB1调控着许多主要参与细胞黏附、细胞
7、信号通路和细胞周期调节中的基因。SATB1结合附近许多这些基因,而且它的损耗导致了这些基因遗传组成的改变。一个很具有吸引力但目前还未经证实的模型是SATB1作为一个结构平台可以为染色质环提供基地,并且指引着它的靶基因进入到共同的监管环境中。SATB1在胸腺组织中只相对低水平的表达,测定该蛋白在其他癌组织中是否发挥着相同的作用和是否在其他癌组织中影响着一系列相同的基因,将是一项有趣的工作。目前没有报道说明癌症患者的SATB1发生了突变,它将对揭开SATB1 在癌症中被错误调节的机制起着重要的作用。CTCFCTCF(CCCTC结合因子)是一种锌指蛋白,它保留着重要的、高度进化的DNA结合域。这种蛋
8、白被广泛表达,虽然它在细胞核中的水平和定位具有组织和细胞特异性。CTCF的缺失和它的过度表达对基因表达谱起着普遍重要的作用,并可引起生长和分化过程中的生理缺陷。越来越多的证据表明,CTCF作为一种绝缘体蛋白阻碍着基因靶向运动的增强子,也可以对相邻调控序列的基因起缓冲作用。各种各样的观察数据表明CTCF通过染色质成环发挥着绝缘体作用。CTCF形成染色质的同型二聚体和多聚体,CTCF 介导的染色质环已经在各种各样的基因包括鼠的球蛋白b,人的MHC-II ,基因印迹H19/Igf2中显露出来,因为它容易成环的特性和CTCF 在基因组中广泛被介于15000-25000结合位点结合的原因,使它成为担任整
9、体基因组组织者的强大的候选者,并且通过发现CTCF也可以介导染色体间的相互作用,强有力地支持了这一点。基因组广泛的研究表明,位于人类11号染色体上的基因印迹H19/Ig2与其他染色体上的调控元件相互作用,这些染色体间的相互作用是有效印记的关键。CTCF优先与有DNA 甲基化依赖性的母系抑制等位基因H19/Ig2联合,而且大多数染色体间的相互作用出现在母系等位基因并依赖于CTCF,这些提示该蛋白在抑制过程中发挥着关键的作用,也因此证明了CTCF 在染色体外的成环作用和染色体内的相互作用中所发挥的整体基因组织者的作用。CTCF与多种疾病有关。密码子重复扩增疾病包括亨廷顿氏病、脆性X 智力低下和强直
10、性肌营养不良症都是由微卫星重复序列的过度延长引起的。例如,一个健康人的HTT 基因上只有不到 27个CAG 重复序列,而一个亨廷顿氏病病人却有超过35个,这种重复扩增的触发机制尚不明确。最近的证据表明CTCF在重复序列中有助于产生脆性位点,因此促进了它们的扩增。邻近重复序列的CTCF结合位点的突变导致基因组不稳定性的增加和重复长度的增加,就像我们在疾病中所看到的类似的情况。虽然没有测试,但它有可能干扰与CTCF的结合,目标位点的突变,或相互作用的两者之间的突变,都可以导致密码子重复疾病。CTCF和其他基因组组织者的缺陷对其他密码子重复疾病中的微卫星重复序列的不稳定扩增发挥着关键的作用。CTCF
11、已经被认为在Silver-Russell 综合征(SRS) 和Beckwith-Wiedeman综合征(BWS)这两种人类综合征中起着一定的作用。BWS是一种临床症状随时间变化的发育障碍,包括发生肿瘤的频率增加、巨舌和生长过度,它是由11号染色体上的正常母系基因印迹H19/Igf2的异常活化引起的,在H19/Igf2区域上一些零星和家族的突变导致了CTCF 结合位点的缺失,直接导致了疾病。同样,SRS 是一种以严重生长迟缓和身体不对称为特点的发育障碍,已经被证实是 由父系等位基因Igf2 的活化和 CTCF结合位点的突变引起的。CTCF也与癌症有关。肿瘤抑制基因p16在癌细胞中往往起着正调节作
12、用。这种正调节与位点周围活化的染色质边界缺失和邻近位点染色质结构的缺失一致。CTCF 与p16基因转录活性边界有关,而不是它的非活性形式,p16基因的活性与CTCF 结合有关。相反, CTCF的减少几乎切断了 p16基因的表达。有趣的是,癌细胞中CTCF结合的范围被它结合位点的甲基化物所调节,而且癌细胞也知道整个甲基化作用的缺陷。虽然这些研究有力的指出了CTCF在肿瘤抑制基因p16调节中的作用,但其他与肿瘤相关的基因看起来也以类似的方式调节,因为沉默的肿瘤抑制基因RASSF1A 和CDH1也与CTCF 结合有关。这些观察数据考虑到了这样一种可能性,那就是CTCF在p16基因和其他肿瘤抑制基因周
13、围的高级染色质结构的建立和维持上起着关键作用,了解这种方式有助于肿瘤的预防,无论CTCF 的突变是否致癌仍不清楚。黏连蛋白黏连蛋白是一种多蛋白复合体,参与建立和维持DNA复制和有丝分裂过程中姐妹染色单体的配对。这种进化上保守的复合体包括4个核心蛋白,可以在复制的染色单体周围形成圆环,并将它们结合在一起,一些辅助蛋白参与复合体的加载和维护。虽然黏连蛋白传统的角色是把染色单体结合在一起,但这一传统的角色正在改变。黏连蛋白在有丝分裂后期的细胞中有着高水平的表达,并且不再是染色单体结合在一起的必要条件。此外,一些物种的全基因组图谱研究显示黏连蛋白和基因组非随机结合、黏连蛋白的分布针对于正在进行的基因转
14、录,这些都表明黏连蛋白参与着高级染色体组织。在酿酒酵母中,黏连蛋白主要与基因间区相关并且与附近比较集中的转录基因结合,就像它在裂殖酵母中所发挥的作用那样。在哺乳动物的细胞中,黏连蛋白与CTCF在绝缘子区域共同定位,并且在果蝇中,发现这种复合体位于基因高转录区域的附近。进一步的证据发现在基因组组织黏合作用中,黏合亚基Smc1 的突变导致酵母中沉默的交配型位点分界功能的缺失。Scc2/Nipped-B亚基的突变导致果蝇中启动子增强缺陷。黏连蛋白成分的突变是引起 Cornelia de Lange 综合征(CLS)和 Roberts 综合征(RS) 这两种以多系统发育障碍为主的疾病的原因。 CLS
15、是以严重的生长缺陷和智力低下为主的显性遗传病,RS 是一种以产前和产后生长不足和智力低下为特点的罕见的隐性遗传病。但病人的细胞不显示染色质黏连和隔离缺陷,提示这种疾病的症状与黏连蛋白的非黏连功能有关。一种可能的情况是黏连蛋白成分的突变削弱了复合体与整个基因组目标位点的联系,并且干扰了它通过与CTCF 合作产生的边界和绝缘功能。未能正确定义的基因边界可能导致广泛基因的错误表达,人类细胞中黏连蛋白的损耗则确实可以改变几百个基因的表达。有趣的是,黏连蛋白在生长过程中越来越多地受到一些生长调节基因的控制,这也就解释了 CLS 和 RS 都是以产前和产后生长和发育不足为特点的疾病。C-MYCC-MYC是
16、一种典型的致癌基因。它编码一个基本的螺旋-环-螺旋拉链转录因子,在肿瘤的许多重要事件包括增殖、细胞周期的调控和细胞调亡中扮演着重要的角色。一般认为C-MYC是靠一些选定的靶基因发挥作用的,它们的错误调节在很大程度上解释了致癌基因的有害作用。然而,C-MYC结合位点的全基因组图谱显示C-MYC可与多达15%的人类基因结合,而不是与一些靶基因结合,并且可以和基因间的区域联系在一起,从而暗示C-MYC的其他一些功能。一些其他的观察资料也显示C-MYC在高级染色质结构中可能有更多的功能。在分离的细胞中,神经干细胞显示在核骨架和染色质组织中有着巨大的缺陷,包括细胞核的缩小、细胞核形态异常和染色质的广泛浓
17、缩。重要的是,这些变化似乎与细胞增殖和凋亡的功能缺陷无关,表明它们并不是继发的,C-MYC的严重破坏概括了染色质的缺陷并进一步支持了这个事实。在分子水平,C-MYC的缺失导致了H3 和H4组蛋白的乙酰化,但组蛋白3和赖氨酸9中三甲基的显著增长与这些细胞中异染色质的增长是一致的。这些资料强有力地证明C-MYC调节着整个染色质结构,并且有助于维持常染色质处于一个开放、易被诱导的状态。C-MYC在高级染色质组织中的作用机制还不是很清楚。一种模型是说这种蛋白质吸引组蛋白的修饰活动,染色质重塑机制使它的许多结合位点分布在整个基因组,因此,基因组的很大一部分都暴露其中,另外,C-MYC的整体效应是由一个或
18、几个染色质修饰者的错误调节介导的。这种模型的候选者是组蛋白乙酰转移模式GCN5,它是一种已知的C-MYC的靶基因。它对C-MYC缺失的正调节可能有助于产生一些组蛋白修饰和染色质结构中的可以观察到的变化。C-MYC在高级染色质结构中的参与,特别是它的组蛋白乙酰化作用具有潜在的临床意义,目前正在日益广泛地研究在一系列肿瘤细胞中C-MYC的误调节和组蛋白修饰的调节,以此作为潜在的抗癌药物。HP1异染色质蛋白1 (HP1)是异染色质最主要的结构成分HP1蛋白家族是进化上保守的家族,在高等真核细胞中存在3个亚型:HP1, , 和 。HP1蛋白富含异染色质,通过其染色体域的组蛋白H3上的三甲基赖氨酸 9特
19、异性结合,但在基因组中仍然是相互分散的。这种蛋白质被认为是多种染色质纤维经过其染色体阴影域通过多聚化交联从而导致染色质压缩。除了在异染色质中的结构性作用,HP1蛋白能够同时激活和抑制基因的表达。作为沉默因子,它们被认为在靶基因的调控区,尤其是在启动的时候,压缩染色质,从而抑制转录的起始效率。作为催化剂,它们同样可以创造一个有利于转录的染色质环境。HP1与癌症有关,多种HP1亚型表达的降低已在包括乳腺癌、脑瘤、结肠癌和卵巢癌在内的多种癌症中报道。HP1对癌症的发展尤其重要,HP1缺失的程度与预后不良相关,增加HP1的水平可以降低肿瘤的转移。HP1对癌症的直接影响已经在乳腺癌中得到了证实,实验性的
20、在侵袭力弱的癌细胞中减少HP1可以增加这些细胞的侵袭能力,相反,HP1在这些高侵袭力的细胞中的表达可以降低它们的侵袭力。这些观察表明,HP1是一种转移抑制因子,虽然HP1介导的这种效应并没有完全阐明,但它涉及整个基因组的错误调节,因为已知的许多与癌症和转移有关系的基因都与HP1的减少有关。DNA修复和异位中的高级染色质结构细胞对抗基因损伤的第一道防线是DNA修复机制,它可以识别DNA 的损伤,并且在发生DNA永久损伤之前得以纠正。越来越多的证据表明高级染色质结构对DNA 的修复效率起着关键作用。其一,染色质重塑事件是DNA 修复级联中最主要的一部分,在早期,双链断裂(DSB)发生之后,在断裂点
21、周围的染色质快速地去凝缩,大概是为了方便修复机制接近断裂点。在后来的修复过程中,一些ATP 依赖的染色质重塑机器,其中大部分是SWI/SNF家族,被征集到断裂处为染色质的切除和连接作准备。染色质重塑机器有效修复的要求暗示染色质的结构特性影响着修复过程的进展,也可能影响着染色质的易感性导致损伤(Fig. 1),直接的证据来自于发现经放射诱导的DSBs 在异染色质上断裂处的修复速度比同样在常染色质的修复速度慢很多。虽然迄今没有动力学研究报道,但这种延迟的原因可能是因为易结合位点的减少导致征集修复机器进入到高度压缩的染色质的效率很低。然而,也有一种可能是DSBs在常染色质和异染色质中有着完全不同的修
22、复机制。这种情况得到了以下支持,DSB在异染色质上的修复对主要DNA 修复激酶ATM的活动明显更敏感而且修复的很慢,持久的DSBs更易在异染色质上发现而不是在常染色质上。一些结构染色质蛋白的移除,包括HP1, KAP-1, HDAC1/2,降低了 ATM介导的修复的延迟,说明这些异染色质成分阻碍了高效修复(Fig. 1)。与这一解释一致的是,HP1通过Thr51的特殊磷酸化从DNA 损伤位点释放出来,只有它是在较晚的时间被征集,假定此时所有重要的修复因子都已经到达DSB ,则正常的染色质结构需要被重新建立一次。对HMGN1蛋白观察的进一步证据表明染色质结构影响着DNA的应答(Highmobil
23、ity group protein 1)。HMGN1 是一种序列独立的球形DNA 结合蛋白,与组蛋白修饰调节的转录调控有关。小鼠缺乏HMGN1可产生有缺陷的DNA损伤应答,包括ATM、靶基因CHK1和CHK2的下游、2个关键细胞周期检查点信号激酶的磷酸化活性的降低。HMGN1虽然不是优先被征集到DSB,但仍然发挥着重要的作用。该蛋白的缺失导致了染色质上ATM的过早堆积,尤其是在没有 DSB的情况下。染色质上的ATM受K14上的组蛋白H3的整体乙酰化水平控制,这些都受HMGN1的影响。更进一步的证据:染色质结构在DNA损伤和修复的易感性中的关键作用来自于对胚胎干细胞中的DNA损伤应答的分析结果,
24、它的独特性在于这些干细胞有一个很严格的规定来保持基因组处于原始条件下,因为任何基因缺陷都将被复制到干细胞,并且分化成不同的组织。ES细胞缺乏连接组蛋白H1,一种关键的染色质整体结构成分之一,它的特点是有较少的致密染色质,尤其可以增强DNA的损伤应答,并且在放射之后更快地修复DSB 。这种可能性是因为这些细胞中的染色质广泛的去凝缩,在此之前这种效应能通过对细胞组蛋白去乙酰化抑制因子曲古抑菌素A的处理被模仿,从而导致了染色质的去凝缩化。这些观察表明,染色质结构直接影响到基因组易感性的损害,不同的区域,比如异染色质和常染色质,在相同的基因组,DNA的损伤反应不同。参与维持高级染色质结构的成分的缺陷,
25、推动了突变和疾病的发生。图 1:高级染色质结构和 DNA 修复。 (A)染色质凝聚状态影响 DNA 修复。如果一个双链断裂发生在较密集的异染色质区域,与这些区域相关的结构蛋白(绿)例如 HP1、连结组蛋白 H1 或 HMG 蛋白质,可能通过 ATM 激酶的作用,阻止 DNA 修复机制(红)的接近并被移除。当被移除的时候,DNA 修复机制可以更直接地接近 DSBs。 (B)在不太密集的常染色质区域,修复机制可以更自由地接近 DSBs。高级染色质结构不仅对基因组DNA损伤的整体易感性十分重要,而且有助于特定染色体易位的形成,这可能发生在染色质结构的局部变化,这种变化可建立局部易脆位点,从而使它们对
26、损伤区高度易感。一项有趣的研究结果支持了这一想法,分析表明,分子机制参与了染色体易位的形成,参与了ALCL(间变性大细胞淋巴瘤) 。许多ALCL患者都有2号染色体和5号染色体之间(t(2;5)( p23;q35)的易位,导致了核仁磷酸蛋白和ALK (间变性淋巴瘤激酶)之间的蛋白融合,组成激活激酶。有趣的是,有相当一部分ALCL患者没有相应的疾病症状是因为缺乏t(2; 5)的易位,清楚的说明蛋白融合并不是引起疾病的重要原因。通过分析2号染色体和5号染色体断裂区附近的基因,发现邻近核仁磷酸蛋白和ALK的一些基因即使在没有发生易位的病人体内也高度表达。虽然并没有用实验验证,但这些结果表明即使在没有发
27、生易位的情况下,断裂区附近染色质结构也会发生改变。有趣的是,缺乏(2; 5) 易位的病人细胞比有t(2; 5)易位的细胞相对于对照细胞更高度易感,说明侧面基因的转录激活,可能改变这些区域的染色质结构,有利于易位细胞的形成。我们可以有趣的推测,断裂点近端区域的转录激活是由转录因子被不适当地征集到这些位点引起的,通过激活它们,改变局部染色质,增加它们对断裂和易位的易感性。在这个模型中,染色体易位的第一步是基因组区域的异常激活,导致了它们的去凝缩化。这一想法的直接依据是发现了前列腺癌的易位断点包含了雄激素受体(AR)结合位点,一个转录激活因子。雄激素治疗后,AR与这些位点结合引起染色质重塑,可能增加
28、了其对DNA损伤的易感性。这个模型也说明了有活性的等位基因,而不是静止的基因,容易在MYC和IGH位点发生易位,这种易位导致了Burkitts淋巴瘤,并且经常与每个细胞核中的三维(3D)空间相关,诱发它们的易位。进一步验证这个模型是很重要的,主要通过确定是否其他易位断点的特点也是高度转录和在这一系列事件中究竟是什么级联的分子机制。肿瘤组织中的空间染色体组织以易位和非整倍体的形式存在的染色体异常是肿瘤细胞普遍的特点。虽然非整倍体是由有丝分裂过程中染色体分离的不平等形成的,易位发生在细胞间期两个或多个染色体之间的非法连接,包括双链断裂(DSBs)在内的永久性DNA损伤。因为易位的形成需要参与的染色
29、体之间自然的相互作用,染色体的空间排列等等。它们的定位相互关联,在细胞核内有助于确定哪些染色体发生了易位。有人提出,易位优先发生在相邻的染色体之间,而不是发生在距离较远的染色体之间(Fig. 2)。这是一个十分有趣、重要的可能。因为基因组非随机分布在细胞核内的细胞类型和组织特异形式目前已被公认。一系列相关的证据表明基因组组织的空间非随机分布有助于易位伙伴的确立。第一个提示空间基因组组织易位的形成来自于人类近端着丝粒染色体的发现,包括核仁组织区(NORs)和核仁集群,相对于其他染色体的易位,罗伯逊易位发生的频率更高。这大概是因为它们在核仁内的严密包装,增加了它们随时非法连接的可能性,两个或多个D
30、SBs不能被快速地修复。同样的,核膜内层的染色体比位于中心的染色体易位的频率高。除了这些一般性的见解,许多例子说明自然距离和特定染色体的易位频率有着一定的相关性。小鼠染色体MMU12, 14, 和 15经常参与小鼠淋巴瘤中的染色体易位,在易位形成以前,这些染色体在超过60%的正常淋巴细胞中是成对或三重聚集的,它们在空间上相互接近,一旦永久的DSBs 形成,诱发它们彼此之间发生易位。此外,染色体MMU5和MMU6,经常参与肾的染色体易位,与超过40%的肝细胞是邻居人类染色体HSA12 和16,经常在脂肪细胞癌中发生易位,与脂肪细胞非常接近。易位经常发生在特定的区域之间或是两个相关染色体的基因之间
31、,相关染色体断点定位研究进一步证实了空间距离的接近决定着发生易位的频率。BCR和ABL两个基因,位于9号染色体和22号染色体上,它们的易位导致了蛋白融合的形成,引起慢性髓性白血病,它们在正常的造血细胞中彼此接近的频率比根据随机分布预测的频率还要高,而且也比在相同细胞核中各种其他基因位点所观察到的频率高。在B细胞中,PML和RARa分别位于15号和 17号染色体上,它们十分接近,其易位导致早幼粒细胞白血病,8号染色体的MYC基因和14号染色体的IGH基因经常毗邻,它们的易位导致Burkitts淋巴瘤。重要的是,两个较少频繁发生Burkitts淋巴瘤易位的伙伴,11号染色体的Ig和22号染色体的Ig,与它们的易位伙伴MYC有较少频率的联系,但却对MYC有一定的易位倾向性。易位形成的邻近效应并不限制在不同染色体的基因位点,也适用于同一染色体的事件。