1、兴趣小组活动总结研究小组成员:叶涛、梅坤荣、高冠男、殷毅、叶瑞强、林珑辅导老师: 杜立林博士、朱冰博士、戚益军博士、马力耕博士 一 引子基因组学课程期末考试的最后一道论述题,是“请根据自己的理解,总结基因组非编码区可能的功能” , 。当时回忆起 Watson 主编的Molecular Biology of the Gene中说, 3200Mb 人类基因组里,除了 48Mb 是基因外,还有intron、UTR、 pseudogene、microsatellite、transposon 以及编码 miRNA 的序列,便如是作答。这道题,引起了我对基因组非编码区功能的极大兴趣:为什么物种越往高等进化
2、,基因组非编码序列的比例就越高?为什么仅仅两万八千左右个基因,就能决定人类作为万物之灵长的地位,可这个数目并不比果蝇多多少啊?什么决定了人类的智力,关键在于基因序列还是所谓的“junk DNA”?玉米的基因组比水稻大很多,但也未见得玉米就比水稻高等,那么是什么决定了基因组的大小呢?这些问题时常浮现在我脑中,正好借晓东所长提出的“兴趣小组” 活动,通过跟组员的讨论、与 PI 的交流,希望产生一些思维碰撞的灵感。这一系列文章,是我对“兴趣小组”活动的全面总结,一部分是流水账般的记叙小组讨论,一部分是跟 PI 讨论的收获,还有一些是我们自己 mental exercise 的过程,包括提出的假设、可
3、能的实验手段和存在的瓶颈,最后是组员的一些感想。值得一提的是,虽然我们小组人数不多,但指导老师是最多的,这给我们提供了更多与 PI 交流的机会。最后说明一下,我们所说的“non-coding DNA”,是指不编码蛋白的基因组 DNA 序列。二 组员和最初的几次讨论我们小组的题目是“基因组非编码序列的功能”,先描述一下各位组员吧。梅坤荣,华科生物信息专业。我觉得她最强的地方是,不论组员之间意见多么分歧,抑或是思路不太清晰,她都能帮我们理清头绪,首先做什么,接着做什么,并提出大家都容易接受的方案。高冠男,山东大学,一个说话声音不大的女生,对 non-coding DNA 在个体发育中的调控作用十分
4、感兴趣。记得每次讨论的时候,都很认真的记笔记,提出的问题往往能反映出她活跃的思考。殷毅,北师大,在以前的实验室做了一年关于 microRNA 的实验训练,相当能提问,从她的提问中,能感觉出她读过各个方面的论文,有很广泛的知识背景,此外对非编码区编码的 microRNA 很感兴趣。叶瑞强,武汉大学。人称“小强”,一个相当粗犷的山东汉子,对自己的人生道路有很明确的把握,他永远不会拒绝需要帮助的人。他的实验经历很丰富,是能花 100%精力做好一件事的人。此外,篮球、乒乓球、排球他样样精通,要打球,找他准没错。林珑,安徽大学。说话语速挺快,做事很有热情的女生。最初的几次,主要讨论了从什么角度研究 no
5、n-coding DNA,有人希望把精力主要放在non-coding DNA 的进化问题上,还有人提议把焦点集中在 non-coding RNA 上,也有人提议将 non-coding DNA 分为卫星/微卫星序列、转座子、假基因、内含子等不同特点的类别进行讨论。总之,没有统一的意见,我们决定找指导老师讨论后,再做决定。三 与 PI 的讨论杜立林老师的研究方向主要是,以裂殖酵母为实验材料研究 DNA 双链断裂。他向我们介绍了“The ENCODE Project”,难以置信的是,研究表明整个基因组,包括 DNA 的两条链,都会被转录。他还提到,河豚的全基因组测序并不是因为作为模式生物来研究,而
6、是因为它比其他脊椎动物基因组小很多,所谓的“垃圾 DNA”很少,可能成为研究如何在含较少non-coding DNA 情况下,基因组是如何复制的模型。他让我们意识到,基因组不同层次的包装,似乎也存在着某种密码,例如某些位置相对固定的核小体所需的核小体定位信号。他同时提到了一个新的概念“染色体脆性位点” ,实际上脆性位点会在正常条件下发生双链断裂,造成基因组的不稳定性。那么为什么经过长期的进化,这些位点没有经过选择压力被淘汰呢?杜立林老师认为,同一段序列可能需要同时执行多种功能,为了执行某些更重要的功能,这些位点必须同时具有“脆性” 。我们从马力耕老师体会了用分类的方法、进化的思想,研究问题的思
7、路;从戚益军老师了解到,可以用研究一个基因的方法来研究 microRNA 的功能;从朱冰老师很多“搞笑”的故事中,想象了基因组在细胞核中可能存在的三维空间结构。这些讨论,让我们逐渐认识到基因组提供的是多维的信息,除了已知层面的信息外,基因组还具有很多隐含的信息,鉴于高等生物基因组中 90%以上由 non-coding DNA 组成,或许这些隐含信息正是蕴含在貌似“垃圾”的 non-coding DNA 中的。四 我们的一些设想首先,我们把基因组的信息分为了三个层次:隐含信息、序列水平的信息、调控水平的信息。隐含信息包括核小体定位信号等蕴含着决定基因组高级结构的信息中,我们几乎可以肯定这种信息的
8、存在,但我们对这些信息的表现形式不太明了,这主要受实验条件的限制。序列水平的信息,包括例如染色体脆性位点等具有序列和位置特异性的位点。调控水平的信息主要包括各种 non-coding RNA 的调控作用。我们有两个很初步的设想:(一)核小体定位信号作为选择压力的基因组大小决定:基因组就像是一个巨大的图书馆,大约每 200bp 一个核小体,因此核小体就像是一种标签。部分核小体的位置是相对固定的,这些核小体定位信号就存在与基因组中。为了解释同一进化水平生物基因组大小的差异,例如为什么玉米比水稻基因组大很多,我们选择核小体定位信号作为一种选择压力,当基因组序列不足以提供所有需要定位的核小体信号时,基
9、因组功能便不能得到有效执行,具有进化上的劣势,将在进化过程中被淘汰。在这种时候,有两种选择,一是基因组的扩大,以满足所需的核小体定位信息,可能当 DNA 序列增加时,用来定义基因组空间结构的保守位置核小体数目增加,于是进入的一种选择趋于增大的基因组的进化方向;另一种选择是基因组的缩小,通过减少 DNA 序列,减少对保守位置核小体的需求,进入一种选择趋于减小的基因组的进化方向。最终,达到基因组大小与核小体定位所需信息的一种平衡。这个设想,其实是基于基因组信息并不是随大小的增加而线性增加的,于是存在了多个基因组信息与基因组大小的平衡状态。对于这个进化上的设想,难以找到可行的试验方法进行验证,只能做
10、“理想实验” ,从逻辑上考察其合理性。(二)染色体的程序性断裂:基因组的断裂对细胞具有很大危害,而且对细胞来说,染色体特定位点的断裂比随机断裂更加具有可控性。我们的设想是细胞存在一种机制介导染色体程序性断裂。由于从酵母到人,都具有染色体脆性位点,我们推测染色体程序性断裂的机制可能是保守的,因此选择便于培养、生长快速、容易观察的裂殖酵母为实验材料。将含有已知脆性位点的序列和荧光报告基因整合到酵母基因组合适区域,当脆性位点发生断裂,显微镜下将观察到酵母发出荧光。我们预计野生型酵母,脆性位点自发断裂具有较稳定的断裂几率。诱变剂处理酵母,在不同环境压力和化合物处理条件下,筛选脆性位点自发断裂显著降低的
11、突变体,定位发生突变的 DNA 区域,如果编码一种蛋白,可使用免疫共沉淀等研究蛋白质与蛋白质相互作用的方法找到可能存在的介导染色体程序性断裂的复合物中的其他组分。五 小组成员活动感想高冠男:多年来,研究者们对人类基因组的关注主要集中在编码蛋白质的基因和蛋白质本身。随着人类基因组计划的完成和哺乳类转录组数据的不断积累,揭示出人类和其他高级真核生物的遗传物质只有极小一部分编码蛋白质,而超过 97的转录产物是功能多样的 RNA 分子,即非编码 RNA(non-coding RNA,ncRNA)。绝大部分非编码序列以高度重复序列的形式存在,如卫星、小卫星、微卫星、长散布元件、短散布元件等;内含子、3不
12、译区作为结构基因的一部分被一同转录;RNA 基因转录具有明确功能的 RNA 分子;顺式作用元件是目前已知的具有重要调控功能的非编码序列;非编码序列的存在与真核生物基因表达调控密切相关;目前非编码序列的研究已引起广泛的科学关注,利用数理方法研究其遗传信息的储存方式及运作规律是十分重要的研究领域。非编码序列的起源问题是一个引起众多关注的问题。关于这一问题有着很多不同的猜测,如病毒起源和基因 duplication 起源等,但是并没有得到明确的证据。对于是怎样一个过程造成了这些可能是外源或者内源的插入的多余基因变成了有用的基因。如串联重复序列是指 1200 个碱基左右的核心重复单位,以头尾相串联的方
13、式重复多次所组成的重复序列。它广泛存在于真核生物和一些原核生物的基因组中,并表现出种属、碱基组成等的特异性。在基因组整体水平上,各种优势的重复序列类型不同。即使在同一重复序列类型内部,不同重复拷贝类别(如 AT、AC 等) 在基因组中的存在也表现出很大的差异。同时,这些重复序列类型和各重复拷贝类别在同一物种的不同染色体间,以及基因的编码区和非编码区间也表现种属和碱基组成差异。这些差异显示了重复序列起源和进化的复杂性,可能涉及到多种机制和因素,并与生物功能密切相关。通过序列保守性的比对与功能分析,发现保守性与功能的重要性无关,在序列上不保守的区域可能会有着相同的功能,这些功能可能是非常重要的。基
14、因组的大部分都会被转录为 RNA,但是相当的部分转录水平很低,但是不能排除这些转录子都是有功能的。生物信息学与计算机应用在这一领域起到了重大作用,但是很遗憾缺乏这方面的人才。我们通过讨论发现,兴趣很好找,但是一旦想要从兴趣中挖掘出一个切实可行的 project 确实是难上加难。要从两个方面考虑,第一是是否有研究意义,这决定了是否能申请到足够的经费。另一方面是从本身的可实施性考虑,是否能够在实验室的条件下解决。两者缺少了哪一个都会使这一目标成为失败的。叶瑞强:非编码序列,即所谓的有功能蛋白质的序列。现在已经有越来越多的人认同它们不是,或者不仅仅是我们曾经认为的“ ”的观点。垃圾可以理解为“无用的
15、” ,人类基因组工程确定了大约两千多个与蛋白质制造有关的基因,而其余的基因片段被认为是由所谓的没有功能的“垃圾”DNA 片段组成的。我认为造成这种观点的原因主要有三个:第一,非编码序列有很多都是重复的、冗余的、结构简单的等特征,很难将它们和复杂的功能联系到一起;第二,由于当时研究水平的限制,没有确切的证据能够表明它是有用的;第三,因为几乎所有具体的生理机能都要由蛋白质来完成,所以认为不编码蛋白质的 DNA 应该是没有用的也是正常的。但是,现在已经发现了很多非编码区域内的调控序列 ,它们能帮助基因开启和关闭以调控基因的表达,于是涌现了很多如操纵子、增强子,绝缘子等新的概念,当然也包括目前研究的比
16、较火热的 miRNA,这些发现可以基本排除完全否定非编码序列的观点。同时非编码区数据庞大,序列类型复杂,因而可能具有多种信息功能,目前发现了其中的一些功能信息,比如提供了生物进化的物质基础;而且作为一种“活跃分子”改变着基因组整体GC 含量;为中期染色体带型提供了结构基础,例如 CpG 岛、DNA 环、G R 带型为主的基质附着位点,揭示了非编码 DNA 是如何形成染色体结构的基础。所以就目前的发现来看,这些非编码序列不是垃圾信息,很可能对于生物的进化,发育调控有重要的功能。但是,我们也不能排除存在完全的垃圾信息的可能性!对于这个问题的解释,我们可以从进化的观点来考虑,从微生物中,非编码区只占
17、整个基因组序列的 10%20;到高等生物和人类基因组中,非编码序列则占了基因组序列的绝大部分,我们可以用达尔文的自然选择学说来解释这些非编码序列存在的价值,但是我们同时也通过木村资生的中性理论证明存在垃圾信息的可能性,这两种理论都有他们存在的价值和依据,所以我认为应该综合他们的观点来看问题!对非编码序列的来源可以提出了多种解释,比如有一部分来自病毒或者转座子,它们插入基因组中,并跳来跳去大量复制。还有一些垃圾 DNA 可能是死亡基因的遗骸,被称为“假基因” 。它们原本是编码蛋白质的真基因,由于发生变异而失去功能被弃之不用。它们的序列与真基因非常相似,但有着细微差别,正是这些差别使假基因不能编码
18、蛋白质。去掉假基因不会影响有机体的功能,偶尔某个假基因发生变化、死而复生倒可能造成麻烦。由于假基因的存在不增加或减少生物的生存优势,所以进化过程很难把它们从基因组里清除出去。也有一些可能是由于复制错误,发生滑动或者序列发生 duplication 等造成。淡然这些大部分是根据已有的现象和理论的猜测,很难设计实验去证明这些问题。对于非编码序列研究的方法,很大程度上要借助于生物信息学。通过对已有序列的分析、比对来获得非编码序列的特征、数目和分布等,从而进一步分析它们的功能。这也是目前比较常用的方法,通常根据序列的保守性来分析功能的重要性。这方面的进步不仅需要计算机学家不断开发新的算法,更需要生物学
19、家对非编码序列进行更深层次的研究。另外,套用编码序列的研究方法,对于非编码序列进行“敲出”来研究表型的变化,这在2004 的 SCIENCE 中有过报道,他们删除了小鼠基因组中超过 100 万个碱基对的非编码DNA(约占鼠基因组的 1) ,但并没有对这些小鼠的发育、寿命和繁殖造成可察觉的影响,或许也可以通过同源重组等方式来替换基因组的非编码序列来研究。但这些方法很难进行较深层次的研究,这也是限制这项领域发展的最大瓶颈。我们需要一个新的实验系统,也需要新的试验方法!所以要真正研究清楚非编码序列,我们还有很长的路要走!最后我想谈一点关于这样一次活动的感受,虽然王所可能对我们的期望很高,希望我们可能通过交流突破某一问题,但我想他更希望我们注重的是过程而不是结果,通过和 PI交流,与兴趣相投的同学交流,查阅文献,思考问题,我们收获了很多。我想只要认真的参与了这样一次活动,无论结果如何,都将使我们受益匪浅!