1、第一章 基因组:生物所具有的携带遗传信息的遗传物质总和基因组学:用于概括涉及基因组作图、测序和整个基因组功能分析的遗传学学科分支 一、分子基础核苷酸、2-脱氧核糖、含氮碱基:-N-糖基键和嘧啶环 1N 或嘌呤环 9N、磷酸基团dNTP,前一个 3-OH 和后一个 5-三磷酸缩合成磷酸脂键。双螺旋:碱基配对、碱基堆积:与 DNA 双螺旋主轴垂直的相邻碱基对杂环之间的互作,科增加双螺旋稳定性。大小沟:沿着双螺旋的走向交替分布两个凹槽,具有特征性的结构信息,在基因表达中重要作用,结合蛋白的特定功能域可伸入大小沟,通过氨基酸侧链和碱基杂环上的基团互作读取 DNA 所包含信息。DNA 甲基化:细菌发生在
2、腺嘌呤 6N 和胞嘧啶 5C,高等只发生在后者。哺乳动物 CpG 变为mCpG,植物包括 CpG 和 CpNpG。RNA:rRNA+tRNA80%、mRNA5%,大多数还含胞质内小 RNA(sc) 、核仁小 RNA(sno) ,真核还有核内小 RNA(sn) ,小分子干扰 miRNA,小干扰 siRNA。几乎所有 RNA 都会单链区段回折形成分子内双螺旋。G 和 U 也可配对,形成两对氢键。RNA 核糖 2C 上连的不是 H 而是 OH,和 DNA 差别:非常靠近连接两个核苷酸的磷酸二酯键位置,使 RNA 对碱性环境非常敏感活泼使 RNA 构型受限,双螺旋区段在数十碱基对一下限制 RNA 长度
3、,其易与磷酸二酯键互作断链其可参与同磷酸或碱基的互作而稳定 RNA 折叠构型,易于形成三级结构,并获得特殊功能 T 变为 U,因此 C 甲基化形成的U 无法区分,增加 RNA 突变几率。蛋白质结构:一级:NC;二级: 螺旋:多肽链中一些连续氨基酸序列自发形成有规律的盘旋,螺距 0.54,每圈 3.6 残基。 折叠:由侧向平行的多肽链组成,羰酰 O 和酰胺 H 形成氢键。每条 58 残基。转角(转环):由 34 个氨基酸残基组成的紧凑 U 型,两端多肽形成氢键来转折,大多位于蛋白质表面,形成回折使多肽链重新定向。二级稳定性取决于多肽链中形成的氢键。三级:二级互作产生,由氢键和带有非极性基团侧链的
4、疏水作用。四级:具三级结构多肽链形成的多亚基蛋白。高级间弱相互作用可逆、可塑、可控。基序(超二级结构)由几个二级结构组成,有特定功能,如锌指结构域:蛋白质中具有相对独立功能的模块结构。激酶域、结合域蛋白质构象变换:在不同构象之间的转变。二、序列复杂性原核生物(细菌和古细菌) 、真核、细胞器基因组C 值:一个单倍体基因组中 DNA 总量,每个种具特征 C 值。随着生物结构和功能复杂性增加,各分类单元最小基因组的大小随分类地位提高而递增。C 值悖理:生物复杂性与基因组的大小并不完全成比例增加。序列复杂性:不同序列的 DNA 总长复性动力学:变性复性:互补单链在一定条件下分开,撤除条件后又恢复双螺旋
5、。Cot1/2为其实浓度 DNA 在保温 t 时间后半数 DNA 完全复性的数值。与基因组复杂性成正比。大肠杆菌为标准。快速复性组分、居间复性组分、缓慢复性组分高度重复序列(卫星DNA):特点:由极其相似的重复拷贝首尾相连组成在氯化铯介质中做密度梯度离心形成特异卫星带集中分布在染色体特定区域,如着丝粒和端粒;中度重复序列:长散在、短散在序列;单一序列:原核生物基因组全部都是。低等真核大多都是。基因主要位于单一序列。证明:DNA 驱动杂交。将少量 mRNA 或 cDNA 标记后与过量 DNA 混合,对比复性曲线,发现大多标记基因只和单一序列复性。三、基因家族DNA 成分:编码初级转录物的全部序列
6、为正确启动转录及转录物加工所必须的序列调节转录速率的。编码 RNA 的基因大多为多拷贝。编码蛋白质的是单拷贝,因为 RNA 基因每次只转录出一个产物,且均由 RNA 聚合酶 II 转录,蛋白质编码基因的显著特征是基因编码序列的非连续性,有外显子和内含子基因家族:真核生物基因组起源于同一祖先,由加倍或趋异产生了结构功能相同或相似的基因。超基因家族:指起源于共同祖先,由相似 DNA 序列组成的许多基因亚家族或相似的基因成员构成功能相似的群体。联合基因:基因组中一段连续的 DNA 序列,编码一组关联的重叠功能产物。异常结构基因:重叠基因:编码序列彼此重叠的基因,含有不同蛋白质的编码序列。类型:单个
7、mRNA 可编码多种蛋白质由不同启动子转录不同 mRNA,各自编码不同蛋白质。基因内基因:一个基因的内含子中包含另一个基因。反义基因:与已知基因编码序列互补的负链编码的基因,对编码基因进行干扰假基因:来源于功能基因但已失去活性的序列,有些沉默有些可转录。重复的假基因、加工的假基因、残缺基因四、染色体染色体数目与生物特征无关,与基因组大小也无直接关联核小体:念珠状30nm 纤丝中期染色体着丝粒:将 DNA 复制后产生的 2 个染色体连接在一起,纺锤丝附着的区域。端粒:保护染色体末端免受内源核酸酶的破坏,为线性染色体的末端复制提供基础,保持染色体完整性。复制起点:每个复制子都有一个质粒:另一种独立
8、的遗传物质,含一些非必要基因,是附加的遗传成分五、基因组核基因组:24 条;线粒体基因组:环状;原核真核基因组比较:复杂性较高的生物基因组的结构大多臃肿松弛,具大量重复序列。原核则相反。原因:原核不含内含子极少重复基因数量少第二章 遗传图基因组作图:在长链 DNA 分子的不同位置特征性的分子标记,再将包括这些序列的克隆进行连锁定位,绘制基因组图。测序方法:作图法:绘制高密度分子标记遗传图和大分子 DNA 克隆重叠群覆盖的基因组物理图,然后根据分子标记所在位置将遗传图和物理图彼此衔接绘制基因组整合图。由上而下的测序。鸟枪法:全基因鸟枪法随机测序,然后将序列重叠片段构建重叠群,然后以大分子 DNA
9、 克隆为基准,最后以分子标记为基点将归并的 DNA 片段锚定到染色体上。由下而上。一、遗传图与物理图遗传作图:采用遗传分析方法将基因或 DNA 分子标记标定在染色体上构建连锁图称为遗传连锁图。单位为厘摩 cM物理作图:采用分子生物学技术直接将 DNA 分子标记、基因或克隆标定在基因组的实际位置所构建的位置图。单位厘镭 cR共同之处是确定基因或 DNA 分子标记在染色体上的排列位置,相互校正获得基因组图二、作图标记DNA 标记:限制性片段长度多态性(RFLP):由于同源染色体同一区段 DNA 序列的差异,用限制酶处理,可产生长度不同的限制性片段。特征:处于染色体上的位置相对固定同一亲本及其子代相
10、同位点多态性片段特征不变同一凝胶电泳可显示同一位点的不同多态性片段,具共显性特点。简单序列长度多态性(SSLP):同一位点重复序列的重复次数不同,包括:小卫星序列(可变串联重复) ;微卫星序列(SSR) 。后者应用普遍居多,原因:小卫星序列在基因组中分布不均匀,而微卫星序列分布在整个基因;微卫星便于PCR,小卫星重复单位较长,加之许多重复序列串接,不利于扩增。单核苷酸多态性(SNP)三、做图方法连锁分析:采用一组分子标记构建遗传图的方法主要依赖于连锁分析。重组率:交换使 2 个连锁基因分开的频率应同它们在染色体上所处位置的距离成正比,因为距离越远,位于其间的配对区段越多,交换机会越大。重组热点
11、:染色体的各个区段交换频率有差别,近端粒区和远着丝粒区有较高重组率。男女之间染色体交换频率在同一位点也有差异,各有一个性别专一重组热点连锁不平衡:群体遗传学中有关两个或多个座位的等位基因成员出现在个体中的非随机的关联性,彼此位置靠近的基因座更易表现。不同模式生物连锁分析:有性杂交实验:根据需要有计划的实施杂交方案进行分析;系谱分析不能有计划的进行试验,只能收集家系成员的相关资料;DNA 转移:不发生减数分裂的生物。如细菌。应采用部分二倍体技术方法:接合:2 细菌接触,供体转移 DNA 到受体转化:供体细胞释放 DNA,受体摄取整合转导:以噬菌体为媒介共分离:基因附近如果有一个紧密连锁的分子标记
12、,在细胞减数分裂时分子标记与基因之间由于相距太近很少有机会交换。有性繁殖的后代,分子标记与连锁的基因有最大的可能同时出现在同一个体中。四、人类遗传图绘制:1987 第一份 RFLP 连锁图,400 个标记,来自 21 个家庭;1994 第二份 5800 标记。第三章 物理图绘制1.物理图定义:直接检测 DNA 标记在染色体上的实际位置2.遗传分析图缺点:分辨率有限覆盖面和准确率低准分子标记的排列受其他因素影响,出现误差多。3二者异同:位点都有,排列顺序相同(个别有差错) ;位点相对位置不同。4.物理做图方法:限制性作图:用限制性酶切位点标定。限制:无法区分大小相同片段限制点多时大量片段无法排序
13、。稀有切点限制酶:该酶在基因组中识别的碱基顺序只有少量,可产生大段片段。注:识别碱基越长,片段越大,但受非特异顺序干扰大小受识别位点碱基大小干扰有些识别位点较长受 DNA 甲基化状态影响大分子片段的分离:脉冲凝胶电泳:用方向不断变化的电场,分离运动受阻的分子。基于克隆的基因组作图:克隆 DNA 片段的重叠来构建重叠群;大分子 DNA 克隆载体:酵母人工蛋白 YAC BAC 载体:细菌人工染色体。源于大肠杆菌 F 质粒,特点单拷贝复制,不发生嵌合分子质量大,有较大克隆容量。便于大规模生产重叠群组建:Pr 步移法:从文库中挑选一个克隆,用末端序列纯化为探针,再在文库中找第二个克隆,依次直到重叠群完
14、成。缺点:步移缓慢,仅适合小基因组。克隆指纹排序:指纹:克隆的 DNA 序列具有的特定的 DNA 片段组成。分类:限制带型指纹重复序列 DNA 指纹重复序列 DNA PCR STS 作图:根据选定的某个 STS 序列设计专一性引物,可对大量单个克隆进行 PCR 检测,凡是能扩增出挑带的克隆均含有序列重叠的插入子。 原理:一、基因组中单序列标签位点 STS 都有唯一已知序列组成;二、在染色体上位置确定;三、相邻 STS 是机械连接的,在外力或酶切作用下断裂时两 STS 出现在同一片段的几率与距离负相关。寻找 SST 方法:表达序列标签 ESTSSLP 随机基因组序列。辐射杂种作图:辐射杂种:含有
15、另一种生物染色体片段的啮齿类细胞。原理:人体细胞暴露在 X 射线中可随机断裂,辐射越大片段越小。此时将死细胞和鼠细胞融合,有些染色体片段会整合到鼠染色体中。作图方法:两个标记原本越远,发生断裂的可能性越高,随机整合后再同一杂种细胞中比例和连锁关系成正比。图距确定:厘镭,DNA 分子暴露在NradX 射线剂量下两个分子标记间发生 1%断裂的频率。荧光位点原位杂交:用荧光标记的探针杂交。通过原位杂交的方法可将基因或 DNA 分子标记定位在染色体的某一区段,来绘制染色体位置图。靶子是完整染色体。目标必须为单链。序列标签位点:PCR 或分子杂交将小段 DNA 定位。第四章 基因组测序及序列组装1.第一
16、代:特点:以待测 DNA 为模板,根据碱基互补用 DNA 聚合酶体外合成新链。新链中带有标记,可制备末端带有标记的 DNA 单链。链终止法:通过合成与单链 DNA 互补的多核苷酸链来读取待测 DNA 分子的序列。合成的互补单链可在任一位置终止。原理:反应中加入了少量的双脱氧核糖核苷酸,DNA 聚合酶不能区分 dNTP 和 ddNTP,因此可混入 DNA 单链中。但其核糖基 3c 上连接的是 H 而不是 OH,因此不能继续脱水缩合而终止新链合成。技术要点:双脱氧核糖核苷酸。电泳后最前沿 DNA 表示最小 DNA 链,是第一个 ddNTP掺入位置。依次往后间隔为 1 个碱基。由下往上依次阅读。 D
17、NA 聚合酶要求:高酶活性。使得在终止合成前酶不会脱离模板。无 53外切核酸酶活性。无 35 外切活性。不可校对。要求单链为模板。制备单链方法:将 DNA 克隆到质粒载体中,再碱变性或热变性解旋。以 M13 载体克隆单链;以噬粒载体克隆;PCR。引物的序列决定了DNA 测序起点。缺点:需终止单链合成而不能连续测序;测序长度有限,因需电泳分离 DNA 单链,分子量越大越难。化学降解法:用化学试剂处理双联,可在特定位点产生切口,再用同位素标记测序。2.基因组测序:克隆依次测序(作图测序)和 全基因组鸟枪法测序序列间隙:测序时遗漏的序列,仍然保留在尚未挑选到的客隆中。物理间隙:构建基因组文库时被丢失
18、的 DNA 序列,已从克隆群体中永久消失。两段测序:自动化测序的同一个载体只有两个引物,他们根 DNA 插入位点两侧序列设计,分别从两头测序。3序列组装作图法:根据基因组物理图上已知的 BAC 克隆从中挑取待测成员,提纯 DNA,采用机械断裂制备小分子 DNA,经电泳分离后收集 2kb 大小的 DNA 片段插入到质粒载体中进行克隆,然后进行两端测序。鸟枪法:步骤:从 2kb 随机插入片段的全基因组文库两段测序,比对读序,构建重叠群。在重叠群基础上以 10kb 随机克隆的两端成对读序为边界,归并属于该克隆范围的重叠群。以 40kb 重复。以 BAC 重复,搭建支架,填补间隙。用不同长度文库原因:
19、保留文库中可能丢失的克隆片段。任何一种载体都会因为插入某些片段发生不兼容不能扩增发生丢失。扩大覆盖面。校正由重复序列产生的差错。优点:测序速度快,无需提供相关遗传图物理图覆盖面较大缺点:基因组太大,结构复杂,会使组装的起始工作量大。短重复序列及数量分布在基因组中使组装可能出现错误。可能存在大量无法填补的间隙。4.基因测序的其他路线:重要区域优先测(人类主要组织相容性复合体 MHC)EST 测序:mRNA 经反转录可合成 cDNA,其不包括内含子,可直接测序重要信息。优点:容易构建文库只需一次 cDNA 测序即可获得 EST 序列准确性高5.人类基因组测序:物理图+鸟枪,2 个路线:全基因组组装
20、、区间化组装。第五章 基因组序列注释一、搜寻基因方法:根据已知序列分析寻找与基因相关的实验研究其产物和表型影响1.开放读框 ORF:一系列指令氨基酸的密码子, 包括起始和终止密码子。意义:搜寻及读框找出序列,根据已知规则来推测可能基因。高等真核生物 ORF 阅读困难:基因间存在大量非编码序列绝大多数基因含有非编码的内含子外显子长度不确定,不能根据长度判断。影响读码:密码子偏爱:编码同一氨基酸的密码子在不同种属间使用频率有差异。外显子内含子边界常有例外:内含子 5端称供体位,3 端受体位。上游控制序列:上游调控序列可与 DNA 结合蛋白作用控制基因表达。但常有变动。2.同源基因查询:利用数据库中
21、的基因序列与待查的进行比较,找出可匹配的碱基蛋白质序列来识别基因。查找依据:存在某些完全相同序列ORF 读框排列类似ORF 指令的氨基酸序列相同模拟的多肽高级结构相似。孤独基因:缺少同源序列的 ORF。同源性:源于同一祖先但序列已经发生变异的序列的关联性。氨基酸一致性或相似性 25%以上则为同源基因。一致性:同源 DNA 序列的同一碱基位置上相同的碱基成员或蛋白质中同一氨基酸位置相同的氨基酸成员比例。百分比表示。相似性:指同源蛋白质的氨基酸序列中一致性氨基酸的可取代氨基酸所占比例。百分比表示。3.实验确认基因分子杂交科确定 DNA 片段是否含表达序列。Northern 印迹法:分子杂交时从样品
22、中纯化的 RNA 经琼脂糖凝胶电泳分离,然后转移到杂交膜上,再将待测 DNA 标记后与 RNA 杂交,如果 RNA 中含有 DNA 的转录产物,则会有信号。问题:基因转录产物可变剪接或是多基因家族成员,也会出现多个信号基因的表达具有组织专一性和发育阶段的差别而使 RNA 样品不一定含有基因产物 不同基因表达产物丰度差大,对低拷贝产物应提高上样量。如用拟 Northern 分析法。动物园杂交法:一些亲缘关系近的物种,编码区相似度高,非编码区低,如果与亲缘物种DNA 片段杂交产生阳性信号,说明该段有编码基因。EST 和 cDNA 指认基因:可以发现漏注基因,还可以找内含子外显子边界。不利影响:目标
23、 cDNA 在文库中占比很低。解决:将文库分为若干亚群,进行初筛。或cDNA 均一化,抑制高拷贝 cDNA 数量,增加低拷贝数量。 mRNA 分子有时会产生二级结构,逆转录酶遇到二级结构就终止,从而产生残缺 cDNA。解决:高温减少二级结构生成。全长 cDNA 边界序列文库构建 =基因鉴别信号 GIS:以 SAGE 技术为基础,结合全长 cDNA克隆,专门分离其 5 端 3 端各 20 个碱基序列,建立所有末端多连体 CIS 文库。过程:合成全长 cDNA,连首尾接头,纯化后连接载体,扩增,凝胶分离 50bp 二连体 DNA,混合插入载体克隆,测序比对确定边界。基因命名:座位:不是基因的同义词
24、,而由遗传标记指定的染色体连锁图上的某位置。二、基因注释计算机注释用同源性比较。同源包括:直系同源基因:不同物种间同源基因。共生同源基因(平行同源):同一物种基因因倍增产生。倍增基因:基因组加倍产生。三、基因功能检测1.遗传分析路线和基因功能研究的不同:前者 反求遗传学,从基因出发,有目的改变靶基因来观察表型。后者正向遗传学,从表型到基因。2.基因失活是主要手段。但表型效应有时不易观察。基因剔除:将无关 DNA 片段取代某一特定基因。原理:在无关片段两侧连接与代换基因两端相同序列,导入目的细胞,同源重组后整合到了目标染色体上。3.基因过量表达(功能增益):增加拷贝采用强启动子四、高通量基因功能
25、研究方法1.构建突变库:要求:突变体可以稳定遗传可以有效快速地分离突变基因可反复不断产生突变基因标签法:利用转座子构建插入突变库,系统地分离与克隆功能基因和调控序列。依据:植物细胞全能型,外源基因可表达转座子的随机插入可获得大量突变,根据插入来合成探针,可分离被破坏位点来分析组成可发生回复突变。Ac-Ds 转座子系统原理:Ac 因子转座酶基因构建嵌合载体;外显子捕获载体构建;植株AB 杂交;增强子捕获载体。2.蛋白质互作:互作的两个蛋白,一个已鉴定,则可分离分析另一蛋白。噬菌体外显:检测基因和噬菌体外壳蛋白基因融合,当遇到互作蛋白会发生聚合,纯化后检测。酵母双杂交系统。五、组学转录物组:某一条
26、件下单个或一组细胞具有的 mRNA 总和,可由 SAGE 基因表达系列分析六、基因本体:通用词汇体系。分为三方面,细胞组分,生物学过程,分子功能,其编排是以树形图方式展开来对基因和基因功能进行描述的。第六章 基因组解剖一、原核基因组解剖操纵子、最小基因组、完美基因组二、真核染色体数目:一种蚂蚁最短;染色体组型(核型) ;染色体核型分析;染色体显带:有些染料可以和中期染色体特异性结合产生独特带型;常染色质和异染色质区别:异:分布在细胞核周缘,染色深,结构紧密,使控制基因表达的蛋白无法接近 DNA、常:染色浅,基因松散有活性,调控因子可以接触。异染色质:组成型:不含任何基因,持久保持致密,例如着丝
27、粒和端粒。兼性:周期性处于活性状态。异常染色体:小染色体:体积小,但富含基因。B 染色体:正常染色体的断片,存在时会影响生物表型。DNA 环:中期染色体除去结合蛋白剩下的从致密蛋白骨架向外伸展的 DNA 环。核基质:类似支架的网状结构,分布在整个细胞核中结构区域:被核基质分隔成的相对独立的区域骨架附着区:染色体骨架结合着的 DNA 序列基质附着区:核基质结合的 DNA 序列等高线:连续分布的具有相似碱基组成的 DNA 区段,在基因组中成片镶嵌排列。CpG 岛:指基因组中富含双碱基 CpG 的序列,GC 含量 60%-70%。分布:人染色体的 R 带区;管家基因和大部分组织专一性表达基因的 5侧
28、翼区以及第一个外显子区。特点:分布、CpG 岛中 CpG 双碱基均为甲基化。作用:CpG 岛总与基因相连,可作为寻找基因依据。遗传图和物理图比较启示:重组率随染色体长度增加而递减近着丝粒区重组受影响染色体连锁不平衡区的碱基组成和基因组成有明显特征,表明其受到自然选择的影响。操纵子与原核比较:没有操纵基因序列内部多顺反子之间间隔序列更长多顺反子具有外显子和内含子结构,转录产物首先通过反式剪接产生单个顺反子前体 mRNA,再进行内含子切除外显子连接。细胞器基因组:半自主性细胞器,基因组为多拷贝大小与生物复杂性无关具有编码rRNA 基因,呼吸链基因,部分含 tRNA 基因线粒体基因组和叶绿体基因组比
29、较:线粒体:结构非均一;不同种属间大小差距较大;含有大量短序列正向或反向重复,产生很多分子内重组。叶绿体:结构紧凑;不同种属基因组大小较恒定;具有两段很长的反向重复序列,阻止分子内重组。细胞器基因组起源:内共生学说:曾是游离细菌,与远古真核细胞结合,并最终定居。依据:基因表达过程与细菌非常相似。细胞器基因可以进入核基因而相反则不能,由于基因必须获得一段转移信号肽序列才能使其编码蛋白质再进入细胞器。三、 、转座子和分散重复序列DNA 转座子:DNA 直接转座;包括:复合转座子、Tn3 型转座子、可转座噬菌体。RNA 转座子:以 RNA 为中介进行转座。包括:LTR 因子(含有负责转座的长末端重复
30、序列):真核生物逆转座子、内源逆转录病毒、逆转座子。非 LTR 因子:LINE 长散在原件(含转座酶基因) 、SINE 短散在原件(无转座酶基因,需用寄主转座酶)四、串联重复序列卫星 DNA、小卫星序列、微卫星序列五、人类基因组:小的原因:人类基因的 mRNA 具有更多的可变剪切方式。人类蛋白质组含有的域构建类型多。第十章 表观遗传一、表观遗传:与 DNA 序列组成,基因空间位置,染色质构型变化,DNA 碱基修饰有关定义:染色体区域的一种适应性结构,可使改变的活性状态注册、传导或持续。表观遗传特点:主体是染色质活性可变性核心是染色质结构改变染色质结构变化可以是持续的或非持续的染色质活性和结构改
31、变由程序控制。表观遗传学特点:研究基因如何发挥功能及互作关系研究范畴只涉及 DNA 序列之外使基因表达模式改变并可稳定遗传的因素副突变:不涉及基因突变,通过等位基因互作改变基因表达模式并遗传。包括:副突变基因(诱导) 、可副突变基因、已副突变基因。位置效应:基因由于染色体位置变化而使表达改变基因组印记(亲代印记):等位基因来自不同性别亲本而在发育过程中经专一性(甲基化)加工使表达模式发生可遗传变化。表观遗传机制:染色质重建:染色质由收缩状态向伸展开放状态的转变;DNA 甲基化二、位置效应类型:因染色质的物理状态处于极度收缩而使活化因子无法接触内部基因而关闭有座位控制区 LCR 在 5 端上游对
32、下游进行调控。座位控制区与下游基因组成功能域。绝缘子:可以制止临近位置激活或失火的序列,作用仅限于隔绝相邻染色质区域影响,对其本身表达活性无关。定向控制:绝缘子效应具方向性。单等位基因表达:2 个等位基因成员只有一个选择性表达。三、DNA 甲基化原理:将 S-腺苷甲硫氨酸的甲基基团转移到 DNA 的碱基结构中。低等真核:腺嘌呤甲基转移酶,高等:胞嘧啶特点确定细胞命运决定基因表达模式的重要因素在上下代间传递只修饰影响表型和遗传而不改变碱基方式:局部影响染色质结构组织转录因子与启动子/增强子结合控制基因表达。大范围影响染色体基因表达四、染色质重建和核小体1.核小体相位(定位):指一段序列确定的 D
33、NA 与核小体核心八聚体的结合方式。方法:内在要求,合适的 DNA 序列优先定位;外在影响,第一个定位随后加入的以第一个为基准按限定长度重复组装。平移定位:移动 10bp 时缠绕核小体的序列会改变位置,但不改变 DNA 序列朝向旋转定位:移动小于整圈螺旋碱基对数(10.2bp)原有序列朝向发生变化。均通过影响蛋白质和 DNA 的接触来调控基因表达。转录时核小体移位:RNA 酶接近核小体时停止移动,热力学校应使其继续位移,聚合酶侵入缠绕在核小体上的 DNA 内部,并使其暂离核小体,转录后复位结合,重复发生 DNA 依次环突直到转录完成。2.先入模型:转录起始复合物取代启动子区核小体核心组蛋白位置
34、,争夺 DNA爪蟾:卵母细胞 5S rRNA 基因+体细胞 5S rRNA 基因,仅在 ICR5 端有 3 到 6 个碱基差别,囊胚期前前者主导,囊胚期后优势转变,原肠胚到体细胞使其后者主导。动态模型:蛋白质之间互作和蛋白质 DNA 间接触需要 ATP 参与五、表观遗传通路:表观遗传是由程序严格控制的。分子机制:产生表观遗传的初始原因:表观源,诱导发生;信号,指导确立染色质重建的范围和模式:表观起始子;代际间维持和传递:表观维持子。组蛋白修饰:甲基化乙酰化磷酸化泛素化。使染色质松弛原因:减少位于 NH4+的正电荷,降低组蛋白与 DNA 亲和性,减弱核小体间相互作用。表观遗传密码假说:每个真核细
35、胞具有的修饰总和,由组蛋白密码和 DNA 甲基化组成组蛋白密码假说:组蛋白的化学修饰可部分调控储存在 DNA 中的信息表达。第十三章 基因组进化模式一、 遗传系统的起源最初的生命:自我复制、积累变异保持遗传。核酶:自我剪接催化切断其他 RNA催化肽键形成催化核苷酸合成类膜结构:使生化反应更集中为过滤和选择周围环境的化学分子提供了可能催化功能的蛋白质出现后,定位在脂膜上的蛋白质可以组成有序的反应链,为建立细胞结构奠定基础。氧化还原反应是生命利用化学能构建有序物质形态的生化基础。蛋白质的催化优点:多肽链有更大可塑性,RNA 分子长度有限且配对区物理刚性较大。RNA 催化活性转移到蛋白质是 RNA
36、原始基因组功能的根本性改变,使 RNA 与蛋白质分工明确,进而提高整个系统的效率。此后 RNA 和蛋白质联手以 RNA 为模板合成 DNA。古细菌的转录和翻译相关基因的起源与真核生物更接近,而代谢基因与真细菌接近。二、 新基因两次扩张:第一次:14 亿年前真核生物出现,10000 基因。第二次寒武纪脊椎动物出现。新基因产生方式:基因加倍后趋异外显子或结构域洗牌逆转录及其后的趋异或重排外源基因水平转移基因裂变和融合非编码序列转变为编码序列。基因加倍方式:基因组加倍;单条或部分染色体加倍;单个或成群基因加倍。多数核苷酸序列变化会造成基因失活,成为假基因,少部分会形成新的功能,对进化做贡献。2R 假
37、说:在无颌类脊椎动物出现之前和之后分别有一次全基因组的加倍,即脊椎动物有两次。 尽管脊椎动物中发生过加倍,但大多数加倍基因为保留下来或失去功能,因此脊椎动物中很少有完整的多倍体物种。可能和动物的封闭式发育模式有关,胚胎时几乎所有未来气管原基在同时产生,需要高度协同,多倍体带来的基因剂量不平衡会产生致命影响。而植物的开放式,营养器官可以不断重复产生,且绝大多数细胞可独立从外界获取能量,减小了器官彼此的依赖程度,可以忍受多倍体带来的影响。基因加倍可以通过基因测序和EST 分析发现。基因加倍:不等交换:位于同源染色体上不同位置的相似核苷酸序列之间发生的重组事件,结果是在重组区段产生重复 DNA。姐妹
38、染色体间的不等交换。基因重复:脊椎动物的进化动力。区段重复(低拷贝重复):基因组中两个或多个位置具有连续的相同 DNA 序列,是基因组进化的主要方式之一,灵长类很多。基因组融合:原核和真核内共生产生线粒体叶绿体,原核生物之间 DNA 水平转移,植物异源多倍体都是基因组融合促使生命形式多样化的例子。外显子或功能域洗牌:由不同基因中编码不同结构域的片段彼此连接形成新的序列。外显子洗牌:外显子可以作为独立的模块用来构建不同的蛋白质,是新基因产生的重要途径。证据:蛋白质中外显子编码的多肽链形成一个相对独立的结构域内含子的排列位置常常落在两个相邻的具有独立结构或功能的多肽链编码序列间与独立空间构型形成有
39、关的氢键二硫键主要存在外显子编码的多肽链中蛋白质中重复的外显子多肽链产物总和重复结构或功能单元对应非同源基因中同源的外显子多肽链产物具有相似结构或功能。功能域加倍:编码结构域的基因区段可因不等交换或 DNA 加倍使拷贝增加,进而发生突变。原核生物 DNA 水平转移:自私操纵子,非必须基因在不断获取丢失中趋向组成功能协调和便于共调节的操纵子转化。真核生物:逆转录病毒。重复基因突变后的命运:趋异成为新基因调控序列的突变而拥有新的表达模式处于进化之中与祖先基因在功能上重叠,表现为冗余基因丧失功能成为假基因丢失。冗余基因:重复后多余出来的基因,包括:年轻的重复基因正在向新功能过渡的保留部分功能重叠的同
40、源基因包括:直系:不同物种中起源于同一祖先的基因;共生:加倍产生的重复基因。三、 非编码序列的扩张非编码序列包括:高度重复序列转座因子,逆转录转座子+DNA 转座子,分布在整个基因组其他的基因间和内含子中的非编码序列。转座因子 TE 对基因组进化的影响:促使染色体区段的重组和交换;提供转录调控原件;增添前体 mRNA 的剪接信号和加尾信号;提供新的蛋白质的编码序列。序列扩张途径:基因组或染色体区段的重复转座子的活化增加拷贝。内含子起源:I/II/III 型起源于 RNA,争论围绕在 GU-AG 内含子内含子早起源假说:在生命起源早期就存在,随进化丢失。内含子晚起源:进化中出现而逐渐累积。四、
41、比较遗传学比较基因组学:在基因组水平上研究不同物种和品系之间在基因组结构与功能方面的亲缘关系及内在联系的一门交叉学科。通过大量生物信息的收集整理,发现自然选择信号与进化轨迹,了解进化过程和机制。基因共线性(同线性):在许多亲缘物种中,除了基因组组成相似外,序列也存在一致性。其可出现在不同基因组的对应区段或同一基因组不同染色体位置。破坏基因组同线性因素:转座、插入、染色体重排、区段加倍和缺失。用基因同线性程度估算物种分化年代时应避免高保守和高变异区段。同线性难进行跨种的基因分离:因为近源物种基因组在很多区段显示了很好的宏观同线性,但微观同线性并不完美,往往被局部插入、倒位、缺失打乱基因岛:区段基
42、因密度比全基因组平均密度高得多。基因岛上的基因群常常有功能相关性,可能因此造成基因的紧密连锁。基因协同进化:执行同一生物学功能的基因有相伴丢失或进化的趋势。直系同源集簇:由一个共同祖先基因衍生的一组基因,包括不同基因组中执行统一生物学功能的种间同源无,也包括同一基因组中因加倍产生的共生同源基因。基因调控序列的保守性:生长发育中起重要作用的基因一般都具有很强保守性第十四章 基因组与生物进化一、 分子系统发生学趋同进化(平行演化):两个分开的种系在进化中出现相同形状祖征性状:远古祖先具有的形状;衍征性状:更为近代的共同祖先因进化产生的性状。分子系统发生学:根据同源 DNA 序列和蛋白质氨基酸序列的
43、差异构建分子进化树,并依次研究生物进化关系的学说。优点:许多分子特征科同时记分分子特征的状态界限分明分子资料便于转换为数学形式。DNA 系统发生树:根据 DNA 序列代换的比率构建的进化树。分子钟:单位时间内同源蛋白质氨基酸顺序或 DNA 核苷酸序列取代的比率。以百万年发生单个代换为单位。可用于估算祖先序列烟花时间,确立系统发生树的进化年代。分子种差异来源:物种间进化速度差异不同基因经受的选择压力各异不同生物世代周期长短不同。所以建立系统发生树前应线确定所建树目标。二、 生物进化现代人起源:多区域进化假说:直立人群体在旧大陆的不同地区定居后逐渐演变为现代人群体;走出非洲(诺亚方舟、伊甸园)假说:一支古人类群体走出非洲进入欧亚大陆,随后迁徙到世界各地并取代了居住在当地的直立人。聚类:起源同一祖先的物种,亲缘越近,保留的突变方式越相似。比较突变模式即可进行共同祖先分析。单倍型:为了减少因重组带来的分析干扰,种内个体变异分析常挑选在基因组中仅有单拷贝或不发生交换重组的遗传成分。单倍群:根据最近共同祖先聚类的一组相关单倍型,具有地理分布的特征。连锁不平衡:连锁基因的不同组合在群体中出现的频率偏离期望值。由于物理距离靠近或其他原因很难发生交换,常作为一个单元遗传给下一代。三、 基因组和生物多样性生物多样性基因水平原因:结构与洗牌产生新基因基因重复产生功能类似的基因家族