1、生物信息学复习题 二、问答题 1) 生物信息学的发展经历了哪几个阶段 Bioinformatics has gone through What are the stages 答:生物信息学的发展经历了 3 个阶段。 第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及 DNA 和蛋白质序列分析为主要工作; 第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。 第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种 基因组学研究。 2) 生物信息学步入后基因组时代后,其发展方向有哪几个方面
2、。 Bioinformatics into the post-genomic era, its development direction which aspects 答:生物信息学步入后基因组时代后,其发展方向主要有: 各种生物基因组测序及新基因的发现;单核苷酸多态性( SNP)分析;基因组非编码区信息结构与分析;比较基因组学和生物进化研究;蛋白质结构和功能的研究。 3)美国国家生物技术信息中心( NCBI)的主要工作是什么?请列举 3 个以上 Entrez 系统可以检索的数据库。( NCBI 维护的数据库) NCBI 的 主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问
3、题。为科学界开发,维护和分享一系列的生物信息数据库;开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则的标准化。维护的主要数据库包括 答: PubMed、核酸序列数据库 GenBank、 PROW、三维蛋白质结构分子模型数据库 MMDB。 4)序列的相似性与同源性有什么区别与联系? Sequence similarity and homology What is the difference with the contact? 答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。 P1
4、47 5) BLAST 套件的 blastn、 blastp、 blastx、 tblastn 和 tblastx 子工具的用途什么? 答: blastn 是将给定的核酸序列与核酸数据库中的序列进行比较; Blastp 是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系; Blastx 将给定的核酸序列 按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和 EST 很有用; Tblastn 将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用; Tblastx 只在特殊情况下使用,它将 DN
5、A 被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。 P97 6)简述 BLAST 搜索的算法思想。 BLAST search algorithm outlined ideas. 答: BLAST 是一种局部最优比 对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字 ”word”;当一定长度的的字( W)与检索序列的比对达到一个指定的最低分( T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段( HSP),程序将最好的 HSP 双向扩展进行比
6、对,直到序列结束或者不再具有生物学显著性,最后所得到的 序列是那些在整体上具有最高分的序列,即,最高分匹配片段( MSP),这样, BLAST 既保持了整体的运算速度,也维持了比对的精度。 P95 7)什么是物种的标记序列? What is a species marker sequences? 答:指物种特有的一段核苷酸序列。可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。 8)什么是多序列全局比对的累进算法?(三个步骤) What is more progressive sequence global alignment algorith
7、m? (Three steps) 答:第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按 相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。 P52 9)简述构建进化树的步骤,每一步列举 1-2 种使用的软件或统计学方法。 Phylogenetic tree was constructed outlined steps, each step listed 1-2 kinds of software or statistical methods. 答:( 1)多序列比对: Clustal W ( 2)校对比对结果: BIOEDIT ( 3)建树: M
8、EGA ( 4)评估系统发育信号和进化树 的牢固度:自举法( Bootstrap) P114 10)简述除权配对法( UPGMA)的算法思想。 Descriptions ex pairing method (UPGMA) algorithm for thought. 答:通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。 P119 11)简述邻接法( NJ)构树的算法思想。 Description adjacency (NJ) method config
9、uration tree algorithm ideas. 答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。 P117 12)简述最大简约法( MP)的算法思想。 P68Descriptions maximum parsimony (MP) algorithm ideas 答:是一种基于离散特征的进化树算法。 生物
10、演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如 DNA 不同位点进化速率不同)而对其进行不同的加权处理 。 P120 13)简述最大似然法( ML)的算法思想。 P69Descriptions maximum likelihood (ML) algorithm ideas 答: 是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后 对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。
11、 P122 14) UPGMA 构树法不精确的原因是什么? P69UPGMA method papyrifera What is the cause inaccurate 答:由个于 UPGMA 假设在进化过程中所有核苷酸 /氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对 来说不准确的。P119,倒数第 2 段,前 4 行。 15) 在 MEGA2 软件中,提供了哪些碱基替换距离模型,试列举其中 3 种,解释其含义。 In MEGA2 software, which provides a base substitutions
12、 distance model, in which three kinds cite to explain their meaning. 答:碱基替换模型包括, No.of differences 、 p-distance、 Jukes-Cantor distance、 T ajima-Nei distance、Kimur 2-parameter distance、 Tamura 3-parameter distance、 Tamura-Nei distance p-distance: 表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到 Jukes-C
13、antor:模型假设 A T C G 的替换速率是一致的,然后给出两个序列核苷酸替换数的最大似然估计 Kimura 2-parameter:模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中 4 钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的 16)列举 5 项 DNA 序列分析的内容及代表性分析工具。 Enumerate five DNA sequence analysis of the content and representativeness analysis tools. 答: ( 1)寻找重复元件: RepeatMasker ( 2)同源性检索确定是否存在已知基因
14、: BLASTn ( 3)从头开始方法预测基因: Genscan ( 4)分析各种调控序列: TRES/DRAGON PROMOTOR FINDER (5) CpG 岛: CpGPlot P130,表格 代表性工具: ORF Finder、 BLASTn、 tBLASTx、 BLASTx、 Gene Wise 17)如何用 BLAST 发现新基因? How to discover new genes using BLAST? 答: 从一个一直蛋白质序列开始,通过 tBLASTn 工具搜索一个 DNA 数据库,可以找到相应的匹配,如与 DNA 编码的已知蛋白质的匹配或者与 DNA 编码的相关蛋白
15、质 的匹配。然后通过 BLASTx 或BLASTp 在蛋白质数据库中搜索 DNA 或蛋白质序列来“确定”一个新基因。 18)试述 SCOP 蛋白质分类方案 Shishu SCOP protein classification scheme 答: SCOP 将 PDB 数据库中的蛋白质按传统分类方法分成型、型、 /型、 +型,并将多结构域蛋白、膜蛋白和细胞表面蛋白、 N 蛋白单独分类,一共分成 7 种类型,并在此基础上,按折叠类型、超家族、家族三个层次逐级分类。对于具有不同种属来源的同源蛋白家族, SCOP 数据库按照种属名称将它们分成若干 子类,一直到蛋白质分子的亚基。 19) 试述 SWIS
16、S-PROT 中的数据来源 。 Shishu SWISS-PROT data source. 答: ( 1)从核酸数据库经过翻译推导而来; ( 2)从蛋白质数据库 PIR 挑选出合适的数据; ( 3)从科学文献中摘录; ( 4)研究人员直接提交的蛋白质序列数据 。 20) TrEMBL 哪 两个部分 ? TrEMBL Which two parts? 答: ( 1) SP-TrEMBL(SWISS-PROT TrEMBL) 包含最终将要集成到 SWISS-PROT 的数据,所有的 SP-TrEMBL 序列都已被赋予 SWISS-PROT 的登录号。 ( 2) REM-TrEMBL(REMain
17、ing TrEMBL) 包括所有不准备放入 SWISS-PROT 的数据,因此这部分数据都没有 登录号。 21) 试述 PSI-BLAST 搜索的 5 个步骤。 Shishu PSI-BLAST search of five steps. 答: 1 选择待查序列 ( query) 和蛋白质数据库; 2 PSI-BLAST 构建一个多序列比对,然后创建一个序列表谱( profile)又称特定位置打分矩阵( PSSM); 3 PSSM 被 用作 query 搜索数据库 4 PSI-BLAST 估计统计学意义 (E values) 5 重复 3 和 4 , 直到没有新的序列发现。 22)列举 5 种
18、常用的系统发育分析软件 PHYLIP、 PAUP、 MEGA、 PAML、 TreeView。 Enumerate five kinds of commonly used phylogenetic analysis software PHYLIP, PAUP, MEGA, PAML, TreeView. 三 . 操作与计算题 1.如何获取访问号为 U49845 的 genbank 文件?解释如下 genbank 文件的 LOCUS 行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 答:( 1)访问 NCBI 的 Entrez 检
19、索系统,( 2)选择核酸数据库,( 3)输入 U49845 序列访问号开始检索。 第一项是 LOCUS 名称,前三个字母代表物种名 第二项是序列长度 第三项是序列分子类型 第四项是分子为线性的 第五项是 GenBank 分类码 第六项是最后修订日期 P13 2.利用 Entrez 检索系统对核酸数据搜索,输入如下信息,将获得什么结果: AF114696:AF114714ACCN。 P35 答:获得序列访问号 AF114696 到 AF114714 之间的连续编号的序列。 3.相比使用 BLAST 套件搜索数据库, BLAST2 工具在结果呈现上有什么优点? 答: BLAST2 序列分析工具,它
20、能进行两条序列的精确比对,同时给出两序列的图形化比对结果和文本形式的联配结果。 4.MEGA2 如何将其它多序列比对格式文件转化为 MEGE 格式的多序列比 对文件? 答:( 1)选择菜单 file,( 2)选择 Text File Editor and Format Coverter 工具,( 3)调入需要转换的序列和相应的格式,( 4)获得转换后的 MEGA 格式的文件并保存。 5.什么简约信息位点 Pi? 答:指基于 DNA 或蛋白质序列,应用最大简约法构建系统发育树时,如果某个位点的状态存在两种或两种以上,每种状态出现两次或两次以上,这样的位点称简约信息位点。 6. 以下软件的主要用途
21、是什么? The main purpose of the following software is what? RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction. 答: RepeatMasker:是对重复序列进行分析的软件 GpGPlot:用来查找一条 DNA 序列中 CpG 岛,使用 Gardine-Garden 和 Frommer 描述的方法 Splice View:是对一段序列进行剪接位点的分析即其中的受体和供体位点 Genscan:是一种从头分析工具
22、ORF finder:是 用来分析序列 ORF 的工具 neural networkpromoter prediction:神经网络启动子预测是另外一种分析启动子的方法 7.为下面的序列比对确定比对得分:匹配得分 = +1,失配得分 = 0,空位得分 = -1。 7 In order to determine the following sequence alignment alignment score: matching score = +1, mismatch score = 0, vacancy score = -1 TGTACGGCTATA TC - -CGCCT -TA 答: TT
23、 1 GC 0 T- -1 A- -1 CC 1 GG 1 GC 0 CC 1 TT 1 A- -1 TT 1 AA 1 最后得分 1+0+( -1) +( -1) +1+1+0+1+1+( -1) +1+1=4 8. 用 UPGMA 重建系统发生树,距离矩阵如下: Phylogenetic trees were reconstructed using UPGMA, distance matrix as follows 物种 A B C D B 9 C 8 11 D 12 15 10 E 15 18 13 5 答:用 Newick 格式表示的树图:( AC) B)( DE)。 分析过程: (
24、1)两条序列间的最小距离是 dDE,所以物种 D 和 E 聚到一组,如下图。 (2) 计算新的距离矩阵,其中复合物种( DE)替换 D 和 E,如下表。其他物种与新物种组之间的距离由它们与组中两个物种( D 和 E)之间距离的平均值决定 ,如, d( DE) A=1/2( dAD+dAE) =1/2(12+15)=13.5 物种 A B C B 9 C 8 11 DE 13.5 16.5 11.5 第二次聚类在 A 和 C 之间,组成 AC 类。如下图, (3) 将 A 和 C 合并,计算新的矩阵,如下表,最后一次聚类( AC) B)将物种 B 的分支点放在( AC)和( DE)的共同祖先之间
25、。 物种 B AC AC 10 D E DE D E A C (AC)(DE) DE 16.5 12.5 9.画出 4个物种的 3 棵不同的无根树 .这 4个物种 在某位置上的核苷酸分别是 T,T,C 和 C,为每个内部节点推断的祖先序列 , 标出最可能的候选核苷酸 . 3 棵可能的无根树中有几棵是一样简约的 (因为他们有最小替换数 )?有几棵树的替换树是 2?,有大于 2 个替换的树吗 ?Draw four species three different unrooted tree. These four species of the nucleotide at a certain posi
26、tion are T, T, C, and C, for each internal node in the ancestral sequence deduced, marked most likely candidate nucleotides 3 possible unrooted tree is the same as in the simple trees (because they have a minimum number of replacements)? replacement of a few trees tree 2?, there are more than two tr
27、ees replace it? 答:D (C )C (C )B (T )A(T )D (C )B (T )C (C )A (T )D (C )A (T )B (T )C (C )(T ) (C )(T ) (T )(T ) (T )2 棵一样简约,替换树为 2; 2 棵;没有。 10.试述 蛋白质三维结构预测的三类方法 Describe the three types of protein structure prediction methods ( 1)同源建模, 对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型,序列相似性低于
28、30%的蛋白质难以得到理想的结构模型;( 2)在已知结模板的序列一致率小于 25%时,使用折叠识别方法进行预测;( 3)在找不到已知结 构的蛋白质模板时使用从头预测的方法。 P178-181 11. 简述 BLAST 中 E 值和 P 值的意义? Brief BLAST E-value and P values in the meaning? 答: E 期望值 (E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看, E 值越小,比对结果越显著。默认值为 10,表示比对结果中将有 10 个匹配序列是由随机产生,如
29、果比对的统计显著性值 (E 值 )小于该值(10),则该比对结果将被检出,换句话说, 比较低的 E 值将使搜索的匹配要求更严格,结果报告中D E A C (AC)B)(DE) B 随机产生的匹配序列减少。 p 值表示比对结果得到的分数值的可信度。一般说来, p 值越接近于零,则比对结果的可信度越大;相反, p 值越大,则比对结果来自随机匹配的可能性越大。 12. 举例说明蛋白质序列、结构和功能的关系。 Example protein sequence, structure and function relationships. 答:蛋白质的一级结构即氨基酸序列决定其高级结构和功能。通过比较同源
30、蛋白质的氨基酸序列的差异可以研究不同物种亲缘关系和进化 。亲缘关系越远,同源蛋白质氨基酸序列差异就越大。基因突变引起某个功能蛋白的某一个或几个氨基酸残基发生了遗传性替代,从而导致整个分子的三维结构发生改变,功能部分或全部丧失。一级结构的部分切除与部分蛋白质的激活具有密切关系。蛋白质多种多样的生物功能是以其化学组成和极其复杂的结构为基础的,不仅需要一定的空间构象,蛋白质的空间构象取决于其一级结构和周围环境。蛋白质的生物学功能是蛋白质分子天然构象所具有的的属性或所表现的性质。 例如:胰岛素。首先合成前胰岛素原,前胰岛素原含信号肽,在内质网中,信号肽被信号肽酶切除成为 胰岛素原;随即在高尔基体切除
31、A、 B 链之间的一段氨基酸(称为 C 肽),形成胰岛素。 不同种属的胰岛素有 24 氨基酸残基的位置始终不变: A、 B 链上 6 个 Cys 不变,其余 18 个氨基酸多数为非极性侧链,对高级结构起稳定作用。 6 个 Cys 的位置始终不变,说明不同种属的胰岛分子中 A、 B 链之间有共同的连接方式,三对二硫键对维持高级结构起着稳定作用。 请阐述生物信息学研究的主要内容。 The main contents of bioinformatics research. 生物信息学作为一门新的交叉学科, 其研究范畴是以基因组 DNA 序列的信息分析作为出发点,分析基因组结构,寻找或发现新基因,分析
32、基因调控信息,并在此基础上研究基因的功能,研究基因的产物即蛋白质,模拟和预测蛋白质的空间结构,分析蛋白质的性质,其结果将为基于靶分子结构的药物分子设计和蛋白质分子改性设计提供依据。当前,生物信息学已在理论生物学领域占有了核心的地位。 生物信息学主要有以下几个方面的研究内容。 ( 1) 生物分子数据的收集与管理 ; ( 2) 数据库搜索及序列比较 ; ( 3) 基因组序列分析 ; ( 4) 基因表达数据的分析和处理 ; ( 5) 蛋白质结构预测 。 从生 物分子数据的收集和管理到数据库搜索,从基因组序列和基因表达数据分析到蛋白质结构与功能的研究形成生物信息学研究的主线,进一步的工作还包括药物分子
33、设计和蛋白质设计。 简述分子生物学中的“中心法则”。 A brief description of the “Central Dogma“ in molecular biology. DNA是遗传物质,是携带遗传信息的载体。信息从基因的核苷酸序列中被提取出,用来指导蛋白质合成的过程对地球上的所有生物都是相同的,分子生物学家称之为中心法则 (central dogma)。 “中心法则 ”的核心: DNA分子中的遗传信息转录( transcription)到 RNA分子中(即 RNA聚合酶以 DNA为模板合成 RNA),再由 RNA翻译( translation)生成体内各种蛋白质,行使特定的生物
34、功能。 国际上有哪几个著名的核酸序列数据库? The three well-known international nucleotide sequence database. 核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心( NCBI )的 GenBank (http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html),欧洲分子生物学实验室的 EMBL-Bank(简称EMBL, http:/www.ebi.ac.uk/embl/index.html),日本遗传研究所的 DDBJ (http
35、:/www.ddbj.nig.ac.jp/)。三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的 DNA 和 RNA 序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。数据库中的每条记录代表一个单独、连续、附有注释的 DNA 或 RNA 片段。 简述 Alignment 基本原理。 The basic principles of Alignment. 两条序列的比对( alignment)是指这两条序列中各个字符的一种一一对应关系,或字
36、符对比排列。序列的比对是一种关于序列相似性的定性描述,它反映在什么部位两条序列相似,在什么部位两条序列存在差别。最优比对揭示两条序列的最大相似程度,指出序列之间的根本差异。 对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除字符,使得两条序列达到一样的长度,并使两条序列中相同的字符尽可能地一一对应。设两条序列分别是 s 和 t,在 s 或 t 中插入空位符号,使 s 和 t 达到一样的长度。在进行序列比对时,可根据实际情况选用代价函数或得分函数 。两条序列 s 和 t 的比对的得分(或代价)等于将 s 转化为 t 所用的所有编辑操作的得分(或代价)总和 , s 和 t 的最优比对是所有
37、可能的比对中得分最高(或代价最小)的一个比对 , s 和 t 的真实距离应该是在得分函数 p 值(或代价函数 w 值)最优时的距离。 请简要介绍基因组序列分析步骤。 The steps of genome sequence analysis. 基因组序列分析步骤 一般如下: ( 1)发现重复元素。这是重要的一步,因为重复元素会给 DNA 序列分析带来许多问题。所以,一般先寻找并屏蔽重复的和低复杂性的序列,然后寻找基因以及与其相关的调控区域。 ( 2)数据库搜索。通过数据库搜索,发现相似序列或者同源序列,根据相似序列具有相似结构及相似功能的原理,通过类比,得到关于待分析序列的初步信息,指导进一步
38、的详细序列分析。 ( 3)分析功能位点。其主要目的是识别 DNA 序列上存在的序列信号,具体地说,就是特殊的片段。这些片段与基因及调控信息有关,如转录剪切位点、启动子、起始密码子等。对于基因识别问题来说,信号识别有助于确定基因所在的区域。 ( 4)序列组成统计分析。蛋白质编码区域与非编码区域在 DNA 序列组成上具有明显不同的统计特征,编码序列具有三联周期性,编码区域多联核苷酸出现频率与非编码区域不同。因而,可以通过统计分析预测基因的编码区域,预测一段 DNA 序列成为编码区域的可能性,寻找可能的基因外显子。 ( 5)综合分析。综合数据库搜索、功能位点分析、序列组成分析等的阶段性结果,检查这些
39、结果的相容性,经过整理,最终得到一致性的分析结果。 请简要介绍基因识别及主要原理。 The gene recognition and main methods. 由于 DNA 测序技术的迅速发展,我们已经得到一些完整的基因组序列,有效地解决基因识别问题显得越来越迫切。基因识别中的一个关键问题是预测编码区域。所谓编码区域预测,一般是指预测 DNA 序列中编码蛋白质的部分,即基因的外显子部分。而基因识别的最终目标是预测完整的基因结构,正确地识别出一个基因的所有外显子及其边界。 识别 DNA 序列中蛋白质编码区域的方法主要有两类。一类是基于特征信号的识别。真核基因外显子(编码区域)具有一些特别的序列
40、信号,如内部的外显子被剪切接受体位点和给体位点所界定,5-端的外显子 一定是在核心启动子(例如 TATA 盒)的下游,而 3-端的外显子的下游包含多聚信号和终止编码。根据这些序列特征信号确定外显子的边界,从而达到识别编码区域的目的。 然而没有一个算法在预测基因时仅仅检测这些信号,因为这些信号的强度太弱,它们缺乏统计的显著性。另一类是基于统计度量的方法,对编码区进行统计特性分析。通过统计而获得的经验说明, DNA 中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用,而另一些则较少使用。这样就使得编码区的序列呈现出可察觉的统计特异性,即 “密码子偏好性 ”。利用这一特性对未知序 列进行
41、统计学分析可以发现编码区的粗略位置。 基因识别方法又可以分成两大类,即从头算方法(或基于统计的方法)和基于同源序列比较的方法。从头算方法根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域。基于同源的方法利用数据库中现有与基因有关的信息(如 EST 序列、蛋白质序列),通过同源比较,帮助发现新基因。最理想的方法是综合两大类方法的优点,开发混合算法。 请阐述基因组测序技术及其发展。 The genome sequencing technologies and their development. DNA 测序( DNA sequencing)是指分析特定 DNA
42、片段的 碱基 序列,也就是 腺嘌呤 ( A)、 胸腺嘧啶 ( T)、 胞嘧啶 ( C)與 鳥嘌呤 的( G)排列方式 。 一 、传统的 DNA 测序技术 Sanger 测序法 Sanger 双脱氧链终止法 是 Sanger 于 1975 年发明的。测序过程需要先做一个 聚合酶连锁反应( PCR)。 PCR 过程中, DNA 分子 可能随机的被加入到正在合成中的 DNA 片段里。由于双脱氧核糖核酸多脱了一个 氧原子 ,一旦它被加入到 DNA 链上,这个 DNA 链就不能继续增加长度。最终的结果是获得所有可能获得的、不同长度的 DNA 片段。目前最普遍最先进的方法,是将双脱氧核糖核酸进行不同荧光标
43、记。将 PCR 反应获得的总 DNA 通过毛细管电泳分离,跑到最末端的 DNA 就可以在激光的作用下发出荧光。由于 ddATP, ddGTP, ddCTP, ddTTP( 4 种双脱氧核糖核酸)荧光标记不同,计算机可以自动根据颜色判断该位置上碱基究竟是 A, T, G, C 中的哪一个。 Sanger DNA 测序技术经过了 30 年的不断发展与完善 ,现在已经可以对长达 1,000bp 的 DNA 片段进行测序了,而且对每一个碱基的读取准确率高达 99.999%。 二、 第二代测序技术:高速发展的高通量测序技术 第二代测序技术 主要是基于 焦磷酸测序法 。 焦磷酸测序技术是由 4 种酶催化的
44、同一反应体系中的酶级联化学发光反应,在每一轮测序反应中,只加入一种 dNTP,若该 dNTP 与模 板配对,聚合酶就可以将其掺入到引物链中并释放出等摩尔数的焦磷酸基团( PPi)。 PPi 可最终转化为可见光信号,并转化为一个峰值。每个峰值的高度与反应中掺入的核苷酸数目成正比。 三、 第三代测序技术则是基于纳米孔的单分子读取技术 这种方法读取数据更快、有望大大降低测序成本,改变个人医疗的前景。第三代测序技术的基本原理是在纳米孔中配置纳米电极,用电测方法测量一个 DNA 的核酸碱基排列。 阐述利用生物分子数据进行系统发生分析 基本原理 . The basic principle of phylo
45、genetic analysis using biological molecular data. 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生关系。其基本原理非常简单,从一条序列转变为另一条序列所需要的变换越多,那么,这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大;相反,两个序列越相似,那么它们之间的进化距离就可 能越小。为了便于分析,一般假设序列变化的速率相对恒定。 请阐述
46、分子系统发生分析过程。 The procedures of molecular phylogenetic analysis. 分子系统发生分析主要分成三个步骤:( 1)分子序列或特征数据的分析;( 2)系统发生树的构造;( 3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据。系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法,利用所有物种 或分类单元间的进化距离,依据一定的原则及算法构建系统发生树。另一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如 DNA 序列中的特定位点的核苷酸。建树时,着重分析分类单位或序列间每个特征(如核苷酸位点)的进化关系等。通过某种算法构造好一棵系统发生树之后,需要对树的合理性和可靠性进行分析。对于若干条序列,如果利用多种不同的分析方法进行系统发生分析,并且得到相似的进化关系,那么分析结果具有较高的可信度。 简述蛋白质二级结构预测最近邻方法的基本思想和算法的执行过程。