1、一、名词解释:1.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。3.FASTA 序列格式:是将 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号()表示一个新文件的开始,其他无特殊要求。4.genbank 序列格式:是 GenBank 数据库的基本信息单位,是最为广泛的生物信息
2、学序列格式之一。该文件格式按域划分为 4 个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“/”结尾。5.Entrez 检索系统:是 NCBI 开发的核心检索系统,集成了 NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P947.查询序列(query sequence ):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P988.打分矩阵(scoring
3、matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如 PAM)两类方法。 P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P3711.E 值:衡量序列之间相似性是否显著的期望值。 E 值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率
4、,E 值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P9512.低复杂度区域:BLAST 搜索的过滤选项。指序列中包含的重复度高的区域,如 poly(A )。13.点矩阵(dot matrix):构建一个二维矩阵,其 X 轴是一条序列,Y 轴是另一个序列,然后在 2 个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在
5、结构上的异同,来回答大量的生物学问题。15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)19.旁
6、系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。 )20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。21.有根树:能够确定所有分析物种的共同祖先的进化树。22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。23.邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服 UPG
7、MA 算法要求进化速率保持恒定的缺陷。24.最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。26.一致树(consensus tree ) :在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。27.自举法检验(Bootstrap): 放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。28.开放阅读框(ORF):开放阅读框是
8、基因序列的一部分,包含一段可以编码蛋白的碱基序列。29.密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功 tRNA 的水平相一致,大多数高效表达的基因仅使用那些含量高的同功 tRNA 所对应的密码子,这种效应称为密码子偏好性。30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。31.结构域(domain):保 守 的 结 构 单 元 , 包 含 独 特 的 二 级 结 构 组 合 和 疏 水 内 核 , 可 能 单 独 存 在 , 也 可 能 与 其 他 结构 域 组 合 。 相 同 功 能 的 同
9、 源 结 构 域 具 有 序 列 的 相 似 性 。32.超 家 族 : 进 化 上 相 关 , 功 能 可 能 不 同 的 一 类 蛋 白 质 。33.模体(motif):短 的 保 守 的 多 肽 段 , 含 有 相 同 模 体 的 蛋 白 质 不 一 定 是 同 源 的 , 一 般 10-20 个 残 基 。34.序 列 表 谱 ( profile) : 是 一 种 特 殊 位 点 或 模 体 序 列 , 在 多 序 列 比 较 的 基 础 上 , 氨 基 酸 的 权 值 和 空 位 罚 分 的 表格 。35.PAM 矩 阵 : PAM 指 可 接 受 突 变 百 分 率 。 一 个 氨
10、 基 酸 在 进 化 中 变 成 另 一 种 氨 基 酸 的 可 能 性 , 通 过 这 种 可 能 性可 以 鉴 定 蛋 白 质 之 间 的 相 似 性 , 并 产 生 蛋 白 质 之 间 的 比 对 。 一 个 PAM 单 位 是 蛋 白 质 序 列 平 均 发 生 1%的 替 代量 需 要 的 进 化 时 间 。36.BLOSUM 矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在 BLOSUM62 矩阵中,比对的分值来自不超过 62%一致率的一组序列。37.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,
11、通过调节序列打分矩阵( scoring matrix)探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的 Genbank 序列。39.PDB(Protein Data Bank):PDB 中收录了大量通过实验(X 射线晶体衍射,核磁共振 NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB 数据库的访问号由一个数字和三个字母组成(如,4HHB) ,同时支持关键词搜索,还可以 FASTA 程序进行搜索。40.GenPept:是由 GenBank 中的 DNA 序列翻译得到的蛋白质序列。数据量很大,且随核酸
12、序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。42.TrEMBL:是与 SWISS-PROT 相关的一个数据库。包含从 EMBL 核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到 SWISS-PROT 数据库中。43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统 Entrez 的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与 PDB
13、相比,对于数据库中的每一个生物大分子结构,MMDB 具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 ,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP 数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库 PDB 中的所有条目。SCOP 数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到 PDB 的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class) 、折叠子(fold) 、超家族(super family
14、) 、家族(family) 、单个 PDB 蛋白结构记录。45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE 还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。 从 3 个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。47.表谱(PSSM
15、):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。49.简约信息位点:指 基 于 DNA 或 蛋 白 质 序 列 , 利 用 最 大 简 约 法 构 建 系 统 发 育 树 时 , 如 果 每 个 位 点 的 状 态 至 少存 在 两 种 , 每 种 状 态 至 少 出 现 两 次 的 位 点 。 其 它 位 点 为 都 是 非 简 约 性 信 息 位 点 。4. 一致序列:这些序列是指把多序列联配的信息压缩
16、至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。 (课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。7. 非信息位点:对于最大简约法来说没有意义的点。8. 标度树:分支长度与相邻节点对的差异程度成正比的树。9. 非标度树:只表示亲缘关系无差异程度信息。10. 有根树:单一的节点能指派为共同
17、的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。质谱分析的两个工具19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜
18、索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义) 。基础上针对特定的应用目标而建立的数据库。23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分支。24. 系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间
19、内的动力学过程25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。26. ESI 电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。1. 鸟 枪 法 测 序 ( shotgun method) 一 种 测 序 方 法 , 包 括 从 基 因 组 中 获 得 随 机 的 、 已 测 序 的 克 隆 片 段 , 并 且 对 初 始 基 因的 位 置 一 无 所 知 。2. BLAST: 基 本 局 部 相 似 性 比 对 搜 索 工 具 。 在 序 列 数 据 库 中 快 速 查 找 与 给 定 的 序 列 具 有 最 优 局
20、部 对 准 结 果 的 序 列 的 一种 序 列 对 算 法 。3. 整 体 联 配 ( global alignment) : 对 两 个 核 苷 酸 或 蛋 白 质 序 列 的 全 长 所 进 行 的 比 对 。4. FASTA: 是 第 一 个 被 广 泛 使 用 的 数 据 库 相 似 性 搜 索 算 法 , 这 个 程 序 通 过 扫 描 序 列 中 “词 ”的 小 配 对 , 从 而 寻 找 最 优局 部 比 对 。5. 算 法 ( algorithm) : 在 计 算 机 程 序 中 包 含 的 一 种 固 定 过 程 。6. 序 列 比 对 ( alignment) : 将 两
21、 个 或 多 个 序 列 排 在 一 起 , 以 达 到 最 大 一 致 性 的 过 程 ( 对 于 氨 基 酸 序 列 是 比 较 他 们 的保 守 性 ) , 这 样 评 估 序 列 间 的 相 似 性 和 同 源 性 。7. 多 序 列 比 对 ( multiple sequence alignment) : 三 个 或 多 个 序 列 之 间 的 比 对 , 如 果 序 列 在 同 一 列 有 相 同 结 构 位 置的 残 基 和 ( 或 ) 祖 传 的 残 基 , 则 会 在 该 位 置 插 入 空 位 。8. 最 佳 联 配 ( optimal alignment) : 两 个 序
22、 列 之 间 有 最 高 打 分 值 的 排 列 。9. 空 位 ( gap) : 在 两 条 序 列 比 对 过 程 中 需 要 在 检 测 序 列 或 目 标 序 列 中 引 入 空 位 , 以 表 示 插 入 或 删 除 。10. 模 块 替 换 矩 阵 ( BLUSUM) 在 替 换 矩 阵 中 , 每 个 位 置 的 打 分 是 在 相 关 蛋 白 局 部 比 对 模 块 中 观 察 到 的 替 换 的 频 率 而 获 得的 , 每 个 矩 阵 被 修 改 成 一 个 特 殊 的 进 化 距 离 。11. 可 接 受 点 突 变 ( PAM) 一 个 用 于 衡 量 蛋 白 质 序
23、列 的 进 化 突 变 程 度 的 单 位 。12. 互 补 序 列 ( complementary sequence) 能 够 与 其 他 DNA 片 段 根 据 碱 基 互 补 序 列 ( A 与 T 配 对 , G 与 C 配 对 ) 形 成 两练 结 构 的 核 苷 酸 序 列 。13. 保 守 序 列 ( conserved sequence) 指 DNA 分 子 中 的 一 个 核 苷 酸 片 段 或 者 蛋 白 质 中 氨 基 酸 片 段 , 它 们 在 进 化 过 程 中 基本 保 持 不 变 。14. 邻 接 片 段 ( contig) 与 支 架 ( scaffold)15
24、. 邻 接 片 段 : 一 组 在 染 色 体 上 有 重 叠 区 域 的 DNA 片 段 的 克 隆 ;16. 支 架 : 由 序 列 重 叠 群 拼 接 而 成 。17. 注 释 ( annotation) 对 数 据 库 中 原 始 的 DNA 碱 基 序 列 添 加 相 关 信 息 ( 比 如 编 码 的 基 因 , 氨 基 酸 序 列 等 ) 或 其 他 的 注解 。18. 基 因 预 测 ( gene prediction) 用 计 算 机 程 序 对 可 能 的 基 因 所 做 的 预 测 , 它 是 基 于 DNA 片 段 与 已 知 基 因 序 列 的 匹 配程 度 的 。1
25、9. 直 系 同 源 ( Orthologous) 指 不 同 种 类 的 同 源 序 列 , 他 们 是 在 物 种 的 形 成 事 件 中 从 一 个 祖 先 序 列 独 立 进 化 而 成 的 ,可 能 有 相 似 功 能 , 也 可 能 没 有 。20. 旁 系 同 源 ( paralogous) 是 通 过 类 似 基 因 复 制 的 机 制 产 生 的 同 源 序 列 。21. 替 换 ( substitution) 在 指 定 的 位 置 不 相 同 的 氨 基 酸 进 行 连 配 , 如 果 联 配 的 残 基 有 相 似 的 物 化 性 质 , 那 么 替 换 是 保守 的
26、。22. 表 达 序 列 标 签 ( EST) 一 种 短 的 DNA 片 段 , 是 cDNA 分 子 的 一 部 分 , 可 用 来 鉴 定 基 因 , 通 常 用 于 基 因 定 位 和 基 因 图 谱中 。23. 多 态 性 ( PolyMorphism) 多 个 个 体 之 间 DNA 的 差 异 叫 多 态 性 。24. 基 因 预 测 ( Gene Prediction) 同 1925. 序 列 模 式 ( Motif) 蛋 白 质 序 列 中 短 的 保 守 区 域 , 它 们 是 结 构 域 中 保 守 性 很 高 的 部 分 。26. 结 构 域 ( domain) : 蛋
27、 白 质 在 折 叠 时 候 与 其 它 部 分 相 独 立 的 一 个 不 连 续 部 分 , 他 有 自 己 独 特 的 功 能 。27. 开 放 阅 读 框 ( ORF) 位 于 DNA 或 RNA 上 起 始 密 码 子 与 终 止 密 码 子 之 间 的 序 列 。28. 表 达 谱 ( profile) 一 个 显 示 某 个 同 源 家 族 中 指 定 位 置 打 分 值 和 空 位 罚 分 的 表 格 , 可 以 用 于 搜 索 序 列 数 据 库 。29. 分 子 钟 ( molecular clock) 对 于 每 一 个 给 定 基 因 ( 或 蛋 白 质 ) 其 分 子
28、 进 化 率 大 致 是 恒 定 的 。30. 系 统 发 生 ( phylogeny) 是指生物种族的进化历史,亦即生物体在整个进化谱31. 分 子 进 化 树 ( molecular evolutionary tree) 在研究生物进化和系统分类中,常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形成为系统发育树(phylogenetic tree)。 一 、 选 择 题 :1. 以 下 哪 一 个 是 mRNA 条 目 序 列 号 : A. J01536 . NM_15392 C. NP_52280 D. AAB1345062. 确 定 某 个 基 因 在
29、哪 些 组 织 中 表 达 的 最 直 接 获 取 相 关 信 息 方 式 是 : . Unigene B. Entrez C. LocusLink D. PCR3. 一 个 基 因 可 能 对 应 两 个 Unigene 簇 吗 ? 可 能 B. 不 可 能4. 下 面 哪 种 数 据 库 源 于 mRNA 信 息 : dbEST B. PDB C. OMIM D. HTGS5. 下 面 哪 个 数 据 库 面 向 人 类 疾 病 构 建 : A. EST B. PDB . OMIMD. HTGS6. Refseq 和 GenBank 有 什 么 区 别 : A. Refseq 包 括 了
30、全 世 界 各 个 实 验 室 和 测 序 项 目 提 交 的 DNA 序 列 B. GenBank 提供 的 是 非 冗 余 序 列 . Refseq 源 于 GenBank, 提 供 非 冗 余 序 列 信 息 D. GenBank 源 于 Refseq7. 如 果 你 需 要 查 询 文 献 信 息 , 下 列 哪 个 数 据 库 是 你 最 佳 选 择 : A. OMIM B. Entrez PubMed D. PROSITE8. 比 较 从 Entrez 和 ExPASy 中 提 取 有 关 蛋 白 质 序 列 信 息 的 方 法 , 下 列 哪 种 说 法 正 确 : A. 因 为
31、 GenBank 的 数 据 比 EMBL更 多 , Entrez 给 出 的 搜 索 结 果 将 更 多 B. 搜 索 结 果 很 可 能 一 样 , 因 为 GenBank 和 EMBL 的 序 列 数 据 实 际 一 样 搜索 结 果 应 该 相 当 , 但 是 ExPASy 中 的 SwissProt 记 录 的 输 出 格 式 不 同9. 天 冬 酰 胺 、 色 氨 酸 和 酪 氨 酸 的 单 字 母 代 码 分 别 对 应 于 : N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W10. 直 系 同 源 定 义 为 : 不 同 物 种 中 具 有 共 同 祖 先 的
32、同 源 序 列 B. 具 有 较 小 的 氨 基 酸 一 致 性 但 是 有 较 大 的 结 构 相 似 性的 同 源 序 列C. 同 一 物 种 中 由 基 因 复 制 产 生 的 同 源 序 列 D. 同 一 物 种 中 具 有 相 似 的 并 且 通 常 是 冗 余 的 功 能 的 同 源 序 列11. 下 列 那 个 氨 基 酸 最 不 容 易 突 变 : A. 丙 氨 酸 B. 谷 氨 酰 胺 C. 甲 硫 氨 酸 半 胱 氨 酸12.PAM250 矩 阵 定 义 的 进 化 距 离 为 两 同 源 序 列 在 给 定 的 时 间 有 多 少 百 分 比 的 氨 基 酸 发 生 改
33、变 : A. 1% B. 20% . 80% D. 250%13. 下 列 哪 个 句 子 最 好 的 描 述 了 两 个 序 列 全 局 比 对 和 局 部 比 对 的 不 同 : A. 全 局 比 对 通 常 用 于 比 对 DNA 序 列 , 而 局 部 比对 通 常 用 于 比 对 蛋 白 质 序 列 B. 全 局 比 对 允 许 间 隙 , 而 局 部 比 对 不 允 许 C. 全 局 比 对 寻 找 全 局 最 大 化 , 而 局 部 比 对寻 找 局 部 最 大 化 全 局 比 对 比 对 整 体 序 列 , 而 局 部 比 对 寻 找 最 佳 匹 配 子 序 列14. 假 设
34、你 有 两 条 远 源 相 关 蛋 白 质 序 列 。 为 了 比 较 它 们 , 最 好 使 用 下 列 哪 个 BLOSUM 和 PAM 矩 阵 : BLOSUM45 和PAM250 B. BLOSUM45 和 PAM 1 C. BLOSUM80 和 PAM250 D. BLOSUM10 和 PAM115. 与 PAM 打 分 矩 阵 比 较 , BLOSUM 打 分 矩 阵 的 最 大 区 别 是 : A. 最 好 用 于 比 对 相 关 性 高 的 蛋 白 B. 它 是 基 于 近 相 关 蛋 白的 全 局 多 序 列 比 对 它 是 基 于 远 相 关 蛋 白 的 局 部 多 序 列
35、 比 对 D. 它 结 合 了 全 局 比 对 和 局 部 比 对16. 如 果 有 一 段 DNA 序 列 , 它 可 能 编 码 多 少 种 蛋 白 质 序 列 : A. 1 B. 2 C. 3 . 617. 要 在 数 据 库 查 询 一 段 与 某 DNA 序 列 编 码 蛋 白 质 最 相 似 的 序 列 , 应 选 择 : A. blastn B. blastp C. tblastn D. tblastp blastx18. 为 什 么 ClustalW( 一 个 采 用 了 Feng-Doolittle 渐 进 比 对 算 法 的 程 序 ) 不 报 告 E 值 : A. Clu
36、stalW 报 告 E 值 使 用 了 全 局 比 对 C. 使 用 了 局 部 比 对 D. 因 为 是 多 序 列 比 对19.Feng-Doolittle 方 法 提 出 “一 旦 是 空 隙 , 永 远 是 空 隙 ”规 则 的 依 据 是 : A. 保 证 空 隙 不 会 引 物 序 列 加 入 而 填 充 B. 假定 进 化 早 期 分 歧 的 序 列 有 较 高 优 先 级 别 假 定 最 近 序 列 空 隙 应 该 保 留 D. 假 定 最 远 序 列 空 隙 应 该 保 留20. 根 据 分 子 钟 假 说 : A. 所 有 蛋 白 质 都 保 持 一 个 相 同 的 恒 定
37、 进 化 速 率 B. 所 有 蛋 白 质 的 进 化 速 率 都 与 化 石 记 录 相 符合 C. 对 于 每 一 个 给 定 的 蛋 白 质 , 分 子 进 化 的 速 率 是 逐 渐 减 慢 的 , 就 如 同 不 准 时 的 钟 对 于 每 一 个 给 定 的 蛋 白质 , 其 分 子 进 化 的 速 率 在 所 有 的 进 化 分 支 上 大 致 是 恒 定21. 系 统 发 生 树 的 两 个 特 征 是 : A. 进 化 分 支 和 进 化 节 点 树 的 拓 扑 结 构 和 分 支 长 度 C. 进 化 分 支 和 树 根 D. 序 列比 对 和 引 导 检 测 方 法22.
38、 下 列 哪 一 个 是 基 于 字 母 特 征 的 系 统 发 生 分 析 的 算 法 : A. 邻 位 连 接 法 ( NJ 法 ) B. Kimura 算 法 最 大 似 然 法( ML) D. 非 加 权 平 均 法 ( UPGMA)23. 基 于 字 母 特 征 和 基 于 距 离 的 系 统 发 生 分 析 的 算 法 的 基 本 差 异 是 : 基 于 字 母 特 征 的 算 法 没 有 定 义 分 支 序 列 的 中 间数 据 矩 阵B. 基 于 字 母 特 征 的 算 法 可 应 用 于 DNA 或 者 蛋 白 质 序 列 , 而 基 于 距 离 仅 能 用 于 DNA C.
39、 基 于 字 母 特 征 的 算 法 无 法 运 用 简约 算 法 D. 基 于 字 母 特 征 的 算 法 的 进 化 分 支 与 进 化 时 间 无 关24. 一 个 操 作 分 类 单 元 ( OTU) 可 指 : A. 多 序 列 比 对 蛋 白 质 序 列 C. 进 化 分 支 D. 进 化 节 点25. 构 建 进 化 树 最 直 接 的 错 误 来 源 是 : 多 序 列 比 对 错 误 B. 采 样 的 算 法 差 异 C. 假 设 进 化 分 支 是 单 一 起 源 D. 尝 试 推 测基 因 的 进 化 关 系26. 第 一 个 被 完 整 测 定 的 基 因 组 序 列
40、是 : A. 啤 酒 酵 母 的 3 号 染 色 体 B. 流 感 病 毒 X174 D. 人 类 基 因 组27. 普 通 的 真 核 生 物 线 粒 体 基 因 组 编 码 大 约 多 少 个 蛋 白 质 : 10 B. 100 C. 1000 D. 1000028. 根 据 基 因 组 序 列 预 测 蛋 白 质 编 码 基 因 的 算 法 的 最 大 问 题 是 : A. 软 件 太 难 使 用 . 假 阳 性 率 太 高 , 许 多 不 是外 显 子 的 序 列 部 分 被 错 误 指 定 C. 假 阳 性 率 太 高 , 许 多 不 是 外 显 子 功 能 未 知 D. 假 阴 性
41、 率 太 高 , 丢 失 太 多 外 显子 位 点29.HIV 病 毒 亚 型 的 系 统 演 化 研 究 可 以 : A. 证 实 HIV 病 毒 是 由 牛 病 毒 演 化 而 来 . 用 于 指 导 开 发 针 对 保 守 蛋 白 的 疫苗 C. 证 实 哪 些 人 类 组 织 最 容 易 遭 受 病 毒 侵 染30. 一 个 典 型 的 细 菌 基 因 组 大 小 约 为 多 少 bp: A. 20000 . 200000 C. 2000000 D. 2000000031. 细 菌 基 因 组 与 真 核 生 物 基 因 组 分 析 工 具 存 在 较 大 差 异 的 主 要 原 因
42、是 : A. 细 菌 拥 有 不 同 的 密 码 子 B. 细 菌 没 有 细胞 核 C. 细 菌 很 少 有 基 因 与 真 核 同 源 细 菌 DNA 的 基 因 含 量 、 组 成 结 构 很 不 一 样32. 下 列 具 有 最 小 基 因 组 的 原 核 生 物 可 能 是 : A. 嗜 极 生 物 B. 病 毒 胞 内 细 菌 D. 杆 菌33. 要 证 明 某 大 肠 杆 菌 中 的 某 个 基 因 是 水 平 转 移 而 来 , 需 要 : A. 分 析 该 大 肠 杆 菌 中 该 基 因 的 GC 含 量 与 其 他 基 因 是 否 有很 大 差 异 B. 分 析 该 大 肠
43、 杆 菌 中 该 基 因 的 密 码 子 使 用 与 其 他 基 因 是 否 有 很 大 差 异 C. 系 统 发 生 分 析 该 基 因 与 其 他 物种 中 基 因 的 同 源 关 系 获 取 以 上 三 个 方 面 的 信 息34.C 值 矛 盾 是 指 : A. 某 些 基 因 组 中 核 苷 酸 C 的 含 量 少 B. 真 核 生 物 基 因 组 大 小 同 编 码 蛋 白 质 的 基 因 个 数 没 有 相 关 性 真 核 生 物 基 因 组 大 小 同 屋 中 的 复 杂 性 相 关 性 很 小 D. 真 核 生 物 基 因 组 大 小 同 进 化 上 的 年 龄 相 关 性
44、小35. 成 百 上 千 个 48bp 的 重 复 序 列 单 元 最 可 能 出 现 在 : A. 散 布 性 重 复 序 列 中 B. 假 基 因 中 端 粒 中 D. 片 段 复 制区 域36. 从 头 预 测 真 核 基 因 的 原 因 有 : A. 外 显 子 /内 含 子 边 界 难 以 确 定 B. 内 含 子 长 度 可 能 只 有 几 个 碱 基 对C. 编 码 区 域 的 GC 含 量 并 不 总 是 与 非 编 码 区 相 同 以 上 三 个 方 面 的 原 因37. 人 类 基 因 组 大 小 大 约 是 多 少 Mb: A. 130 B. 300 3000 D. 30
45、00038. 各 种 重 复 元 件 在 人 类 基 因 组 中 大 约 占 的 百 分 比 为 : A. 5% B. 25% 50% D. 95%39. 蛋 白 质 编 码 区 域 占 人 类 基 因 组 百 分 比 是 : 1-5% B. 5-10% C. 10-20% D. 20-4-%40. 人 类 基 因 组 中 GC 含 量 高 的 区 域 : A. 基 因 密 度 相 对 较 低 基 因 密 度 相 对 较 高 C. 基 因 密 度 多 变 D. 基 因 所含 密 码 子 相 对 较 少41. 人 类 复 合 孟 德 尔 遗 传 的 基 因 疾 病 约 占 疾 病 基 因 的 :
46、 1% B. 10% C. 50% D. 60%42. 单 基 因 疾 病 趋 向 于 : 在 普 通 人 群 较 少 见 , 并 且 发 生 时 间 较 早 B. 在 普 通 人 群 较 常 见 , 并 且 发 生 时 间 较 早C. 在 普 通 人 群 较 少 见 , 并 且 发 生 时 间 较 晚 D. 在 普 通 人 群 较 常 见 , 并 且 发 生 时 间 较 晚二.填空题1. 常用的三种序列格式:NBRF/PIR,FASTA 和 GDE2. 初级序列数据库:GenBank,EMBL 和 DDBJ3. 蛋白质序列数据库:SWISS-PROT 和 TrEMBL4. 提供蛋白质功能注释
47、信息的数据库:KEGG(京都基因和基因组百科全书)和 PIR(蛋白质信息资源)5. 目前由 NCBI 维护的大型文献资源是 PubMed6. 数据库常用的数据检索工具:Entrez,SRS,DBGET7. 常用的序列搜索方法:FASTA 和 BLAST8. 高分值局部联配的 BLAST 参数是 HSPs(高分值片段对) ,E(期望值)9. 多序列联配的常用软件:Clustal10. 蛋白质结构域家族的数据库有:Pfam,SMART11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法 12. 系统发育树的构建方法: 距离矩阵法,最大简约法和最大似然法13. 常用系统发育分析软件:
48、PHYLIP14. 检测系统发育树可靠性的技术:bootstrapping 和 Jack-knifing15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的16. 检测原核生物 ORF 的程序:NCBI ORF finder17. 测试基因预测程序正确预测基因的能力的项目是 GASP(基因预测评估项目)18. 二级结构的三种状态: 螺旋, 折叠和 转角19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层20. 通过比较建模预测蛋白质结构的软件有 SWISS-PDBVIEWER(SWISS MODEL 网站)21. 蛋白质质谱数据搜索工具:SEQU
49、EST22. 分子途径最广泛数据库:KEGG23. 聚类分析方法,分为有监督学习方法,无监督学习方法24. 质谱的两个数据库搜索工具:SEQEST 和 Lutkefish二、问答题1) 生物信息学的发展经历了哪几个阶段答:生物信息学的发展经历了 3 个阶段。第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及 DNA 和蛋白质序列分析为主要工作;第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。2) 生物信息学步入后基因组时代后,其发展方向有哪几个方面。答:生物信息学步入后基因组时代后,其发展方向主要有:各种生物基因组测序及