中科院生物信息学复习题.docx_文客久久网wenke99.com

资源描述

1、1.什么是生物信息学，如何理解其含义？答：生物信息学有三个方面的含义：1) 生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。2) 生物信息学是把基因组 DNA 序列信息分析作为源头，破译隐藏在 DNA 序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。3) 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律” 。它是当今自然科学和技术科学领域中“基因组、 “信息结构”和“复杂性”这三个重大科学问题的有机结合。怎样理解生物信息学：生物信息学是把基因组 DNA 序列信

2、息分析作为源头，找到基因组序列中代表蛋白质和RNA 基因的编码区；同时阐明基因组中大量存在的非编码区的信息实质，破译隐藏在 DNA序列中的遗传语言规律：在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代谢、发育、分化、进化的规律。其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测，并将此类信息与生物体和生命过程中的生理生化信息结合，阐明其分子机制，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。2.如何利用数据库信息发现新基因，基本原理？答：利用数据库资源发现新基因，根据数据源不同，可分 2 种不同的查找方式：1) 从大规模基因组测序得到

3、的数据出发，经过基因识别发现新基因：利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。可分为：基于信号，如剪切位点、序列中的启动子与终止子等。基于组分，即基因家族、特殊序列间比较，Complexity analysis，Neural Network2) 利用 EST 数据库发现新基因和新 SNPs：数据来源于大量的序列小片段，EST 较短，故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用 SiClone 策略。其主要步骤有：构建数据库；将序列纯化格式标准化；从种子库中取序列和大库序列比对；延长种子序列

4、，至不能再延长；放入contig 库构建若干数据库：总的纯化的 EST 数据库，种子数据库，载体数据库，杂质、引物数据库，蛋白数据库，cDNA 数据库；用所用种子数据库和杂质、引物数据库及载体数据库比对，去除杂质；用种子和纯化的 EST 数据库比对用经过一次比对得到的长的片段和蛋白数据库、cDNA 数据库比较，判断是否为已有序列，再利用该大片段与纯化的 EST 数据库比对，重复以上步骤，直到序列不能再延伸；判断是否为全长 cDNA 序列。（利用 EST 数据库：原理：当测序获得一条 EST 序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同 EST 序列之间常有交叠

5、的区域。根据这种 “交叠”现象，就能找出属于同一个基因的所有 EST 序列，进而将它们拼接成和完整基因相对应的全长 cDNA 序列。而到目前为止，公共EST 数据库(dbEST)中已经收集到约 800 万条的人的 EST 序列。估计这些序列已覆盖了人类全部基因的 95%以上，平均起来每个基因有 10 倍以上的覆盖率。）3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么？当前的困难是什么，如何克服？答：构建系统进化树，其主要步骤如下：1) 序列相似性比较。就是将待研究序列与 DNA 或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要

6、使用两两序列比较算法。常用的程序包有 BLAST、FASTA 等；2) 序列同源性分析。是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有 CLUSTAL 等；3) 构建系统进化树。根据序列同源性分析的结果，重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包，如 PYLIP、MEGA 等；4) 稳定性检验。为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70 以上）出现的分支点才

7、是可靠的。通用的方法使用 Bootstrap 算法。当前的主要困难是发现了基因的横向迁移（LGT）现象，即进化程度不同的物种间存在着遗传信息基因的传递，如果拿迁移的基因做进化分析就会出错。克服 LGT 的方法：1) 选择垂直进化而来的序列进行研究，即去除横向迁移的数据库，如 COG 数据库；2) 使用全基因组数据库进行基因组水平上的对比；利用生物体的蛋白质组构建进化树。选取特征对比，不同长度的序列字符串进行对比后，对照其 genome 进行归一化；ORF 对比，将 all predicted ORF 采用 COG 的分类规则进行分类，再构建进化树4.什么是 SNP，为什么 SNP 的研究是重要

8、的，举出 23 个 SNP 相关的网站。答：SNP 是指单核苷酸多态性，代表了基因组水平上遗传密码的变异，由于这种变异很多以单碱基突变的形式出现，因此称为单核苷酸多态性；因为 SNP 研究是基因组领域理论成果走向应用的关键步骤，是联系基因型和表现型之间关系的桥梁，是研究人类基因组计划走向应用的重要步骤。SNP 相关的一些网站：1) SNP Consortiums database(http:/snp.cshl.org/index.html)2) NCBI SNP database 将这些数据进行整理，去掉冗余，使每个 SNP 都是唯一的。此时的SNP 被称为 reference SNP 或 r

9、efSNP。（(http:/www.ncbi.nlm.nih.gov/SNP/overview.html ) 3) The Human Genic Bi-Allelic Sequences Database(HGBASE) 这一数据库收录了人基因组中所有已知的序列变化，包括：SNPs、序列的插入和缺失(Indels) 、简单重复序列等。（http:/hgbase.cgr.ki.se/）4) The Human Gene Mutation Database（HGMD）(http:/www.hgmd.org/) 5) The Protein Mutant Database(PMD)，蛋白突变数据

10、库。收录了蛋白质特定位点的氨基酸突变信息，以及这些突变对蛋白质结构功能的影响。（ http:/pmd.ddbj.nig.ac.jp/）6) The Allele Frequency Database(ALFRED)：人类群体等位基因频率数据库，http:/alfred.med.yale.edu/alfred/index.asp5. 什么是系统生物学？系统生物学对生命科学概念上的发展？答：系统生物学是指在系统的层面上研究生命活动。（研究一个生物系统中所有组成成分的构成，以及特定条件下组分间互作关系。）包含三个相互衔接的组成：整合数据，即整合所有各个层次（DNA 水平，RNA 水平，蛋白质水

11、平，蛋白质相互作用水平）的信息数据；系统建模，即用这些信息构建描绘生命活动的数学模型；预测未知，即用这个模型预测生命未来的发展及外界干扰后系统的变异。概念上的发展主要有：1) 研究思路的变化：传统的分子生物学研究步骤一般为：DNA 序列蛋白结构蛋白功能（一维），而系统生物学是在二维的角度研究生命科学，即：相互作用网络功能，是由一组基因产生并相互作用共同实现的。2) 看待生命活动本质的变化：因为没有一个生命活动是靠一个基因完成的，生命活动是一组基因相互作用实现的，这种相互作用形成一个网络，既包括每个单元的结构，又包括单元与单元之间的相互作用。因此，系统生物学不仅考虑每个基因的活动，还描述了基因

12、间的相互作用并导致了网络的产生。6.（ 1）什么是非编码序列，非编码 RNA，非编码基因？（2）以人的基因组为例回答：在基因组中有多少非编码序列，有多少存在转录本，举 23 个非编码核酸的生物学功能？答：（1）非编码序列是基因组中不编码蛋白质和多肽的序列；非编码 RNA 是基因组中非编码序列的转录产物/ 转录本；功能性的非编码 RNA 对应基因组上的位置称为非编码基因；（2）人类基因组中 9798%的序列是非编码序列，有 70%80%存在转录本，非编码核酸的生物学功能：1) Xist:X-inactivation（X 染色体失活）是哺乳动物的一种剂量补偿机制，其中一半拷贝转录被抑制从而失活，抑

13、制转录是通过一个 2kb 的非编码 RNA（Xist RNA）实现的,xist RNA 装配在失活 X 染色体的外侧，引起结构改变导致失活；2) Small RNA and RNAi: RNAi 是由 RNA（siRNA 、microRNA）导致的转录后基因沉默现象，如由双链小 RNA 引起的干扰和转录后基因沉默现象，在植物病毒抗性和线虫中的转座子沉默；一些小核 RNA 调控基因转录。(单链易降解，但发现细胞中存在另一种 pathway，双链小 RNA 进入细胞后结合组蛋白形成复合体，该复合体和识别并降解 target)3) piRNA（具有大量转录本，功能不详）和 Prions（生物复杂度到

14、一定程度后会出现发病情况，可能和非编码 RNA 有关）等。1.芯片间标准化的方法：基本方法：芯片间标准化的目的是基于 Gene1Gene5 五个基因表达量理论的和应该保持恒定，即 S1S3 三列每一列的和是相等的。但实际测定过程中不可能完全相等，因此将这种不等归结于每一组芯片自身的差异而进行芯片间标准化，基本步骤为通过排序取平均重新排序的方法消除芯片间误差，从而可以得到每一组基因表达量的真实值。（老师给的这组芯片基因完全相同的情况下 S3 一列数据明显偏高，通过这种标准化实现了芯片间差异的消除）。2. FDR 控制假阳性的方法BenjaminiHochberg procedure基本方法：对

15、于 m 个独立的样本，其 p-value 记为 pi，i=1,2,3m；（1）对所有的 p-value 进行从小到大排序 p(1)p(2) p(m)；（2）对于一个给定的（此时的即为统计里的显著水平，范围 01，通常取 0.05），找到最大的 k 值，满足；()（3）拒绝从 p(1)p(k)的无效假设 H0（即表示 p(1)p(k)表达量存在显著差异）。计算方法 1（=0.05）：P(4)=0.030.05*5/6=0.041；k=4. 即 G2, G6, G5, G4 差异表达，FDR0.05计算方法 2（q-value 法）：根据可以推出因此直接计算并与进行对比即可：()

16、()由于 G3 的 q-value 大于 0.05，因此 G2, G6, G5, G4 差异表达。3. 转录本表达量的表示方法（ RPKM：Reads Per Kilobase of transcript per Million mapped reads）：（1）RPKM 的作用：RNA-seq 是透过次世代定序的技术来侦测基因表现量的方法，在衡量基因表现量时，若是单纯以 map 到的 read 数来计算基因的表现量，在统计上是一件相当不合理的事，因为在随机抽样的情况下，序列较长的基因被抽到的机率本来就会比序列短的基因较高，如此一来，序列长的基因永远会被认为表现量较高，而错估基因真正的表现量，

17、所以 Ali Mortazavi 等人在 2008 年提出以 RPKM 在估计基因的表现量假设一个物种的基因组上只有两个基因，基因 G1 的外显子长 8 Kb，基因 G2 的外显子长 2 Kb。对该物种的一个样本做 RNA-seq，共得到 23 millions 的 read，其中能够比对到 G1 的read 有 16 million 个，能够比对到 G2 的有 4 million 个. 计算 G1 和 G2 的 RPKM。Total mapped reads=16 million+4 million=20 millionG1: total exon reads=16,000,000 exon

18、 length=8kbtoal exnrdsRPKMtoal mpd rs(i) *o length (KB)RPKM=16,000,000/(20*8)=100,000G2: total exon reads=4,000,000 exon length=2kbRPKM=4,000,000/(20*2)=100,000（2）FPKM 与 RPKM 的区别：两者基本相同。RPKM 代表 Reads Per Kilobase of transcript per Million mapped reads，FPKM代表 Fragments Per Kilobase of transcript per

19、Million mapped reads。在 RNA-Seq 中，由于cDNA 来源于 RNA 的逆转录，转录物的表达量与 cDNA 片段成比例。RNA-Seq 配对末端实验每个片段产生两个 reads，但这并不意味着两个 reads 都可在图上标注。例如，第二个read 低品质。如果我们对 read 计数而不是片段，我们可能对某些片段重复计数，而对另一些只计一次，导致对表达量估计的偏差。因此 FPKM 以片段为单位计数，而不是 reads 数。（来源于网上，原网址：http:/cufflinks.cbcb.umd.edu/faq.html#fpkm）预测：1.高通量测序数据分析总括：高通量测

20、序数据库程序读出的 reads 数据及对应的质量分值以文件格式为 fastq 的格式保存。测序的原始数据为荧光信号，首先将荧光信号转换为序列信息，即读段数据及对应的质量分值；为了方便测序数据的发布和共享，一般需要对数据进行格式化转换，最常用的数据格式为 fastq 格式；对得到的原始数据必须对其质量进行评估，评估指标包括 G、C 含量，碱基质量，插入分布等。方便过滤掉质量较差的读段；若数据质量评估过关，接着将原始读长通过序列映射定位到基因组上；若无参考基因组，则必须使用 denovo 的组装方法；得到测序数据的组装图后，便可根据实验目的对组装好的数据进行相关分析，如分析基因的剪接位点，SNP

21、位点，变异位点还可以分析基因的差异化表达（RNA-Seq ），转录因子结合位点（Chip-Seq），甲基化模式（ MeDIP-Seq），同时还可利用此数据发现新的编码基因和非编码基因；使用可视化组件对分析结果进行可视化处理。2.表达谱数据分析流程IntensityExpression profileQuality controlNormalizationDifferential gene expression analysis基因芯片在一个颜色通道扫描后得到的原式图是色调单一，强度不同的亮点陈列图；将原始的图像数据转换为基因表达矩阵；对得到的基因表达矩阵的数据质量进行检测，对得到的数据进

22、行统计学分析，从而估计和校正试验误差，筛选出有效数据。标准化就是消除基因芯片实验过程中系统变异对基因表达水平所带来的影响。标准化包括芯片内的标准化和芯片之间的数据标准化。芯片内的标准化方法，如局部加权线性回归标准化，参照点标准化，芯片之间的标准化方法如Quantile；前几部都是对表达谱数据的预处理，后期的数据分析包括差异基因表达分析、聚类分析、判别分析等；a)差别基因表达分析可分析不同样本中起关键作用的基因，为后续研究提供方向；b)聚类分析是基因表达谱最广泛使用的统计技术，聚类分析的目的再与寻找可能标准化或关联的基因，从而预测位置基因的功能信息或已知基因的未知功能；c)判别分析能够依据样本的

23、某些特性，判别样本的所属类型，利用已有数据建立分类器，然后利用建立的分类器对未知样本的功能或状态进行预测。方法主要有 SVM，贝叶斯分类和神经网络法等。3.无生物学重复和有生物学重复时如何进行差异表达分析？答：（1）无生物学重复：方法：FC（Fold change 倍数变化）描述数据初值与终值之间的差异（一般是两个差别表达基因间或处理与对照之间），用标准化后的两组数据相除得到的比例，一般 2-fold 表明两组数据是有显著差异的；这种计算方法可以得到一组相对值，而不是绝对值变化，消除了系统误差以便于统计学分析；一般得到的 FC 值与设定的阈值进行比较即可得到表达有差异的基因；（2）有生物学重

24、复：方法：假设检验a)具体步骤：提出实际问题；提出无效假设（H 0）与备择假设（H 1）；选择显著性水平（一般 =0.05）；选择统计模型与相应的统计量；根据实验结果计算实验统计量；判断检验统计量的 p-值 (表示事件发生的概率具有偶然性)；将 p 值同选定的显著性水平比较；拒绝或不拒绝 H0；回答所提出的实际问题。b)假设检验根据数据类型（是否符合正态性）分为参数检验与非参数检验：参数检验：符合正态分布可使用，常用的方法主要有 t 检验法，配对 t 检验法、最小二乘法非参数检验：不符合正态分布可使用，常用的方法有 Wilcoxon 秩和检验法，其基本方法是根据表达量排序并按照排列顺序检

25、验，检验结果较参数检验法更粗犷。4.全基因组测序的步骤？答：（1）第一期：基因组调研图整体测序深度不低于 20 倍覆盖度。进行初步的数据分析，对基因组大小，GC 含量等做出初步评估，确定框架图梯度文库构建具体策略；（2）第二期：基因组框架图基因组覆盖度达到 90% 以上，基因区覆盖度达到 95% 以上，单碱基的错误率达到 1 万分之一以内，整体测序覆盖深度不低于 60 倍覆盖度。同时对框架图进行基本基因注释和功能注释，和简单的比较基因组学分析。（3）第三期：基因组精细图基因组覆盖度达到 95% 以上，基因区覆盖度达到 98% 以上，单碱基的错误率达到 10 万分之一以内，整体基因组覆盖度不低于

26、 100 倍，Scaffold N50 大小不低于 300Kb，对基因组精细图进行详细基因注释，基因功能注释，基因代谢途径注释和比较基因组学分析。5. 转录本测序，各数据分析工具的特点？转录本测序可分为 Small RNA-seq 和 RNA-seq：Small RNA-seq 主要用于检测 small RNA（主要是 miRNA）的表达水平，发现新的 small RNARNA-seq：Poly(A) 用以检测蛋白质编码基因的可变剪切体及表达水平；Total RNA（除rRNA）用于检测 mRNA 及 long noncoding RNA 的表达水平并发现新的 long noncoding R

27、NA；数据分析工具主要有：Bowtie，TopHat，Cufflinks，具体作用如下：a)Bowtie 是一个超级快速的，较为节省内存的短序列拼接至模板基因组的工具。它在拼接35 碱基长度的序列时，可以达到每小时 2.5 亿次的拼接速度。Bowtie 并不是一个简单的拼接工具，它不同于 Blast 等。它适合的工作是将小序列比对至大基因组上去。它最长能读取 1024 个碱基的片段。b)TopHat 是一个快速的将 RNA-Seq 数据进行快速剪接映射的程序。它使用超快的高通量短读比对程序，将 RNA-Seq 的信息比对到哺乳动物大小基因组上，然后分析映射结果来鉴别外显子之间的剪接点。c)Cu

28、fflinks 利用 Tophat 比对的结果（alignments）来组装转录本，估计这些转录本的丰度，并且检测样本间的差异表达及可变剪接调控。它通过接受线性的 RNA-Seq reads 并将线性片段组装为一套最大简约的（parsimonious）转录本。然后根据 reads 数估计估计相关转录本的丰度并将实验室预设的偏差考虑在内。6.转录本拼接最大简约转录本的组装方法：组装一套转录本在链中找到最小的分割单元 P找到最大的反义链在二分图中找到最大匹配数找到最小点覆盖二分图：指顶点可以分成两个不相交的集使得在同一个集内的顶点不相邻（没有共同边）的图。设 G=(V,E)是一个无向图，如果顶点

29、V 可分割为两个互不相交的子集(U,V)，并且图中的每条边（i，j）所关联的两个顶点 i 和 j 分别属于这两个不同的顶点集(i in U,j in V)，则称图 G 为一个二分图。最大匹配：给定一个二分图 G，在 G 的一个子图 M 中，M 的边集中的任意两条边都不依附于同一个顶点，则称 M 是一个匹配，选择这样的边数最大的子集称为图的最大匹配。最小点覆盖：给定一个二分图 G，在 G 的一个子图 N 中，N 的点集中的点与所有的边都有关联（把所有的边都覆盖），则称 N 是一个点覆盖，选择这样的点数最小的子集称为图的最小点覆盖。7. Illumina 测序原理在聚合反应体系中加入修饰过的四种

30、核苷酸，它们分别被标记上终止基团和荧光基团：3 羟基上标记上叠氮基在延伸时起阻止聚合的作用，胞嘧啶上标记上荧光基团。每一种核苷酸标记的荧光分子是不一样的。聚合终止，每次加入一个修饰核苷酸，链聚合就被终止了，如下图用激发光照射，被修饰的碱基发出荧光，记录荧光信号，则知这一步加入的是什么核苷酸。延伸回复：加入二巯基丙醇去掉叠氮基；用 TCEP(Tris (2-carboxyethyl) phosphine,三(2-羧乙基)膦) 处理，去掉荧光基团。进入下一轮延伸，加入一个新的碱基。原理的关键之处在于如何形成足够强的荧光信号。无疑这需要大量的模板。怎样来获得大量模板呢？同时二代测序技术还要实现高通

31、量测序，即同时对大量序列测序。如何将混合样品中序列彼此分开呢？illumina 桥式 PCR 技术可解决以上两个问题（1）样品准备序列片段化：将混合样品中的核酸序列打断至 400bp 左右短序列收集，并将末端补平。在 5端加一个 Pi 基团；3 端加一个“A” 在两端分别加上不同的接头序列（2）桥式 PCR将样品平铺到预制的含与接头序列互补的平板上（flow cell），平板结构如下：Flow cell 表面是寡聚引物加上接头的序列与平板上寡聚引物互补配对加上接头的序列与平板上寡聚引物互补配对，然后进行酶聚合反应变性使原始模板链分离并洗净模板链脱离单链弯曲杂交在相邻的引物上单链弯

32、曲杂交在相邻的引物（与另一端结合的引物）上。酶聚合形成双链桥式结构；之后桥式结构打开形成的两个 copy 又在其各自周围形成新的 copy。酶聚合形成双链桥式结构每个簇都有约 10000 个拷贝，且每个簇都代表一个独特序列桥式双链分开，反向链（底 3-5上）被切掉后洗脱（通过切反向链引物）；正向链 3端被封闭，防止不必要的 DNA 延伸。加入测序引物测序，如图右。1.高通量测序数据的分析流程高通量测序数据以程序读出的reads数据及对应的质量分值的格式保存，其文件格式为fastaq格式高通量测序最原始的数据为荧光信号，首先将荧光信号转化为序列信息，即reads数据及对应的质量分值。为

33、了便于测序数据的发布以及共享，一般需要对数据进行格式转换，最常用的数据格式是fastaq。对于得到的数据必须对其质量进行评估，评估指标包括GC含量，碱基质量，插入缺失错误，以便过滤掉质量差的reads。若数据质量评估过关，接着将原始reads map 到基因组上。若无参考基因组，则需用de novo 组装方法。得到测序数据的组装图后，便可以根据实验目的，对组装好的数据进行相关的分析。如分析基因的剪接位点，SNP位点，变异位点，还可以分析基因的差异化表达(DNA,RNA），转录因子结合位点（Chip-seq ），甲基化模式（MeDIP-seq），同时还可利用此数据发现新的编码基因和非编码基因。使用可视化软件对分析结果进行可视化处理。

展开阅读全文