1、 2010/12/16 I 一什么是生物信息学 ? Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. ( 它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。) (The U.S. Human Genome Project: The First Five Years
2、 FY 1991-1995, by NIH and DOE) 生物信息学是把基因组 DNA 序列信息分析作为源头,破译隐藏在 DNA 序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。 生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 二、生物学研究内容 (一)经典的研究内容 -大 规模基因组测序中的信息分析 -拼接和注释 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基
3、读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。 1 How to find the coding regions in rude DNA sequence? By signals or By contents 基于信号或碱基组成 1 By signals 作为参考信息 Among the types of functional sites in genomic DNA that researchers have sought to recognize are splice sites, start and s
4、top codons, branch points, promoters and terminators of transcription, polyadenylation sites, ribosomal binding sites, topoisomerase II binding sites, topoisomerase I cleavage sites, and various transcription factor binding sites. Local sites such as these are called signals and methods for detectin
5、g them may be called signal sensors. 第一、序列长度短,重复性大,假的比真的多百千倍,因而单独使用无 法真正达到检测的目的。第二、信号模式不是唯一不变的,而是用概率来表示的。 2 By content 更多依赖于 I. Statistical method and Sequence Alignment Method eneven positional base frequence (D value) 编码区是三联体,将密码子翻译与天然蛋白的氨基酸序列进行比较(天然的蛋白质有固定的氨基酸比例)。这种方法产生三种可能的氨基酸序列,若其中有一个非常像氨基酸序列,则
6、另外两个都非常不像, 则非常像的那个便是;若三个都模糊像,则都不是。 与数据库进行比对,这种方法发现不了新蛋白。 II. Sequence Analysis Pairwise Alignment 双序列比对 经典的双序列比对运用动态规划( DP)的形式,通过缓存亚问题的解决和重利用而不是重计算他们而解决一个最佳问题,运动 DP 的寻找两个长度为 N 的序列最佳排列将产生 N2 的亚问题。准确,但耗费计算机的资源。 上述方法在序列很长时计算速度太慢,因此人们将之简化,发展处 Heuristic schemes的方法。比较成熟的有 FASTA 和 BLAST。这种方法搜寻短序列不插入间隔。 (序列
7、比对 ( alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。 将两个或多个序列排列在一起,标明其相似之处。序列 2010/12/16 II 中可以插入间隔(通常用短横线 “ -” 表示)。对应的相同或相似的符号(在核酸中是 A, T(或 U) , C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。 ) III. Neural network-神经网络 -predicting the splicing sites 硬件和软 件构成的神经元系统,并构建标准数据底(标准非编码序列,标准的三联体密码序列)一个个试,调节系统能准确输出序列。任意挑
8、出一个非编码序列能输出 0。神经网络包括输入层,中间层和输出层。输入层为非线性惯性,每个位置只能有五个值,四种碱基或空。输出层代表输入序列是否为编码序列,对应中间的碱基像不像。 IV. Fractal dimension of exons and introns 分维值 转弯越多,值越大。 将任一序列投影到碱基坐标,计算分维值,非编码和编码序列的分维值不同,可比较 分维小,像编码序列 V. Complexity analysis-复杂度分析 How many different patterns are there in the area of the different DNA sequen
9、ce? 我们的结果发现外显子的复杂度比内含子和 5以及 3侧翼序列要高。什么是复杂度?任意取一个字符,花样出现多少次?若一段序列出现四种碱基就比出现三种碱基要复杂。 窗口:将一段序列分成几个一组, 18 个一个窗口。 VI. Method and Techniques in Cryptology-密码分析学的方法 -Coincident Indexs,重合指数认定,将密码进行过滤,找出重合指数高的片段,再结合进行变异。 Unicity Distance ,单一距离。 VII. Sequence Analysis Multiple Alignment-多序列比对 双序列比对是序列比对的一种特殊形
10、式,多序列比对能总结得到比对序列家族,估计一个新序列归属于一个已知序列的可能性,序列家族内的比对。双序列比较是不能给出两者的同源关系的,需要两个序列以上进行比较,给出这些序列代表物种间的同源序列,没有精确解,只有相似解。 多种方法一起使用,看结果,但也无法知道基因的严格位置,准确报出基因的结构(从算法本质上不同的算法进行比较来确定准确性,准确性较高)。 2问题与挑战 1)散在重复序列:花样类似但是分散在不同的位置。 Alu 2) 由于 RNA 编辑,可变剪接,一个基因产生许多蛋白 0 0.5 1 1.5 2 2.5 3 3.5 0 7 6 5 4 3 2 1 Intron Seq. Exon
11、Seq. Random Seq. End-to-end Range 2 1/2ln NRMain Range Geometric Range lnN CGATA G C T 2010/12/16 III 3四个例子 1)理论研究:腾冲耐热菌的测序和其耐热性的研究 1 研究代谢途径,测出未知功能的基因方法,将所有 FA 合成的路径图全 画出,将其编码的2800 多个蛋白与图上所需酶进行比对,所有酶都对上就是这个途径。 2 亲缘关系(和枯草杆菌 60%的亲缘性,不耐热) 代谢(脂肪酸,核酸)有什么特殊的 pathway 重复片段 300bp,280 次,是转录的起始位点 将耐热与不耐热的细菌基因
12、组进行比较,得出耐热所需的蛋白 一般来说,耐热菌的 G-C 含量较高(其实不然),耐热菌的 G-C 大部分小于 50%,但是不耐热菌 G-C 含量变化更大,多以细菌基因组 G-C 含量与耐热无关,但与 mRNA, rRNA的 G-C 含量有关, G-C 含量高,耐热性上升。 2)疾病研究:细菌性痢疾 测序发现,引起细菌性痢疾细菌的基因组和 EcoliK12 , Ecoli157 很近。比较引起痢疾和不引起痢疾细菌,发现了痢疾引起的细菌含有毒力岛和黑洞(痢疾没有,不痢疾的有,保护机制的丧失)。 3)工业生产 :维生素 C 生产菌株氧化葡萄酸杆菌基因组测序和组装 4) SARS 简介 The ca
13、pped and poly-adenylated genome is the largest of the RNA viruses and has a unique method of replication. These viruses have the ability to genetically recombine with other members of the coronavirus family. The genome encodes 3 or 4 different structural proteins. Human Coronavirus-OC43 encodes for
14、hemagglutinin-esterase (HE) whereas HCV-229E does not. This protein causes red blood cells to clump together, and can be used to determine how much virus is in a sample. HE can also initiate binding. Human Torovirus also encodes for HE. All coronaviruses encode for a nucleocapsid protein (N). This p
15、rotein binds to RNA and forms a helical nucleocapsid. It may be involved in the regulation of RNA synthesis. The membrane glycoprotein (M) is involved with envelope formation. The spike protein (S) is also responsible for binding to cells. The corona cycle link to the left explains the involvement o
16、f these proteins in each step of the dynamic phase. (二)新基因和新 SNPs 的发现与鉴定 大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组 (约 1300 万 bp) 所包含的 6 千多个基因,大约 60 是通过信息分析得到的。 a)、利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新 SNPs 国际上现已出现了几个基于 EST 的基因索引如 UniGene, Merck-Gene, GenExpress-index,这些基因索引数据库 (即二次数据库 )构建了基因框架,极大
17、地方便了相关研究者。 超大规模计算 方法:建立实验方法,让一小段真正的编码区标签表达,企图发现整个编码序列,几百个碱基序列一个标签,其数据库集中全世界所有的标签,进行拼接和组装,得到编码序列,同样将相同片段进行比较能发现 SNPs,也可以发现非编码序列 b)、从基因组 DNA 序列中预测新 ORF 两者区别:前者是利用 EST 数据库进行片段的拼接与组装,而后者是利用基因组数据库的基因序列进行识别、预测, c基因电脑克隆 2010/12/16 IV 基因电脑克隆的实质 : 以一个序列片段为线索 , 通过它和整个数据库的比较 , 还原出全序列原貌。 原理:当测序获得一条 EST 序列时, 它来
18、自哪一个基因的哪个区域是未知的 (随机的 ),所以属于同一个基因的不同 EST 序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有 EST 序列,进而将它们拼接成和完整基因相对应的全长 cDNA序列。 可行性:到目前为止 , 公共 EST 数据库 (dbEST)中已经收集到约 800 万条的人的 EST 序列。估计这些序列已覆盖了人类全部基因的 95%以上,平均起来每个基因有 10 倍以上的覆盖率。 嵌合体 cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起形成的 Contig。我们构建的神经网络能探测组装 过程形成的嵌合体。 d.不同的实施方案和计算量 将数据
19、库中的所有序列进行两两比较 , 将他们分成一组组 (一组内的序列都属于同个基因 ), 最后再拼接成一条条完整的 cDNA序列。对于人的 EST 库 (5百万条序列),需要进行的序列比对次数为 : 0.5*(5*106)2=1.25*1013。 以一组感兴趣的 (如表达于某种组织的 )序列作为 ”种子 ”序列 (N 条 ),将它们和整个库比较,以找到它们所属的完整 cDNA 序列。这种方案需要进行的序列比对次数为: N*5*106。 四 EST 利用 EST( Expression Sequence Tag) 数据库 (dbEST) 发现新基因和新 SNPs EST 数据库质量相对较低,就象许多
20、文献报道,发现了许多内含子,克隆载体,多酶切点, ALU 以及 3、 5非翻译序列 (统称污染序列,也称载体序列或非 insert 序列 )被包含在 EST 数据库中,这使得 EST 序列分析复杂化。因此在进行 Contig 电脑组装之前,需要探测并去除 EST 数据库中的污染序列。为探测并去除 EST 数据库中的污染序列,必须建立载体库,对种子库和人 EST 库中的每条序列扫描其前端和尾部检查上述非 Insert 序列,并去除。 全 长 cDNA 标注涉及到 mRNA 的 5端即转录起始位点区、第一个 ATG、开读框架、终止密码子和 3端的确认。目前国际上各种二次数据库的建立和公布,使得我们
21、有可能利用现有的数据源,通过同源性比较来预测 mRNA 的 5端,最常用的与转录起始位点相关的数据库是真核启动子数据库 (The TRADAT Project , Eukaryotic Promoter Database, EPD. http:/www.epd.unil.ch/ )。 开读框架 (Open Reading Frame: ORF)的预测常与第一个 AT G 和终止密码子的确定相关,但由于 EST 序列相对较低的测序质量,在测序过程中出现的碱基删除或插入错误 (称为 indel 错误 )将引起读框移动,甚至出现假终止密码子,所以,仅凭第一个 ATG 和终止密码子是不足以确定 ORF
22、 的。 我们结合下述几种方法对 Contigs 进行标注,先用复合人工神经网络系统预测 Contig 编码 蛋 白 的 可 能 性 , 然 后 采 用 NCBI 的 ORF 预 测 软 件 ( ORF finder: http:/www.ncbi.nlm.nih.gov/gorf/orfig.cgi )初步判断 ORF 的可能范围。第一个 ATG 的确 定则依据 Kozak 规则和信号肽分析软件 (SignalP http:/www.cbs.dtu.dk/services/signalP )的结果。所谓 Kozak 规则,即第一个 ATG 侧翼序列的碱基分布所满足的统计规律,若将第一个 ATG
23、 中的碱基 A, T, G 分别标为 1, 2, 3 位,则 Kozak 规则可描述如下: (1)第 4 位的偏好碱基为 2010/12/16 V G; (2)ATG 的 5端约 15bp 范围的侧翼序列内不含碱基 T; (3)在 -3, -6 和 -9 位置, G 是偏好碱基; (4)除 -3, -6 和 -9 位,在整个侧翼序列区, C 是偏好碱基。 Kozak 规则是基于已知 数据的统计结果,为获得高可信度的结果,我们把预测过程中证实含完整 mRNA 5端的 Contig翻译为蛋白序列,然后用 SignalP 软件对前 50 个氨基酸序列 (从第一个 ATG 对应的甲硫氨酸Met 开始
24、)进行评估,如果 SignalP 分析给出正面结果,则测试序列有可能为信号肽,假如在该测试序列的第一个 Met 5端存在终止密码子,该序列为信号肽的可能性更大。 3端的确认主要根据 Poly(A)尾序列 ,若测试 Contig 不含 Poly(A)序列,则根据加尾信号序列“ AATAAA”和 BLAST 同源性比较结果共同判断。 嵌合 体 cDNA是指来源于不同基因的序列,由于偶然因素被组装在一起形成的 Contig。我们构建的神经网络能探测组装过程形成的嵌合体。 EST 数据也可用来帮助研究基因的可变剪接和发现非编码 RNA。 五 完整基因组的比较研究是一个新方向 研究生命是从哪里起源的?生
25、命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?比如,鼠和人的基因组大小相似,都含有约三十亿碱基对,基因的数目也类似。可是鼠和人差异确如此之大,这是为什么?同样,有的科学家估计不同人种间基因 组的差别仅为 0.1%;人猿间差别约为 1%。但他们表型间的差异十分显著。 这又为什么? 完整基因组序列的比较研究是解决这些问题的重要途径。 The distribution of mouse homology genes in the human chromosome 鼠的 1 号染色体分布人的 1.2.5.6.8.13.18 号染色体上, w
26、aston, crick 第一次来中国时说肿瘤的发生也可能因为基因的换位,改变基因表达水平。所以不同编排方式使得基因表达存在很大差别。 HOX 基因是看家基因,脊椎动物的 HOX 基 因是果蝇的四倍,果蝇到人基因组很可能是经过了两次的加倍。 六基于序列数据的生物进化研究当前面临的问题 自 1859 年 Darwin 的物种起源 (Origin of Species) 发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。 进化论研究的核心是描述生物进化的历史 (系统进化树 )和探索进化过程的机制。自本世纪中叶以来,随着分子生物学的不断发展,进化论的 研究也进入了分子水平。当前分子进
27、化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。 2、用进化树 分析序列的进化 序列相似性比较。就是将待研究序列与 DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有 BLAST、 FASTA 等; 序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有 CLUSTAL 等; 构建系统进化树。根据序列同
28、源性分析的结果,重 建反映物种间进化关系的进化树。 2010/12/16 VI 为完成这一工作已发展了多种软件包,象 PYLIP、 MEGA 等; 稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率( 70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap 算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。 3、基因的横向迁移 生物同一状态下,出于不同进化程度的物种间的基因横向转移不是进化来的,而是在同一时代横向迁 移来的,人基因中的 223 基因是细菌
29、的,而线虫,果蝇和酵母中没有,说明是垂直进化来。 More and more LGT(Lateral Gene Transfer ) were discovered and reported. Some people guess 1.5%14.5% of genes in a genome are related with LGT, even rRNA molecules are involved in LGT; As more and more whole genome sequence and the related data become available, it is possibl
30、e to re-consider the phylogeny and clustering properties of species in more broad measurements, even in level of whole genome. 怎样在考虑 LGT 的基础上进行进化树分析 1 构建数据库 COG 归属于 genebank去掉 LGT 2 基于实验基因组的方法,利用各种完整的基因组,可以不考虑 LGT Q:怎么比不同 SIZE 的基因组(人与支原体) 用 (CISA: Complete Information Set Analysis)抽提每个基因组的特殊,如一个支原体
31、400kb,抽提特殊序列,除以 400,人基因组为 30 亿,提取其特殊,再除以 30 亿,再进行比较。 Phylogeny Based on Whole Genome as inferred from Complete Information Set Analysis (CISA) we present a new method based on information theory to calculate the phylogenic distance between biological sequences, including 16s Ribosomal RNA, which is
32、used for method proof-test, 24 completely sequenced genomes, as well as all predicted ORF products of them, creating Phylogeny of genome and proteome using neighboring-joining algorithm. Scientists have already been conscious of that no other biological sequence can bring more phylogenetic informati
33、on than the genome. However, previous algorithms don t have the ability to handle such megabase level nucleic acid or amino acid sequences, whose length sizes are in most cases unequal. The Composition of Proteins with different functions(COG)in a Whole Proteome Reveals the Organisms Phylogeny and C
34、lustering Properties We took the 17 functional classes of COGs (Clusters of Orthologous Groups) as the basic classes of protein functions and constructed a 17-D protein_vector to describe the potential functions of the protein. By summing up all protein_vectors belonging to the proteome and then nor
35、malizing it, we got a 17-D “Proteome_Vector” reflecting the composition of proteins of different functions in the proteome. By regarding this kind of 17-D Proteome_Vectors as “characteristic vectors” of the organisms, we investigated the clustering properties and phylogeny relationships of the 36 sp
36、ecies (8 Archaea、 24 Bacteria and 4 Eukarya) whose genome sequences and related annotations are available at that time 2010/12/16 VII 七 2000 年基因组研究的三个突出方面 1. 干细胞作为基因组研究的重要选材 Celera Genomics And Geron Corporation Announce Collaboration For Human Pluripotent Stem Cell ( Genomics June 12, 2000) The ob
37、jective of the collaboration is to identify and assign function to genes important in early human development, and to utilize the information to develop small molecule pharmaceuticals, protein therapeutics, cell and gene therapies, diagnostics, and tools for use in drug discovery and testing. 2. SNP
38、 研究的国际大协作 The SNP Consortium Ltd. is a non-profit foundation organized for the purpose of providing public genomic data. Its mission is to develop up to 300,000 SNPs distributed evenly throughout the human genome and to make the information related to these SNPs available to the public without intel
39、lectual property restrictions. 856,666 mapped SNPs,is now available.( July 11, 2000) Human Genome Project and SNP Consortium Announce Collaboration 1 The explanations may reside in the cumulative (累积的) effect of a small number of differences in DNA base sequence called single-nucleotide polymorphism
40、s (SNPs), which underlie individual responses to environment, disease, and medical treatments. SNPs are the most common type of sequence variation. SNP 研究是基因组领域理论成果走向应用的关键步骤。是联系基因型和表现型之间关系的桥梁。 2 SNP 研究是人类基因组计划走向应用的重要步骤。 SNP 研究有很多优点:首先是 SNP 在基因组中分布相当广泛,近来的研究表明在人类基因组中每 300bp 就出现一次。但在已知SNP 中,仅有不到 1的 SN
41、P 造成蛋白的变化。大量存在的 SNP 位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实 验操作来看通过 SNP 发现疾病相关基因突变要比通过家系来得容易;有些 SNP 并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。这样的标记有助于发现疾病基因; SNP 在基础研究中也发挥了巨大的作用,比如,近年来对 Y 染色体 SNP 的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。 Y 染色体迁移:找人的 Y 染色体(演化慢,伴性)找基因与人类繁衍有关, 8 万个碱基,测不同人的这个基因,八大地区,不同种族,挑了非洲的隔离人群(从未离开),
42、大猩猩,黑猩猩总共 100 例,在基因上得到 1 点, 可将上面分成两个部分:隔离人群,大猩猩,黑猩猩一组,其余一组。得出的结论是 : I. 古老人群出现在非洲,古老人群从未离开过非洲 II. 现在人从非洲走向世界 III. 碱基突变需要 20-30 万年 亚洲人为第六路大军,先迁到南方。 八 大规模基因功能表达谱的分析 随着人类基因组测序逐渐接近完成,人们自然会提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?人们进一步提出了一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的量是多少;是否存在翻译后的修饰过程,若
43、 存在是如何修饰的;基因敲除 2010/12/16 VIII ( knock-out)或基因过度表达的影响是什么;多基因差异表达与表现型关系如何等等。概括这些问题,其实质应该是:知道了核酸序列和基因,我们依然不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。 基因芯片 Microarray:An arrayed series of thousands of tiny DNA oligonucleotide samples imprinted on a small chip.mRNAs can be hybridized to microarrays
44、to asseess the amount and level of gene expression.(GENES X) 通常芯片数据分析有如下的一些步骤,它们的每一步都与生物信息学相关: Scanning(扫描):读取芯片上的光密度。因为芯片上的点都是被荧光染料标记的(一般有红、绿两种颜色),荧光强度就代表了基因的表达量; Gridding(网格化):确定芯片每一个杂交点的位置。具体说来,它要做三件事情,即:发现每一个杂交点;按照信号的强弱等 级分割信号和背景的边界;分别读取信号和背景的光强度。 Normalization(标准化):对所有信号进行标准化,使光密度值能正确代表基因表达量。这是
45、芯片数据分析中非常重要的一步。为什么要对数据进行标准化呢?这是因为很多因素都可影响芯片上的光密度,如:载体(象玻璃)表面不干净、染料不纯、空气中的灰尘污染;背景光的照射方式;光点大小以及对不同的杂交点荧光效率不同等; Clustering(聚类):将具有相同特征(如:相同功能、相同表达趋势)的基因聚集在一起。这只是芯片分析方法的一个代表,不同的方法还有很多 。常用的方法有: Clustering 方法,也称聚类方法,它是无监管的学习方法。这是芯片分析中使用最广泛的方法 30, 31 ,它比较适合分析具有某种共同表达特征的数据,象,由共同细胞类型产生的芯片数据,例如:对照和样品来自同一组织; C
46、lassification 方法,也称分类方法,它是有监管的学习方法 32。它非常适用于基因按其生物学功能分类的情况,例如:肿瘤的分类 33 ;多变量统计也是芯片数据的常用分析方法 34 。其中单组分分析和多维标度可有效地减低系统的维数。这种方法常用于分析信号 贫乏的数据集 35 来探测特定基因的表达概率 36 。尽管发展了很多方法,但基因表达模式的研究才刚刚开始,大量的问题尚未解决,例如:目前的分析还只能停留在一类基因或一组基因上,还不能有效地区分它们之间的关联,同时也很难获取非常重要也很有兴趣的若干低表达基因象,转录因子以及受体的信息。为此,将基因表达数据与序列数据、 pathway数据以
47、及生物医学实验数据结合起来共同分析可能是未来的发展趋势。 用于基因芯片分析的重要软件有: TIGR(The Institute for Genomic Research)芯片数据分析软件包 41 :它由三个软件组成。MultipleExperimentViewer (TMEV)是用 Java 语言设计的。用于对芯片数据标准化及进行聚类和距离代数的分析。本软件还有图形显示界面。但要运行此软件必须 Sun JRE 和 J3D 1.2版本以上的系统; ArrayViewer 是一个简化的芯片数据分析软件,用于设备条件不允许使用 TMEV 时 ; Spotfinder 是用于芯片信号收集和图象处理的。
48、它是用 C 和 C+写成在 PC Windows NT/98 环境下运行的。这些软件是可以下载 的。 尽管芯片技术有极为广泛的前景,但对海量芯片数据的分析依然存在很多尚未解决的问题。如:( 1)芯片上光密度数据标准化的理论方法研究。 为了保证芯片上每一个杂交点的光密度值都能正确地代表基因产物的表达量,需要在整个芯片范围内同时对所有点的光密度 2010/12/16 IX 值进行标准化。这是一个多点非线性的拟合问题,当前虽有很大进展,但仍需发展新的理论方法。 (2) 含有大量无定义元的大规模矩阵数据处理的方法研究:当根据信噪比对芯片数据进行筛选时,可能有约 60%杂交点的数值不可靠,要舍去,这样就导致大量矩阵元无定义。如何处理这种数据也 要发展新方法。( 3)大规模基因功能表达谱数据挖掘和知识发现:这是表达谱研