数 学 建 模 培 训多元统计分析1 问题引入2思路点 拨3判 别 分析方法4 DNA序列分 类问题 的求解5. 参 考文 献目 录 首先,我 们 来 考 虑 一下 2000年 “网 易杯 ”全 国 大 学 生 数学 建模 竞赛 的 A题 是 关 于 “DNA序列分 类 ”的 问题 1 问题 引入 人类基因组中的 DNA全序列是由 4个碱基 A, T, C, G按一定顺序排成的长约 30亿的序列,毫无疑问,这是一本记录着人类自身生老病死及遗传进化的全部信息的 “天书 ”。但是,除了这四种碱基外,人们对它所包含的内容知之甚少,如何破译这部 “天书 ”是二十一世纪最重要的任务之一。在这个目标中,研究 DNA全序列具有什么结构,由这 4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学( Bioinformatics)最重要的课题之一。 虽然人类对这部 “天书 ”知之甚少,但也发现了 DNA序列中的一些规律性和结构。例如,在全序列中有一些是用于编码蛋白质的序列片段,即由这 4个字符组成的 64种不同的3字符串,其中大多数用于编码构成蛋白质的 20种氨基酸。又例如