1、生物信息学引论钟 扬(复旦大学 / 西藏大学 )课程内容1. 分子生物学数据库2. BLAST 工具3. EST拼接和电子克隆4. 序列对位排列5. 分子进化基础6. 分子系统发育分析方法7. 进化分析及其应用8. 基因组分析9. 工作流 (KDE) 及其应用10. 基因表达数据处理什么是生物信息学? 80年代末随着人类基因组计划启动而兴起的一门新兴交叉学科 生命科学中的信息科学 基因组相关信息的快速增长 (方法与技术需求 ) 新药开发等 (企业需求 ) 生物信息学 (Bioinformatics) 与计算生物学 (Computational Biology)Luscombe, N. M. e
2、t al., 2001. What is bioinformatics? Methods of Information in Medicine 40: 346-358.数据挖掘 (Data Mining) 关联 Associating 分类 Classifying 建模与模拟 Modelling & Simulating 预测与检验 Predicting & Testing 发生在 Wal * Mart 的真实故事理念:相关联的货物最好摆在一起问题:啤酒和什么货物关联?可能的答案:花生米?红肠? 从上百万张收银单获得的答案: 尿布!数据仓库 (Data Warehouse) 和数据挖掘 (Da
3、ta Mining) 数据仓库的定义 (W.H.Inmon): 面向主题的、集成的、稳定的、历史的数据集合,用于支持战略决策制订 (而传统的操作型数据库是面向应用的、细节的、可更新的、瞬时的 ) 1)面向主题的:每个主题对应于一个宏观分析领域2)集成的:入库之前,要进行加工集成 (转成面向主题的 )3)稳定的:几乎不更新(覆盖)4)历史的:一般要用到过去 5-10年的数据 数据挖掘的定义: 一种决策支持过程,主要基于人工智能、机器学习、统计学等技术,高度自动化地分析原始数据,做出正确的决策数据挖掘从大量的、不完整的、有噪声的、模糊的、随机的 数据中 , 提取隐含其中的、人们事先不知道的、潜在有用的 信息和知识的过程、技术 流感的预测(网上数据挖掘)