1、第四章 生物信息学常用概率统计方法简介统计生物信息学解决问题步骤n 在掌握基本资料分布的基础上,提出检验假设n 将数据资料进行合理的分类和整理,建立数据文件n 借助于相关统计软件,根据研究者的实验设计和研究目的,对数据文件中的数据进行统计分析(可能需要建立统计模型)n 对统计结果做出合理的解释 最最关键!概率统计学基础n 确定性现象 :在一定条件下, 一定 会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫 必然事件 ;肯定不发生某种结果的叫 不可能事件 。n 随机现象 :在同样条件下 可能 会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为 随机事件
2、。 随机事件的特征: 随机性 ; 规律性 :每次发生的可能性的大小是确定的。n 概率 (probability):随机事件发生的可能性大小,用大写的 P 表示;取值 0, 1。n 频率 frequencyn 样本的实际发生率称为 频率 。设在相同条件下,独立重复进行 n次试验,事件 A出现 f 次,则事件 A出现的频率为 f / nn 频率与概率间的关系:n 样本频率总是围绕概率上下波动n 样本含量 n越大,波动幅度越小,频率越接近概率n 概率计算的基本法则n 加法法则n 乘法法则n 互补原则n 完全事件系的概率n 小概率事件n 必然事件 P= 1n 不可能事件 P=0n 随机事件 0P1n
3、将 P 0.05( 5)或 P 0.01( 1) 称为小概率事件 (习惯 ),统计学上认为不大可能发生随机变量及其分布n 随机变量 (random variable)n 简称 变量 ( variable), 统计上习惯用大写拉丁字母表示 ,如 X、 Y 、 Z、 n 变量值 习惯用小写拉丁字母表示 ,如性别x1 1(男 )、 x2 1(男 )、 x3 0(女 ) 、 n 随机变量特征n 是一个变量n 取值随试验结果而改变n 本例中,性别、体重、疗效分别为三个随机变量,分别用 X, Y, Z表示n 其中,性别变量有若干取值: x1=1, x2=1;体重变量也有若干取值: y1=66, y2=78
4、; 编 号 (ID)性 别 ( X)体重 (kg) (Y)疗 效( Z)张 1 1 66 0李 2 1 78 1王 3 0 57 2 n 随机变量的分类n 离散型变量 (discrete variable),相当于计数资料,变量的所有取值是有限个,如性别、年龄、血型等n 连续性变量 ( continuous variable),相当于计量资料,变量的取值有无穷多个,如身高、体重、血压、体温等n 有序变量 ( ordinal variable),相当于等级资料,如尿糖等级 ( +、 +、 +、 +)、脉搏等级(速脉、正常、缓脉)等n 随机变量概率分布 (probability distribution)n 事件概率表示了一次试验中某个结果发生可能性的大小n 要想全面了解试验中某种变量的变化趋势,必须知道该变量在试验中全部可能的结果以及各种可能结果发生的概率 随机变量的概率分布n 概率分布通常用表格、图形、函数来表示n 根据随机变量的不同,可分为离散变量的概率分布与连续变量的概率分布