1、Qualitative Data Analysis 定性数据的分析童新元 中国人民解放军总医院名人格言 谬误的好处是一时的谬误的好处是一时的 ,真理的好处真理的好处是永久的是永久的 ,真理有弊病时真理有弊病时 ,这些弊病这些弊病会很快被消灭会很快被消灭 ,而谬误的弊病则与而谬误的弊病则与谬误始终相随谬误始终相随 。 狄德罗狄德罗 (法国思想家法国思想家 ,1713 1784)案例 1: 评价方法 的讨论 怎样评价 男女生在德、智、体 的 差异? 怎样 评价 A、 B、 C三种降压药物疗效 的 差别?什么是 定性数据 ? 定性数据( qualitative data)或称为分类数据(catego
2、rical data),其观察值是定性的,表现为互不相容的类别或属性。 例如患者服药后结局为治愈和未治愈,生存和死亡、阴性和阳性等。 定性数据的统计分析主要是如何估计总体的率及如何推断两个及两个以上总体率或构成比是否有差异、两个分类变量间有无相关关系等。 第一节 率的估计一、 率的点估计 与总体均数的估计相似,从总体中随机抽取一个样本,从样本计算得到的率是总体率的点估计值。 例 132例美国冠心病黑人在进行心脏搭桥手术后,有 5人死亡, 试估计 美国冠心病黑人心脏搭桥手术后死亡率为多少? 解: P=5/132 *100%=3.8%二、 率的抽样误差与标准误 从 总体中随机抽取一个样本,样本率与
3、总体率之间存在差别,差别的大小可以估计。 由抽样而引起的样本率与总体率的差异称为率的抽样误差。即率的标准误。 率的标准误计算公式 式中, p为率的标准误; 为总体率; n为样本量 当总体率 未知时,以样本率 p作为 的估计值,相应地此时率的标准误估计值按下式计算 : 式中, Sp为率的标准误的估计值; p为样本率。二、率的区间估计 总体率的点估计是计算样本的率,很简单,但计算得到的样本率不等于总体率,它们间存在差异。因此,我们还需要知道总体率大概会在一个什么样的区间范围,即所谓总体率的可信区间估计。 总体率的可信区间可以用正态分布法估计。当 n足够大,且 p 和 1-p均不太小,如 np 和
4、n( 1- p)均大于 5时, p的抽样分布逼近正态分布。此时,可根据正态分布的特性计算总体率的 (1-a)%可信区间 : 双侧: ( p-u/2 Sp , p+u/2 Sp ) 单侧:大于 p-u Sp 或小于 p+u Sp正态分布法例 10-1 采用某药治疗高血压病人 200例,服药一月后 160人有效,试估计该药的有效率及其双侧 95%可信区间。解 该药总体有效率: p=160/200=80%,Sp =0.02828u0.05/2=1.96,总体有效率的 95%CI为 :( 0.8-1.960.02828 , 0.8+1.960.02828 )=( 0.7446, 0.8554)即 估计该药的有效率为 80%, 该药的有效率的95%可信区间为 ( 0.7446, 0.8554)。