1、1,临床试验的检验的样本量估计,赵耐青复旦大学卫生统计教研室,2,背景简述,在临床试验中,采用随机分组,把受试对象分为试验组和对照组,评价试验药和对照药的疗效,评价指标为有效和无效,其观察结果可以简单归结如下形式:,3,差异性检验,对于差异性检验:(试验药有效率1,对照药有效率2)检验统计量,4,差异性检验,其中故当 时,可以拒绝H0。可以证明: 检验统计量。,5,优效设计的样本量估计,每组样本量相同的情况下,样本量估计为其中 可以取 或差异更小的值 ,可以理解为 最小的分辨能力,亦称为difference,检验效能Power=1-,为第一类错误的概率。,6,优效设计的样本量估计,样本量n与,
2、和有关,分辨能力的意义为:当实际的两个率的差 |时,则按照估计的n,进行随机抽样和统计检验,拒绝H0的概率Power大于或等于预定值1-,反之Power下降,即:出现不拒绝H0的机会增加。,7,优效设计的样本量估计举例,例:为了雷替曲赛治疗局部晚期或转移复发性结直肠癌患者的有效性,试验组:雷替曲赛+奥沙利铂,对照组:亚叶酸钙+5-氟脲嘧啶+奥沙利铂。从相关文献表明:试验组的有效率(CR+PR)为29%,对照组的有效率为18%,估计样本量时,取=0.05,分别取Power=0.80,0.85,0.90,由于文献的结果有一定的抽样误差,考虑试验组和对照组的有效率波动2%,计算上述各种组合的样本量。
3、,8,优效设计的样本量估计举例,先计算=0.05,power=0.9,试验组方案的有效率为P1=29%,对照组方案的有效率为P2=18%,则每组样本量为,9,样本量估计举例,10,非劣性设计的背景简述,在上述的差异性检验中,存在一个问题:当样本量足够大时,即使两个总体有效率相差很小,也有较大可能出现拒绝H0,但如此小的差异可能没有临床意义。从另一个角度考虑:只有两个药的总体有效率差异超出一定的范围,两个药的优劣性在临床实践中才有意义,并称为容许误差,由此产生了非劣性检验的问题。,11,非劣性检验简介,非劣性统计的检验假设:H0的意义为对照药的总体有效率2高于试验药的总体有效率1,并且差异超出临
4、床可以接受范围意义(0)。H1的意义为对照药的总体有效率低于试验药或对照药的总体有效率虽然高于试验药,但试验药仍在临床可以接受的范围内。H1亦可称为试验药非劣于对照药。,12,非劣性检验概念举例,例如:对照药在人群的有效率为2对于试验药而言,较高的期望试验药的人群有效率1高于对照药的有效率2,如果试验药的有效率低于对照药,但略微低一些,如:试验药的人群有效率与对照药有效率相差小于5%还是可以被临床能接受的,则:将上述观点用非劣性假设检验表示:H0:1 2-5% H1: 12-5%,13,非劣性检验简介,由于非劣性检验为单侧检验,临床试验往往取0.025(如美国FDA要求),检验统计量为1-2
5、的95%CI为:,14,非劣性检验简介,如果U1.96(P0.025),则拒绝H0,可以认为试验药非劣于对照药。非劣性检验P0,临床试验的目的只是想证实试验药(A药)优于C药,但由于伦理等原因,不能直接用C药作为对照,则可以以B药为对照,用非劣性设计,选择特殊的非劣性界值,通过非劣性检验,间接证实A药优于C药。,17,非劣性设计的背景简述,举例说明基本思想:例如对照药的有效率B为60%,C药的对照药的有效率C只有40%,如果我们只要证实:试验药的有效率A与对照药的有效率之差A-B=0即:证实试验药的有效率高于C药,18,非劣性设计的背景简述,一般情况:设:对照药的有效率-C药的有效率=0H0:
6、试验药的有效率对照药的有效率- H1:试验药的有效率对照药的有效率- 如果P对照药的有效率- =对照药的有效率-(对照药的有效率-C药的有效率)= C药的有效率。即:试验药的有效率大于C药。,19,非劣性检验样本量估计实践,背景:米非司酮是一种用于药物流产的药,全国的使用量较大,大样本的国际和国内多中心临床试验结果表明:使用该药的流产成功率在92%左右,但也有该药的一些其他的临床试验结果报道,各个研究的样本成功率之间的最大差异为7%。,20,非劣性检验样本量估计实践,现研究某个新的药物流产药,希望该药的流产效果非劣于米非司酮。根据初步的研究结果显示:样本的成功率在93%左右即:采用随机对照试验
7、,以米非司酮为对照药,对于该药的有效性问题进行非劣性统计分析。根据上述信息,估计所需样本量为多少?,21,非劣性检验样本量估计实践,问题1:容许误差取多少?问题2:米非司酮的各个研究所报道的成功率的最大差异为7%,容许误差能否取7%?根据各方临床专家的意见:由于药物流产每年的使用量很高,没有明显的重要因素影响其成功率,所以新药的成功率在90%以上是可以接受的,因此可以取=0.92-0.90=2%,22,非劣性检验样本量估计实践,根据对照药的成功率为92%,试验药的成功率94%,=0.94-092=0.02Power=0.9,=0.025,P1=0.94,P2=0.92每组样本量估计:,23,非
8、劣性检验样本量估计实践,问题3:在实际研究中,往往不止一篇文献含有P1,P2信息,并且不同文献提供的P1,P2信息往往是有差异的,应该参考哪一篇文献所提供的P1,P2信息?一般选择的策略:尽可能选择相同对照的RCT研究样本量比较大,24,非劣性检验样本量估计实践,对于借助非劣性试验,间接证实试验药的有效率优于C药,可以考虑下列的非劣性界值(Non-inferiority marginal)对照药与C药的有效率之差的95%可信区间的下限。如:B- C的95%CI为(0.05,0.09),则可以取=0.05(推荐)对照组与C药组的有效率之差=0.12,则可以考虑取=0.12/2=0.06(不太推荐
9、)可以参考对照组有效率的10%(实在没有办法时,但必须有证据说明对照药有效),25,非劣性检验样本量估计实践,问题4:对于许多临床试验,没有足够的临床背景信息和证据可以确定容许误差,如何处理?在临床试验的非劣性统计中,首先尽可能依据临床背景和临床专家确定容许误差 ,在临床背景和临床专家无法确定的情况下,通常采用对照组PP集样本有效率的5%15%作为 (一般为10%)。,26,非劣性检验样本量估计实践,问题5:由于P1,P2存在抽样误差,同时也造成也存在较大可能的误差。应该如何处理?在实际研究中,一般应考虑P1,P2的波动范围,计算一些P1,P2的波动组合值和在能够接受范围内的一组Power值,评估P1,P2的各种波动和不同Power值组合下的样本量,选择适合的样本量。,27,举例,由于对照药的成功率是在非常大的样本量下获得,所以忽略其抽样误差,28,非劣性设计的不等样本量的问题,在许多临床试验中,往往采用两组样本量不相等的设计,例如:n1=kn:n2=n (k1),则,29,Thank You,