1、实体瘤疗效评价标准 RECIST(1.1 版)1 背景1.1 RECIST 标准的历史评价肿瘤负荷的改变是癌症治疗的临床评价的一个重要特征。肿瘤缩小(客观反应)和疾病进展的时间都是癌症临床试验中的重要端点。为了筛查新的抗肿瘤药物,肿瘤缩小作为 II期试验端点被多年研究的证据所支持。这些研究提示对于多种实体肿瘤来说,促使部分病人肿瘤缩小的药物以后都有可能(尽管不完美)被证实可提高病人的总体生存期或在随机期试验中有进入事件评价的其他机会。目前在期筛查试验中评价治疗效果的指标中,客观反应比任何其他生物标记更可靠。而且,在和期药物试验中,进展期疾病中的临床试验正越来越利用疾病进展的时间(无进展生存)作
2、为得出有治疗效果结论的端点,而这些也是建立在肿瘤大小的基础上。然而这些肿瘤端点、客观反应和疾病进展时间,只有建立在以肿瘤负荷解剖学基础上的广泛接受和容易使用的标准准则上才有价值。1981 年世界卫生组织(WHO)首次出版了肿瘤反应标准,主要用于肿瘤反应是主要终点的试验中。WHO 标准通过测量病变二维大小并进行合计介绍了肿瘤负荷总体评价的概念,通过评价治疗期间基线的改变而判断治疗的反应。然而,在该标准出版后的十几年中,使用该标准的协作组和制药公司通常对其进行修改以适应新的技术或在原始文献中提出了不清楚的地方,这就导致了试验结果解释的混乱。事实上,各种反应标准的应用导致同一种治疗方法的治疗效果大相
3、径庭。对这些问题的反应是国际工作组于 19 世纪中期形成,并对反应标准进行了标准化和简化。新的标准,也称为 RECIST(实体肿瘤的反应评价标准)于 2000 年出版。最初的 TECIST 关键特征包括病变最小大小的确定、对随访病变数目的建议(最多 10 个;每个器官最大 5 个) 、一维而不是二维的使用、肿瘤负荷的总体评价。这些标准后来被学术团体、协作组和制药工业广泛采用,而该标准的最初端点就是客观反应或疾病进展。另外,当局接受 RECIST 作为这些评价的合适的标准。1.2 为什么要更新 RECIST?自从 2000 年出版 RECIST 后,许多研究者在前瞻性研究中证实将以二维测量为基础
4、的标准(甚至是三维测量)替换为一维测量的有效性。但也有例外(如间皮瘤) ,一维测量标准似乎在实体肿瘤期试验中更好。然而大量问题开始出现需要回答和阐明。如在不影响病人总体预定反应(或试验结束)情况下是否要超过 10 人才能评估?在随机期试验中,特别当病人没有可测量的病变,而疾病进展,无反应作为主要的端点时,如何应用 RECIST?是否或怎样利用新的影像学技术如 FDG-PET 和 MRI?如何评价淋巴结?是否需要确认治疗反应?RECIST 在靶向非细胞毒性药物试验中的最大适用范围。RECIST 标准的修改包括所有这些问题的更新。1.3 RECIST1.1 版形成过程RECIST 工作组,是由来自
5、于学术研究机构、政府和制药企业的早期药物开发的有经验的临床医生、影像学专家和统计学家组成,他们为 RECIST 更新定期举行会议,确定对种种变化是否需要做出调整和复习新出现的证据。修订过程中一个最重要的方面是建立一个回顾性的数据库,该数据库的资料来自于工业和学术协作组试验中获得的实体肿瘤相关数据。这个数据库在 Jan Bogaerts 和 Patrick Therasse 领导下,在 EORTC 资料中心完成的。该数据库有6500 病人,病变器官18000 个,被用来调查各种问题(如需要病变的数量、治疗反应确认的需要性,淋巴结测量规则)对治疗反应和无疾病进展生存期的影响。这项工作的结果是由 R
6、ECIST 工作组做出评价后在修改的指南中发生了较大变动,并且在这个专期中做出了具体报道。Larry Schwartz and Robert Ford(该指南的共同作者)也提供了来自于推理的关键的数据库,这些数据库形成了这项修改。这个修改指南的出版被认为是及时的,因为它将各种变化进行了简化、完美化,使临床试验的肿瘤负荷的评价标准化。关键的变动鉴于附录。由于基本的评价方法仍然是解剖,而不是功能上的,因此我们将这个版本命名为 RECIST1.1 而不是2.0.1.4 体积或功能评价怎么样?这就提出了一个问题即是否可以将肿瘤负荷的解剖的一维评价转变为体积评价或功能评价(如动态对比增强 MRI 或 C
7、T或 FDG-PET 评价肿瘤代谢) 。正如大家看到的,工作组特别是那些从事影像学研究者,相信目前还没有完全的标准化和这些推荐的替代评价方法还不能广泛应用。正如指南后面描述的,唯一的例外是 FDG-PET 作为确定疾病进展的辅助工具。根据此专期的介绍,我们相信这些有希望的新的方法(如 RECIST 描述中的增加或替代解剖评价)需要适当的和严格的临床评价。Sargent 等的文章表明那些将需要确定这些形式的“端点”的资料类型,如何确定这些标准/形式的地点和时间以提高其可靠性,以至于在期筛查试验中通过与 RECIST 标准比较,确定那些为有活性的新的药物,而哪些不是。RECIST 工作组期望明年出
8、现这样的资料,允许在下一版的 RECIST 标准中做出适当的变动。2. 该指南的目的该指南描述了一个实体瘤测量和成人、小儿癌症的临床试验中肿瘤大小变化客观评估的规定的标准做法。预计这些标准将有效用于所有以客观响应为主要的研究终点的试验,以及承担稳定疾病评估、肿瘤进展或进展时间分析的试验,因为所有治疗效果的衡量都是基于研究中解剖学肿瘤负荷及其变化的评估。本文中对于达到相应标准-表明试剂或治疗方案有积极作用的终点-的患者的比例没有任何假设:这些定义依赖于试验中癌症的类型以及正在研究中的特殊试剂。协议必须包括适当的统计学章节,介绍如何以实验样本大小和决策标准为基础来界定疗效参数。除了为肿瘤反应评估提
9、供定义和标准外,这一指南也为以肿瘤反应为终点的试验推荐了标准的研究结果报告。尽管这些指南可用于恶性脑肿瘤的研究,在这一领域关于响应的评估已有单独的标准出版13。由于淋巴瘤反应评估的国际准则也已单独出版14,这一指南不用于恶性淋巴瘤的研究。最后,许多肿瘤学家在他们日常的临床实践中依靠多次成像研究来跟踪病人的恶性疾病,并在客观和症状双重标准的基础上决定进一步的治疗方案。只有在治疗的肿瘤学专家判断合理时,这些 RECIST 指南才会在决策中起到重要作用。3.术前肿瘤检测3.1 定义术前,肿瘤病灶/淋巴结将如下分为可测量与不可测量两类3.1.1 可测量肿瘤肿瘤性病变:至少有一个不小于(仪器检测)低限的
10、尺寸(测量仪器上最长的直径将被记录下来)必须准确测量: 10 毫米用 CT 扫描( CT 扫描层厚度不大于 5 毫米;见成像指南附录 II) 。 临床检验 10 毫米用卡尺测量(不能用卡尺准确测量的病变,应记录为不可测量的) 。 20 毫米用胸部 X 光检查。恶性淋巴结:当用 CT 扫描(CT 扫描层厚度建议不大于 5毫米)来评估时,淋巴结短轴必须达到 15mm 才可将其认为是病理扩大和可测量的。术前和后续工作中,只测量并跟踪短轴长度(见特别问题 15 中施瓦茨等) 。还可从“目标与非目标病灶术前文件”下的注解获取淋巴结测量方面的资料。3.1.2 不可测量的(肿瘤)其他所有病变,包括小病灶(最
11、长直径小于 10 毫米或病理淋巴结短轴为 10 毫米到小于 15 毫米的)以及真正的不可测病变。视为真正不可测的病变包括:理学检查确定的脑膜疾病、腹水、胸膜或心包积液、炎症乳腺疾病、淋巴管参与的皮肤或肺部、腹部肿块/腹部器官巨大症,这些都是用重现成像技术无法测量的。3.1.3 病变可测量性的特例需要特别注意骨病变、囊性病变和之前进行了局部治疗的病变:骨病变 在测量骨病变方面,骨骼扫描、 PET 扫瞄或平片被视为不充分的成像技术。但是,这些技术可以用来确认骨病变的存在或消失。 如果软组织部分符合上述可测量性定义的话,带有可识别软组织的溶解骨病变或溶解-急性混合病变可以通过 CT 或MRI 等交叉
12、成像技术进行评估时,它们可被视为可测性病变。 急性骨病变是不可测量的。囊性病变: 符合 X 线定义的简单囊肿标准的病变不应视为恶性病变(既非可测量的,也非不可测量的) ,因为根据其定义,它们是简单的囊肿。 被认为囊性转移的“囊性病变”可视为可测量病变,只要是符合上述可测量的定义。但是,如果同一患者体内存在非囊性病变,这些就会被选定为目标病灶。已经受到局部治疗的病变: 位于先前照射区或受到其他局部治疗的部位的肿瘤病灶,通常不被视为可测量的,除非已证明病变仍在继续。研究议定书应详细说明在何种条件下这种病变将被视为可测量的。3.2. 测量方法规范3.2.1.病灶的测量临床评估用测径器(卡尺)测量,所
13、有测量用米制为单位记录。所有基线评估必须尽可能在接近治疗开始前进行,不能早于四周。3.2.2.测量方法在评价同一个病灶时,基线和随诊应使用同样的技术和方法。除只能用临床检查评估不适用影像检测外,病灶必须采用影像检测评价,不要单纯采用临床检查。临床检查病灶:只有在 10mm 以下的表浅病灶(如皮下小结)考虑使用测径器来进行临床检测。皮肤表浅病灶建议使用彩色照片记录,照片附上测量病灶大小的比例尺。如前所述,当病灶既可用临床检测也可用影像学检查时,由于影像学更客观并可用于治疗后研究终点的回顾,应该进行影像学检查。 胸部 X 片:胸片和胸部 CT 测量病灶,因为 CT 在发现新病灶等方面比较 X 片更
14、敏感,优先选用 CT 扫描,特别在重要的治疗终点时。当然,肺实质中边界清楚的病灶也可使用胸片检测。详见附录二。CT,MRI:CT 是目前用来评估病灶疗效最有效和重复性最好的检测方法。指南定义可测量病灶用 CT 扫描基于层厚不超过5mm。如附录二所示,当 CT 层厚超过 5mm,可测量病灶最小应是层厚的两倍。MRI 在某也情况下也可使用(如全身扫描) 。更多关于使用 CT 和 MRI 检测实体瘤评估疗效的意见见附录 II。超声检查:超声检查不适用于评估病灶大小,不应用于测量方法。超声检查在两次相邻的观察间不能完全再现,而且结果依赖于检查者,从一次检测到下一次,不能保证相同的技术和测量结果(详见附
15、录二) 。如果在研究过程中通过超声发现新的病灶,建议用 CT 或 MRI 验证。如果顾虑 CT 的射线照射,可用 MRI 代替来检测待检病灶。内镜、腹腔镜:不建议用这些技术评估实体瘤。不过,他们在用活检证实完全的病理学缓解或确定完全缓解或手术切除后的再发时是有益的。肿瘤标志:肿瘤标记物不能单独用于评估实体瘤疗效。然而,肿瘤标记物开始高于正常上限时,如果用来判断病人完全缓解,标记物必须标准化。因为肿瘤标志具有疾病特异性,测量技术说明应该标注于对于某一特殊疾病基线检测的记录。关于 CA-125 变化(在卵巢癌复发)和 PSA 变化(在前列腺癌复发)的特别指南已经出版,见16、17、18。此外,妇科
16、肿瘤国际组(Intergroup) 制订了 CA125 用于实体瘤评估的标准,首先试验性用于卵巢癌19。细胞学、组织学:必要时这些技术可用于个别病例来区分部分缓解和完全缓解, (比如在鉴定残存病灶的肿瘤类型时,实例如生殖细胞肿瘤已知残存良性瘤病灶是可以保留的需要区分良、恶性病灶) 。当已知治疗中渗出液可能发生严重不良后果(如某些紫杉醇类化疗药或血管生成抑制剂) ,即使可测量肿瘤符合有效或稳定的标准,在治疗过程中出现的以及恶化的任何渗出液都需要考虑用细胞学证实其肿瘤性质,以区分可评价肿瘤的疗效是有效、稳定(无效)还是进展。4 肿瘤缓解评估4.1 全部肿瘤和可测量病灶的评估为评价客观缓解或未来可能
17、的进展,有必要对所有肿瘤病灶肿瘤的总负荷进行基线评估,为后面的测量结果作参照。在以客观缓解作为主要治疗终点的临床方案中,只有在基线时具有可测量病灶的患者才能入选。可测量病灶定义为存在至少一处可测量的病灶。而对于那些以疾病进展(疾病进展时间或固定日期进展程度)为主要治疗终点的试验,方案入选标准中必须明确是仅限于有可测量病灶的患者,还是没有可测量病灶也可以入选。4.2 靶病灶和非靶病灶的基线记录基线评估时有超过一个以上可测量病灶时,应记录并测量所有病灶,总数不超过 5 个(每个器官不超过 2 个) ,作为靶病灶代表所有累及器官(也就是说只有一个或两个累计器官的患者最多选择两个或四个靶病灶作为基线测
18、量病灶) 。靶病灶必须基于尺寸进行选择(最长直径) ,能代表所有累及器官,且测量必须具有良好的重复性。有时候当最大的病灶不能重复测量时可重新选择一个可重复测量的最大病灶。淋巴结因其为正常组织且即使没有肿瘤转移仍可为影像察觉而需要特别关注。定义为可测量结节甚至是靶病灶的病理性淋巴结必须符合以下标准:CT 测量短直径15 mm。基线只需要检测短直径。放射学家通常借助结节的短直径来判断该结节是否已有肿瘤转移。结节尺寸一般用影像检测的两维数据来表示(CT 用轴平面,MRI 则从轴面、矢状面或冠状面中选择一个平面) 。取最小值即为短直径。例如,一个 20 mm 30 mm 的腹部结节短直径为 20 mm,可视为恶性的、可测量的结节。在这个例子中,20 mm 即是结节的测量值。直径 10 mm 但15 mm