1、美国病理学会(CAP)对于二代测序临床诊断的实验室标准相对于桑格测序来说,二代测序的较高的通量和每个碱基所消耗较低的成本,使得其快速应用于临床检测领域。尽管在 1988 年美国病理学会(CAP )没有给出这项技术在临床诊断上的实验室标准规范。但在过去的几年,能够提供二代测序检测服务的实验室相应的不断增加。目的:针对应用二代测序技术的临床诊断给出一个检查清单用以标准化实验操作平台和生物信息数据分析平台。因为基于 NGS 的临床检测是一个新的诊断技术,而且相对于一代测序其更为复杂,所以目前亟需针对这些检测制定新的标准规范。设计:针对 NGS 制定必要的规章制度,促进这项技术更好地应用于临床检测。在
2、 2011 年 CAP 成立了 NGS 工作组委员会,以对检测清单的项目内容进行仔细研究。结果:在 CAP 分子病理学检测清单中总共包含针对实验操作平台和生物信息数据分析平台的 18 项实验室认证要求清单。结论:这项经 CAP 委员会认真考虑后所给的报告陈述了对于制定新的检测清单的重要性。其中包含文件、批准、质保、验证、异常日志、监控升级、各个版本解释及报告、附带的发现、数据储藏、可追溯性模板、数据传送保密性等的处理。DNA 测序即二代测序技术(NGS )由七十年代的化学测序法和桑格测序法逐渐演化而来。NGS 与一代测序主要的不同是其可以并行的对数以百万的 DNA短片段同时测序而非仅有一种 D
3、NA 片段。在九十年代中期基于荧光毛细管凝胶电泳的自动化桑格测序的产生使得 DNA 测序普遍应用于临床诊断。而 NGS 更高的通量远远超过自动化桑格测序。二代测序的较高的通量和每个碱基所消耗较低的成本,使得其快速应用于临床检测领域,尽管 NGS 各方面分析都更为复杂。包括数据获得和储藏的案例远超出于 1988 年临床检验科改善后的实验室修正案,对于后续数据计算具有较大挑战性。NGS 检测的领域涉及遗传病、实体瘤、恶性血液病、传染性疾病,人类白细胞抗原分析,非侵害性产前诊断,胎儿染色体异常检测。但在过去的几年,能够提供二代测序检测服务的实验室相应的不断增加。尽管在 1988 年美国病理学会(CA
4、P)没有给出这项技术在临床诊断上的实验室标准规范。为应对这种需求,CAP 成立了 NGS 工作组委员会,以在这项技术发展初期制定第一套临床检验标准。考虑到基于 NGS 的测序技术是在原有技术上对仪器、测序反应试剂、生物信息分析等的改进,工作组致力于制定一套用于规范 NGS 临床检测的工作框架管理标准以更好地采纳基于 NGS 的检测技术。二代测序技术由两部分组成,实验操作平台和生物信息分析平台。实验操作平台一般包含所有的以下流程:病人样品采集处理,核酸提取,片段化,分子标签,外显子组或基因组靶序列富集,接头连接,扩增,文库准备,上样,序列读出。序列是通过对数以百万的 DNA 片段的读取全自动化的
5、产生。化学实验反应后便是大规模的计算和生物信息分析。通过各种的算法将测到的短的序列去比对匹配人类参考基因组序列。经过图谱比对后,与参考基因组不同的核苷酸变异被识别出来。另一个独立进程是去逐一的或组合的根据其相应的临床表现去分析与临床相关的变异类型。对于个别病人案例,已经被确认的变异参考其正常基因功能受损的注释内容进行评估,如早产转录因子、截断蛋白、非同义突变对蛋白功能的影响或剪接位点的改变。为了对疾病和有害突变的关系做出明智的决定,需要根据病人的临床症状结合基因组研究成果。作图比对、变异识别、变异注释以及一定程度上的临床解释包含了生物信息分析的全部工作框架。CAP NGS 工作组考虑到化学实验
6、反应平台与生物信息分析平台是相分离的,所以制定的标准也是分开的。一部分实验室利用国外的设备去进行一部分的二代测序检测。一个实验室提供从实验操作平台到生物信息分析,他们临床检测的验证可以整合起来。在 CAP 分子病理学检测清单中总共包含针对实验操作平台和生物信息数据分析平台的 18 项实验室认证要求清单。NGS 检测项目清单包括对于流程文件建立、批准、质保、验证、异常日志、监控升级、各个版本解释及报告、附带的发现、数据储藏、版本可追溯性、数据传送保密性等的处理。如同这份报告中描述一样,工作组的目标就是为 NGS 检测服务提供最初的基本鉴定合格需求。可以预见的就是只要基础的检测验证规范需求到位后,
7、随后便会有附加的其它专门规程。这些在注释部分对其进行进一步解决。这项经 CAP委员会认真考虑后所给的报告陈述了对于制定新的检测清单的重要性。另外,这份报告可以作为 CAP NGS 检测清单的补充,因此内容上与 2014 年检测清单需求紧密相连。NGS 实验标准操作流程文件实验室需要建立一个标准操作流程文件。一个详实的标准操作流程文件是临床实验室质量评价的主要部分。所有的 DNA/RNA 样品准备、片段化、文库准备、分子标签、样品混合、合成测序相关实验操作必须建立标准操作流程文件,这样才能对每一步及随后的操作进行追踪。这包含所有的方法、试剂、仪器、仪器软件、之前的版本等。另外,对于质控标准也需要
8、进行描述。一些案例在后面重点提出。NGS 靶序列实验(例如多基因模块或外显子测序)可以在测序前对感兴趣的基因区域进行捕获,关于捕获区域的详细信息以及富集步骤都应以文件的形式进行详细描述。对于处理不同类型样品的临床实验室,如血液、石蜡包埋的福尔马林固定的样本,都应该针对不同样品制定相应的 SOPs。用于将病人样本合并的反应试剂和规程必须详细说明,并且其中应包含测序接头信息。用于对运行好坏的评价的质控参数的权衡也需要文件化。常用的度量如目标区域内 Reads 数的比例,质量符合规定的碱基比例,覆盖度的阈值,平均测序深度。实验室必须明文规定好样品制备和测序的接收或拒收标准。最重要的是明确和总结不能够
9、进行分析的区域(如测序深度不充分) 。NGS 实验操作平台验证实验室对 NGS 实验平台进行验证,当有所修改变动时,要对整个流程再次进行验证,确保流程中每一部分的表现符合要求。如在分子诊断领域或临床实验室的其他领域,所有的实验室研发的测试,对 NGS 程序性能分析必须在内部进行验证后才可应用于临床。二代测序实验平台包含很多步骤,非常复杂。每一步骤应分别根据经验综合决定最佳条件和参数设置。这些东西设置好后,必须进行从开始到结束的全部测试的性能验证,包括实验平台和生物信息分析平台。在验证期间需要确定的重要性能有分析的敏感性、特异性、准确度(接近真实值的程度) ,精确度(重复性和可靠性) ,检测极限
10、。对于任何分子实验,针对不同的样品类型(血液、唾液、组织) ,必须独立的进行效验。二代测序检测是旨在对于基因组的多个大的区段进行详细查看。因此,NGS 允许检测到新的,以及已知的序列变异。因为无法证实所有的理论上可能的变异,所以必须将 methods-based(其它检测方法)和 analyte-specific(特定分析物)相结合,作为验证方法来判定检测的性能。通过对已发表的与 NGS 平台准确性相关的文章的咨询,将有利于对自己实验室验证性工作的认知。在大多数情况下,考虑到桑格测序是金标准,可以通过其确定变异位点。然而,在一些情况下变异位点验证信息也可以通过寡核苷酸微阵列基因分型数据获得。针
11、对于 NGS 检测,多个专业机构已经发布了关于分子检测验证的指南以供读者参考。NGS 工作组对于验证性需求中的最小样品数进行了广泛深刻的讨论。对于不断发展的 NGS 技术以及在诊断实验室多种多样的应用,这种讨论为时过早。而且存在的问题是设定最小样品数对于 NGS 诊断来说可能会导致其验证不足。工作组同时也注意到对于已经报道的文章里 NGS 的验证的样品数量有明显不同(20-80 ) ,这表明,individual laboratories are on a validation learning curve.。对于 NGS 验证需要运行的样品总数量主要取决于检测的区域大小(从技术特性上来说较大
12、的检测区域将会检测到更多的变异位点) 。根据特异变异位点的数量进行评估,根据可能的要求,通过等位基因频率范围,去判定检测的限度,根据样品运行次数和数量去设定其精确度。出于统计方面考虑,NGS 工作组总结到关于样品数量不能全面或普遍的应用于二代测序的众多实验中(如扩增子相对于靶序列捕获,较少基因量相对于外显子组和全基因组,遗传疾病相对于肿瘤相对于传染病) 。因此我们给出多个脚本(如样品对 methods-based 的处理,对样品重复性和可靠性的评价,以及临床样本用于评估诊断特异性敏感度) ,每一项都将会需要样品,而其数量会随着实验背景不同而有所变化。以下我们会突出强调对需求量及一些性能分析参数
13、验证的原则。通过使用 methods-based 评估分析的灵敏度,目的在于最大化突变序列数量,相对于金标准增加分析的可信度。这些数值会外推到所有的碱基。对于这种 methods-based,致病性变异分析是无关的,因为这不受技术检测能力影响。然而尽量多的利用基因组中的不同区段去判定基线非常重要,因为序列的背景是一个重要的影响因素。另外实验室应该分别对所有的与检测相关的变异类型进行性能分析判定(如 SNV,InDel,CNV,结构变异,homopolymers) 。适当的确定变异类型的最大数量的方法可能会包含内部不同研发测试的累积分析,前提是用相同的鉴定工具。另外,几个可获取的公共数据库可以提
14、供外显子组或全基因组变异位点的识别,以为临床检测服务。另外疾病预防控制中心和国家生物技术信息中心合作成立网站,以方便两个测序基因组以及临床靶序列数据的获取。这些数据库提供了变异位点的大量设置,这将有助于得到技术性能规范。然而当 NGS 检测中包含有除了一些更广泛性的 methods-based 方法外,一个特异型分析的验证是有必要的。由此,阳性对照对于 NGS 检测所熟识的基因相关的变异位点(如 CFTR 基因 p.F508 缺失变异)引起的疾病极为重要的。特异性分析通常需要阴性样品进行计算,去定义负数部分。在整个实验部分methods-based 方法可用于特异性计算分析,如假阳性率的判定。
15、在临床样本中它对于判定假阳性数量同样具有作用。注意到特异型分析在 I 类错误类型的比例,包括碱基识别错误,错位引起的错误,变异识别错误。判定检测限对于一个含有异质基因类型的样品(如肿瘤样品、用于产前诊断的母亲血液,镶嵌样品)查询的实验是非常重要的。考虑到桑格测序过去一直是在验证期间的金标准,但其灵敏度低于 NGS,所以对 NGS 的灵敏度验证具有一定挑战性。样品混合实验(已知等位基因频率的稀释)应该至少用到 3 个样品(生物学重复) 。对于单通道测序仪,内部运行的差异性可以通过用相同样本的不同条形码检测(技术重复) 。同源序列如假基因可以干扰变异位点识别的精确性,这对正确的去分析受影响的基因形
16、成了巨大的挑战。预先生物信息同源性分析将会有助于确定来自同源序列可能的干扰。另外,图谱质量可以用于确定有疑问的区域。如果这种基因包含在 NGS 测试中,实验室必须设计一个方法确保被识别到的变异不是假基因序列,并证明这个方法的准确度。当测序池中含有条码接头样品,实验室必须证明整个平台中样品身份的保持。重新验证和认证的程度依赖于所引进的改变的大小及其潜在的影响。例如一些微小的变化,引进新的捕获试剂并已经得到全面的验证,可以通过预期达成的功效进行验证。在这个例子中如果实验室测序一个以前测试过的一个样品并证明其主要运行参数未改变并获得了一致的结果,就可认为这种变化是可接受的。相反的,一个较大的变化,如
17、引进了一个新的测序平台,或不同的靶序列富集方法,那就需要进行全面的从新验证。NGS 实验平台 质量管理体系NGS 实验平台遵循一个文件化的质量管理体系。CAP 认可实验室必须发展并遵循一个质量管理计划。 CAP 所有的共同的检测清单适用于多专科实验室,包含质量管理的各个部分和性能检测方法。NGS实验平台质控管理程序加入到 NGS 检测清单部分,突出 NGS 实验室执行的特别需求。没有两个质量管理规程是相似的。每一个都是根据实验室的范畴、诊断市场、专业知识而形成的,并给与实验室主任宽泛行动自由去设计质量保障体系。质量管理规程的大纲设计必须设计好,并符合设计类文件。对于 NGS 实验室,一个好的质
18、量保障大纲应包含以下特征:1. 质量保障体系应遵从工作流程。体系评价应在二代测序、分析检测、序列报告分析发生之前进行。2. NGS 质量体系应该与整个机构的质量保障体系相协调,如果这个机构比较大,如医院、医疗中心,NGS 的质量体系应适从于整个大的体系中。3. 体系应该能够处理在检测过程中出现的一般性问题。这些问题不但能够影响检测结果,而且使得临床应用与实验室自身政策规程不一致。体系文件中应包含对每次校正的记录、效果、操作准则、流程的修正,以避免问题的复发。4. 质量管理体系宗旨是确保检测具有临床意义。因为没有灵敏度更高的检测进行比较,所以这对于 NGS 这样的检测尤为重要。检测指示和分析判断
19、的适宜性应有科学的医学证明。5. 规程中应鼓励实验室工作人员对于实验室质量检测的意见进行交流。对工作人员的投诉及建议进行调研必须成为质量保障体系中的一部分。NGS 结果验证实验室应有一项规定来文件注明报告中的变异位点的检测验证。虽然 NGS技术的准确性在不断提高,但还是普遍认为基于 NGS 的测序实验会产生假阳性和假阴性的结果。当验证性实验是否要进行时,CAP 选择给开展基于 NGS 测序的实验室一定的灵活性。如检测怎样执行,是否建议对额外的家庭成员进行后续补充检测,哪些可以基于二代测序哪些不可以等。例如,一些实验室认为在实验中测序深度达到标准时(如基于单基因的二代测序达到 1000 乘) ,
20、或具有较高的可信度,变异位点就没有必要验证确认。然而,一些实验室认为需要另一种可替代的方法对报告中的变异位点进行验证确认,以达到理想的置信度。另外一些实验室可能会在预定的试用期进行验证确认,过后根据结果再对是否进行验证性实验进行评估。每一个进行 NGS 测序的实验室必须有一项规程,用来文件解说验证性检测工作,或为何不需要进行验证性工作。基于 NGS 临床检测及变异位点报告的实验室必须能够文件证明其符合他们的验证性实验规定,或能够展示出对 NGS 实验不间断的监控证据,以保证在验证期间所达到的基准能够一直保持。CAP 也希望在决定用何种方法进行进行验证性试验上给予灵活性。尽管桑格测序可能是最为普
21、遍的验证方法。CAP 这样做是为了检验科根据变异类型和频率灵活的选择合适的验证性检测方法。实验室记录用于实验的方法、仪器、试剂以及需要分析的样品可以通过实验记录进行确认追溯。对于文件证明复杂的实验程序和数学算法及对二代测序分析性能解释,实验运行的综合完整记录是必不可少的。因此,首要的工作框架应包含对已归档的信息的保存,包括每个病人样品分析所用的平台,及实验所用的试剂、引物、测序反应,以便能够追溯。这些记录必须包含靶序列检测的完成情况及其测序深度。同时也有必要记录分析的细节,包括任何报道或网站对于相关参数的描述,或检测和报告处理中一些其他信息。虽然所有的分析细节不必包含在病人的报告中,但是实验室
22、保存每位病人分析相关的详细信息的文件系统是极为关键重要的。异常记录实验室保存来自于 NGS 实验平台 SOP 偏差的病人样本的异常记录。实验室必须文件记录下任何源自 SOP 的偏差,并对偏差及产生的结果进行解释。样品预期的偏差可能包括对收到的样品或构建的文库未达最佳标准,以及测序文库的浓度未达最佳标准。异常情况可能会与样品质量以及分析过程有关,在样本登记时,需要对样品作出评价以便判断这例样品是否适合进行检验。如果对某一例样品质量有一丝担心,应记录在工作单中,并就其与监管者或实验室主任进行交流。实验室主任可能会继续进行检测,但会将这问题传达给主治医师,并就此进行讨论交流。这种情况的一个案例就是没
23、有在最佳的条件下进行样品运输。对于这例样品的处理决定一般是只有当提取的 DNA 充足时才会进行下一步的检测。在实验操作过程中,与具体步骤相关的问题应报告给实验室主管或主任。然后才能对检测能否完成进行评估。当故障排出之后,如果质控运行及样品结果合适,结果可以被实验室主管解读,检测结果是令人满意的。检测问题的方方面面都应完整的记录在异常文件里,包括故障排除,解决方案,以及相关的交流(谁与谁及日期) ,这些必须并入到月质量保障报告中。有时,实验室 SOP 自身需要进行修改以改善措辞,使得工序流程更清楚,或者是去除小的误差完善操作流程。在这种情况下,所推荐的修改至少应有两个人的支持,包括开发此项目的实
24、验室主管和及实验工程师或相关专家。在这类修改中,必须经过实验室主任核准,签字署名,注明日期。本质上这并不是一个异常记录,而是一个对实验描述的更正。监控升级用以产生 NGS 数据的仪器,测序化学反应,试剂或试剂盒等 ,其相应的监控、执行、文件记载的升级,实验室需加以规范。实验室必须意识到升级,确保没有在用废弃掉的方法。实验室必须出具相关政策方案去监管和执行仪器,测序化学反应,试剂或试剂盒等的升级。已经验证的可以提高片段扩增及测序的质量、再现性、准确性的一些新的方法不断地更新发展,这项规范应解决NGS 测序的实验室去如何确保他们所用的样品文库制备实验是最新的。这项规范也应说明监管升级所用的方法以及
25、何时执行一个相关的升级并在临床应用前进一步验证。例如实验室的规范应在指定的间隔期(如一季度、半年、一年)进行监控并执行升级,以增强优化实验性能。此外,执行完升级后可能会需要对整个实验平台或相关的实验步骤进行重新验证,相应的设定时间间隔期会更方便。生物信息分析过程对于 NGS 数据的分析,各种开源代码和商业的生物信息学算法和软件都是可获得的。虽然这些分析工具在不断改善,他们在诊断分析性能方面都有其强项和弱项。在操作上,适用于 NGS 数据的生物分析过程可以总结为 3 个主要步骤。第一步是产生一个包含核酸序列的可读文件,每个核苷酸都标定一个与准确性相关的数值(碱基质量分值) 。产生的序列文件利用特
26、定仪器软件分析几个基础参数,如运行时的信噪比。序列文件一般以 FASTQ 文件格式生成,包含每个读取的碱基种类,自身的标识以及每个核苷酸相应的质量分值。FASTQ 文件已经变成广泛认可的格式用以 NGS 领域的信息交流。下一步主要是根据参考序列,对读取的序列进行比对,对于一个典型的人类参考基因组序列,去确定病人的序列与参考序列之间的不同。鉴定的变异类型包含 SNV、InDel、CNV 以及其它的结构变异。确定的变异根据相应基因或蛋白的功能注释到提供信息中。另外实验室执行或策划研发的独立程序,对特定变异与给出的疾病的临床相关性予以评价。最后,在递交的临床报告中,通过注释的变异位点解读病人的临床表
27、型。对于基因模块和外显子组或全基因组测序,大量变异位点的的排查可以通过对较高的基因型频率来筛减,最后只关注于极有可能对病人有危害并与病症相关的的稀有变异。当以家庭为单位对外显子组或全基因组进行分析时,根据受影响与不受影响的家庭成员,优先考虑变异类型在家族中的共分离。根据人类基因组突变体数据库(如 HGMD、OMIM 等)与变异相关的疾病的相关信息对变异类型进行等级划分,形成临床报告。开发一个包含生物信息以及对变异位点进行研究注释的综合型诊断流水线,需要整合多个算法和软件应用。就本身来说,实验室必须根据经验选择算法以及软件工具应用到每个分析诊断中。其中多个中间过程需要已知的病人样本和培训数据进行
28、设置,去检测算法和软件的性能。已经制定好的生物信息分析工具和参数设置,实验室需执行生物信息分析验证,通过大量的设定的样本判定分析的灵敏度、特异性和重复性(不同运行,不同仪器,不同操作人员之间的一致性) 。用以验证的样品包含以前已经确认过的变异类型。这些变异可以验证生物信息工具及其参数的性能表现(例如,如果对变异的检测是独立的分析,应有较高的特异性和灵敏度,或如果是二次分析进行筛选的实验,需相对较高的灵敏度) ,按照每个实验室的要求和报告的临床标准,调整或更换工具并进一步进行评价。当一个令人满意的生物信息程序经验证并达标后,NGS 实验结果向临床的转化需要实验室将生物信息分析的过程的所有方面进行
29、记录描述,并对此制定一个质量管理体系。对生物信息分析的要求在下面的讨论中将着重讲解。NGS 生物信息分析标准操作流程文件实验室应通过 SOP 的形式对于生物分析中 NGS 结果的分析注释及报告等流程进行文件化。实验室必须对在 NGS 结果的分析注释及报告中所用到的算法、软件、数据资料库进行文件化。生物信息分析流程的每一组成部分的文本必须记录并能够追溯(版本控制) 。对于每一组成部分,实验室会用到一个基线,默认安装,在发布的个体的生物信息学工具或运行算法方面,利用可替换的配置参数定制路径。无论哪种情况,实验室必须以文件形式记录所有的与默认设置不同的自定义内容或者明确指明所用到的参数、路径、数值等
30、。大部分的生物信息分析通过与参考序列进行比对,参考序列的版本号及组装的详细信息都需要明确指出。当描述生物信息路径时,实验室应该以文件的形式记录所有的数据分析,包括每一步输入和输出的文件。对于每一步的正常表现,实验室应该也制定和记录质控参数。例如,首要步骤,一个实验室会决定采纳一套标准,如特定仪器质量过滤后,通过的可读序列数量。变异位点识别的标准是必不可少的,用到的参数阈值包含测序深度,变异位点质量评分,等位基因读取比率。在后期数据筛选的流程和依据也需要体现在 SOP 文件中。NGS 生物信息分析流程验证实验室对生物信息分析的验证生效以及当有变动时对整个分析流程或流程的一部分性能进行从新验证生效
31、。从新认证的程度范围由修改变动内容而定。正如实验流程一样,在确立一个包含序列分析可读文件的生物信息分析流程时,实验室会经历一个自身不断修正的过程。对于能够完成从测序实验到生物信息分析的整个流程的实验室,生物信息分析路径的验证生效应该包含整体的验证。一旦实验室形成并经验性的确定了最佳操作,并对流程完成了充足的检测,下一步就是再利用含有变异位点的样品产生的序列执行并文件化,进行全面的验证。对于内部研发的软件工具或供应商提供的已经锁定的软件工具(如对基础工具没有进行任何修改) ,这些步骤是必不可少的。对于实验测序平台,需要对充足的样品数量进行分析,去评价其诊断分析的灵敏性,特异性和重复性。样本数量的评估应由实验本身决定。一些参数如基因数量的评估,基因区域的评估,以及需要检测的变异类型最终都应确认控制的数量,良好的特征样品(例如人类基因组单体型图样本或已知的固有的细胞系或设计的变异) ,或之前诊断