GWAS原理.doc

上传人:hw****26 文档编号:3788284 上传时间:2019-07-16 格式:DOC 页数:9 大小:44.50KB
下载 相关 举报
GWAS原理.doc_第1页
第1页 / 共9页
GWAS原理.doc_第2页
第2页 / 共9页
GWAS原理.doc_第3页
第3页 / 共9页
GWAS原理.doc_第4页
第4页 / 共9页
GWAS原理.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数以万计的单核苷酸多态性(SNPs )以及这些 SNPs 与临床表型和可测性状的相关性。简单地理解全基因组关联分析,GWAS 就是标记辅助选择在全基因组范围上的应用,在全基因组层面上开展大样本的、多中心的、重复验证的技术,并对相关基因与复杂性状进行关联研究,从而全面地揭示出不同复杂性状的遗传机制和基础。GWAS 是一项开创性的研究方法,因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究,且不受与疾病有关的先验性假设的限制,GWAS 在全基因组范围、零假设性较候选基

2、因研究都迈出了重要的一步,而且随着高通量测序成本的降低,GWAS 在人类疾病以及畜禽经济性状的研究上都表现出巨大的优势。GWAS 的优势除了可以一次性检测到数以万计的 SNPs 信息,从而提高试验效率以及检验功效以外,其还有其他两个显著的优势,主要表现在:(1)对未知信息的基因进行定位探索。传统的 QTL 定位仅仅限于对已知的候选基因进行分析探索,而 GWAS 是对全基因组的范围内的所有位点进行关联分析,因此其拥有更广泛的关联信息,相比候选基因分析 GWAS 更有可能找到与性状真正关联的候选基因,因此不再受到预先假设的候选基因的限制。 (2)对于 GWAS 在研究不同的复杂性状之前,不需要像以

3、往的研究一样 “盲目地”预设一些假定条件,而是通过在病理和对照组中,有目的地比较全基因组范围内所有 SNPs的等位基因频率或者通过家系进行传递不平衡检验(TDT, Transmission disequilibrium test) ,从而找出与复杂性状显著相关的序列变异。到目前为止,利用全基因组关联分析研究已经挖掘出众多与各种复杂性状相关联的基因和染色体区域,在这些被新鉴定出的位点和区域中,只有小部分结果位于以前对这些性状研究的区域之中或者附近,绝大多数位于以前从未被研究过的区域,GWAS 的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分重要的,这也是以往的研究水平所不能达

4、到的。全基因组关联分析为进一步研究复杂性状的遗传机理提供了新的线索,为复杂性状的研究开辟了新的研究道路。1、 全基因组关联分析 SNPs 分型及质量控制1.1 基因分型过程基因分型技术的发展在 GWAS 变成现实的过程中起着重要作用。现在上百万的遗传变异可以在预先设计的寡核苷酸微阵列(Affymetrix 或 Illumina)中同时检测到。这些芯片多数检测的是 SNPs,同时有些芯片可以检测到拷贝数变异( copy number variants,CNV ) 。DNA 基因分型产生一系列的杂交强度,这需要转变成实际的基因型,这个过程称为基因分型(genotype calling) 。1.2

5、分型 SNPs 的质量控制质量控制是用于评价样本和基因分型芯片的基因型性能的操作。在试验中存在很多影响因素,如 DNA 降解,加样错误或是芯片杂交失败等,因此在下一步基因型分析之前评价试验性能是很重要的。同时,确定和排除那些很有可能确实或者错误分型的 SNPs 是十分重要的。对于某一个单个样本的质控标准主要包括:(1)样本检出率(sample call rate) ,是指对于某个样本个体而言,通过测序并成功判型的 SNPs 与所有检测的 SNPs 的比值,通常的标准应当在 80%或 90%以上。 (2)杂合型的程度( heterozygosity) ,这个标准过高即被排除,因为过度的杂合说明样

6、本可能被污染,从而导致杂合基因型数目不相称。通常的标准应当控制在 23%-30%之间。对于单核苷酸多态性的质量控制主要包括了:(1)SNP 检出率(SNP call rate) ,同样指对于某一个 SNP 位点,被成功检测到的样本与所有样本的比值,一般要求在 90%以上。(2)较小等位基因频率(minor allele frequency,MAF) ,对于那些 MAF 较小的 SNPs,能得到的信息量很少,而且目前 GWAS 对这些 SNP 的检验效能也不高。通常对于 MAF 的要求需要在 3%以上。 (3)哈代 -温伯格平衡( Hardy-Weinberg equilibrium,HWE )

7、检验,HWE 可以有助于确定那些有明显基因分型错误的 SNPs。因此一般要求位点 SNP 的等位基因频率符合哈代-温伯格平衡。1.3 GWAS 结果多重检验校正多重假设检验所引起的 I 型错误扩大和假阳性关联是全基因组关联分析研究面临的难题之一。多重假设检验的次数取决于待研究的基因组标记的数量,而检验的效率又取决于多重假设检验的次数。如今,有多种方法可以用来校正 GWAS 中多重检验后的 P 值,用来减少假阳性的出现。1.4 Bonferroni 校正法即对于每个检验位点的校正阈值,将原本的显著性阈值(0.05)除以进行假设检验的次数设定为校正后的显著性阈值,再与假设检验得到的每个位点的 P

8、值进行比较,如果小于校正阈值,则可判断该位点与性状之间的关联存在显著性。这种校正方法是多重比较中对 P 值的调整最为严格和保守的一种方法,虽然确保而且减低了假阳性的发生率,但是过度的校正反而容易导致加阴性的概率。1.5 置换检验法置换检验的核心思想就是数据重排(permutation) ,数据重排的观念最早是由 Fisher和 Yates 在 1949 年提出的。该方法的主要有两种思路:(1)将分析样本的表型值固定,然后将其基因型随机地进行打乱重排(一般保证在 10000 次左右) ,每次重排都可以计算得出一个 P 值,然后对所有的 P 值构建一个经验分布,并设定 5%处的 P 值为校正后的显

9、著性阈值,最后与实际关联分析得出的 P 值进行比较,若小于校正阈值,则说明与性状关联。(2)将分析样本的基因型值固定,对表型进行随机重排,后续工作与前者相同。1.6 控制错误发现率法控制错误发现率(FDR,False discovery rate)法,即 FDR 法是由 Benjamini 和Hochberg 提出的通过控制错误发现的概率对 P 值进行调整的方法。该方法与递减调整法有相似之处,同样先将关联分析得到的所有 P 值从小到大进行排列,但最后乘以的系数有所改变,FDR 的加成系数是总检验次数即所有位点数除以该检验位点在从小到大排序的排位。最后得到的校正 P 值与显著性阈值 0.05 进

10、行比较,若小于 0.05 则说明性状与该位点显著关联。2 基因型数据本研究中的 60 个无关个体的耳组织利用天根试剂盒进行 DNA 提取,后均采用Illumina 公司的 Porcine SNP 70K Beadchip(Illumina Inc., San Diego, CA)芯片进行 SNP 分型。利用 Illumina 公司提供的 BeadStudio 软件将测序的原始数据进行可视化处理并导出成文本格式文件。通过运用 R 语音程序编写对文件进行编译修改成满足 PLINK 软件包对GWAS 分析所需要的文件格式。进一步通过 R 语言编辑成满足 ROADRTRIPS 在关联分析上需要的文件格

11、式。2.1 Illumina Porcine SNP 60K Beadchip由 Illumina 公司和 Genseek 公司共同开发出来的 Porcine SNP 60K Beadchip 是在之前Illumina 公司开发的 Porcine SNP 60K Beadchip 的基础上研发出来的,共有 64232 个标记。这些位点主要包括了与猪的免疫,生长,肉质等性状相关联的 SNP 标记位点,并且标记在各个染色体上的分布也相对均匀。2.2 试验猪 DNA 样本提取本研究所用的样品为 98 头香猪。本试验采用试剂盒天根组织 DNA 提取试剂盒从血液提取基因组 DNA,具体步骤如下:(1)

12、取 200ul 血液样本并装入一个洁净的 1.5ML 离心管中。(2) 加入 250l 缓冲液 GS,用眼科剪将样品组织均匀剪碎至糊状。(3) 加入 25l 蛋白酶 K 以及 250l 缓冲液 GB,涡旋混匀。(4) 放置于 56水浴锅(或杂交炉) ,消化 3 -5 小时。消化结束时液体应清亮无絮状沉淀,取出离心管。(5) 向离心管中加入 200l 无水乙醇,颠倒混匀,此时可能会出现絮状沉淀。(6) 将离心管中液体倒入对应的吸附柱中,12000rpm 离心 1min,弃废液。(7) 加 500l 缓冲液 GD,12000rpm 离心 1min,弃废液。(8) 加 700l 漂洗液 PW,120

13、00rpm 离心 1min,弃废液。(9) 加 500l 缓冲液 GD,12000rpm 离心 1min,弃废液。(10) 空甩,12000 rpm,2 min。(11) 开盖,将吸附柱转入新离心管中,弃去收集管,室温放置 5-10 min,散尽酒精。(12) 向吸附柱中间位置悬空加入 50l 在 56预热的洗脱液 TB,室温放置 10min 或 4过夜,使 TE 充分溶解 DNA 沉淀。(13) 12000 rpm 离心 2min,弃去吸附柱,将溶液收集到离心管中,既得 DNA 溶液,用NANODROP2000 紫外分光光度计和凝胶电泳检测提取质量。(14) 将检测合格的基因组 DNA 放置

14、于 4保存或-20 长期保存。2.3 质量控制借鉴以往对 Case-Control 试验设计以及对全基因组关联分析质量控制的方法,在对基因型数据与表型数据进行关联分析之前,对原始基因型的 64232 个 SNPs 数据进行质量控制。参考今年来全基因组关联分析的质量控制标准,本研究的标准控制如下:1. SNPs 的 call rate 保证在 90%以上,有 2667 个位点不符合要求剔除;2. 个体中 SNP 的 call rate 保证在 90%以上,97 头个体均符合要求;3. 最小等位基因频率不得小于 5%的 SNP 位点,有 15351 个位点不符合要求剔除;4. 剔除偏离或严重偏离哈

15、代- 温伯格平衡检验,即显著性 P 值小于 10-6的 SNP 位点,共有 3976 个位点不符合要求剔除通过质量控制之后,共收集到 40909 个 SNPs 位点用于后续的全基因组关联分析。在本试验中,我们利用 PLINK 软件进行关联分析,PLINK 软件是一个功能强大的主要针对全基因组关联分析的软件。结合基因组控制(Genomic Control)所估计出的统计量对试验群体进行群体分层校正,其主要原理是基于估计出的统计量与原假设进行比较,若严重偏离原假设 1 就说明存在群体分层现象。对香猪的全基因组关联分析可以是对二分类性状的关联分析,利用 PLINK 软件单标记卡方检验,对其进行 Bo

16、nferroni 校正得出的显著性 P值,进行对数转换后,利用 R 语言作图。2.4 群体分层的 Q-Q 图通过 PLINK 软件的基因组控制方法,对试验群体的分层情况进行估计,利用计算得出的卡方值得中位数作为统计量即基因组膨胀因子的值,计算结果为 1.71,偏离原假设 1。因此,对试验群体进行群体分层校正。对于群体分层一直都是 GWAS 研究中十分重要的问题,为了反映研究群体的分层情况,一般利用 Q-Q 图(Quantile-quantile plot)来其进行检测。从 Q-Q 图上可以看出从群体中检测得到的显著性位点是否与期望的更多。如果有没有发现的群体分层的出现,则会导致整个分布偏离原来

17、预期的没有 SNP 与目标性状相关联的零假设分布。根据观测值可以计算出相应的统计量,与零假设下计算出的统计量的分布进行比较判断,检验是否存在群体分层或者是够存在显著与疾病相关的位点。通过对 GWAS 结果得出的各个位点的 p 值通过基因组控制进行校正后,利用校正后的p 值做 Q-Q 图。2.5 基因组关联分析的显著性检验本研究也采用置换检验的方法来建立检验统计量的经验分布,同时对统计量进行多重检验的校正。置换检验的方法主要是根据试验群体,固定个体的基因型不便,对表型进行随机重排,从而进行全基因组水平的关联分析得出相应的检验统计量的值。每次置换或者重排之后,都会得出检验统计量新的数值,通过大量的

18、随机重排之后,就可以利用大量的关联分析统计量数值构建出这个统计量的经验分布。然后选取 95 分为点作为全基因组关联分析 0.05 的显著性水平阈值,即通过试验群体的表型值对某 SNP 进行的关联分析得到的检验统计量数值如果小于该阈值,就表明该 SNP 在 0.05 水平下是不显著的,即其相伴概率是大于 0.05 的。本试验中进行的随机重排的次数是 5000 次。由 PLINK 软件利用基因型数据对试验群体进行了群体分层校正,因此本试验主要对 PLINK 的试验结果进行置换检验。利用置换检验的方法在全基因组水平下,对于香猪最好产仔数性状而言所得到的经验分布的显著性 0.05 的阈值应为 1.3110-6。利用此阈值对所有检测出的位点 P 值进行比较,最终发现与性状显著相关联的 29 个 SNP 位点。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 实用文档资料库 > 策划方案

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。