1、人类群体遗传学基本原理和分析方法,中科院-马普学会计算生物学伙伴研究所,中国科学院上海生命科学研究院研究生课程 人类群体遗传学,徐书华 金 力,20072008学年第二学期人类群体遗传学分析方法课程表上课时间:每周四上午10:00-11:50 上课地点:中科大厦4楼403室第7教室,第五讲,单倍型估计及连锁不平衡分析,第五讲,基本概念连锁不平衡原理及其统计量影响连锁不平衡的因素连锁不平衡在基因定位研究中的应用,基本概念,遗传多态性(Genetic polymorphism)指在一个群体中,同时存在的两种或两种以上的变异类型,每种类型的频率比较高,一般认为每种变异型超过1即可定为多态现象,不足1
2、的称为罕见变异型,或者称为突变(mutation)。 人类存在多种遗传多态现象(多态性),主要有染色体多态性、酶和蛋白质多态性、抗原多态性的DNA多态性五类。,单核苷酸多态性,单核苷酸多态性(single nucleotide polymorphism,SNP,读作 “snip” ),主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300600个碱基对中就有1个,估计其总数可达1000万个甚至更多。SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(tra
3、nsition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的SNP都是二等位多态性的(biallelic)。,genotype,相邻位点的等位基因在同一条染色体上的排列方式,From genotype to haplotype,genotype,haplotype,phased data,unphased data,Reconstruct haplotype from genotype,CLARKS algo
4、rithmParsimony-based methodE-M algorithmLikelihood-based methodPHASE algorithmBayesian method,Reconstruct haplotype at individual level,00100111010101000001111101011011111111110100100001010101110110000111011000001101110011111000010001011111110101111101000101001000000001000011000001101000111001100000
5、000111111001100010001000000010111101010100000111110101101011111111010100100100000000010100000000000000110011000100010000011010111010101000001111101011010111111110100111100011111110101000001100011111100110001000100000001001110101010000011111010110111111111101001000010101011101100001110100000010000011
6、000100110111101001101010100000111110101101111111111010000001100000000000001000000010000010011000100010000000101111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011110100000000000000000000000000000000000010000000110000000000000100000001000001001100010001000000000
7、000000000000000000000000000000000000101000001100000000000001000000010000010011000100010000011010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011000000000000000000000000000000000000000010001000001101000111001010000000000010000011000100110110010111111101011111
8、010001010010000000010000110000011010001110011000000000000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000001100000100110001000100000110101000000000000000000000000000000000010000000110000000000000100000001000001011100111110000100000000000000000000000000000000000
9、000000101011110001111111010101000000010000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000000100000100110001000100000001011111110101111101000101001000000001000011000001101000111001100000001000001001100010001000001101011111101011111010001010010000000010000110100
10、100000000010000000110000000011001001101000011000000000000000000000000000000000000000001010111100011111110101000011100000001101110011111000010001011111110101111101000101001000000001000010000110000000000000100000001000001011100111110000100010111111101011111010001010010000000010000110000011010001110010
11、100000000000100000110001001101111010111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011000000000000000000000000000000000000000010000000110000000000000100000001000001001100010001000001101011111101011111010001010010000000010000110000011010001110010100000000000100
12、000110001001101100000000000000000000000000000000000000001010111100011111110101010000000100000100110001000100000000000000000000000000000000000000000000010101000001101000111001010000000000010000011000100110110010111111101011111010001010010000000010000111000001111111010100000000001111111001001101000101
13、011010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011,软件演示,PHASE & fastPHASE,PHASE input file format,Position and Locus type,Genotype coding,Example of input file format,PHASE input file format,407P 13549576 13621676 13706156 13708283 13958290 14224204 1431
14、2716SSSSSSSYRI-1 TGTTCTT CCCCCCCYRI-2 TCCCCTT TCCCCTTYRI-3 TGCTCTT CCCTCCTYRI-4 TGTCCTT CCCCCCTYRI-5 TGCTCTT CCCCCCCYRI-6 TCTCCTT TCCCCCT,Alterative format,- f option-n option,Options affecting run times and accuracy,-X option,Running PHASE multiple times,-x option,Running several data sets from the
15、 same input file,-D option,Linkage Disequilibrium (LD),LD is the non-random association of alleles at adjacent loci. When a particular allele at one locus is found together on the same chromosome with a specific allele at a second locus more often than expected if the loci were segregating independe
16、ntly in a population the loci are in disequilibrium.,连锁不平衡,Linkage Disequilibrium (LD)是相邻位点之间的非随机关联,当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设,则这两个位点之间存在连锁不平衡。,Commonly used LD measurements,(Lewontin, 1964),(Hill & Weir, 1994),Independence test(p-value),2x2 table test,Fisher exact test,Population reco
17、mbination rate (4Ner),4Ner: population recombination parameter.Alternatively denoted by , 4Nec or Cr or c is the recombination rate across the region of interest;Ne is the effective population size.,Human recombination rate,= 4Ner= 4 x 10000 x 1cM/Mb= 4 x 10000 x 0.01 M/1000000 bp= 0.0004/bp= 0.4/kb
18、,4Ner and LD,4Ner as an approach for quantifying LD; This approach avoids reliance on pairwise measures of LD, which differ from marker to marker, and facilitates comparisons between regions.,LD统计量的性质- |D|,|D|具有很好的性质,当且仅当两个SNP位点没有被重组打断,或者没有因为回复突变、基因转换等因素影响的情况下,|D|=1。在这种情况下,对于两个位点来说,从样本中最多能观察到三种单倍型。|
19、D|=1被认为是完全的连锁不平衡(complete LD)。 |D|1/3的连锁不平衡水平,使得样本量的增加不超过3倍,可以作为“实用连锁不平衡”的底线。,LD统计量的性质- p-value,因为p值严重依赖于样本量的大小,所以不能用来比较使用了不同样本量的研究结果。另外,只要样本量足够大,很容易获得统计上显著的p值,比如r2=0.01的连锁不平衡在1,000条染色体的样本可以是统计上极其显著的。再者,尽管实际的连锁不平衡远远低于可用于基因定位中有用的水平,p值却往往让人误以为连锁不平衡延伸了很远,因为连锁平衡的微弱偏离可以在相当长的距离上观察到。,总的说来,对于两两位点之间连锁不平衡的度量方
20、式,r2是一个比较好的统计量,尤其是在关联分析的框架下来考虑的话,r2可以直接与功效联系起来。,影响连锁不平衡的因素,分子水平 重组率的不均匀分布 突变率的不均匀分布基因转换 群体水平 遗传漂变群体扩张人群混合和人群迁移群体结构自然选择,重组率的不均匀分布,已知重组率在整个基因组中的变化超过一个数量级。因为连锁不平衡的衰减主要就是重组驱动的,所以连锁不平衡将以相反的比例随着重组率的波动而波动。甚至有人认为重组有可能绝大多数集中在基因组中一些局部的“重组热点”(hotspot),从而其他地方重组很少发生。按照这个观点,连锁不平衡将在非重组区表现得很强,而在“重组热点”表现得很弱。尽管已经有实验研
21、究提示这种情况确实在基因组的某些区域发生,但是“重组热点”的一般性,“热点”区域以内和以外的重组频率差异程度以及这些区域的长度分布都有待于进一步的研究和确认。,突变率的不均匀分布,基因组中的某些区域比如在CpG二核苷酸位置附近,单核苷酸多态位点可能具有较高的突变率,从而与附近的位点表现出很弱的连锁不平衡甚至没有连锁不平衡,尽管实际上没有重组发生。,基因转换,在减数分裂期间,如果发生基因转换事件,一般是一条染色体的一个短片段转移到另外一条染色体上。这个效应等价于近距离发生了两次重组事件,于是连锁不平衡被打断,如同重组和回复突变产生的效果。已经有一些研究表明,人类基因组中基因转换的发生非常频繁,对
22、紧密连锁位点之间的连锁不平衡产生重要影响。,遗传漂变,遗传漂变描述的是在有限群体大小的群体中,由于每一代的随机取样造成的基因频率和单倍型频率的改变的现象,这是群体遗传学中见到的最普遍的现象。等位基因频率的变化在小群体中尤其迅速,一般来说,在一个稳定的(而不是增长的)小群体中,随着单倍型的不断丢失,遗传漂变会使连锁不平衡不断增强。,群体扩张,群体的快速增长或群体扩张因为削弱了遗传漂变的影响,从而导致连锁不平衡的增强。,人群混合和人群迁移,人群之间的混合或者迁移可以产生新的连锁不平衡。在人群混合之初,连锁不平衡的强度与混合人群之间等位基因频率的差异相关或成比例,而与位点之间的物理距离无关。在随后的
23、世代中,相互不连锁的位点之间的“伪”连锁不平衡很快消失,而那些连锁的相邻位点之间的连锁不平衡因为重组会逐渐衰减,但是相对要缓慢得多。理论上来讲,在混合人群中进行基因定位可以使标记的需要量大大减少。已经有研究试图在一些混合人群,比如美国黑人当中用这种策略进行基因定位。,群体结构,一般人群认为群体结构各方面的特征都会对连锁不平衡产生影响。在人类群体中,人群的分化有可能对连锁不平衡的模式有相当重要的影响,然而我们有限的知识大多来自于模式生物的研究。在拟南芥(Arabidopsis)的研究提示,在没有降低遗传变异的条件下,极度的近交(inbreeding)可以产生高水平的连锁不平衡。,自然选择,一般认
24、为自然选择可以通过两条途径影响连锁不平衡,第一个途径是“搭乘效应”(hitchhiking effect),在这种情况下,受选择位点附近的整个单倍型可能一起被快速地“扫荡”(sweep)到很高的频率甚至固定下来。对有害突变(deleterious variants)的选择同样可能导致连锁不平衡的增加,尽管效应一般会很微弱,因为有害的单倍型会被从群体中“扫除”,从而使单倍型的种类减少。自然选择影响连锁不平衡的第二个途径是通过上位选择(epistatic selection)使得同一条染色体上两个位点或多个位点的等位基因组合在一起,共同传递。这种形式的选择导致不同位点特定的等位基因之间的关联。尽管
25、这是果蝇遗传学历史上导致连锁不平衡研究的主要动机,因为可以通过连锁不平衡的研究检测(上位)自然选择是否发生,然而,在人类基因组中,还没有迹象表明这种形式的选择影响连锁不平衡的强度和模式。,软件演示,ArlequinHaploview,常用软件,PHASE & fastPHASEhttp:/stephenslab.uchicago.edu/software.htmlArlequin 3.01http:/anthro.unige.ch/software/arlequin/Haploviewhttp:/www.broad.mit.edu/mpg/haploview/,练习,利用HapMap数据分析连锁不平衡;http:/www.hapmap.org,