1、SNP关联分析与复杂疾病,口腔病理研究室Department of Oral PathologySchool of StomatologyPeking University,SNP association study and complex diseases,2,1865: crossbreeding experiments1900 Mendels discovery recognized,1944: DNA as the material basis of genetic information(Avery, MacLeod, McCarty),3,1953: DNA structure (
2、Watson and Crick),4,人类基因组计划(human genome project,HGP)3 billion (1mm: 3000km )20,000 genes国际人类基因组单体型图计划 International HapMap Project2003,5,人类致病基因,6,7,遗传变异表型差异疾病易感性、疾病的预后及不同的治疗反应个体化医疗,8,单基因遗传病家系连锁分析定位克隆,9,复杂性疾病,又称多基因遗传病由多个微效基因的累加效应结合环境因素共同作用所导致的疾病多个致病基因、每个作用都不大环境因素包括大多数人类常见疾病,10,家系连锁分析-复杂疾病,只能检出对表型或疾病
3、影响很强的基因检验低效基因的效能差:成百上千的家系?发病晚,外显率低极少的干扰因素症状的严重程度和发病年龄差异大,诊断不确定其发病机制可能不同,涉及不同的生物学通路确定合适的研究表型、合适的人群:难,11,关联分析(association study),比较无血缘关系的病例组和对照组之间遗传标记的出现频率发现与该标记呈连锁不平衡的致病基因,12,连锁不平衡(linkage disequilibrium,LD)指相邻基因位点上等位基因的非随机性相关某一位点上的特定等位基因与同一条染色体另一基因位点上的某等位基因同时出现的几率大于人群中因随机分布而使两等位基因同时出现的几率,13,多态性(poly
4、morphism)A locus with more than one allele, each of which occurs with at least 1% frequency单核苷酸多态性(Single Nucleotide Polymorphism,SNP)在基因组水平上由于单个核苷酸的改变而产生的一种DNA序列多态性,其中构成多态性的每个等位基因在人群中出现的频率都不小于1%,14,两个随机个体间基因组DNA的差异:0.1%其中90%表现为SNP,15,SNP,双等位基因标记主要等位基因(major allele):在一般人群中较多见的等位基因次要等位基因(minor allele
5、)四种可能的形式一种转换(CT或GA) :2/3三种颠换(CA或GT,CG或GC,TA或AT),16,17,SNP作为遗传标记的优势,第一代:限制性片段长度多态性(restriction fragment length polymorphism, RFLP)第二代:微卫星多态性(microsatellite )第三代:SNP变异程度不如微卫星数量巨大,分布密度高更稳定的遗传特性基因分型简单:快速、大批量、自动化,18,SNP概念界定,基因组DNA的差异cDNA中发现的:可能是RNA编辑的结果?单碱基的插入和缺失 ?疾病易感等位基因? 隐性作用、低外显率、数量性状在正常人(无病个体)中可出现,1
6、9,基因突变(点突变) mutation通常与某一有害表型相关,是一种罕见的有高外显率的变异区别突变与SNP: 1%需要检测有代表性的大范围的人群判定一个DNA变异是突变而不是SNP,需要说明其所处的确切人群和共检测了多少染色体,20,SNP的数量,人类基因组每1000个碱基:1个常见SNP整个基因组:至少300万少见SNP、特殊人群SNP,21,SNP的分布及分类,在全基因组范围内的密度分布很不一致多数:并不位于基因编码区,甚至不在基因区,稳定而无害编码区SNP(coding SNP,cSNP)非同义SNP(non synonymous SNP):引起氨基酸的改变,1/3同义SNP(syno
7、nymous SNP)启动区SNP:基因表达?邻近外显子区的内含子SNP:mRNA剪切?,22,SNP的形成及演化,发源于点突变选择性地传递决定频率的因素突变发生的时间选择压力随机遗传漂变瓶颈效应85%以上的SNP为全体人类所共有,23,SNP与疾病的关联研究,单个SNP功能有限,信息量少用1个或数个SNP来分析评价候选基因的作用?检测病例组和对照组的全部SNP?检测技术、统计能力,24,单体型(haplotype),同一条染色体上的多个相邻的等位基因组合成一个整体,称为单体型,一起遗传给下一代,Genomic DNA,Locus 1,Locus 2,Allele 1a,Allele 2a,A
8、llele 1b,Allele 2b,One individual,Allele 1b,Allele 2a,Genotype of locus 1,Allele 1a,Allele 2b,Genotype of locus 2,Haplotype (chr.),Haplotype (chr.),25,26,单体型与复杂疾病关联研究,单体型可体现多个位点的联合作用产生两条多肽链,不同氨基酸残基之间的相互作用大多数染色体区域只有少数几个常见的单体型(5%)如:55%+30%+8%+代表了一个群体中人与人之间的大部分多态性使用标签SNP(tagSNP):简化,27,28,29,国际人类基因组单体型图
9、计划(Hapmap),在全基因组规模进行高密度的SNP检测确定数百万SNP位点的不同基因型在不同种族和人群中的分布频率建立能代表染色体某一区域多态性的标签SNP(tag-SNPs)http:/hapmap.ncbi.nlm.nih.gov/,30,单体型的构建,一般基因检测方法:基因型某一个等位基因位于哪一条染色体(父方还是母方)?家系资料加基因分型分子方法等位基因特异性PCR(allele specific PCR,AS-PCR)体细胞杂交统计推导:如PHASE2.0,31,候选基因关联研究或候选通路研究( candidate gene/pathway approach)全基因组关联研究(
10、Genome-Wide Analysis )费用统计能力多次独立检验造成犯类错误(假阳性)的可能性增加,32,候选基因关联研究的基本过程,选择候选基因基于对疾病本身和相关基因或生物学通路的了解模式生物、微阵列表达分析连锁分析相关的单基因遗传病,33,评估候选基因在对照人群中的连锁不平衡状态及单体型结构参考公共SNP数据库中相同人群的资料,34,SNP数据库,35,选择要检测的SNP位点更可能有功能意义的位点,如非同义SNP、启动区SNP、剪切区SNP等考虑SNP的频率“常见疾病/常见变异”理论选择在人群中的出现频率与疾病的发病率相应的SNPrare variantscommon disease
11、 (RV-CD),36,检测病例组和对照组中各SNP位点的基因型相关分析表型和SNP基因型、等位基因及单体型2检验,logistic 回归,37,如果发现相关:确定真正的致病位点功能分析研究其它紧密连锁的相邻位点与疾病的关联大量的流行病学调查,38,候选基因关联研究目前存在的问题,大样本、大工作量真正用于临床诊断及预后判断?疾病的异质性人群的异质性易感基因的分布频率不同结果的可重复性,39,结果不能稳定地重复多次检验所造成的假阳性不同人种的混杂不同人群中研究位点与致病位点间的连锁不平衡水平有差异基因基因及基因环境的相互作用在不同人群中有所不同易感位点的效应较弱,样本量小而不能检出等,40,对策:设计和分析时更加科学和细致更简单有效的基因疾病的关联分析方法,谢谢!,