BCC精品培训关联分析.ppt

上传人:h**** 文档编号:208476 上传时间:2018-07-18 格式:PPT 页数:56 大小:4.09MB
下载 相关 举报
BCC精品培训关联分析.ppt_第1页
第1页 / 共56页
BCC精品培训关联分析.ppt_第2页
第2页 / 共56页
BCC精品培训关联分析.ppt_第3页
第3页 / 共56页
BCC精品培训关联分析.ppt_第4页
第4页 / 共56页
BCC精品培训关联分析.ppt_第5页
第5页 / 共56页
点击查看更多>>
资源描述

1、全基因组关联分析,周家蓬博士QQ群:259804181,1,2,全基因组关联研究,Genome-wide association study (GWAS) 检测全基因组范围的遗传变异与可观测性状间的遗传关联,3,遗传变异的检测,SNP芯片 Affymetrix: 500K chip (Randomly distributed) Illumina: 550K chip (gene-based)高通量测序 Illumina/Solexa: DNA-seq, RNA-seq,4,遗传变异的数量,“单倍型图谱计划 1”(Nature 2005)SNP: 1M“单倍型图谱计划 2”(Nature 200

2、7)SNP: 4M“单倍型图谱计划 3”(Nature 2010)SNP: 10M,5,SNP和SNP基因型,TTCAGTCAGATTCCAGCCC,TTCAGTCAGATTCCAGCCC,样本1,样本2,TTCAGTCAGATTCCAGCCC,TTCAGTCAGAGTCCAGCCC,6,表型 & 模型和算法,表型:质量性状和数量性状表型校正:去除outliers,取特征值,取剩余值模型:混合线性模型方程组算法:SNP,单倍型,CNV,Gene-set(SNPs) Add.,Dom.,Rec.,Int. Frequentist,Bayesian 方差/秩和,均值/中位数 打分值,似然比 Bon

3、ferroni,FDR,Permutation,Bootstrap,7,编码基因型,For one marker with two alleles, there can be three possible genotypes:,8,病例/对照设计的数据结构,9,遗传假设和遗传模型,Genotypic modelHypothesis: all 3 different genotypes have different effects,AA vs. Aa vs. aa,10,Dominant modelHypothesis: the genetic effects of AA and Aa are

4、the same,AA and Aa vs. aa,遗传假设和遗传模型(续),11,Recessive modelHypothesis: the genetic effects of Aa and aa are the same,AA vs. Aa and aa,12,遗传假设和遗传模型(续),Allelic modelHypothesis: the genetic effects of allele A and allele a are different,A vs. a,13,遗传假设和遗传模型(续),卡方检验,Genotypic modelNull hypothesis: Indepen

5、dence,df = 2,14,Chi-squared test statistic:O is the observed cell countsE is the expected cell counts, under null hypothesis of independence,统计量,15,R code Statistics hist(Statistics, prob=T) curve( dchisq(x, df=5), col=blue, add=TRUE ) curve( dchisq(x, df=2), col=red, add=TRUE ) P-1-pchisq(10,df=2);

6、P1 0.006737947,统计量,P 值,16,GWAS的历史,2005年,Science杂志报道了第一篇GWAS研究:年龄相关性黄斑变性之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症以及相关表型的报道,17,GWAS的现状,18,GWAS的趋势,19,探求因果关系,逻辑推理:归纳法(从特殊到一般)、演绎法(从一般到特殊)“穆勒五法”:求同法、求异法、求同求异法、共变法、排除法全基因组关联研究主要基于共变法思想科学技术史之父萨顿认为科学是人类唯一具有累积性和继承性的活动,20,一般流程,使用SNP分型芯片获得高通量的基因型对基因型进行质量评估和控制若为质量性状,需进行群体

7、分层检测;如为数量性状,则对表型进行协变量校正采用若干遗传模型进行全基因组关联分析增加额外的数据进行结果验证,21,AHMU案例,Illumina Human 610Quad BeadChipCall rate 90%, MAF 1%, HWE P 0.8)对填充基因型进行筛选过滤进行关联分析常用软件 BEAGLE、IMPUTE、MACH和PLINK等,29,通路分析,定义 将SNPs按照生物学通路分组,比较各通路在病例/对照或连续性状数量上的差异成功案例 克隆病、I型糖尿病、类风湿性关节炎、精神分裂症、乳腺癌等,30,通路分析,分析步骤选择生物通路(KEGG)选择Tag SNPs (HapM

8、ap)多因素分析显著SNPs结果综合常用软件 GSEA、IPA等,31,互作分析,定义 研究基因-基因、基因-环境间交互作用成功案例 老年黄斑变性、帕金森病、直肠癌、膀胱癌,哮喘等,32,互作分析,分析步骤选择显著及近似显著SNPs选择风险环境因素构建互作模型多因素分析常用软件 PLINK、Random Jungle、BEAM等,33,其他策略,两阶段法精细定位/目标测序表型/性状联合单倍型分析,34,遗传变异的检测,SNP芯片 Affymetrix: 500K chip (Randomly distributed) Illumina: 550K chip (gene-based)高通量测序

9、Illumina/Solexa: DNA-seq, RNA-seq,35,高通量测序,Next-generation sequencing (NGS) 平行测序,36,SNP分型:coverage & variant frequency,37,参考基因组序列,个体正向序列,个体反向序列,遗传变异的种类,38,遗传变异的数量,“千人基因组计划”(Nature 2012)SNP: 38M InDel: 1.4M SV: 14K,39,效应大小 vs. 变异频率,40,40,家系病例或极端性状个体,Nat Rev Genet. 2010 Jun;11(6):415-25.,41,外显子突变是孟德尔疾

10、病主要病因;多向性效应影响复杂疾病价格相对低廉目前主要用于检测孟德尔疾病新的策略或方法:Lasso,折叠法,聚合法,外显子组测序,42,Lasso,岭回归: |beta|2t Lasso回归: |beta|t贝叶斯: 全概率&损失函数机器学习: SVM,43,低覆盖度测序+缺失基因型填充,44,Pasaniuc et. al., 2012,策略评估,Pasaniuc等证实覆盖度低至0.1-0.5X依然可以通过后续的填充方法获得高密度芯片的效果,45,策略评估(续),Howie等发明了一种pre-phasing的填充方法,该方法通过对GWAS样本个体进行连锁相构建,进而利用参考库的单倍型进行缺失

11、基因型填充,46,NGS-GWAS,水稻农艺性状14种运用重测序技术对517个中国水稻地方品系进行进化及GWAS分析1X重测序KNN基因型填充算法MLM遗传模型 Nat Genet. 2010 Oct; 42: 961967.,47,高密度芯片 vs. 低覆盖度测序,48,测序成本,49,GWAS: Array-based vs. NGS-based,50,基本流程,高通量测序基因分型: CLC Genomics Workbench & Server BWA/Bowtie + SAMtools/GATK + IGV全基因组关联分析: PLINK,TASSEL,QTDT/FBAT BEAGLE/

12、IMPUTE + SNPTEST可视化和注释: IGV/gPlink + ANNOVAR/Annotation.pl,51,GWAS模块,52,植物育种,动物育种,人类疾病,TASSEL,QTDTFBATPBAT,PLINKSNPTESTMENDELBEAM,IMPUTE BEAGLE METAL HAPLOVIEW FASTSNP,Linux C/C+ R Perl Python MySQL,应用,药物治疗 抗抑郁药、精神疾病药物、丙型肝炎治疗,肝损害等副作用,为个体化医疗奠定理论基础意义 中国每年因药物不良反应住院治疗的病人已逾250万人,其中约20万人因此死亡,个体化医疗势在必行,53,

13、丙型肝炎治疗,丙肝 全球1.7亿人感染的病毒性疾病,无根治办法,治疗效果因人而异IL28B基因 TT基因型携带者痊愈率约1/4;CC基因型携带者痊愈率达4/5 09年GWAS最具价值成果 正在美国申请专利,54,应用,动植物育种 在牛猪鸡、玉米小麦等方面,欧美农业部等国家机构和Euribrid、Hubbard、Meta Moprhix等公司都已开展全基因组选择意义 在提高动植物产品的产量和质量的同时,还可以有效管理生物多样性,使得遗传增益不会破坏某些未来可能需要的性状,55,全基因组选择,Genomic Selection, GS 利用整个基因组的标记信息和各性状值来估计每个标记或染色体片段的效应值,然后将效应值加和即得到基因组育种值丹麦案例 2012年人均GDP达$59928,农业大国 2008年GS用于牛育种;2010年引入猪育种,56,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 医药卫生

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。