基因芯片分析.pptx

举报
资源描述
基因组表达,芯片数据分析,,转录本主要包括mRNA,small RNA,non-coding RNA,生物芯片的概念是Fodor等人于1991年提出(Fodor et al., 1991, Science)。,在90年代初期,利用光原位合成的原理,在基质上固定高密度的寡核苷酸的DNA测序芯片。 1995年Schena (Science, 1995)等人,把拟南芥的45个基因固定在一张玻片上,并行检测拟南芥45个基因的表达情况,这是第一次结合了高精度机械手点样系统、荧光标记技术、双通道荧光扫描技术和数据分析软件,是第一次真正意义上的用DNA芯片技术进行基因表达分析的应用。 部分基因组被测序的微生物全基因的DNA芯片问世,如:酿酒酵母,大肠杆菌。 人类、大鼠和小鼠的全基因组芯片。,基因芯片发展过程,Southern & Northern Blot,Dot Blot,Macroarray,Microarray,,,,,,5,sample,image,Data analysis,,,,,,,,,,原理 -- 通过杂交检测信息,,,,,,,,一组寡核苷酸探针,,,,—,TATGCAATCTAG,,,,,,,,,,,,,CGTTAGAT,,ACGTTAGA,,,ATACGTTAGATC,,TACGTTAG,,由杂交位置确定的一组,核酸探针序列,,GTTAGATC,,,,,杂交探针组,,TATGCAATCTAG,,重组的互补序列,,靶序列,,,,,,,,,TACGTTAG,,,ACGTTAGA,,,ATACGTTA,,,CGTTAGAT,,,GTTAGATC,,,,ATACGTTA,,Research Use. Clinical Diagnostic Use.,,Biological Sample,,Functional Information,One Disease——One Gene Expression Pattern,,,计算Ratio 值 (= Cy3/Cy5) 在 0.5-2.0 之外的定义为在两样本中有明显差异表达。进而获取初步功能信息,Prototype AmpliOnc™ I Biochip,,,,,,,,AmpliOncTM I Biochip after hybridization; color composite of red, blue and green image,This biochip contains all genomic regions that have been reported to be amplified in cancers.,,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y,Oncogene Targets On the AmpliOnc™ I Biochip,PDGFB,EGFR1,PDGFRA,MET,FGFR2,WNT1,MYB,HER2,YES1,HRAS1,CND1,RAF1,GLI,MYC,MDM2,20q13,REL,MYCL1,FGR,FES,ABL,INT2,PIK3CA,NMYC,AKT2,FGFR1,JUNB,AKT1,KRAS2,CDK4,AR,,cDNA microarray expression patterns of small (S) and large (L) neurons,,mRNA enriched in large DRG neurons,,mRNA enriched in small DRG neurons,,放射性原位杂交验证结果,,基因芯片的数据解读和分析,芯片图像的处理。 芯片杂交后获得的数据与芯片的基因信息的连接。 芯片数据的预处理及数据的可视化。 数据处理和分析的算法。,,,下表是整理后数据的一部分,一、基因芯片数据提取与过滤,(一) cDNA微阵列芯片,,(二) Affymetrix公司的原位合成芯片,定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值,预处理 对数转换 目的:使数据服从正态分布,预处理 数据过滤 去除表达水平是负值或很小的数据或者明显的噪声数据 波动筛选:去掉一成不变的基因,要求在一定的变化范围内波动 标准化 片内标准化:去除系统误差 片间标准化:在不同列之间的标准化,使每列在同一量纲上比较,,网格定位结果,数据过滤,数据过滤的目的是去除表达水平是负值或很小的数据、或者明显的噪声数据。 过闪耀现象 物理因素导致的信号污染 杂交效能低 点样问题 其它,二、数据补缺,(一)数据缺失类型 非随机缺失 基因表达丰度过高或过低 随机缺失 与基因表达丰度无关,数据 补缺主要针对随机缺失情况,(二)数据补缺方法,1、简单补缺法,missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene) average missing values = column (array) average,2、K近邻法,选择与具有缺失值基因的k个邻居基因 用邻居基因的加权平均估计缺失值 参数: 邻居个数 距离函数,3、回归法,三、数据标准化,(一)为什么要进行数据标准化 存在不同来源的系统误差 染料物理特性差异(热和光敏感性,半衰期等) 染料连接效能 点样针差异 数据收集过程中扫描设施 不同芯片差异 实验条件差异,,,,(二)运用哪些基因进行标准化处理 芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control ) 合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。,,,以M (log ratio 表达量)为纵坐标,A(log intensity 表达量)为横坐标做出数据的散点分布图。,A = (Log Green + Log Red) / 2,M = Log Red - Log Green,,,低,高,表达水平,调控方向,上调,下调,1、片内标化(Within-slide normalization) 全局标化(Global normalization),(三) cDNA芯片数据标准化处理,假设: R=k*G 方法: C=log2k:中值或均值,芯片内数据标准化的常用方法是局部加权回归分析:Lowess (LocallyWeighted Linear Regression) normalization 。,Lowess 回归分析是一种非参数回归方法,也称为平滑方法,在计算两个变量的关系时采用开放式算法,不套用现成的函数公式,所拟合的曲线可以很好的描述变量之间关系的细微的变化。,,,从图中可以看出由于染色的红光强度比绿光强度大,因此数值的整体分布趋势是偏离那条斜线的。这是由于红光和绿光的感应强度不同产生的偏差。因此希望基因的红光强度与绿光强度是一致的。所以所有数值点的总体分布趋势应该和图中斜线是相吻合的。这样通过标准化后所有数值点的拟合曲线应该下移至斜线位置。,,,lowess in R,out=lowess(x,y,f=0.4) plot(x,y) lines(out$x,out$y,col=2,lwd=2,out$x will be a vector containing the x values. out$y will contain the lowess fitted values for the values in out$x. f controls the fraction of the data used to obtain each fitted value. f = 0.4 has been recommended for microarray data normalization.,2、片间标化(Multiple-slide normalization) 平均数、中位数标准化 (mean or median normalization) 尺度调整的标准化 ( Scale Normalization) 分位数标准化 (Quantile Normalization) 两张芯片的表达数据的分位数标化至相同,即分布于对角线上。 线性标化法(Linear scaling methods) 与芯片内标化的尺度调整(Scale adjustment) 方法类似 非线性标化法(non-linear methods) 分位数标化法(Quantile normalization),3、染色互换实验(dye-swap experiment ) 的标化 实验组 对照组 芯片1 cy5(R) cy3(G’) 芯片2 cy3(G) cy5(R’) 前提假设:c︽c’ 方法:,,,,M = log2R - log2G A = (log2R + log2G)/2,,,Slide 2 Cy3 Cy5,Slide 1 Cy3 Cy5,median,Q3=75th percentile,Q1=25th percentile,minimum,maximum,,,,,,前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。,,(脚标a 为每组实验数据),channel.medians=apply(log(x),2,median) normalized.log.x=sweep(log(x),2,channel.medians),R脚本,Scale Normalization,在进行片内标准化时,不同grid中的基因强度的分布不一致,亦即基因强度值的离散程度不同,这是由系统误差带来的。所以理想状态下希望它们的离散程度是一致的。同理对于双色channel的情况在理想状态下基因在两个染色channel中的离散程度也应该是一致的。因此对于双色芯片数据的尺度标准化结果就是基因在两个channel中的中值一致,同时基因染色强度在两种channel中的离散程度一致。,Log Mean Signal (centered and scaled),Data after Median Centering and Scale Normalizing,medians=apply(X,2,median) Y=sweep(X,2,medians) mad=apply(abs(Y),2,median) const=prod(mad)^(1/length(mad)) scale.normalized.X=t(t(X)*(const/mad)),差异表达分析 (Analysis of Differentially Expression Gene ),一、倍数法,实验条件下的表达值,对照条件下的表达值,通常以2倍差异为阈值,判断基因是否差异表达,,,,,,,[mRNA] ~ Cy5/Cy3 = r,time / h,,,,,,,,,,,1,5,0,_,_,,Start of experiment,up-regulation induction,down-regulation repression,,,,combine them in the log (base 2) ratio Log2( Red intensity / Green intensity) Ratio= log2 (R/G),推测统计学方法,,,H0 :所研究的基因在表达量上与正常表达时的表达量没有显著的差异性。 H1: 在两种或两种以上样本的芯片实验中,基因的表达有显著的差异性,,,,芯片实验的统计检验,二、统计学方法,1、t检验法,,运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性,2、方差分析,,,,,,,,方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。,三、SAM (Significance Analysis of Microarrays),(一) 多重假设检验问题 Ⅰ型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 Ⅱ型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。 在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(False Discovery Rate)值等。,差异表达基因筛选,越宽越严格,越窄越宽松 SAM (Significance Analysis of Microarrays),数据的初步分析 -差异基因的选择,一般来说,ratio>2或ratio2表示比率在平均比率加两倍方差之外,差异基因有了统计意义。 T-检验( t-test ),从重复芯片中识别差异的表达基因。 SAM (Significance Analysis of Microarrays )。 ANOVA()。 现在识别差异基因方法不是很完善,它仍是数据处理中的一个热点。,数据的深入分析- 聚类分析,层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。 的基因可能具有共同的特征。,探索完全未知的数据特征的方法 层次聚类(hierarchical cluster) K-means 基于向量的 SOM 主成分分析(PCA),层次聚类,,k均值聚类,,随机的两个点,MiRNA 表达谱:非癌样品(正常样品,腺瘤,息肉)vs癌,57,,癌样品,癌和非癌样品之间存在明显的谱带差异,常用的表达谱分析软件 (General Microarray Analysis Software ),ArrayTools DChip(DNA-Chip Analyzer) SAM R语言和BioConductor: affy、marray、limma Matlab: Bioinformatics Toolbox,安装sam-3.02.ex以后,打开Excel,在加载项的工具栏中会出现Stanford Tools,点击Load SAM,即可导入SAM及SAM Controller的快捷按钮。,After finishing installation,基因芯片数据获取,Gene Expression Omnibus (GEO) http://www.ncbi.nlm.nih.gov/geo/,基因芯片数据获取,Gene Expression Omnibus (GEO) GPLXXXX GSMXXXX GSEXXXX GDSXXXX,,,,,实验组,GEO自己 组织的相近实验,基因芯片数据获取,ArrayExpress http://www.ebi.ac.uk/arrayexpress/,Install Bioconductor Packages,Install R Install a selection of core Bioconductor packages >source("http://bioconductor.org/biocLite.R") > biocLite() Install a particular package, e.g., limma > biocLite("limma") > biocLite(c("GenomicFeatures", "AnnotationDbi")),User Guides and Package Vignettes,http://svitsrv25.epfl.ch/R-doc/doc/html/packages.html,Expression Profiling Analysis,Preprocessing: Oligonucleotide Arrays library("affy") ReadAffy(); #input data expresso(); #Background adjustment,Normalization,Summarization justRMA(); #more efficient exprs(); library(simpleaffy) ampli.eset <- call.exprs(cel,"mas5",sc = target) qcs <- qc(cel,ampli.eset),67,Expression Profiling Analysis,Preprocessing: Two-Color Spotted Arrays library(limma) read.maimages(); #input data backgroundCorrect(); #Background adjustment normalizeWithinArrays(); #Normalize within arrays normalizeBetweenArrays(); #Normalize between arrays exprs.MA(); #Extract expression values avereps(); #Summary plotMA(); # MA plot,68,Expression Profiling Analysis,Non-specific filtering Intensity-based variability across samples fraction of Present calls R packages:genefilter,69,Differentially expressed genes library(samr) samr(); #Significance analysis of microarrays library(multtest) mt.rawp2adjp(); #Adjusted p-values for simple multiple # testing procedures library(limma) lmFit(); #Linear Model for Series of Arrays eBayes(); #Empirical Bayes Statistics for #Differential Expression,70,Expression Profiling Analysis,Clustering and visualization library(amap) hcluster(); #Hierarchical Clustering #more efficient than hclust() dist(); #Distance Matrix Computation library(ctc) r2gtr(); #Write to gtr, atr, cdt file format for Treeview r2atr() r2cdt() library("gplots") heatmap.2(); #extensions to the standard R heatmap(),71,Expression Profiling Analysis,,#setwd("/var/www/html/SRP/"); inputFile=Arguments[1]; #outputFile=Arguments[2]; library(affy) mydata head(pm.data) GSM94592.CEL GSM94593.CEL GSM94594.CEL GSM94595.CEL GSM94596.CEL 64704 4418.0 2931.0 3576.8 3065.5 3270.8 64705 124.3 114.5 126.0 170.3 139.3 64706 152.0 131.8 160.3 197.5 172.0 64707 109.3 102.3 118.0 140.0 125.0 64708 89.3 100.0 95.0 130.8 106.0 64709 80.0 79.3 78.0 99.0 76.0,GSM199463.CEL.gz 0 GSM199464.CEL.gz 0 GSM199465.CEL.gz 1 GSM199466.CEL.gz 1 GSM199467.CEL.gz 2 GSM199468.CEL.gz 2 GSM199469.CEL.gz 3 GSM199470.CEL.gz 3 GSM199471.CEL.gz 4 GSM199472.CEL.gz 4,,mm.data <- mm(mydata) head(mm.data) # Mis-match probes GSM94592.CEL GSM94593.CEL GSM94594.CEL GSM94595.CEL GSM94596.CEL 65238 3263.5 1918.8 3107.8 2418.0 2319.8 65239 164.8 118.0 152.0 151.5 145.0 65240 90.5 78.0 89.3 109.8 92.3 65241 79.3 79.3 88.0 106.3 84.0 65242 94.0 86.0 94.8 119.0 95.5 65243 72.3 79.0 77.0 88.0 89.0 head(geneNames(mydata)) # ProbeSet names [1] "10000_at" "10001_at" "10002_i_at" "10003_f_at" "10004_at" [6] "10005_at" sampleNames(mydata) # Sample names pdat <- pData(mydata)) # Phenotypic data eset.rma <- rma(mydata) emat.rma.log2 <- exprs(eset.rma) class(emat.rma.log2) write.table(emat.rma.log2, file="emat.rma", quote=F, sep="\t", col.names=T, row.names=F) write.exprs(eset,file="eset.txt"),,,,library(samr) samfit <- SAM(emat.rma.nologs[present.probes,c(1,2,7,8)], c(1,1,2,2), resp.type="Two class unpaired", genenames=present.probes) R分析差异表达基因的library有很多,但目前运用最广泛的Bioconductor包是limma。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效,结果内容包括AveExpr值(比较组间绝对值的平均差异值)、logFC值(差异倍数)、t值、P值、q值(即adj.P.Val值)和B值。一般logFC值、P值、q值和AveExpr值用来作为差异表达的判断标准,比如差异倍数在2倍以上、绝对差异表达在10以上、P值小于0.01等,,,http://www.bioconductor.org/packages/release/bioc/html/limma.html,,,,,,数据起始位置,,不同颜色表示相对表达量,,样本名,,基因名,,,不同实验类型,样本分组,Sam结果:Expression images,Sam结果:Table views,,,,,,,,,,,,,
展开阅读全文
相关搜索
温馨提示:
文客久久所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

当前位置:首页 > 教育教学资料库 > 课件讲义


Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。