1、基因组表达,芯片数据分析,转录本主要包括mRNA,small RNA,non-coding RNA,生物芯片的概念是Fodor等人于1991年提出(Fodor et al., 1991, Science)。,在90年代初期,利用光原位合成的原理,在基质上固定高密度的寡核苷酸的DNA测序芯片。 1995年Schena (Science, 1995)等人,把拟南芥的45个基因固定在一张玻片上,并行检测拟南芥45个基因的表达情况,这是第一次结合了高精度机械手点样系统、荧光标记技术、双通道荧光扫描技术和数据分析软件,是第一次真正意义上的用DNA芯片技术进行基因表达分析的应用。 部分基因组被测序的微生物
2、全基因的DNA芯片问世,如:酿酒酵母,大肠杆菌。 人类、大鼠和小鼠的全基因组芯片。,基因芯片发展过程,Southern & Northern Blot,Dot Blot,Macroarray,Microarray,5,sample,image,Data analysis,原理 - 通过杂交检测信息,一组寡核苷酸探针,TATGCAATCTAG,CGTTAGAT,ACGTTAGA,ATACGTTAGATC,TACGTTAG,由杂交位置确定的一组,核酸探针序列,GTTAGATC,杂交探针组,TATGCAATCTAG,重组的互补序列,靶序列,TACGTTAG,ACGTTAGA,ATACGTTA,CGT
3、TAGAT,GTTAGATC,ATACGTTA,Research Use.Clinical Diagnostic Use.,BiologicalSample,Functional Information,One DiseaseOne Gene Expression Pattern,计算Ratio 值 (= Cy3/Cy5) 在 0.5-2.0 之外的定义为在两样本中有明显差异表达。进而获取初步功能信息,Prototype AmpliOnc I Biochip,AmpliOncTM I Biochip after hybridization; color composite of red, bl
4、ue and green image,This biochip contains all genomic regions that have been reported to be amplified in cancers.,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y,Oncogene Targets On the AmpliOnc I Biochip,PDGFB,EGFR1,PDGFRA,MET,FGFR2,WNT1,MYB,HER2,YES1,HRAS1,CND1,RAF1,GLI,MYC,MDM2,20q13,
5、REL,MYCL1,FGR,FES,ABL,INT2,PIK3CA,NMYC,AKT2,FGFR1,JUNB,AKT1,KRAS2,CDK4,AR,cDNA microarray expression patterns of small (S) and large (L) neurons,mRNA enriched in large DRG neurons,mRNA enriched in small DRG neurons,放射性原位杂交验证结果,基因芯片的数据解读和分析,芯片图像的处理。 芯片杂交后获得的数据与芯片的基因信息的连接。 芯片数据的预处理及数据的可视化。 数据处理和分析的算法。
6、,下表是整理后数据的一部分,一、基因芯片数据提取与过滤,(一) cDNA微阵列芯片,(二) Affymetrix公司的原位合成芯片,定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值,预处理对数转换 目的:使数据服从正态分布,预处理数据过滤 去除表达水平是负值或很小的数据或者明显的噪声数据 波动筛选:去掉一成不变的基因,要求在一定的变化范围内波动标准化 片内标准化:去除系统误差 片间标准化:在不同列之间的标准化,使每列在同一量纲上比较,网格定位结果,数据过滤,数据过滤的目的是去除表达水平是负值或很小的数据、或者明
7、显的噪声数据。过闪耀现象 物理因素导致的信号污染 杂交效能低点样问题其它,二、数据补缺,(一)数据缺失类型非随机缺失 基因表达丰度过高或过低随机缺失 与基因表达丰度无关,数据 补缺主要针对随机缺失情况,(二)数据补缺方法,1、简单补缺法,missing values = 0 expressionmissing values = 1 expression (arbitrary signal)missing values = row (gene) averagemissing values = column (array) average,2、K近邻法,选择与具有缺失值基因的k个邻居基因用邻居基因
8、的加权平均估计缺失值参数:邻居个数距离函数,3、回归法,三、数据标准化,(一)为什么要进行数据标准化存在不同来源的系统误差染料物理特性差异(热和光敏感性,半衰期等)染料连接效能点样针差异数据收集过程中扫描设施不同芯片差异实验条件差异,(二)运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因)控制序列(spiked control ) 合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。,以M (log ratio 表达量)为纵坐标,A(log intensity 表达量)为横坐标做出数据的散点分布图。,A =
9、(Log Green + Log Red) / 2,M = Log Red - Log Green,低,高,表达水平,调控方向,上调,下调,1、片内标化(Within-slide normalization)全局标化(Global normalization),(三) cDNA芯片数据标准化处理,假设: R=k*G方法:C=log2k:中值或均值,芯片内数据标准化的常用方法是局部加权回归分析:Lowess (LocallyWeighted Linear Regression) normalization 。,Lowess 回归分析是一种非参数回归方法,也称为平滑方法,在计算两个变量的关系时采用
10、开放式算法,不套用现成的函数公式,所拟合的曲线可以很好的描述变量之间关系的细微的变化。,从图中可以看出由于染色的红光强度比绿光强度大,因此数值的整体分布趋势是偏离那条斜线的。这是由于红光和绿光的感应强度不同产生的偏差。因此希望基因的红光强度与绿光强度是一致的。所以所有数值点的总体分布趋势应该和图中斜线是相吻合的。这样通过标准化后所有数值点的拟合曲线应该下移至斜线位置。,lowess in R,out=lowess(x,y,f=0.4) plot(x,y) lines(out$x,out$y,col=2,lwd=2,out$x will be a vector containing the x
11、values.out$y will contain the lowess fitted values for the values in out$x.f controls the fraction of the data used to obtain each fitted value.f = 0.4 has been recommended for microarray data normalization.,2、片间标化(Multiple-slide normalization)平均数、中位数标准化(mean or median normalization)尺度调整的标准化 ( Scale
12、 Normalization)分位数标准化 (Quantile Normalization) 两张芯片的表达数据的分位数标化至相同,即分布于对角线上。线性标化法(Linear scaling methods) 与芯片内标化的尺度调整(Scale adjustment) 方法类似非线性标化法(non-linear methods)分位数标化法(Quantile normalization),3、染色互换实验(dye-swap experiment ) 的标化 实验组 对照组 芯片1 cy5(R) cy3(G) 芯片2 cy3(G) cy5(R)前提假设:cc方法:,M = log2R - log
13、2GA = (log2R + log2G)/2,Slide 2Cy3 Cy5,Slide 1Cy3 Cy5,median,Q3=75th percentile,Q1=25th percentile,minimum,maximum,前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。,(脚标a 为每组实验数据),channel.medians=apply(log(x),2,median)normalized.log.x=sweep(log(x),2,channel.medians),R脚本,Scale Normalization,在进行片内标准化时,不同
14、grid中的基因强度的分布不一致,亦即基因强度值的离散程度不同,这是由系统误差带来的。所以理想状态下希望它们的离散程度是一致的。同理对于双色channel的情况在理想状态下基因在两个染色channel中的离散程度也应该是一致的。因此对于双色芯片数据的尺度标准化结果就是基因在两个channel中的中值一致,同时基因染色强度在两种channel中的离散程度一致。,Log Mean Signal (centered and scaled),Data after Median Centering and Scale Normalizing,medians=apply(X,2,median) Y=swe
15、ep(X,2,medians) mad=apply(abs(Y),2,median) const=prod(mad)(1/length(mad) scale.normalized.X=t(t(X)*(const/mad),差异表达分析(Analysis of Differentially Expression Gene ),一、倍数法,实验条件下的表达值,对照条件下的表达值,通常以2倍差异为阈值,判断基因是否差异表达,mRNA Cy5/Cy3 = r,time / h,1,5,0,_,_,Start of experiment,up-regulationinduction,down-regul
16、ationrepression,combine them in the log (base 2) ratio Log2( Red intensity / Green intensity)Ratio= log2 (R/G),推测统计学方法,H0 :所研究的基因在表达量上与正常表达时的表达量没有显著的差异性。H1: 在两种或两种以上样本的芯片实验中,基因的表达有显著的差异性,芯片实验的统计检验,二、统计学方法,1、t检验法,运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性,2、方差分析,方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内
17、变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下的表达有差异。,三、SAM (Significance Analysis of Microarrays),(一) 多重假设检验问题型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR
18、(False Discovery Rate)值等。,差异表达基因筛选,越宽越严格,越窄越宽松SAM (Significance Analysis of Microarrays),数据的初步分析 差异基因的选择,一般来说,ratio2或ratio2表示比率在平均比率加两倍方差之外,差异基因有了统计意义。 T-检验( t-test ),从重复芯片中识别差异的表达基因。 SAM (Significance Analysis of Microarrays )。 ANOVA()。现在识别差异基因方法不是很完善,它仍是数据处理中的一个热点。,数据的深入分析 聚类分析,层次聚类算法将研究对象按照它们的相似性
19、关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。的基因可能具有共同的特征。,探索完全未知的数据特征的方法层次聚类(hierarchical cluster)K-means 基于向量的SOM主成分分析(PCA),层次聚类,k均值聚类,随机的两个点,MiRNA 表达谱:非癌样品(正常样品,腺瘤,息肉)vs癌,57,癌样品,癌和非癌样品之间存在明显的谱带差异,常用的表达谱分析软件(General Microarray Analysis Software ),ArrayTools DChip(DNA-Chip Analyzer) SAMR语言和Bio
20、Conductor: affy、marray、limma Matlab: Bioinformatics Toolbox,安装sam-3.02.ex以后,打开Excel,在加载项的工具栏中会出现Stanford Tools,点击Load SAM,即可导入SAM及SAM Controller的快捷按钮。,After finishing installation,基因芯片数据获取,Gene Expression Omnibus (GEO)http:/www.ncbi.nlm.nih.gov/geo/,基因芯片数据获取,Gene Expression Omnibus (GEO)GPLXXXXGSMXX
21、XXGSEXXXXGDSXXXX,实验组,GEO自己组织的相近实验,基因芯片数据获取,ArrayExpresshttp:/www.ebi.ac.uk/arrayexpress/,Install Bioconductor Packages,Install RInstall a selection of core Bioconductor packagessource(http:/bioconductor.org/biocLite.R) biocLite()Install a particular package, e.g., limma biocLite(limma) biocLite(c(Ge
22、nomicFeatures, AnnotationDbi),User Guides and Package Vignettes,http:/svitsrv25.epfl.ch/R-doc/doc/html/packages.html,Expression Profiling Analysis,Preprocessing: Oligonucleotide Arrayslibrary(affy)ReadAffy(); #input dataexpresso(); #Background adjustment,Normalization,SummarizationjustRMA(); #more e
23、fficientexprs(); library(simpleaffy) ampli.eset - call.exprs(cel,mas5,sc = target) qcs - qc(cel,ampli.eset),67,Expression Profiling Analysis,Preprocessing: Two-Color Spotted Arrayslibrary(limma)read.maimages(); #input databackgroundCorrect(); #Background adjustmentnormalizeWithinArrays(); #Normalize
24、 within arraysnormalizeBetweenArrays(); #Normalize between arraysexprs.MA(); #Extract expression valuesavereps(); #SummaryplotMA(); # MA plot,68,Expression Profiling Analysis,Non-specific filteringIntensity-basedvariability across samplesfraction of Present callsR packages:genefilter,69,Differential
25、ly expressed geneslibrary(samr)samr(); #Significance analysis of microarrayslibrary(multtest)mt.rawp2adjp(); #Adjusted p-values for simple multiple # testing procedureslibrary(limma)lmFit(); #Linear Model for Series of ArrayseBayes(); #Empirical Bayes Statistics for #Differential Expression,70,Expre
26、ssion Profiling Analysis,Clustering and visualization library(amap) hcluster(); #Hierarchical Clustering #more efficient than hclust()dist(); #Distance Matrix Computation library(ctc)r2gtr(); #Write to gtr, atr, cdt file format for Treeviewr2atr()r2cdt()library(gplots)heatmap.2(); #extensions to the
27、 standard R heatmap(),71,Expression Profiling Analysis,#setwd(/var/www/html/SRP/);inputFile=Arguments1;#outputFile=Arguments2;library(affy)mydata head(pm.data) GSM94592.CEL GSM94593.CEL GSM94594.CEL GSM94595.CEL GSM94596.CEL64704 4418.0 2931.0 3576.8 3065.5 3270.864705 124.3 114.5 126.0 170.3 139.36
28、4706 152.0 131.8 160.3 197.5 172.064707 109.3 102.3 118.0 140.0 125.064708 89.3 100.0 95.0 130.8 106.064709 80.0 79.3 78.0 99.0 76.0,GSM199463.CEL.gz0GSM199464.CEL.gz0GSM199465.CEL.gz1GSM199466.CEL.gz1GSM199467.CEL.gz2GSM199468.CEL.gz2GSM199469.CEL.gz3GSM199470.CEL.gz3GSM199471.CEL.gz4GSM199472.CEL.
29、gz4,mm.data - mm(mydata) head(mm.data) # Mis-match probes GSM94592.CEL GSM94593.CEL GSM94594.CEL GSM94595.CEL GSM94596.CEL65238 3263.5 1918.8 3107.8 2418.0 2319.865239 164.8 118.0 152.0 151.5 145.065240 90.5 78.0 89.3 109.8 92.365241 79.3 79.3 88.0 106.3 84.065242 94.0 86.0 94.8 119.0 95.565243 72.3
30、 79.0 77.0 88.0 89.0 head(geneNames(mydata) # ProbeSet names1 10000_at 10001_at 10002_i_at 10003_f_at 10004_at 6 10005_at sampleNames(mydata) # Sample namespdat - pData(mydata) # Phenotypic dataeset.rma - rma(mydata)emat.rma.log2 - exprs(eset.rma)class(emat.rma.log2)write.table(emat.rma.log2, file=e
31、mat.rma, quote=F, sep=t, col.names=T, row.names=F) write.exprs(eset,file=eset.txt),library(samr) samfit - SAM(emat.rma.nologspresent.probes,c(1,2,7,8), c(1,1,2,2), resp.type=Two class unpaired, genenames=present.probes)R分析差异表达基因的library有很多,但目前运用最广泛的Bioconductor包是limma。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,
32、它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效,结果内容包括AveExpr值(比较组间绝对值的平均差异值)、logFC值(差异倍数)、t值、P值、q值(即adj.P.Val值)和B值。一般logFC值、P值、q值和AveExpr值用来作为差异表达的判断标准,比如差异倍数在2倍以上、绝对差异表达在10以上、P值小于0.01等,http:/www.bioconductor.org/packages/release/bioc/html/limma.html,数据起始位置,不同颜色表示相对表达量,样本名,基因名,不同实验类型,样本分组,Sam结果:Expression images,Sam结果:Table views,
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。