生物信息学-高通量测序技术及数据分析-20141015.pptx

举报
资源描述
生物信息学,陈小伟 chenxiaowei@moon.ibp.ac.cn 中国科学院生物物理研究所 2014.10.15,高通量测序技术及数据分析介绍,高通量测序技术及数据分析介绍,背景介绍 第一代测序技术 第二代(高通量)测序技术 基因芯片与高通量测序的比较 高通量测序技术的应用 高通量测序数据分析概览 高通量测序数据质量评估与过滤 基因组测序 RNA-seq ChIP-seq UCSC Genome Bioinformatics,背景介绍,背景介绍,第一代测序技术 Sanger测序法 链终止法 双脱氧终止法 1975年,Transcription,http://blog.sina.com.cn/s/blog_7110867f0100zi09.html,Frederick Sanger 1918年8月13日-2013年11月19日 1958年 诺贝尔化学奖 1980年 诺贝尔化学奖,背景介绍,第二代测序技术 边合成边测序 2005年左右 Sequening by synthesis 代表性测序技术 Illumina/Solexa Roche/454 ABI/SOLiD Polonator HeliScope 参考文献 Metzker, M.L. (2010). Sequencing technologies - the next generation. Nat Rev Genet 11, 31-46.,http://www.nature.com/nrg/journal/v11/n1/full/nrg2626.html,Illumina HiSeq 2500,背景介绍,高通量测序文库构建 单末端测序,single-end 首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列。 双末端测序,paired-end 在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。,背景介绍,以Illumina为例简单介绍测序原理,Illumina HiSeq 2500,cBot,背景介绍,高通量测序数据格式 fasta 序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号,通常核苷酸符号大小写均可 fastq 第一行由‘@’开始,后面跟着序列的描述信息,这点跟fasta格式是一样的;第二行是序列;第三行由‘+’开始,后面也可以跟着序列的描述信息;第四行是第二行序列的质量评价(quality values),字符数跟第二行的序列是相等的。,背景介绍,高通量测序数据格式 fastq,Q =-10 log10(p) OR Q =-10 log10[p/(1-p)] (p:碱基错误率) 字符的ASCII值 - 64 = 质量值 OR 字符的ASCII值 - 33 = 质量值 NCBI/Sanger or Illumina 1.8 and later. Using a Phred scale encoded using ASCII 33 to 93. This is the standard for fastq formats except for the early Illumina data formats (this changed with version 1.8 of the Illumina Pipeline). Illumina Pipeline 1.2 and earlier. Using a Solexa/Illumina scale (-5 to 40) using ASCII 59 to 104. The Workbench automatically converts these quality scores to the Phred scale on import in order to ensure a common scale for analyses across data sets from different platforms (see details on the conversion next to the sample below). Illumina Pipeline 1.3 and 1.4. Using a Phred scale using ASCII 64 to 104. Illumina Pipeline 1.5 to 1.7. Using a Phred scale using ASCII 64 to 104. Values 0 (@) and 1 (A) are not used anymore. Value 2 (B) has special meaning and is used as a trim clipping. This means that when selecting Illumina Pipeline 1.5 and later, the reads are trimmed when a B is encountered in the input file if the Trim reads option is checked. 36 39 39 39 39 39 39 39 39 39 38 39 39 36 36 34 34 29 31 2 20 20 19 19 19 38 38 38 36 36 36 36 36 36 30 32 35 35,基因芯片与高通量测序的比较,芯片与测序比较,基因芯片 约20年的历史,技术比较成熟,成本相对较低 原理 探针,互补配对的原则 靶序列用荧光标记 通过荧光强度间接反映靶序列的数量 应用 检测已知基因的表达水平 检测SNP位点的基因型 检测CNV,芯片与测序比较,高通量测序 约10年的历史,发展快速,成本逐步减少 原理 边合成边测序 碱基用荧光基团标记 直接测定碱基序列 应用 全基因组测序 转录组测序 (small RNA seq, RNA-seq),可以检测已知基因的表达水平,可以发现全新的转录本 ChIP-seq CLIP-seq, …,芯片与测序比较,用高通量测序技术和基因芯片技术检测基因表达,Malone, J.H., and Oliver, B. (2011). Microarrays, deep sequencing and the true measure of the transcriptome. BMC Biol 9, 34.,高通量测序技术的应用,测序应用,高通量测序数据分析概览,测序应用,Quality Assessment,Raw Data,FastQC; fastx_quality_stats,Remove adaptor / linker,,,fastx_trimmer,fastx_clipper,Split according to barcode,fastx_barcode_splitter.pl fastx_trimmer,Quality Control,fastq_quality_trimmer fastq_quality_filter,Further Analysis,高通量测序数据质量评估与过滤,FastQC FASTX-Toolkit,测序应用,全基因组测序 第一期:基因组调研图 整体测序深度不低于20倍覆盖度。进行初步的数据分析,对基因组大小,GC含量等做出初步评估,确定框架图梯度文库构建具体策略 第二期:基因组框架图 基因组覆盖度达到90% 以上,基因区覆盖度达到95% 以上,单碱基的错误率达到1万分之一以内,整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因注释和功能注释,和简单的比较基因组学分析。 第三期:基因组精细图 基因组覆盖度达到95% 以上,基因区覆盖度达到98% 以上,单碱基的错误率达到10万分之一以内,整体基因组覆盖度不低于100倍,Scaffold N50大小不低于300Kb,对基因组精细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分析。,测序应用,转录组测序 Small RNA seq 检测small RNA(主要是miRNA)的表达水平 发现新的small RNA RNA-seq Poly(A) 检测蛋白质编码基因的可变剪切体及表达水平 Total RNA(except rRNA) 检测mRNA及long noncoding RNA的表达水平 发现新的long noncoding RNA 数据分析工具 Bowtie (http://bowtie-bio.sourceforge.net/index.shtml) TopHat (http://ccb.jhu.edu/software/tophat/index.shtml) Cufflinks (http://cufflinks.cbcb.umd.edu/),测序应用,RNA-seq数据分析工具 Bowtie Bowtie is an ultrafast, memory-efficient short read aligner geared toward quickly aligning large sets of short DNA sequences (reads) to large genomes. TopHat TopHat is a fast splice junction mapper for RNA-Seq reads. Cufflinks Cufflinks assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples.,Cole Trapnell: TopHat(2009), Cufflinks(2010) PhD Steven Salzberg, University of Maryland Lior Pachter, University of California, Berkeley Postdoc Join Rinn’s lab, The Broad Institute,测序应用,Overview of TopHat,测序应用,Splicing Junctions,Exon skipping or cassette exon,Mutually exclusive exons,Alternative donor site,Alternative acceptor site,Intron retention,Exon skipping or cassette exon,Mutually exclusive exons,Alternative donor site,Alternative acceptor site,Intron retention,测序应用,TopHat: Discovering splice junctions TopHat v1.0.7 earlier seed-and-extend alignment TopHat v1.0.7 and later Suppose S is a read of length l that crosses a splice junction splits S into n segments, n=floor(l/k), (k=25bp) maps the segments s1,…,sn with Bowtie to the genome segments si, si+1 that both align to the genome, but not adjacently a segment si fails to align because it crosses a splice junction, but si-1 and si+1 are aligned.,测序应用,TopHat: Discovering splice junctions TopHat v1.0.7 and later a segment si fails to align because it crosses a splice junction, but si-1 and si+1 are aligned.,,,,,,,,,,,si-1,Si+1,si,si,,,,m bp,k-m bp,m=1,…,24,m=12,测序应用,Overview of Cufflinks,测序应用,转录本拼接算法中涉及到的概念 偏序关系与偏序集合 Partial order and Partially ordered set 偏序关系 偏序(亦称半序)关系是定义在集合上的一种序结构,是集合上满足一定条件的二元关系。 直观的说,偏序指集合中仅有部分成员之间可以排序。 全序关系 在集合 A 中,存在偏序关系“≤” ,如果对于任意 a∈A, b∈A, 有 a ≤ b 或 b ≤ a,即 A 中的每对元素都满足关系“≤”,则集合 A 上的偏序 “≤” 是全序的或线性次序的。直观来说,全序指集合中全体成员之间都可以进行比较,可以排出所有元素的顺序。 偏序集合 指配备了偏序关系的集合,测序应用,转录本拼接算法中涉及到的概念 偏序关系 非严格偏序,自反偏序 给定集合S,“≤”是S上的二元关系,若“≤”满足: 自反性:∀a∈S,有a≤a; 反对称性:∀a,b∈S,a≤b且b≤a,则a=b; 传递性:∀a,b,c∈S,a≤b且b≤c,则a≤c; 则称“≤”是S上的非严格偏序或自反偏序 严格偏序,反自反偏序 给定集合S,“<”是S上的二元关系,若“<”满足: 反自反性:∀a∈S,有a≮a; 非对称性:∀a,b∈S,aBlat,测序应用,UCSC Genome Bioinformatics http://genome.ucsc.edu/ 查看特定序列在基因组上的位置,,测序应用,UCSC Genome Bioinformatics http://genome.ucsc.edu/ 查看特定序列在基因组上的位置,Zoom out 3x,谢谢大家!,
展开阅读全文
相关搜索
温馨提示:
文客久久所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。

当前位置:首页 > 教育教学资料库 > 课件讲义


Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。