微生物群落多样性测序与功能分析.docx

上传人:sk****8 文档编号:2239729 上传时间:2019-05-02 格式:DOCX 页数:27 大小:1.74MB
下载 相关 举报
微生物群落多样性测序与功能分析.docx_第1页
第1页 / 共27页
微生物群落多样性测序与功能分析.docx_第2页
第2页 / 共27页
微生物群落多样性测序与功能分析.docx_第3页
第3页 / 共27页
微生物群落多样性测序与功能分析.docx_第4页
第4页 / 共27页
微生物群落多样性测序与功能分析.docx_第5页
第5页 / 共27页
点击查看更多>>
资源描述

1、微生物群落多样性测序与功能分析微生物群落测序是指对微生物群体进行高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。对微生物群落进行测序包括两类,一类是通过 16s rDNA,18s rDNA,ITS 区域进行扩增测序分析微生物的群体构成和多样性;还有一类是宏基因组测序,是不经过分离培养微生物,而对所有微生物 DNA 进行测序,从而分析微生物群落构成,基因构成,挖掘有应用价值的基因资源。以 16s rDNA 扩增进行测序分析主要用于微生物群落

2、多样性和构成的分析,目前的生物信息学分析也可以基于 16s rDNA 的测序对微生物群落的基因构成和代谢途径进行预测分析,大大拓展了我们对于环境微生物的微生态认知。目前我们根据 16s 的测序数据可以将微生物群落分类到种(species)(一般只能对部分菌进行种的鉴定),甚至对亚种级别进行分析,几个概念:16S rDNA(或 16S rRNA):16S rRNA 基因是编码原核生物核糖体小亚基的基因,长度约为 1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。16S rRNA 基因序列包括 9 个可变区和 10 个保守区,保守区序列反映了物种间的亲缘关系,而可

3、变区序列则能体现物种间的差异。16S rRNA 基因测序以细菌 16S rRNA 基因测序为主 ,核心是研究样品中的物种分类、物种丰度以及系统进化。OTU:operational taxonomic units (OTUs)在微生物的免培养分析中经常用到,通过提取样品的总基因组 DNA,利用 16S rRNA 或 ITS 的通用引物进行PCR 扩增,通过测序以后就可以分析样品中的微生物多样性,那怎么区分这些不同的序列呢,这个时候就需要引入 operational taxonomic units,一般情况下,如果序列之间,比如不同的 16S rRNA 序列的相似性高于 97%就可以把它定义为一个

4、 OTU,每个 OTU 对应于一个不同的 16S rRNA 序列,也就是每个 OTU对应于一个不同的细菌(微生物)种。通过 OTU 分析,就可以知道样品中的微生物多样性和不同微生物的丰度。测序区段:由于 16s rDNA 较长(1.5kb),我们只能对其中经常变化的区域也就是可变区进行测序。16s rDNA 包含有 9 个可变区,分别是 v1-v9。一般我们对 v3-v4 双可变区域进行扩增和测序,也有对 v1-v3 区进行扩增测序。工具/原料 16s rDNA 测序首先需要提取环境样品的 DNA,这些 DNA 可以来自土壤、粪便、空气或水体等任何来源。 提取 DNA 后需要经过质检和纯化,一

5、般 16s rDNA 测序扩增对 DNA 的总量要求并不高,总量大于 100ng,浓度大于 10ng/ul 一般都可以满足要求。如果是来自和寄主共生的环境如昆虫的肠道微生物,提取时可能包括了寄主本身的大量 DNA,对 DNA 的总量要求会提高。微生物菌群多样性测序受 DNA 提取和扩增影响很大,不同的扩增区段和扩增引物甚至 PCR 循环数的差异都会对结果有所影响。因而建议同一项目不同样品的都采用相同的条件和测序方法,这样相互之间才存在可比性。 完成 PCR 之后的产物一般可以直接上测序仪测序,在上机测序前我们需要对所有样本进行定量和均一化,通常要进行荧光定量 PCR。完成定量的样品混合后就可以

6、上机测序。 16s rDNA 测序目前可以采用多种不同的测序仪进行测序,包括罗氏的454,Illumina 的 MiSeq,Life 的 PGM 或 Pacbio 的 RSII 三代测序仪。不同的仪器各有优缺点,目前最主流的是 Illumina 公司的 MiSeq,因为其在通量、长度和价格三者之间最为平衡。MiSeq 测序仪可以产生 2x300bp 的测序读长,一次可以产生 15Gb 的测序数据远远大于其他测序仪的测序通量。方法/步骤1. 116s rDNA 分析基本流程:2. 2原始数据处理:原始测序数据需要去除接头序列,并将双端测序序列进行拼接成单条序列。根据测序 barcode 序列区分

7、不同的样本序列。过滤低质量序列和无法比对到 16s rDNA 数据库的序列。3. 3OTU 分类和统计:OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于 97%就可以认为属于不同的种,相似性小于 93%-95%,可以认为属于不同的属。样品中的微生物多样性和不同微生物的丰度都是基于对 OTU 的分析。使用 QIIME(version 1.8.0)工具包进行

8、统计注释。使用 QIIME(version 1.9.0, http:/ 方法根据 97%的序列相似度将所有序列进行同源比对并聚类成operational taxonomic units (OTUs)。然后与数据库GreenGenes(version gg_13_8, http:/greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-16S.cgi)进行比对,比对方法 uclust,identity 0.9 。然后对每个 OTUs 进行 reads 数目统计。下面的 2 个表,其中一个表是对每个样本的测序数量和 OTU 数目进行统计,并且在表栺中列出了测序覆盖的完

9、整度(显示前 10 个样本)。另一个表是对每个样本在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目(显示前 10 个样本)。可以看到绝大部分的 OTU 都分类到了属(Genus),也有很多分类到了种(Species)。但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。测序数目统计表主要是对每个样本的测序数量和 OTU 数目进行统计,并且在表格中列出了测序覆盖的完整度(显示前 10 个样本,如果样本超过 10个,请查看结果中 otu_stat.txt 文件)其中 SampleName 表示样本名称;Sam

10、pleSize 表示样本序列总数;OTUsNumber 表示注释上的 OTU 数目;OTUsSeq 表示注释上 OTU 的样本序列总数。Coverage 是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为:C=1-n1/N 其中 n1 = 只含有一条序列的 OTU 的数目; N = 抽样中出现的总的序列数目。分类水平统计表主要是对每个样本在分类学水平上的数量进行统计,并且在表格中列出了在每个分类学水平上的物种数目(只显示前 10 个样本,如果样本超过 10 个,请查看结果中 taxon_all.txt 文件)其中

11、 SampleName 表示样本名称;Phylum 表示分类到门的 OTU 数量;Class 表示分类到纲的 OTU 数量;Order 表示分类到目的 OTU 数量;Family表示分类到科的 OTU 数量;Genus 表示分类到属的 OTU 数量;Species 表示分类到种的 OTU 数量。4. 4我们还可以对这些种属的构成进行柱状图显示:横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例。同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别(门、纲、目等)的序列数目,序列数目只计算级别最低的分类,例如在属中计算过了,则在科中则不重复计算。Q: 为什

12、么要选择 V3-V4 区的测序长度?为什么有些文献是 V6 区,有什么区别?A: 16S rRNA 总长约 1540 bp,包含 9 个可变区。由于高通量测序的测序长度的限制,不可能将 16S rRNA 的 9 个可变区全部测序,所以在 PCR 扩增时往往只能选择 1-3 个可变区作为扩增片段。Kozich 等评估了 Miseq 测序仪分析的不同 16S rRNA 可变区的准确性发现,测定 V4 区效果最佳。根据我们的测序长度,v3-v4 区是最佳选择。5. 5我们还需要对样本之间或分组之间的 OTU 进行比较获得韦恩图:注意,韦恩图目前一般最多只能显示 5 个样本或分组,过多的样本无法无法进

13、行韦恩图绘制6. 6样品构成丰度:稀释曲线微生物多样性分析中需要验证测序数据量是否足以反映样品中的物种多样性,稀释曲线(丰富度曲线)可以用来检验这一指标。稀释曲线是用来评价测序量是否足以覆盖所有类群,并间接反映样品中物种的丰富程度。稀释曲线是利用已测得 16S rDNA 序列中已知的各种 OTU 的相对比例,来计算抽取 n 个(n 小于测得 reads 序列总数)reads 时出现 OTU数量的期望值,然后根据一组 n 值(一般为一组小于总序列数的等差数列)与其相对应的 OTU 数量的期望值做出曲线来。当曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种;反之,则表

14、示样品中物种多样性较高,还存在较多未被测序检测到的物种。下图中的稀释曲线横坐标代表随机抽取的序列数量;纵坐标代表观测到的 OTU 数量。样本曲线的延伸终点的横坐标位置为该样本的测序数量,如果曲线趋于平坦表明测序已趋于饱和,增加测序数据无法再找到更多的 OTU;反之表明不饱和,增加数据量可以发现更多 OTU。7. 7Shannon-Winner 曲线Shannon-Wiener 曲线,是利用 shannon 指数来进行绘制的,反映样品中微生物多样性的指数,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。 当曲线趋向平坦时,说明测序数据量

15、足够大,可以反映样品中绝大多数的微生物物种信息。与上图一样,横坐标代表随机抽取的序列数量;纵坐标代表的是反映物种多样性的 Shannon 指数。样本曲线的延伸终点的横坐标位置为该样本的测序数量,如果曲线趋于平坦表明测序已趋于饱和,增加测序数据无法再找到更多的 OTU;反之表明不饱和,增加数据量可以发现更多 OTU。其中曲线的最高点也就是该样本的 Shannon 指数,指数越高表明样品的物种多样性越高。Q: Shannon 指数怎么算的?A: Shannon 指数公式:其中,Sobs= 实际测量出的 OTU 数目;ni= 含有 i 条序列的 OTU 数目;N = 所有的序列数。8. 8Rank-

16、Abundance 曲线用于同时解释样品多样性的两个方面,即样品所含物种的丰富程度和均匀程度。物种的丰富程度由曲线在横轴上的长度来反映,曲线越宽,表示物种的组成越丰富;物种组成的均匀程度由曲线的形状来反映,曲线越平坦,表示物种组成的均匀程度越高。一般超过 20 个样本图就会变得非常复杂而且不美观,所以一般 20 个样本以下会做该图,图片保存为结果目录中 rank.pdf。横坐标代表物种排序的数量;纵坐标代表观测到的相对丰度。样本曲线的延伸终点的横坐标位置为该样本的物种数量,如果曲线越平滑下降表明样本的物种多样性越高,而曲线快速陡然下降表明样本中的优势菌群所占比例很高,多样性较低。9. 9Alp

17、ha 多样性(样本内多样性)Alpha 多样性是指一个特定区域或者生态系统内的多样性,常用的度量指标有 Chao1 丰富度估计量(Chao1 richness estimator) 、香农 - 威纳多样性指数(Shannon-wiener diversity index)、辛普森多样性指数(Simpson diversity index)等。计算菌群丰度:Chao、ace;计算菌群多样性:Shannon、Simpson。Simpson 指数值越大,说明群落多样性越高;Shannon 指数越大,说明群落多样性越高。表中显示前 10 个样本,如果样本大于 10 个,详见结果目录中的 alpha_div.txt。Q: 能不能解释下每个指数(如 chao1、shannon)?

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 教育教学资料库 > 课程笔记

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。