构建系统发育树需要注意的几个问题.docx

上传人:sk****8 文档编号:3102940 上传时间:2019-05-21 格式:DOCX 页数:14 大小:36.65KB
下载 相关 举报
构建系统发育树需要注意的几个问题.docx_第1页
第1页 / 共14页
构建系统发育树需要注意的几个问题.docx_第2页
第2页 / 共14页
构建系统发育树需要注意的几个问题.docx_第3页
第3页 / 共14页
构建系统发育树需要注意的几个问题.docx_第4页
第4页 / 共14页
构建系统发育树需要注意的几个问题.docx_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、构建系统发育树需要注意的几个问题1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保

2、证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。分子进化研究的基本方法对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic) 数据有着明显差异。Sneath 和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(ph

3、ylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图 (cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树” 一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。 系统进化树分有根(rooted)和无根(unrooted) 树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。 用于构建

4、系统进化树的数据有二种类型:一种是特征数据(character data),它提供了基因、个体、群体或物种的信息;二是距离数据(distance data)或相似性数据(similarity data),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distance matrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。一clustal X 建树1) 打开 clustal X,载入上述序列, “l

5、oad sequences”“output format options”:“CLASTAL FORMAT”; CLASTAL SEQUENCES NUMBERS:ON; ALIGNMENT PARAMETERS:“RESET NEW GAPS BEFOR ALIGNMENT” “MULTIPLE ALIGNMENT PARAMETERS”设置相关参数2)“DO COMPLETE ALIGNMENT”FILESAVE AS, 掐头去尾。3) 打开 MEGA 4,FILECONVERT TO MEGA FORMATESAVEFILEOPEN DATACONTAINING PROTAIN SEQU

6、ENCES NO PHYLOGENYBOOTSTRAP TEST OF PHYLOGENYN J 设置相关参数。最后看到系统发育树二这里要介绍的是 Bioedit-Mega 建树法,简单实用,极易上手。1 将所测得的序列在 NCBI 上进行比对,这个就不多讲了。 2 选取序列保存为 text 格式。 3 运行 Bioedit,使用其中的 CLUSTAL W 进行比对。 4 运用 MEGA 4 建树,首先将前面的文件转化格式为 mega 格式,然后进行激活,最后进行 N-J 建树。 此法简单实用,树形美观。构建系统进化树的详细步骤 1. 建树前的准备工作 1.1 相似序列的获得BLAST BLA

7、ST 是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意为“基本局部相似性比对搜索工具 ”(Altschul et al.,199062;199763)。国际著名生物信息中心都提供基于 Web 的BLAST 服务器。BLAST 算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供 BLAST 服务的常用网站,比如国内的 CBI、美国的NCBI、欧洲的 EBI 和日本的 DDBJ。这些网站提供的 BLAST 服务在界面上差不多,但所用的程序有所差异。它们

8、都有一个大的文本框,用于粘贴需要搜索的序列。把序列以 FASTA 格式(即第一行为说明行,以 “”符号开始,后面是序列的名称、说明等,其中“”是必需的,名称及说明等可以是任意形式,换行之后是序列) 粘贴到那个大的文本框,选择合适的 BLAST 程序和数据库,就可以开始搜索了。如果是 DNA 序列,一般选择 BLASTN 搜索 DNA 数据库。这里以 NCBI 为例。登录 NCBI 主页-点击 BLAST-点击 Nucleotide-nucleotide BLAST (blastn)-在 Search 文本框中粘贴检测序列 -点击 BLAST!-点击Format-得到 result of BLA

9、ST。 BLASTN 结果如何分析(参数意义):gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / PlusQuery: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 Sb

10、jct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc-ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似; Expect:比对的期望值。比对越好, expect 越小,一般在核酸层次的比对,exp

11、ect小于 1e-10,就比对很好了,多数情况下为 0; Identities:提交的序列和参比序列的相似性,如上所指为 1497 个核苷酸中二者有 1382 个相同; Gaps:一般翻译成空位,指的是对不上的碱基数目; Strand:链的方向,Plus / Minus 意味着提交的序列和参比序列是反向互补的,如果是 Plus / Plus 则二者皆为正向。1.2 序列格式:FASTA 格式 由于 EMBL 和 GenBank 数据格式较为复杂,所以为了分析方便也出现了十分简单的 FASTA 数据格式。 FASTA 格式又称为 Pearson 格式,该种序列格式要求序列的标题行以大于号“”开头

12、,下一行起为具体的序列。一般建议每行的字符数不超过 60 或 80 个,以方便程序处理。多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示: E.coli 1 aaattgaaga gtttgatcat ggctcagatt gaacgctggc ggcaggccta acacatgcaa 61 gtcgaacggt aacaggaaga agcttgcttc tttgctgacg agtggcggac AY631071 Jiangella gansuensis YIM 002 1 gacgaacgct ggcggcgtgc ttaacacatg caagtcgagc ggaaaggcc

13、c tttcgggggt 61 actcgagcgg cgaacgggtg agtaacacgt gggtaacctg ccttcagctc tgggataagc 其中的为 Clustal X 默认的序列输入格式,必不可少。其后可以是种属名称,也可以是序列在 Genbank 中的登录号(Accession No.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时 Clustal X 程序只默认前几位为该序列名称。回车换行后是序列。将检测序列和搜索到的同源序列以 FASTA 格式编辑成为一个文本文件(例:C:tempjc.txt),即可导入

14、Clustal X 等程序进行比对建树。2. 构建系统树的相关软件和操作步骤构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。鉴于以上对于构建系统树的评价,结合本实验室实际情况,以下主要介绍N-J Tree 构建的相关软件和操作步骤。2.1 用 Clustal X 构建 N-J 系统树的过程(1) 打开 Clustal X 程序,载入源文件. File-Load sequences- C:tempjc.txt. (2) 序列比对Alignment - Output format options - Clustal format; CLUSTALW sequence numbe

15、rs: ON Alignment - Do complete alignment (Output Guide Tree file, C:tempjc.dnd;Output Alignment file, C:tempjc.aln;) Align waiting 等待时间与序列长度、数量以及计算机配置有关。(3) 掐头去尾 File-Save Sequence as Format: CLUSTAL GDE output case: Lower CLUSTALW sequence numbers: ON Save from residue: 39 to 1504 (以前后最短序列为准 ) Save

16、 sequence as: C:tempjc-a.aln OK 将开始和末尾处长短不同的序列剪切整齐。这里,因为测序引物不尽相同,所以比对后序列参差不齐。一般来说,要“掐头去尾 ”,以避免因序列前后参差不齐而增加序列间的差异。剪切后的文件存为 ALN 格式。 (4) File-Load sequences-Replace existing sequences?-Yes- C:tempjc-a.aln 重新载入剪切后的序列。(5) Trees-Output Format Options Output Files : CLUSTAL format tree Phylip format tree P

17、hylip distance matrix Bootstrap labels on: NODE CLOSE Trees-Exclude positions with gaps Trees-Bootstrap N-J Tree : Random number generator seed(1-1000) : 111 Number of bootstrap trails(1-1000): 1000 SAVE CLUSTAL TREE AS: C:tempjc-a.njb SAVE PHYLIP TREE AS: C:tempjc-a.njbphb OK waiting 等待时间与序列长度、数量以及

18、计算机配置有关。在此过程中,生成进化树文件*.njbphb,可以用 TreeView 打开查看。 (6) Trees-Draw N-J Trees SAVE CLUSTAL TREE AS: C:tempjc-a.nj SAVE PHYLIP TREE AS: C:tempjc-a.njph SAVE DISTANCE MATRIX AS: C:tempjc-a.njphdst OK 此过程中生成的报告文件*.nj 比较有用,里面列出了比对序列两两之间的相似度,以及转换和颠换分别各占多少。(7) TreeView File-Open-C:tempjc-a.njbphb Tree- phylog

19、ram(unrooted, slanted cladogram,Rectangular cladogram 多种树型) Tree-Show internal edge labels (Bootstrap value)(显示数值) Tree- Define outgroup ingroup outgroup OK(定义外群)Tree- Root with outgroup 通常需要对进化树进行编辑,这时首先要 Edit-Copy 至 PowerPoint 上,然后 Copy 至 Word 上,再进行图片编辑。如果直接 Copy 至 Word 则显示乱码,而进化树不能正确显示。2.2 Mega 建

20、树虽然 Clustal X 可以构建系统树,但是结果比较粗放,现在一般很少用它构树,Mega 因为操作简单,结果美观,很多研究者选择用它来建树。 (1) 首先用 Clustal X 进行序列比对,剪切后生成 C:tempjc-a.aln 文件;(同上) (2) 打开 BioEdit 程序,将目标文件格式转化为 FASTA 格式, File-Open- C:tempjc-a.aln, File-Save As- C:temp jc-b.fas; (3) 打开 Mega 程序,转化为 mega 格式并激活目标文件, File-Convert To MEGA Format- C:temp jc-b.

21、fas C:temp jc-b.meg , 关闭 Text Editor 窗口-(Do you want to save your changes before closing?-Yes);Click me to activate a data file- C:tempjc-b.meg-OK- (Protein-coding nucleotide sequence data?-No); Phylogeny-Neighbor-Joining(NJ) Distance Options-Models-Nucleotide: Kimura 2-parameter; d: Transitions+Tra

22、nsversions; Include Sites-Pairwise Deletion Test of Phylogeny-Bootstrap; Replications 1000; Random Seed 64238 OK;开始计算得到结果;(4) Image-Copy to Clipboard-粘贴至 Word 文档进行编辑。 此外,Subtree 中提供了多个命令可以对生成的进化树进行编辑,Mega 窗口左侧提供了很多快捷键方便使用;View 中则给出了多个树型的模式。下面只介绍几种最常用的: Subtree-Swap:任意相邻两个分支互换位置; -Flip:所选分支翻转 180 度;

23、-Compress/Expand:合并/展开多个分支; -Root:定义外群; View-Topology:只显示树的拓扑结构; -Tree/Branch Style:多种树型转换; -Options:关于树的诸多方面的改动。2.3 TREECON打开 Clustal X,File-Load sequences-jc-a.aln,File-Save Sequence as(Format-PHYLIP;Save from residue-1 to 末尾;Save sequence as : C:tempjc.phy); 打开 TREECON 程序, (1) Distance estimation

24、 点击 Distance estimation-Start distance estimation,打开上面保存的 jc.phy 文件,Sequence Type-Nuleic Acid Sequence,Sequence format-PHYLIP interleaved,Select ALL,OK; Distance Estimation-Jukes&Cantor(or Kimura), Alignment positions-All,Bootstrap analysis-Yes,Insertions&Deletions-Not taken into account,OK; Bootstr

25、ap samples-1000,OK;运算,等待 Finished-OK。(2) Infer tree topology 点击 Infer tree topology-Start inferring tree topology,Method-Neighbor-joining, Bootstrap analysis-Yes,OK.;运算,等待 Finished-OK。 (3) Root unrooted trees 点击 Root unrooted trees-Start rooting unrooted trees,Outgroup opition-single sequence(forced

26、),Bootstrap analysis-Yes,OK; Select Root-X89947,OK;运算,等待 Finished-OK。 (4) Draw phylogenetic tree 点击 Draw phylogenetic tree,File-Open-(new) tree,Show-Bootstrap values/ Distance scale。 File-Copy,粘贴至 Word 文档,编辑。 TREECON 的操作过程看起来似乎较 MEGA 烦琐,且运算速度明显不及 MEGA,如果参数选择一样,用它构建出来的系统树几乎和 MEGA构建的完全一样,只在细节上,比如 Boot

27、strap 值二者在某些分支稍有不同。在参数选择方面,TREECON 和 MEGA 也有些不同,但总体上相差不大。2.4 PHYLIPPHYLIP 是多个软件的压缩包,下载后双击则自动解压。当你解压后就会发现 PHYLIP 的功能极其强大,主要包括五个方面的功能软件:i,DNA 和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据分析的软件。 iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有 0 和 1的状态)时,对序列进行分析的软件。v,按照 DOLLO 简约性算法对序列进行分析的软件。vi,绘制和修改进化树的软件。在此,主

28、要对DNA 序列分析和构建系统树的功能软件进行说明。(1) 生成 PHY 格式文件 首先用 Clustal X 等软件打开剪切后的序列文件 C:tempjc-a.aln 另存为C:tempjc.phy(使用 File-Save Sequences As 命令,Format 项选“PHY”)。用BioEdit 或记事本打开(2) 打开 Phylip 软件包里的 SEQBOOT seqboot.exe: cant find input file “infile“ Please enter a new file name C:tempjc.phy 按路径输入刚才生成的 *.PHY 文件,显示如下:

29、Bootstrapping algorithm, version 3.6a3 Settings for this run: D Sequence, Morph, Rest., Gene Freqs? Molecular sequences J Bootstrap, Jackknife, Permute, Rewrite? Bootstrap B Block size for block-bootstrapping? 1 R How many replicates? 100 W Read weights of characters? No C Read categories of sites?

30、No F Write out data sets or just weights? Data sets I Input sequences interleaved? Yes 0 Terminal type none1 Print out the data at start of run No 2 Print indications of progress of run Yes Y to accept these of type the letter for one to change R Number of replicates? 1000 0 Settings for this run: D

31、 Sequence, Morph, Rest., Gene Freqs? Molecular sequences J Bootstrap, Jackknife, Permute, Rewrite? Bootstrap B Block size for block-bootstrapping? 1 R How many replicates? 1000W Read weights of characters? No C Read categories of sites? No F Write out data sets or just weights? Data sets I Input seq

32、uences interleaved? Yes 0 Terminal type IBM PC 1 Print out the data at start of run No 2 Print indications of progress of run Yes Y to accept these of type the letter for one to change Y Random number seed (must be odd)? 5(any odd number)completed replicate number 100 completed replicate number 200

33、completed replicate number 300 completed replicate number 400 completed replicate number 500 completed replicate number 600 completed replicate number 700 completed replicate number 800 completed replicate number 900 completed replicate number 1000上面的 D、J、R、I、O、1、2 代表可选择的选项,键入这些字母后敲回车键,程序的条件就会发生改变。D

34、 选项无须改变。 J 选项有三种条件可以选择,分别是 Bootstrap、Jackknife 和 Permute。R 选项让使用者输入republicate 的数目。所谓 republicate 就是用 Bootstrap 法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的 republicate。当我们设置好条件后,键入 Y 按回车。得到一个文件 outfile:C:Program FilesPhylipexe outfile. 重命名 outfileinfile。(2) 打开 dnadist.exe Nucleic acid sequence Distance Matrix program, version 3.6a3Settings for this run: D Distance ? F84 G Gamma distributed rates across sites? No T Transition/transversion ratio? 2.0 C One category of substitution rates? Yes

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育教学资料库 > 精品笔记

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。