附录2生物信息分析工具GCG.DOC

上传人:国*** 文档编号:341026 上传时间:2018-09-24 格式:DOC 页数:4 大小:50.50KB
下载 相关 举报
附录2生物信息分析工具GCG.DOC_第1页
第1页 / 共4页
附录2生物信息分析工具GCG.DOC_第2页
第2页 / 共4页
附录2生物信息分析工具GCG.DOC_第3页
第3页 / 共4页
附录2生物信息分析工具GCG.DOC_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、 附录 2 生物信息分析工具 GCG GCG (Genetics Computer Group) 是 Wisconsin大学遗传学系于 1982年建立的一个服务系统, 1990 成立公司,成为生物信息学分析工具开发领域里的佼佼者,其 Wisconsin 序列分析软件包被生物学研究人员广泛应用, 目前国际上 近千 个研究机构在使用该软件包 。 世界各地许多科学家合作共同开发和完善 Wisconsin 序列分析软件包,该软件包已经成为序列分析的工业标准。 Wisconsin 软件包是 一个序列分析、数据库管理、数据挖掘和可视化工具的综合系 统( http:/ 130 多个独立的程序组成,每个程序进

2、行一项单一的分析任务。 SeqLab 是其图形用户界面( GUI),通过它可以使用所有 Wisconsin 软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。 GCG支持的两种核酸数据库是 GenBank 数据库以及仅由 GenBank 中没有的序列组成的简化版的EMBL 核酸序列数据库。为了方便进行搜索,这两个数据库被 组合成一个更为一般的核酸数据库,称为 GenEMBLPlus。这个组合数据库包括 GenBank 和 EMBL 核酸序列数据库的表达序列标记( EST)、序列标记位点( STS)以及基因组序列纵览( GSS)条目部分。 GCG 支持的三种

3、蛋白质数据库是 PIR、 SWISS-PROT 和 SP-TrEMBL 数据库。这些数据库既有 GCG 格式的(供大多数 Wisconsin 软件包程序使用),也有 BLAST 格式的(供 BLAST 数据库搜索程序使用),同时 , 还提供了用于 LookUp 程序以及数据库参考搜索的索引。 SeqLab 也可以被扩展 , 使其可以包 括其它公用或非公用的程序和数据库。 Wisconsin 软件包支持各种 UNIX 平台以及 OpenVMS,使用 SeqLab 需要在微型计算机上运行 X-terminal 或 X-server。现在, GCG 也有了基于 Internet 网络界面的使用接口。

4、与GenBank 数据库的更新日程同步, GCG 支持的数据库两个月更新一次。 以下分类介绍 Wisconsin 软件包中各个程序。 1、序列的两两比较 ( 1) Gap: 使用 Needleman 和 Wunsch 提出的序列比较算法来寻找两条序列的比对,使得匹配最大,空位最少。 Gap 程序得到的是 全局最优比对结果,适用于两条待比对的序列是进化相关的情况。 ( 2) BestFit: 寻找两条序列的最优比对的子序列。 BestFit 程序适用于两条序列不是进化相关而是功能相关的情况。 ( 3) FrameAlign: 建立一条蛋白质序列与一条核酸序列的三个单向阅读框架三联密码子之间的局部

5、最优比对。 ( 4) Compare:比较两条蛋白质序列或核酸序列,建立包含序列相似位点信息的文件,并用 DotPlot 程序显示出来。 ( 5) DotPlot: 显示“ Compare”或者“ StemLoop”的输出结果。 ( 6) GapShow:显示“ Gap”或“ BestFit”进行序列比对 的 结果,并着重表示序列之间相似之处及插入的空位。 ( 7) ProfileGap: 建立一个序列统计特征( profile)与一个或多个序列的最优比对。 2、多个序列比较 ( 1) PileUp: 通过渐进的方法(即逐步两两比对)建立一组相关序列的多重比对,并以树状形式显示序列之间的聚类关

6、系。 ( 2) HmmerAlign:利用隐马尔柯夫模型( HMM)进行多重序列比对。 ( 3) PlotSimilarity:根据多重序列比对结果,显示序列之间的相似部分。 ( 4) Pretty:显示根据多重序列比对 的 结果,计算保守序列。 ( 5) PrettyBox:为了能够在 Postscript 及相容设备打印或显示,该程序以 Postscript格式和阴影盒形式显示多重序列比对结果,也计算保守序列。 ( 6) MEME(Multiple EM for Motif Elicitation): 在一系列未经比对的序列中发现序列保守模式( motif),并以序列统计特征( profi

7、le)形式保存这些序列模式。用户可以进一步利用序列统计特征搜索数据库( MotifSearch 程序),寻找相关序列。 ( 7) HmmerBuild:建立隐马尔柯夫模型,即多重序列比对统计模型。利用该模型可以进一步搜索数据库 (HmmerSearch),与其它序列比对 (HmmerAlign),或者产生与模型匹配的随机序列 (HmmerEmit)。 ( 8) HmmerCalibrate:校准一个 HMM 模型,以提高数据库搜索的敏感性。 ( 9) ProfileMake:根据多重序列比对结果建立序列统计特征。 ( 10) ProfileGap:将序列统计特征( profile)与一条或多条

8、序列进行比对。 ( 11) Overlap:将两组 DNA 序列进行比较。 ( 12) NoOverlap:识别多条序列的非共同区域。 ( 13) OldDistances:根据一组序列比对结果 , 建立序列两两 相似关系表。 3、按字符方式搜索数据库 ( 1) LookUp:通过名称、登录号、作者姓名、生物体、关键字、参考文献、特征、序列长度、日期等索引数据项查询序列数据库。 ( 2) StringSearch:在序列文件中搜索与给定字符串模式匹配的记录,返回相应的序列。 ( 3) Names: 通过名称查询数据库。 4、按序列搜索数据库 ( 1) BLAST:标准的 BLAST 搜索,可以

9、搜索用户本地计算机上的数据库,也可以搜索 NCBI维护的数据库。 ( 2) NetBLAST:仅搜索 NCBI 维护的数据库。 ( 3) FastA:标准的 FastA 搜索。 ( 4) Ssearch:严格的 Smith-Waterman 搜索算法。 ( 5) TFastA/TfastX/FastX:详见本章第 6 节。 ( 6) FrameSearch:搜索与给定的一条或多条核酸序列相似的一组蛋白质序列,或反之。 ( 7) MotifSearch:利用一系列代表家族序列共性的序列统计特征进行数据库搜索,搜索与这族序列相似的新序列。 ( 8) HmmerSearch:利用已知的 HMM 模型

10、搜索数据库。 ( 9) ProfileSearch:利用序列统计特征进行数据库搜索,搜索满足序列共性的新序列。 ( 10) ProfileSegments:根据 ProfileSearch 的 搜索结果,形成最优比对,显示相似程度。 ( 11) FindPatterns:搜索满足特定短序列模式(如 GAATTC 、 YRYRYRYR)的数据库序列,可以在序列模式 中 使用广义字符,说明可以失配的位置。 ( 12) Motifs:查找蛋白质序列模式( motifs)。 ( 13) WordSearch:在数据库中搜索与给定查询序列共有大量相同单词的序列。 ( 14) HmmerPfam:将一条或

11、多条查询序列与 HMM 模型数据库具体模型进行比较,如 Pfam库。 ( 15) Segments:比对并显示 WordSearch 搜索得到的片段。 5、 DNA/RNA 二级结构 ( 1) Mfold:利用能量最小化方法,预测 DNA 或者 RNA 的最优二级结构或局部最优二级结构。 ( 2) PlotFold:显示由 Mfold 预测的二级结构。 ( 3) StemLoop:发现序列中反向重复,用户可以指定其长度、最大和最小环尺寸等参数。 6、进化分析 ( 1) PAUPSearch:提供一个使用基于简约方法的系统发生分析程序 PAUP 的界面。从一组已经比对的序列出发,建立最优的系统发

12、生树,重构邻近树。 ( 2) PAUPDisplay:显示系统发生分析(如 PAUPSearch)的结果,计算树的得分。 ( 3) Distances:建立一组已比对序列之间 的两两距离表。 ( 4) GrowTree:根据距离矩阵(由 Distances 完成)建立系统发生树。 ( 5) Diverge:针对两条已 经通 过比对的编码 DNA 序列,估计同义替换和非同义替换的个数。 7、片段拼接 ( 1) GelStart:建立一个新的序列 片段拼接项目或取出已经存在的项目,开始进行片段拼接。 ( 2) GelEnter:向一个 片段拼接项目中添加新的序列片段。 ( 3) GelMerge:

13、 寻找片段间的交叠,并将它们拼接为若干个连续的交叠群。 ( 4) GelAssemble: 是一个用于观察和编辑连续交叠群的编辑器。 ( 5) GelView:显示连续交叠群中 序列片段的交叠情况。 ( 6) GelDisassemble:将连续交叠群分解为序列片段。 8、发现基因和模式识别 ( 1) TestCode:根据核酸序列 三 个碱基 在 组成 上 的非随机性 ,去 识别蛋白质编码序列。 ( 2) CodonPreference:根据密码子使用偏性以及密码子第三位 GC 组成出现的偏差预测蛋白质编码区。 ( 3) Frames:根据起始和终止三联密码子的位置,显示一条核酸序列的 6

14、种转录框架的开放阅读框架。 ( 4) Repeat:在给定序列中发现重复的子序列。 ( 5) Composition:计算序列各个字符的出现分布,对于核酸序列,还要计算两 联和三联核苷酸的分布。 ( 6) CodonFrequency:对于给定的序列建立密码子使用频率表。 ( 7) Correspond:通过比较密码子频率表,寻找相似的密码子使用模式。 9、作图 ( 1) Map:显示核酸序列,在序列上方显示限制酶剪切位点,并在下方显示蛋白质翻译产物。Map 也可用于建立氨基酸序列的多肽图。 ( 2) MapPlot:以图形方式显示限制酶识别位点,每条线代表一个酶。 ( 3) MapSort:

15、 分析核酸序列上限制酶剪切位点,按照剪切后得到的长度将各个片段进行排序。 ( 4) FingerPrint:识别 T1 核糖核酸酶消化的产物。 ( 5) PeptideMap:建立氨基酸序列的多肽图。 ( 6) PlasmidMap:绘制质粒的环形结构图,可以显示约束模式、插入和已经知道的遗传元素。 ( 7) PeptideSort: 显示核酸序列分解后的多肽片段。对多肽片段根据重量、位置以及高效液相层析仪( HPLC)决定的相关保留时间进行排序。它也包括每条肽链以及整个蛋白质组成的情况。 10、引物设计 ( 1) Prime:为模板 DNA 序列选择寡核苷酸引物,用于 PCR 反应 (聚合酶

16、链反应 ),或者用于DNA 测序。 ( 2) PrimePair:评价所选择的引物,确定作为 PCR 引物对的相容性。 ( 3) MeltTemp:计算寡核苷酸序列的解链温度。 11、蛋白质分析 (1)ProfileScan:使用 profile 数据库在蛋白质查询序列中搜索结构或序列模式。 (2)CoilScan:在蛋白质序列上定位卷曲的片段。 (3)HTHScan:在蛋白质序列上寻找螺旋 -转角 -螺旋二级结构模式及与基因表达调控相关的DNA 结合位点。 (4)SPScan:寻找在蛋白质序列 中 存在的分泌信号肽链。 (5)Isoelectric: 预测并绘制蛋白质序列的滴定曲线。 (6)

17、PepPlot:绘制蛋白质二级结构的分析结果,包括亲水性和疏水性力矩图。 (7)PeptideStructure:预测多肽序列的二级结构。 (8)PlotStructure:绘制蛋白质二级结构的预测结果。 12、其它实用程序 (1) 关于序列的实用程序: Reverse 程序反转一条序列,或者取其互补序列(核酸); Shuffle 随机改变一条序列的字符顺序,但不改变其组成; Corrupt 程序在核酸序列中随机引入替换、插入或者删除; Sample 程序从给定的序列中随机抽取序列片段。 (2) 关于数据库的实用程序: DataSet 根据一组 GCG 格式的序列建立 GCG 数据库; GCGToBLAST将一组 GCG 序列组合到 BLAST 数据库中。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 重点行业资料库 > 1

Copyright © 2018-2021 Wenke99.com All rights reserved

工信部备案号浙ICP备20026746号-2  

公安局备案号:浙公网安备33038302330469号

本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。