资源描述
生物信息学高性能计算平台
应用实例分析,Bioinformatics Center
Lingyun Zou
Tel: 023-6877193
Cell:13512395250
Email : lyzou@tmmu.edu.cn,Outline,多个肠道杆菌全基因组比对实例
使用modeller进行蛋白质结构模拟
使用Gromacs进行分子动力学模拟,1、肠道杆菌不同菌株全基因组比较,问题:
对以下六个肠道杆菌的全基因组序列进行比对分析
1、Escherichia coli O157:H7 str. EC4115
2、Escherichia coli str. K-12 substr. MG1655
3、Shigella flexneri 2a str. 2457T
4、Shigella flexneri 2a str. 301
5、Klebsiella pneumoniae 342
6、Klebsiella pneumoniae NTUH-K2044,分析方法,第一种策略:
SSH登录高性能计算系统,继续SSH登录某个计算节点
使用Mauve软件(/disk1/biosoft/Mauve2.3.1)进行比对
分析比对结果
第二种策略:
SSH登录高性能系统
编写计算脚本,使用Mauve软件进行比对
提交计算任务
分析计算结果,第一种策略,SSH登录某个计算节点
使用Xmanager登录高性能计算系统
登录计算节点,如登录compute-0-5的命令为:
[zouly@big ~]$ ssh compute-0-5
上传6个基因组数据到当前目录
启动Mauve程序:/disk1/biosoft/mauve_2.3.1/Mauve
输入序列,执行比对
分析比对结果,第一种策略演示,第1步:使用Xmanager软件SSH登录系统,,,第2步:下载6个基因组数据到当前目录
NC_000913.gbk, 18431416 bp
NC_004337.gbk, 14528918 bp
NC_004741.gbk, 14940486 bp
NC_011283.gbk, 18555868 bp
NC_011353.gbk, 17665584 bp
NC_012731.gbk, 17281536 bp,,第3步:启动mauve程序:
[zouly@big mauve-test]$ /disk1/biosoft/mauve_2.3.1/Mauve,,第4步:导入序列,执行比对,第5步:显示和分析比对结果,第二种策略,使用Xmanager登录高性能计算系统
从基因组ftp数据库下载6个基因组数据
编写计算任务的sge脚本
提交脚本,执行运算
分析比对结果,第1 步: SSH登录高性能计算系统,,第2步:下载基因组数据到当前目录,/disk1/zouly/mauve-test/NC_000913.gbk, 18431416 bp
/disk1/zouly/mauve-test/NC_004337.gbk, 14528918 bp
/disk1/zouly/mauve-test/NC_004741.gbk, 14940486 bp
/disk1/zouly/mauve-test/NC_011283.gbk, 18555868 bp
/disk1/zouly/mauve-test/NC_011353.gbk, 17665584 bp
/disk1/zouly/mauve-test/NC_012731.gbk, 17281536 bp,第3步:编写计算脚本文件mauve-test.sge,[zouly@big mauve-test]$ vi mauve-test.qsub
#!/bin/bash
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
/disk1/biosoft/mauve_2.3.1/linux-x64/mauveAligner --output =ec_sf1_sf2.mauve --output-alignment=ec_sf1_sf2.alignment NC_000913.gbk NC_000913.gbk .sml NC_011353.gbk NC_011353.gbk .sml NC_004337.gbk NC_004337.gbk .sml NC_004741.gbk NC_004741.gbk .sml NC_011283.gbk NC_011283.gbk .sml NC_012731.gbk NC_012731.gbk.sml,第4步:提交计算脚本,[zouly@big mauve-test]$ qsub mauve-test.qsub
注意:非并行程序不需要指定CPU数量
记录比对信息的文件:/disk1/zouly/ec_sf1_sf2.mauve
记录比对结果的文件:/disk1/zouly/ec_sf1_sf2.alignment,第5步:使用Mauve程序打开计算结果ec_sf1_sf2.alignment,2、使用modeller构建蛋白质的三维结构,问题:
从Trichomonas vaginalis基因组中新鉴定一个lactate dehydrogenase基因TvLDH,其蛋白质序列与malate dehydrogenase TvMDH的相似度比其它 LDH蛋白更高,构建TvLDH的三维结构,与TvMLDH进行结构比较
解决方法:
使用modeller构建TvLDH的三维结构模型
该方法的步骤(参考modeller使用手册basic_example),从PDB数据库中获取已知的蛋白质结构数据
使用modeller在PDB结构数据库中搜索与TvLDH相似的结构(基于序列相似性)
从搜索结果中挑选E值最低的结构,进行两两比对,从中挑选用于构建TvLDH结构的合适模板
将TvLDH与模板进行比对
利用比对结果构建TvLDH的三维结构模型
评估,实施方法:,使用Xmanager软件SSH登录到平台
上传相关数据到工作目录
依据modeller使用手册,编写使用modeller建立结构模型的python执行文件
编写并提交计算任务脚本,进行计算
分析计算结果,第1步:使用Xmanager软件SSH登录到平台,,第2步:上传计算所需要的数据到用户工作目录,TvLDH的蛋白质序列(PIR格式)
PDB数据库中的现有结构数据(PIR格式),去掉其中序列相似度超过95%的数据,以及长度在30-4000个残基以外的数据,>P1;TvLDH sequence:TvLDH:::::::0.00: 0.00
MSEAAHVLITGAAGQIGYILSHWIASGELYGDRQVYLHLLDIPPAMNRLTALTMELEDCAFPHLAGFVATTDPKA
AFKDIDCAFLVASMPLKPGQVRADLISSNSVIFKNTGEYLSKWAKPSVKVLVIGNPDNTNCEIAMLHAKNLKPEN
FSSLSMLDQNRAYYEVASKLGVDVKDVHDIIVWGNHGESMVADLTQATFTKEGKTQKVVDVLDHDYVFDTFFKKI
GHRAWDILEHRGFTSAASPTKAAIQHMKAWLFGTAPGEVLSMGIPVPEGNPYGIKPGVVFSFPCNVDKEGKIHVV
EGFKVNDWLREKLDFTEKDLFHEKEIALNHLAQGG*,第3步: 编写SGE脚本,使用modeller建立结构模型,假设此计算任务的工作目录为: /disk1/zouly/modeller
按照下列计算步骤,分别编写计算脚本进行计算,3.1 Searching for structures related to TvLDH,在工作目录内建立本步计算文件build_profile.py,通过计算在PDB结构数据中搜索TvLDH的可能相似的结构
编写sge脚本,提交计算任务
#!/bin/bash
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
mod9.9 build_profile.py,build_profile.py的内容,,本步计算输出结果build_profile.prf1,,3.2 Selecting a template,从前一步中挑选E值为0的6个蛋白质作为候选模板(1bdm:A, 5mdh:A, 1b8p:A, 1civ:A, 7mdh:A, and 1smk:A),将它们的结构数据放在工作目录内
建立本步计算文件compare.py,比较候选模板之间的相似性
编写并提交计算脚本compare.qsub,#!/bin/bash
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
mod9.9 compare.py,compare.py的内容,本步计算结果compare.log,3.3 Aligning TvLDH with the template,建立本步计算的文件align2d.py,将TvLDH的序列与选出来的模板 1bmdA的结构进行比较和匹配
编写并提交sge脚本 align2d.qsub,#!/bin/bash
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
mod9.9 align2d.py,align2d.py的内容,比较结果保存在TvLDH-1bdmA.pap中,3.4 Model building,建立本步计算文件model-single.py,依据模板匹配结果构建TvLDH的三维结构
编写并提交本步的sge脚本model-single.qsub,#!/bin/bash
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
mod9.9 model-single.py,model-single.py的内容,本步计算得到5个TvLDH三维结构,Model-single.log,一个结构TvLDH.B99990002.pdb,,3.5 Model evaluation,建立计算文件evaluate_model.py,通过计算能量等方式对建立的三维结构进行评估
编写并提交该步计算的sge脚本evaluate_model.qsub,#!/bin/bash
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
mod9.9 evaluate_model.py,evaluate_model.py的内容,评估结果保存在.log文件和.profile文件中,三 使用Gromas进行分子动力学模拟,请在生物信息中心网站下载example2,The End!,
展开阅读全文
相关搜索