1、生物信息学高性能计算平台应用实例分析,Bioinformatics CenterLingyun Zou Tel: 023-6877193Cell:13512395250Email : ,Outline,多个肠道杆菌全基因组比对实例使用modeller进行蛋白质结构模拟使用Gromacs进行分子动力学模拟,1、肠道杆菌不同菌株全基因组比较,问题:对以下六个肠道杆菌的全基因组序列进行比对分析1、Escherichia coli O157:H7 str. EC4115 2、Escherichia coli str. K-12 substr. MG16553、Shigella flexneri 2a
2、str. 2457T 4、Shigella flexneri 2a str. 3015、Klebsiella pneumoniae 342 6、Klebsiella pneumoniae NTUH-K2044,分析方法,第一种策略:SSH登录高性能计算系统,继续SSH登录某个计算节点使用Mauve软件(/disk1/biosoft/Mauve2.3.1)进行比对分析比对结果第二种策略:SSH登录高性能系统编写计算脚本,使用Mauve软件进行比对提交计算任务分析计算结果,第一种策略,SSH登录某个计算节点使用Xmanager登录高性能计算系统登录计算节点,如登录compute-0-5的命令为:
3、zoulybig $ ssh compute-0-5上传6个基因组数据到当前目录启动Mauve程序:/disk1/biosoft/mauve_2.3.1/Mauve输入序列,执行比对分析比对结果,第一种策略演示,第1步:使用Xmanager软件SSH登录系统,第2步:下载6个基因组数据到当前目录NC_000913.gbk, 18431416 bpNC_004337.gbk, 14528918 bpNC_004741.gbk, 14940486 bpNC_011283.gbk, 18555868 bpNC_011353.gbk, 17665584 bpNC_012731.gbk, 1728153
4、6 bp,第3步:启动mauve程序: zoulybig mauve-test$ /disk1/biosoft/mauve_2.3.1/Mauve,第4步:导入序列,执行比对,第5步:显示和分析比对结果,第二种策略,使用Xmanager登录高性能计算系统从基因组ftp数据库下载6个基因组数据编写计算任务的sge脚本提交脚本,执行运算分析比对结果,第1 步: SSH登录高性能计算系统,第2步:下载基因组数据到当前目录,/disk1/zouly/mauve-test/NC_000913.gbk, 18431416 bp/disk1/zouly/mauve-test/NC_004337.gbk, 1
5、4528918 bp/disk1/zouly/mauve-test/NC_004741.gbk, 14940486 bp/disk1/zouly/mauve-test/NC_011283.gbk, 18555868 bp/disk1/zouly/mauve-test/NC_011353.gbk, 17665584 bp/disk1/zouly/mauve-test/NC_012731.gbk, 17281536 bp,第3步:编写计算脚本文件mauve-test.sge,zoulybig mauve-test$ vi mauve-test.qsub #!/bin/bash #$ -cwd #$
6、 -j y #$ -S /bin/bash # /disk1/biosoft/mauve_2.3.1/linux-x64/mauveAligner -output =ec_sf1_sf2.mauve -output-alignment=ec_sf1_sf2.alignment NC_000913.gbk NC_000913.gbk .sml NC_011353.gbk NC_011353.gbk .sml NC_004337.gbk NC_004337.gbk .sml NC_004741.gbk NC_004741.gbk .sml NC_011283.gbk NC_011283.gbk .
7、sml NC_012731.gbk NC_012731.gbk.sml,第4步:提交计算脚本,zoulybig mauve-test$ qsub mauve-test.qsub注意:非并行程序不需要指定CPU数量记录比对信息的文件:/disk1/zouly/ec_sf1_sf2.mauve记录比对结果的文件:/disk1/zouly/ec_sf1_sf2.alignment,第5步:使用Mauve程序打开计算结果ec_sf1_sf2.alignment,2、使用modeller构建蛋白质的三维结构,问题:从Trichomonas vaginalis基因组中新鉴定一个lactate dehydr
8、ogenase基因TvLDH,其蛋白质序列与malate dehydrogenase TvMDH的相似度比其它 LDH蛋白更高,构建TvLDH的三维结构,与TvMLDH进行结构比较解决方法:使用modeller构建TvLDH的三维结构模型该方法的步骤(参考modeller使用手册basic_example),从PDB数据库中获取已知的蛋白质结构数据使用modeller在PDB结构数据库中搜索与TvLDH相似的结构(基于序列相似性)从搜索结果中挑选E值最低的结构,进行两两比对,从中挑选用于构建TvLDH结构的合适模板将TvLDH与模板进行比对利用比对结果构建TvLDH的三维结构模型评估,实施方法
9、:,使用Xmanager软件SSH登录到平台上传相关数据到工作目录依据modeller使用手册,编写使用modeller建立结构模型的python执行文件编写并提交计算任务脚本,进行计算分析计算结果,第1步:使用Xmanager软件SSH登录到平台,第2步:上传计算所需要的数据到用户工作目录,TvLDH的蛋白质序列(PIR格式)PDB数据库中的现有结构数据(PIR格式),去掉其中序列相似度超过95%的数据,以及长度在30-4000个残基以外的数据,P1;TvLDH sequence:TvLDH:0.00: 0.00 MSEAAHVLITGAAGQIGYILSHWIASGELYGDRQVYLHL
10、LDIPPAMNRLTALTMELEDCAFPHLAGFVATTDPKAAFKDIDCAFLVASMPLKPGQVRADLISSNSVIFKNTGEYLSKWAKPSVKVLVIGNPDNTNCEIAMLHAKNLKPENFSSLSMLDQNRAYYEVASKLGVDVKDVHDIIVWGNHGESMVADLTQATFTKEGKTQKVVDVLDHDYVFDTFFKKIGHRAWDILEHRGFTSAASPTKAAIQHMKAWLFGTAPGEVLSMGIPVPEGNPYGIKPGVVFSFPCNVDKEGKIHVVEGFKVNDWLREKLDFTEKDLFHEKEIALNHLAQGG*,第3
11、步: 编写SGE脚本,使用modeller建立结构模型,假设此计算任务的工作目录为: /disk1/zouly/modeller按照下列计算步骤,分别编写计算脚本进行计算,3.1 Searching for structures related to TvLDH,在工作目录内建立本步计算文件build_profile.py,通过计算在PDB结构数据中搜索TvLDH的可能相似的结构编写sge脚本,提交计算任务 #!/bin/bash #$ -cwd #$ -j y #$ -S /bin/bash # mod9.9 build_profile.py,build_profile.py的内容,本步计算
12、输出结果build_profile.prf1,3.2 Selecting a template,从前一步中挑选E值为0的6个蛋白质作为候选模板(1bdm:A, 5mdh:A, 1b8p:A, 1civ:A, 7mdh:A, and 1smk:A),将它们的结构数据放在工作目录内建立本步计算文件compare.py,比较候选模板之间的相似性编写并提交计算脚本compare.qsub,#!/bin/bash #$ -cwd #$ -j y #$ -S /bin/bash # mod9.9 compare.py,compare.py的内容,本步计算结果compare.log,3.3 Aligning
13、 TvLDH with the template,建立本步计算的文件align2d.py,将TvLDH的序列与选出来的模板 1bmdA的结构进行比较和匹配编写并提交sge脚本 align2d.qsub,#!/bin/bash #$ -cwd #$ -j y #$ -S /bin/bash # mod9.9 align2d.py,align2d.py的内容,比较结果保存在TvLDH-1bdmA.pap中,3.4 Model building,建立本步计算文件model-single.py,依据模板匹配结果构建TvLDH的三维结构编写并提交本步的sge脚本model-single.qsub,#!/
14、bin/bash #$ -cwd #$ -j y #$ -S /bin/bash # mod9.9 model-single.py,model-single.py的内容,本步计算得到5个TvLDH三维结构,Model-single.log,一个结构TvLDH.B99990002.pdb,3.5 Model evaluation,建立计算文件evaluate_model.py,通过计算能量等方式对建立的三维结构进行评估编写并提交该步计算的sge脚本evaluate_model.qsub,#!/bin/bash #$ -cwd #$ -j y #$ -S /bin/bash # mod9.9 evaluate_model.py,evaluate_model.py的内容,评估结果保存在.log文件和.profile文件中,三 使用Gromas进行分子动力学模拟,请在生物信息中心网站下载example2,The End!,
Copyright © 2018-2021 Wenke99.com All rights reserved
工信部备案号:浙ICP备20026746号-2
公安局备案号:浙公网安备33038302330469号
本站为C2C交文档易平台,即用户上传的文档直接卖给下载用户,本站只是网络服务中间平台,所有原创文档下载所得归上传人所有,若您发现上传作品侵犯了您的权利,请立刻联系网站客服并提供证据,平台将在3个工作日内予以改正。