1、 毕 业 设 计( 论 文 )题目绵羊 MHC Class基因的生物信息学分析专业 生物科学摘 要从 NCBI 中获取绵羊主要组织相容性复合体(M ajor Histocompatibility Complex, MHC)的核苷酸与氨基酸序列,应用 生物信息学原理,对绵羊 MHC分子疏水区、跨膜区、结构功能域和生物活性位点等几方面生物学特性进行了分析,预测出该基因的二级结构和三级结构,并将绵羊与其它动物的核苷酸和氨基酸序列进行多序列对比,做出分子进化树。结果表明,绵羊 MHC分子有一个疏水区和跨膜区;该分子有主要组织相容性复合物蛋白免疫球蛋白信号及 N-糖基化位点、蛋白质激酶 C磷酸化位点等多
2、个生物活性位点。绵羊 MHC class的氨基酸序列和核苷酸序列与成都麻羊的同源性最高,分别达 66%和 73%,其次与亚洲水牛和肩蜂牛的同源性也较高,与大黄鱼的同源性最低,分别为 25%和 51%。关键词:主要组织相容性复合体类;生物信息学;序列分析ABSTRACTExtract Ovis aries from NCBI of nucleotides and Major Histocompatibility Complex class II amino acid sequence, application bioinformatics principle, on Ovis aries MHC
3、 class II molecules succoth watershed and transmembrane area, the structure and function domain and biological activity sites aspects of biology characteristic was analyzed to predict the secondary structure and level 3 genetic structure, and the Ovis aries and other animals will be more nucleotide
4、sequence of amino acid sequence and contrast, make more sequence phylogenetic tree. Results show that, Ovis aries MHC class II molecules have a dredging watershed and transmembrane area, the molecules are major histocompatibility complex protein immunoglobulin signal and N - glycosylation sites, pro
5、tein kinase C phosphorylation sites such multiple bioactive loci sites, Ovis aries MHC class II the sequence of amino acids and nucleotide sequences and the Capra hircus is highest homology of 66% and 73%. Secondly Bubalus bubalis and Bos indicus homology of higher, with the lowest, homology of Lari
6、michthys crocea for 25% and 51% respectively.Keywords: Major Histocompatibility Complex class II molecules; Bioinformatics; Sequence analys毕业设计(论文)- 0 -目 录第一章 前言 11.1 生物信息学简介 11.2 MHC 的相关简介 1第二章 材料来源 4第三章 分析方法 53.1 蛋白质序列的获取 53.1.1 绵羊 MHC Class基因的核酸和蛋白质序列的获得 53.1.2 同源序列获得 53.2 蛋白质的基本性质分析 53.2.1 疏水性分析
7、 53.2.2 跨膜区分析 53.2.3 功能结构域分析 53.2.4 生物活性位点分析 53.3 蛋白质结构预测 53.3.1 蛋白质二级结构的预测53.3.2 蛋白质三级结构预测 53.4 绵羊 MHC Class系统进化树分析 5第四章 结果与分析 64.1 绵羊 MHC Class基因的核酸和蛋白质序列 64.2 绵羊 MHC Class蛋白质的疏水性和跨膜区分析 74.2.1 绵羊 MHC Class蛋白质的疏水性分析 74.2.2 绵羊 MHC Class蛋白质的跨膜螺旋区分析 84.3 绵羊 MHC Class蛋白质的功能结构域分析 94.4 绵羊 MHC Class蛋白质生物活
8、性位点分析 114.5 绵羊 MHC Class蛋白质的二级结构预测 124.6 绵羊 MHC Class蛋白质的三级结构预测 144.7 同源序列对比和系统发生分析 15第五章 结论 21参考文献 22致谢 23-毕业设计(论文)- 1 -第一章 前 言1.1 生物信息学简介生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性系统科学,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义 1。它的研究内容包括生物信息的存储于获取、序列比对、测序与拼接、基因预测、生物进化与系统发育分析、蛋白质结构预测、RNA结构预测、分子设计与药物设计、代谢网络分
9、析、基因芯片、DNA计算等。它还是一门以信息知识为基础的学科,关键资源是知识,关键技术是信息处理。它为揭示人类及重要动植物种类的基因组信息,继而进行生物大分子结构模拟和药物设计,以及天然生物大分子的改造和基于受体结构的药物分子设计提供依据。生物信息学不仅对认识生物体和生物信息的起源、遗传、发育与进化的本质具有重要意义,而且可为人类疾病的诊断和防治开辟全新的途径,并为动植物的物种改良提供了坚实的理论基础。此外通过对影响药物代谢或效应通路、相关基因编码序列的再测序,很可能揭示个体对药物差别的遗传学基础 2。生物信息学作为生命科学研究所必需的研究工具,在生命科学实践中越来越显示出它的重要作用,特别是
10、在实验设计、结构分析上,离不开生物信息学的指导 3。而生物数据库、相关软件是生物信息学研究与应用的重要资源。在生物信息学软件中,生物学研究人员用得最多的软件是搜索工具BLAST(Basic Local Alignment Search Tool) 1。本文则是对绵羊MHC class II基因进行了生物信息学分析,也多次使用了BLAST软件。1.2 MHC的相关简介诱导强而迅速排斥反应的抗原称为主要组织相容性抗原或主要移植抗原, 编码这种抗原的基因群称为主要组织相容性复合体(Major Histocompatibility Complex, MHC)。 主要组织相容性复合体是存在于脊椎动物某一
11、染色体上的一群紧密连锁的基因群,编码主要组织相容性抗原,调控细胞间相互识别,并与免疫应答和免疫调节有关,呈高度多态性 4。多态性是一个群体的概念,指 MHC 存在多个基因座位,染色体同一基因座有两种以上的基因型,即可能编码两种以上的产物。MHC 的高度多态基因区,这些连锁的免疫应答基因控制着机体对抗原产生免疫应答的能力。MHC 高度多态性赋於物种极大的应变能力造就了各式各样对抗原(病原体)入侵反应性和易感性不同的个体.使之能对付多变的环境条件及各种病原体的侵袭。在免疫应答的 T-B、T-T、T-APC 细胞的相互作用中,T 细胞除识别抗原物质外,还必须同时识别与之作用细胞表面的 MHC 分子,
12、这一现象称为 MHC 限制性。不同的物种,不同种属动物都有自身的 MHC:如人的 MHC 通常称 HLA 基因(hunan leukocyte antigen,HLA)或 HLA 基因复合体 , 称其产物为 HLA 分子或 HLA 抗毕业设计(论文)- 2 -原;称小鼠 MHC 为 H-2;称黑猩猩为 ChLA;称狗为 DLA;称猪为 SLA;称牛为BoLA。根据主要组织相容性抗原分子结构、分布和功能不同分为、类分子。按所含基因的功能不同,一般可将 MHC 区域分为 Class区、Class区和 Class区。其编码基因也相应地分成三类。类和类分子是结构相似的细胞膜表面糖蛋白,除作为移植抗原外
13、,还与抗原递呈及某些疾病相关。类分子包括 C2、C4、B 因子和肿瘤坏死因子等多种可溶性蛋白质。MHC类分子:所有有核细胞及血小板、网织红细胞。MHC-类分子是异源二聚体,它的分子的两条链均由 MHC-类分子基因编码,由 链和 链以非共价键结合的多肽链构成(如图 1.1 所示) ,其中 链分子量为 3234kDa,有两个 N连接寡糖; 链为2730kDa,有一个 N连接寡糖。两条链在整个结构上彼此相似,由于糖基化作用, 链比 链略大, 链、 链胞膜外区各有两个结构域 1、2及 1、2,每个结构域约含 90 个氨基酸残基。 链和 链均是跨膜蛋白,C 端为胞浆区。除 1 结构域外,2、1 和 2每
14、个结构域均含一个二硫键。胞膜外区(跨膜区和胞浆区)按功能进一步分为肽结合区和免疫球蛋白样区。MHC-类分子的两条链均由不同的 MHC 基因编码,呈多态性。肽结合区 MHC-类分子的 1、1 结构域与免疫球蛋白样区结构域无相似性,是类分子结合抗原肽部位和高度多态性所在。每个结构域都是有 4 条 折叠和 1 个 螺旋组成,1 和 1 结构域的 片层共同形成肽结合沟槽的底部,1 和 1 结构域的 螺旋共同形成肽结合沟槽的侧壁。2 和 2 结构域属于免疫球蛋白超家族 C1 型结构,具非多态性,2 和 2 结构域是 MHC-类分子的非多态部分,也是与 CD4 分子相互作用的位点。2 和 2 结构域 C
15、端侧各有一个短的连接区,分别连接 2、2 结构域与跨膜区。跨膜区约含 25 个氨基酸残基,形成 螺旋将 链和 链固定在细胞膜上。胞浆区很短,有2530 个氨基酸残基,可能与信号转导有关 5。在 MHC基因内,第一外显子编码先导顺序或信号顺序,它将新生蛋白带向内质网。每个约由 90 个氨基酸组成的细胞外区残基各有一个大外显子跨膜区和胞浆区由几个小外显子编码。控制 MHC 基因转录的许多顺式调节顺序位于编码 MHC 分子外显子阅读框架的 5端,这些核苷酸顺序是 DNA-结合蛋白的分子靶位,这些 DNA-结合蛋白事反式转录调节因子。MHC 基因转录调节的一般原则与免疫球蛋白基因相似。图 1.1 MH
16、C 分子结构图毕业设计(论文)- 3 -MHC类基因启动子序列位于基因编码区 5端上游,转录起始点上游 200bp 范围内。MHC类基因进侧基因启动子部分存在多态性,表现为顺式作用元件 DQ,DP 的多基因家族,是类分子多样性的分子基础,在免疫应答中起关键作用 5。本文是对绵羊 MHC class分子进行生物信息学分析,应用生物信息学方法找出绵羊 MHC class的核酸和蛋白质序列,对绵羊 MHC class分子疏水区、跨膜区、结构功能域和生物活性位点等几方面生物学特性进行了分析,预测出该基因的二级结构和三级结构,并将绵羊与其它动物的核苷酸和氨基酸序列进行多序列对比和系统分子进化树分析,对绵
17、羊 MHC class的研究做一下基础性工作。毕业设计(论文)- 4 -第二章 材料来源绵羊 MHC class基因及其同源的其它物种的核酸和氨基酸序列编码(表 2.1)。表 2.1 不同物种 MHC class基因的核酸和蛋白质序列种类(species )蛋白质编号( protein ID)核酸编号(nucleotide ID)绵羊 NP-001116870 NM-001123398褐家鼠 CAD86939 AJ554216原鸡 AAR14674 AY357254小家鼠 NP-034508 NM-010378非洲爪蟾蜍 NP-001079971 NM-001086502家猫 ACK99138
18、 EU915361家马 XP-001493225 XM-001493175野驴 ABM92287 EF204945欧洲兔 NP-001164589 NM-001171118欧洲野兔 ACN39186 FJ225345大熊猫 XP-002914414 XM-002914368鹪鹩 AAN87894 AY169005成都麻羊 AAR97716 AAR97716亚洲水牛 AAY40169 DQ016629肩峰牛 CAX17688 FM986339大猩猩 AAU87999 AY663403红毛猩猩 ACL00582 EU877227野猪 ABA42968 DQ159895大西洋鲱 CAM34665 A
19、M492999三文鱼 CAD27719 AJ438965大黄鱼 ABV48907 EF681863人 NP-002113 NM-002122家犬 CAH61722 AJ630362毕业设计(论文)- 5 -第三章 分析方法3.1 蛋白质序列的获得3.1.1 绵羊 MHC class基因的核酸和蛋白质序列的获得 在 NCBI 数据库上搜索绵羊 MHC class基因的核酸和蛋白质序列。3.1.2 同源序列获得 利用 NCBI 上的 BLAST 程序对比直接获取与绵羊 MHC class基因同源的核酸和蛋白质序列。3.2 蛋白质的基本性质分析3.2.1 疏水性分析 用位于 Expasyde 的 P
20、rotscale6(http:/www.expasy.org/cgi-bin/protscale.pl) 程序对其进行疏水性分析。3.2.2 跨膜区分析 联网至(http:/www.genome.cbs.dut.dk/services/TMHMM-2.0)使用服务器TMHMM-2.07 或联网至(http:/www.ch.embnet.org/software/TMPRED_form.html)进行跨膜区分析。3.2.3 功能结构域分析 联网至(http:/www.ebi.ac.uk/interpro/index.html)用 EBI 开发的 InterProScan7进行分析。3.2.4 生
21、物活性位点分析 利用位于 Expasy 的 Prosite6(http:/www.expasy.org/prosite/)对绵羊 MHC class蛋白质进行活性位点分析。3.3 蛋白质结构预测3.3.1 蛋白质二级结构的预测 联网至(http:/www. Predictprotein.org/)用 PHD8对绵羊 MHC class进行分析或联网至 PSIPRED8的网址( http:/bioinf.cs.ucl.ac.uk/psipred)。3.3.2 蛋白质三级结构的预测 利用位于 SWISS-MODEL5的 Automated Mode 服务器返回到邮件的结果,观察蛋白质的三级结构。毕
22、业设计(论文)- 6 -3.4 绵羊 MHC class 系统进化树分析联网至(http:/www.ebi.ac.uk/clustalw/) 6对所获得的同源蛋白质序列进行比对分析并构建系统进化树。第四章 结果与分析4.1 绵羊 MHC class 基因的核酸和蛋白质序列在 NCBI 上获取绵羊的蛋白质序列(序列号:NP-001116870 ): 1 MKKALILRAL ALAAMMSLCG GEDIVADHVG TYGTNVYQTY GASGQFTFEF DGDELFYVDL 61 RKKETVWRLP EFNNITMFEI QSALRNIVMS KRNLDILMKN SNFTPATNDI
23、 PEVAVFPKSS 121 VILGIPNTLI CQVDNIFPPV INITWFYNGQ FVAEGVAETT FYPKSDHSFL KFSYLTFVPA 181 SEDFYDCRVE HWGLEEPLVK HWEPKIPTPT SELTETVVCA LGLPMGLMGI VVGTVLILRV 241 RCSGAASRRR RAMSHGLKDG KERKVFISVF AAASGAQDHQ PHAAWCFR 该蛋白质序列由 288 个氨基酸残基组成。在 NCBI 上获取绵羊的核酸序列(序列号:NM-001123398): 1 CATGGGCTGC TCCAACATGA TTTCTCCAG
24、C AGTTCTCTTT AGACCACCTT CCTGGTGAGG 61 CACCACTTGG AACAGCCACT CCTGAGGAAA CCCTTGGAGG AGGAGGAGGA TGAAGAAAGC 121 TCTGATTCTG AGGGCTCTCG CTCTGGCCGC CATGATGAGC CTGTGTGGAG GTGAAGACAT 181 CGTGGCGGAC CACGTGGGCA CTTACGGCAC AAATGTCTAC CAGACGTACG GCGCCTCTGG 241 CCAGTTCACG TTTGAATTTG ATGGAGACGA GCTCTTCTAC GTGGACCT
25、GA GGAAAAAAGA 301 GACTGTCTGG AGGCTGCCCG AGTTTAACAA TATCACCATG TTTGAAATTC AGAGTGCCCT 361 GAGAAACATT GTTATGTCAA AAAGAAATTT GGACATCTTG ATGAAAAATT CCAACTTTAC 421 ACCTGCCACC AATGACATCC CTGAAGTGGC TGTGTTTCCC AAATCCTCCG TGATCCTGGG 481 GATTCCCAAC ACCCTCATCT GTCAGGTGGA CAACATCTTT CCTCCTGTGA TCAACATCAC 541 TT
26、GGTTTTAC AATGGACAGT TTGTTGCAGA AGGTGTCGCT GAGACCACCT TCTACCCCAA 601 GAGTGACCAC TCCTTCCTCA AGTTCAGTTA CCTCACCTTT GTTCCCGCCA GTGAAGACTT 661 CTATGACTGC AGAGTGGAGC ACTGGGGCCT GGAAGAGCCC CTCGTCAAGC ACTGGGAGCC 721 CAAGATTCCA ACCCCTACAT CAGAGCTGAC AGAGACTGTG GTCTGTGCCC TGGGGCTGCC 781 CATGGGCCTC ATGGGCATCG
27、TGGTGGGCAC TGTCCTCATC CTCCGAGTCC GGTGCTCAGG 841 TGCTGCCTCC AGACGTCGAA GGGCCATGAG TCATGGCCTG AAAGATGGGA AGGAGAGGAA 901 AGTCTTCATT TCTGTTTTCG CTGCAGCATC GGGAGCACAG GACCATCAGC CTCATGCTGC 961 CTGGTGTTTC AGGTGATCAG TCTTTACAAG AAAAGAAAGG CATGGTTCAG GCTCCAGTTC 1021 CCCATCTTGA CCTTGACTGA GACGTGCTCC TTGGTCCATT TCATCACAGA GCTCCTTCCA 1081 CGCCCTCCTG CTCTCCCTGC TGGGGCAGAC TTTATGGAGG AATTTTCCTT CGAAGATCAC 1141 TGACCCTCAC GAATTCTCCC AACTTAGTCT TTGATTCATT GCCTACCTGT CACAGAGACC 1201 TGGATTGTTC CACC