蛋白二级结构

2024-12-21

蛋白二级结构(精选7篇)

蛋白二级结构 篇1

1 引言

蛋白质的空间结构在生命科学中扮演着重要的角色,其中,二级结构的预测是蛋白质结构预测中最为关键的一步。当蛋白质信息的迅速增加时,蛋白质二级结构实验测定的速度却远落后于一级结构(氨基酸序列)测定的速度。蛋白质二级结构是连接一级序列和三级空间结构的纽带。因此,根据蛋白质一级结构所提供的信息预测蛋白质二级结构就显得非常必要。

蛋白质二级结构预测发展30年来,经历了大致三个阶段[1],准确率也不断提高。近来,出现了许多方法用于蛋白质二级结构预测。

总的来说,蛋白质二级结构预测可以分为三类:基于统计方法[2,3],神经网络算法[4,5,6],混合方法[7,8]。其中以神经网络算法最好。而本文将一种优秀的构造性学习方法——交叉覆盖算法[9]结合带有进化信息的Profile编码,用于蛋白质二级结构的预测,取得了较好的效果。

2 交叉覆盖算法

交叉覆盖算法是根据神经元的几何意义[10]提出的算法。该算法的思路是:首先,设给定一个输入集K={x1,x2,…,xk}(K是n维欧式空间的点集),设K分为s个子集:K1={x1,x2,…,xm(1)},...,Ks={xm(s-1)+1,xm(s-1)+2,…,xk}。现在求作一个三层网络N构造分类器,也就是求出一组领域将属于不同类的点分开,使属于Ki的点的输出均为“yi”,其中yi=(0,…,1,0,…,0)(即第i个分量为1,其余分量为0的向量),i=1,2,…s。交叉覆盖实际上是交替覆盖,即先求出一个领域C1,它只覆盖一类的点,而不覆盖其它类的点,然后将被C1覆盖的点删去,对剩下的点再求一覆盖领域C2,然后将被C2覆盖的点删去…,如此交叉进行覆盖,直到只剩下最后一类点,将其作为一个领域。

具体的方法如下:

1)任取第i类中尚未被覆盖的点αi,并找出与αi最近的异类点和最远的同类点,它们之间的距离分别设为d1和d2(d2

2)求C(α'i)覆盖的重心α'i,按照步骤1的方法同样求覆盖C(α'i),若此覆盖比原覆盖包含的点数多,则以此覆盖代替原覆盖。

3)通过上面的操作得到一个只含同类点的最大领域,将其所覆盖的样本点删除。

4)重复以上步骤,当取完数据集中的所有类别的覆盖时,结束训练。

识别测试样本的方法是:若一个测试样本被某一领域覆盖,即可以确定其类别,若它不被任何一个领域所覆盖时,按就近原则确定其类别。

3 数据集

选取一个合适的数据集对于蛋白质二级结构预测的精度来说起到一个举足轻重的作用,通常的做法是选择一个数据集,然后通过序列比对的方法寻找其同源信息进行预测。本文采取的数据集是RS-126,这是由从布鲁克海文蛋白质结构数据库中挑选出来的126条蛋白质序列构成的,这些蛋白质的整体同源性低于25%。选择序列长度在80-120之间的序列做为数据集。

4 编码方式

编码方式对于预测蛋白质二级结构也是至关重要的,不同的编码方式对预测的准确率影响很大。常用的编码方式如正交编码,极性值编码,五位二进制编码,Profile编码。本文采取的是Profile编码,Profile编码是一种根据蛋白质家族的信息构成的编码,简单的说,Profile是指在氨基酸序列中每个位点上一种氨基酸出现的概率,将20种氨基酸出现的概率结合起来构成此位点的Profile编码,因此,每一个位点的编码共20维。

5 数据的训练与测试

以窗口划分蛋白质序列,所谓窗口就是按照氨基酸序列的顺序,以大小固定的窗口沿着蛋白质序列向后滑动。每一个窗口所包含的氨基酸片段做为一个样本,其中窗口中间位点残基的二级结构作为这个样本的类别。

6 实验结果与讨论

为了方便比较,本文采取了7交叉验证方法来评估分类器的预测准确性。并采用广泛使用的Q3标准来评估预测精度:

其中:Pα,Pβ,Pγ分别表示判断正确的α类,β类和c类的氨基酸个数,N为氨基酸的总数。

为了说明将核覆盖运用在蛋白质二级结构预测中的可行性,将交叉覆盖算法与其它方法进行比较,结果见表1。

从实验结果来看,交叉覆盖算法的准确率要高于BP神经网络,并且与SVM效果相当。另外,本文选用了一种带有进化信息的Profile编码,通过实验也说明了将交叉覆盖结合Profile编码应用到蛋白质二级结构预测中的可行性。

摘要:蛋白质二级结构预测在蛋白质空间结构预测中起着承上启下的重要作用。近年来,大量的方法应用于二级结构预测中,其中,神经网络算法效果较好。但是,由于传统的神经网络存在结构复杂、学习速度慢、运行效率低、处理海量数据困难的缺陷,大大影响了预测的效果,因此,该文将一种基于构造性神经网络算法,也就是交叉覆盖算法应用于蛋白质二级结构预测中,另外,为了引入更多的同源家族结构的信息,采用了基于概率的Profile编码方式。通过实验证明将交叉覆盖算法运用在蛋白质二级结构预测中的可行性,并且比传统的神经网络方法有了更高的准确率。

关键词:交叉覆盖算法,蛋白质二级结构,Profile编码

参考文献

[1]Rost B.Review:Protein Secondary Structure Prediction Continues to Rise[J].Journal of Structural Biology,2001(134):204-218.

[2]Garnier J.Analysis of the accuracy and implications of simple methods for prediction the secondary structure of globular protein[J].J Mol Biol,1978(120):97-120.

[3]Garnier J.GOR secondary structure prediction method IV[J].Meth Enzymol,1996(256):540-553.

[4]Kneller D G,Cohen F E,Langridge R.Improvements in protein secondary structure prediction by enhanced neural networks[J].J Mol Biol,1990(214):171-182.

[5]Rost B,Sander C.Prediction of Protein Secondary Structure at Better than70%Accuracy[J].J Mol Biol,1993(232):584-599.

[6]Jones D T.Protein secondary structure prediction based on position-specific scoring matrices[J].J Mol Biol,1999,292:195-202

[7]Frishman D and Argos P.Incorporation of non-local interactions in protein secondary structure prediction from the aminoacid sequence[J].Prot Eng,1996,9:133-142.

[8]Geourjon C and Deleage G.Significant improvements in protein secondary structure prediction by consensus prediction from multiple aligments[J].Comput Appl Biosci,1995,11(6):681-684.

[9]张铃,张钹,殷海风.多层前向网络的交叉覆盖设计算法[J].软件学报,1999,10(7):737-742.

[10]张铃,张钹.M-P神经元模型的几何意义及其应用[J].软件学报,1998,9(5):334-338.

蛋白二级结构 篇2

植物激素相关核酸和蛋白质二级数据库的构建与应用

以NCBI维护的一级数据库为数据源建立植物激素相关核酸和蛋白质二级数据库.将该二级数据库设计为基因、蛋白质和文献三部分,编写软件从上述数据源中采集数据,并以XML作为中间格式保存,通过解析提交到二级数据库中并集成部分生物信息学工具软件,初步实现了数据检索、统计分析、基于Web的本地化BLAST同源序列检索、序列的自动拼接以及蛋白质结构和功能位点的分析等功能.该二级数据库的`构建为植物激素作用分子机理研究提供了高针对性的植物激素数据源和生物信息学辅助工具.

作 者:程鹏 黄志刚 洪亚辉 刘霞 萧浪涛 王若仲 作者单位:湖南农业大学植物激素与生长发育湖南省重点实验室,长沙,410128刊 名:植物学报 ISTIC PKU英文刊名:BULLETIN OF BOTANY年,卷(期):45(2)分类号:Q94关键词:生物信息学 数据库 植物激素 XML bioinformatics database phytohormones XML

蛋白质结构与功能的关系 篇3

关键词:蛋白质;结构;功能

蛋白质是一切生命的物质基础,机体中的每一个细胞和所有重要组成部分都有蛋白质的参与,它是与生命及与各种形式的生命活动紧密联系在一起的物质。蛋白质的生物活性不仅取决于蛋白质分子的一级结构,而且作为在生命活动中起重要作用的生物大分子,其在生物体内的各种功能都由其空间结构决定。异常的蛋白质空间结构很可能导致其生物活性的降低、丧失,甚至会导致疾病。对于蛋白质空间结构的研究不仅有利于认识蛋白质的功能,也有利于认识蛋白质的生物功能以及蛋白质与蛋白质之间的相互作用。

1 蛋白质的结构

蛋白质是一类非常重要的生物大分子,在人类以及各种生物体重占有特殊地位。它是细胞组织成分中含量最丰富,功能最多的高分子物质。它们是构成生命的基本要素之一,在生命体的生命活动中起着关键性的作用[1]。任何一个生物细胞都蕴含着多种蛋白质,它们的结构各不相同,各有其特殊的功能,其多样性的功能由其千差万别的结构所决定的。

1.1 蛋白质的一级机构 蛋白质是由一条或者几条具有确定氨基酸序列的多肽链构成的大分子。蛋白质一级结构即指蛋白质多肽链的氨基酸残基序列。一条肽链由L型氨基酸按照一定序列排列,相邻氨基酸之间通过缩合脱去一分子水而形成肽键,肽键由羰基碳和酰胺氮连接而成。

每一种蛋白质分子都有自己特有的氨基酸的组成和排列顺序即一级结构,由这种氨基酸排列顺序决定它的特定的空间结构,也就是蛋白质的一级结构决定了蛋白质的二级三级等高级结构,这就是荣获诺贝尔奖的著名的Anfinsen 原理。

1.2 蛋白质的二级机构 蛋白质的二级结构主要分为α螺旋,β折叠和无规卷曲。

1.3 蛋白质的三级机构 蛋白质的三级结构也多指球状蛋白的三级结构,即在蛋白质二级结构的基础上,在多种非共价键的作用下构成的蛋白质三维空间的结构。

1.4 蛋白质的四级机构 四级结构是蛋白质最高级的结构,四级结构增加了蛋白质的稳定性,提高了遗传经济性和效率,亚基间的协同性和别构效应对蛋白质在发挥蛋白质功能方面起着巨大作用。

2 蛋白质的功能

蛋白质是生命活动的最终执行者,蛋白质功能的认识可用于了解蛋白质在生物过程中所起到得作用,从而有助于人们理解复杂的生命现象。

2.1 蛋白质的结合功能 蛋白质可以结合到其他分子上或者蛋白质上。特异性地识别其他分子是蛋白质功能的关键,这主要得益于蛋白质结构和表面化学性质的多样性。结合的分子(配体)可大可小,小的如与肌红蛋白血红素基团协同结合的氧分子,大的如结合在TA—TA 结合蛋白上被弯曲的特定DNA 顺序(TA—TA box)。

2.2 蛋白质的催化功能 基本上活细胞中的每个化学反应都是被催化的,大多数的催化剂是酶蛋白。酶的许多结构特性都为催化作出了贡献。

2.3 蛋白质作为分子开关的功能 蛋白质是柔性分子,其构象可以随着pH值的变化或结合配体而改变。这种变化可以作为控制细胞变化的分子开关。

2.4 蛋白质的结构功能 蛋白质可以作为活体中一些主要结构的元件。这种功能来自于蛋白质亚基自身之间,以及与其他蛋白质、碳水化合物等特异性结合,使得像肌动蛋白丝这样的复杂系统也可以自发组装。

3 蛋白质的结构与功能的关系

3.1 蛋白质结构与催化功能的关系 催化同一类化学反应的酶往往具有相似的特征结构,如丝氨酸蛋白酶是一类庞大的酶系,在这类酶中活性位点丝氨酸残基的侧链羟基攻击将要被水解的酰胺键的碳原子、组氨酸残基和天冬氨酸残基协助这一水解过程的进行,并与丝氨酸一起形成一个催化三连体。

3.2 蛋白质超家族与结构预测 超家族被定义为具有相似三维结构和相关但不一定相同的生物化学功能的同源蛋白质。把一个蛋白质归属到某个特定超家族是由于结构和功能上的关系。每个超家族中又有家族,它们的功能更加紧密,序列一致性更加显著(>50%)。

4 结论

蛋白质的生物功能很大程度上取决于蛋白质的三维结构性质。具有相同结构和特征的蛋白质往往具有相似的功能,行使同一功能的蛋白质常常在结构上具有许多共同点,如具有相同的活性位点、相似的氨基酸组成或类似的构象。蛋白质序列有30%相似的蛋白质总体上的反应类型是相似的,序列一致性在40%以上的生物化学功能上很少有差异。在生物进化中,两物种的亲缘关系越近,其蛋白质序列越相以,反之则氨基酸的替换增多,序列的差异增大。 因此,蛋白质的氨基酸序列为进化的演变提供了进化过程近似的时间尺度。

蛋白二级结构 篇4

本文从蛋白质的氨基酸序列出发,用统计分析的方法,对4729个蛋白质中的34424个超二级结构序列片断进行了统计分析,给出了区分四类超二级结构的有用信息,这些信息对蛋白质超二级预测是非常有益的。

1 数据集和方法

1.1 数据集

选取由SCOP(1.69release)中ASTRAL库提供的同源性小于40%分辨率低于2.5A的4729个蛋白质,再从PDB库中都找到每一个氨基酸对应的二级结构,给出四类超二级结构:α-α,α-β,β-α,β-β,共34424个超二级结构序列片断。经过统计分析,发现loop长大多分布在2到8个氨基酸之间,所以我们选取loop长度为2到8的序列进行统计。

1.2 方法

无论是单肽还是二肽关联的分析,按习惯人们总是从N端(头部)开始,按顺序依次对各残基进行分析[2],这样会丢掉C端信息。而蛋白质超二级结构序列在Loop的N端和C端有不同的特性,文献[3]在区分beta-beta link和beta-beta hairpin两类模体时,构建了两个神经网络分别来预测Loop起始位点和Loop终止位点。参照文献[2]的作法,分别按照Loop起始位点对齐和Loop终止位点对齐方式作统计分析。Loop起始位点对齐时,四类模体Loop序列的N端(即起始位点)记为N,与LoopN端相连接的规则二级结构的4个残基从左到右顺序记为-4、-3、-2、-1;同样Loop终止位点对齐时,四类模体Loop序列的C端(即终止位点)记为C,与LoopC端相连接的规则二级结构的4个残基从左到右顺序记为1、2、3、4,对这这些位点统计20种氨基酸出现概率。

2 统计分析结果

由统计结果得到-4、-3、-2三位点20种氨基酸出现概率的规律是相似的;在2、3、4三位点20种氨基酸出现概率的规律也相似;而在-1、N、C、1四位点在20种氨基酸的含量上规律明显的不同于序列中其它位点,说明超二级结构序列中Loop序列的N端和C端第一个氨基酸残基以及与Loop相连接的规则二级结构的C端和N端的第一个氨基酸残基是起关键作用的位点。

我们发现脯氨酸变化最为特殊,符合文献[3]中指出脯氨酸明显地不同于其它19种氨基酸,它有一个环状的饱和烃侧链,结合在α-氨基的氮和-α碳上;而脯氨酸P在-4、-3、-2、-1、1、2、3、4位置除个别情况外,含量较低,而在N、C位置含量较高,也符合脯氨酸倾向于形成无规卷曲不利于形成α螺旋折β叠规律[4];我们看到P在1、2位置上,EH和HH(即1、2位置连接α螺旋的模体)含量高而HE、EE(即1、2位置连接折叠的模体)含量低,也验证了文献[2]指出的P虽不利于形成α螺旋但经常出现在α螺旋的第一圈中。

还发现半胱氨酸、甲硫氨酸、组氨酸、色氨酸四种氨基酸含量普遍底,进一步验证了文献[2]中指出的C、M、H、W四种氨基酸相对于其它氨基酸在蛋白质序列中出现的频率最低。G在N位置四类模体中G的含量都最高,C位置四类模体中G的含量也较高,而其余位置却含量相对较低。

3 总结

Loop在蛋白质的局部构象中起着重要作用,并且和功能相关[2],不同类型的Loop有特定的空间构象[5]。而蛋白质超二级结构序列在LoopN端和C端有不同的特性。以上我们对四类超二级结构模体按照N端和C端对齐方式,分别统计了七个位点20种氨基酸使用,得到规律与已有结论相符,并给出一些区分四类模体的有用信息。

摘要:从蛋白质的氨基酸序列出发,用统计分析的方法,对序列相似性小于40%、分辨率低于2.5?的4729个蛋白质中的超二级结构序列片断进行了统计分析,统计结果得到区分四类超二级结构的有用信息,这些统计结果对蛋白质超二级预测是非常有益的。

关键词:蛋白质,超二级结构,统计分析

参考文献

[1]Anfinsen C B,Haber E,Sela M,et al.The kinetics of formation of native ri-bonuclease during oxidation of the reduced polypeptide chain[J].Proc Natl Acad Sci USA,1961,47:1309-1314.

[2]阎隆飞,孙之荣.蛋白质分子结构[M].北京;清华大学出版社,1999.311-320

[3]Michael Kuhn,Jens Meiler and David Baker.Strand-loop-strand Motifs:Pre-diction of Hairpins and Diverging Turns in Proteins.[J].PROTEINS:Structure,Function,and Bioinformatics,2004,54:282-288.

[4]王希成.生物化学[M].北京:清华大学出版社,2000.

一级,二级注册结构师报考条件 篇5

(发布时间: 2007-6-22 16:32:35 来自:环球职业教育在线)

一、考试报考条件

(一)一级注册结构工程师资格考试报考条件

A:基础考试报考条件

(1)具备下列条件的人员:(见附件)

(2)1971年(含1971年)以后毕业,不具备规定学历的人员,从事建筑工程设计工作累计15年以上,且具备下列条件之一:

①作为专业负责人或主要设计人,完成建筑工程分类标准三级以上项目4项(全过程设计),其中二级以上项目不少于1项。

②作为专业负责人或主要设计人,完成中型工业建筑工程以上项目4项(全过程设计),其中大型项目不少于1项。

B:专业考试报考条件

(1)具备下列条件的人员:见附件

注:表中“Ⅰ类人员”指基础考试已经通过,继续申报专业考试的人员:“Ⅱ类人员”指按建设部、人事部司发文《关于一级注册结构工程师资格考试认定和一九九七年资格报考工作有关问题的说明》[(97)建设注字第46号]文件规定,符合免基础考试条件,只参加专业考试的人员。免考范围不再扩大。该类人员可一直参加专业考试,直至通过为止。

(2)1970年(含1970年)以前建筑工程专业大学本科、专科毕业的人员。

(3)1970年(含1970年)以前建筑工程或相近专业中专及以上学历毕业,从事结构设计工作累计10年以上的人员。

(4)1970年(含1970年)以前参加工作,不具备规定学历要求,从事结构设计工作累计15年以上的人员。

(二)二级注册结构工程师资格考试报考条件 见附件

二、报考应提交的材料

报考一、二级注册结构工程师资格考试报名需提交如下材料:

(1)《中华人民共和国一级注册结构工程师资格考试报名表》或《中华人共和国二级注册结构工程师资格考试报名表》(一式二份)并交本人学历证书原件及复印件、身份证复印件各一份。

(2)所有参加考试人员应提供近期免冠同版一寸彩色照片二张,每人照片要分装,并在袋上注明本人姓名和工作单位及身份证号。

(3)基础科目考试合格人员,报考专业科目考试时,应提供基础考试合格的证明材料。

三、考试报名时间

自收到全国注册工程师管理委员会(结构)关于当年考务工作的通知后,由我省注册工程师管理委员会(结构)确定报名时间后发布文件(省注册工程师管理委员会(结构)办公室设在省建设厅执业资格注册中心)。此文件发各市建设局、华北石油管理局。

四、考试报名程序

各有关单位将参考人员报名材料及各类证书原件报各市建设局主管部门初审,由各市建设局主管部门按下发的软盘格式录入形成数据库格式连同申报材料报送省管理委员会(结构)办公室。准考证由各市建设局在考试前统一到省注册中心领取。准考证如有不符,请及时与省注册中心联系。

五、成绩公布

自收到河北省职称改革领导小组办公室公布的合格人员名单后,由我注册中心转发考试成绩的相关文件。此文件发各市建设局、华北石油管理局,并在网站上公布。

申报一、二级注册结构工程师注册须知

一、初始注册

初始注册者,可自资格证书签发之日起3年内提出申请。逾期未申请者,须符合本专业继续教育的要求后方可申请初始注册。

初始注册需要提交下列材料:

1、注册师注册申请表(1式2份);

2、注册师申请在此设计单位首次注册的证明(如用计算机打印需由注册师本人签字)。

3、申请人的执业资格考试合格证明件;

4、聘用单位出具的受聘人的聘用合同复印件(至申请注册时聘期不得少于1年,且合同中应有本人签字);

5、聘用单位出具的受聘人职业道德证明,该证明材料由申请人自提出申请之日前最后一个服务期满2年以上的设计单位或允许其执业的其他机构出具方为有效;

6、聘用单位的资质证书(副本)复印件;

7、县级或县级以上医院出具的能坚持正常工作的体检证明(近3个月内体检有效);

8、取得资格后调往其他单位并申请注册时,应提供工作关系调动或辞职的证明文件;

9、大专院校设计单位人员申请注册时,应出具申请人是在职教师或设计单位在编人员的证明文件;若为在职教师,还应按 “高等学校(院)在职教师注册须知”中规定,出具相应的证明材料。

办理程序

1、申请人填写注册师申请表并提交聘用单位;

2、聘用单位审核同意签字盖章后,连同其他有关注册材料一并报所在建设局主管部门;

3、各建设局主管部门对其材料的有效性、完整性进行审核,在注册申请表相应栏目内签字盖章后报省管理委员会(结构)办公室。

4、省管理委员会(结构)办公室初审后,报全国管委会审定,注册人员证书及印章统一由各市建设局主管部门在省注册中心领取并下发到注册本人手中。

二、变更注册

在注册有效期内,注册工程师变更执业单位,应与原聘用单位解除劳动关系,并按规定程序办理变更注册手续,变更注册后仍延续原注册有效期。

变更注册需要提交下列材料:

1、注册师变更注册申请表(1式2份);

2、注册师申请变更至新设计单位注册的证明(如用计算机打印需由注册师本人签字)。

3、聘用单位出具的受聘人员的聘用合同复印件(至变更注册时聘期不得少于1年,且合同中应有本人签字);

4、原聘用单位出具的与申请人解除聘用合同的证明及同意其调动(离退休人员的外聘)证明;

5、原聘用单位出具的申请人申请变更注册前2年内的职业道德证明;

6、申请人变更注册前的执业印章;

7、新聘用单位的资质证书(副本)复印件;

8、继续注册时要求变更时,需同时提供参加继续教育证明和体检证明。

办理程序

A、跨省(部门)变更注册程序:

(1)申请人按照变更注册要求提交申报材料;

(2)申请人将有关材料(含申请人的执业专用章)报送省注册地方管理委员会;

(3)省注册地方管理委员会审查材料符合变更条件后,将变更注册人员材料返还申请人。

B:省内变更注册程序:

(1)申请人按照变更注册要求提交申报材料;

(2)将有关材料报送新聘用单位所在建设局主管部门;

(3)各地建设局主管部门审核、备案后,将申报材料报省管理委员会(结构)办公室;

(4)省管理委员会(结构)办公室审查同意签字盖章后,将变更注册材料报送全国管委会审定。

三、延续注册

注册工程师每一注册期为3年,注册期满需继续执业的,应在注册期满前30日,按照规定程序申请延续注册。

延续注册需要提交下列材料:

1、继续注册申请表(1式2份);

2、注册师申请继续在此设计单位注册的证明(如用计算机打印需由注册师本人签字)。

3、申请人上一注册期的职业道德证明;

4、聘用单位出具的申请人的聘用合同复印件(至继续注册时聘期不得少于1年,且合同中应有本人签字);

5、申请人注册期内达到继续教育要求的证明材料;

6、聘用单位的资质证书(副本)复印件;

7、县级或县级以上医院出具的能坚持正常工作的体检证明(近3个月内体检有效);

8、继续注册时要求变更时,需按照变更注册要求提供材料,同时提供参加继续教育证明和体检证明。

办理程序

1、申请人需在注册期满之前3个月内,按要求提交注册材料;

2、将相关材料报各市建设局主管部门审查;

3、各市建设局主管部门审查、备案、汇总后,连同材料一并报省管理委员会(结构)办公室;

4、省管理委员会(结构)办公室对材料的真实和有效性进行查验后,经审查合格的,将注册材料报送全国管委会审核。

一、二级注册结构工程师继续教育须知

注册工程师在每一注册期内应达到国务院建设主管部门规定的本专业继续教育要求。继续教育作为注册工程师逾期初始注册、延续注册和重新申请注册的条件。

继续教育分为必修课和选修课,每注册期各为60学时。

其它说明

1、注册人员不得受聘于二个以上建筑设计单位执行业务。

2、注册证书和执业印章是注册工程师的执业凭证,由注册工程师本人保管、使用。注册证书和执业印章的有效期为3年。任何单位不得在未征得注册师本人同意的情况下,代替保管和使用。

3、隐瞒有关情况或者提供虚假材料申请注册的,审批部门不予受理,并给予警告,一年之内不得再次申请注册。

3、注册人员的注册证书或执业印章如丢失,应及时通过聘用单位向所在省管理委员会办公室书面报告挂失,并申请补发注册证书或执业专用章。

蛋白二级结构 篇6

目前,对于App致病性的研究主要集中在APXⅠ、APXⅡ、APXⅢ三种毒素及其荚膜多糖、脂多糖(LPS)的抗原性等方面,而对其运动性和侵染细胞的机制研究报道较少。鞭毛是大多数革兰氏阴性杆菌所具有的运动器官,在细菌的致病性方面发挥着重要作用[3],国内对App鞭毛蛋白(flic)的研究尚未见报道,本文在对flic基因克隆及测序的基础上,采用生物信息学方法对APP flic蛋白可能的二级结构和B细胞抗原表位进行分析和预测,寻找优势抗原表位区域,旨在为APP flic蛋白功能的深入研究、单克隆抗体的制备及APP分子疫苗的设计等提供理论基础。

1 材料与方法

1.1 flic蛋白的氨基酸序列

在文献[4]研究的基础上,利用EMBOSS Transeq[5]软件推导flic蛋白的氨基酸序列。推导结果如下:

1 LVAQQPAAVP CALLPTQNLP ACWMICAFDI LDTFVASASI RDCAISTGWW CCSGWPRNPD

61 SFAPHRGKNG ICLQMRHRPA LSADPWFYHF ATAVRASPPA VKPACKLPPF KSAEWYVLPS

121 ISTTSVLPSS PPSLTAVGEL AAPEEALVIV LTETATSGHF TSRSVKDC

1.2 flic蛋白的理化性质分析

利用Expert Protein Analysis System(ExPASy)Proteomics tools(http://www. expasy.ch/tools/)服务器中的ProtParam程序[6]和DNASTAR软件对flic蛋白的的氨基酸序列组成、相对分子质量、等电点以及疏水性等理化性质进行分析。

1.3 flic蛋白的翻译后修饰预测与分析

利用Expert Protein Analysis System(ExPASy)Proteomics tools(http://www. expasy.ch/tools/)服务器中的ScanProsite[7]程序包对flic蛋白进行翻译后修饰预测和分析。

1.4 flic蛋白二级结构及跨膜区预测

应用NPS@服务器 (http://pbil.ibcp.fr/htm/index.php)上的GOR4法[8]、PHD[9]法和SOPMA法[10]三种方法预测flic蛋白的二级结构成分。利用TMpred服务器(http://www.ch.embnet.org/software/TMPREDform.html)对flic蛋白进行跨膜区预测。

1.5 flic蛋白的B细胞表位预测

因特网在线(http://tools.immuneepitope.org/tools/bcell/iedb_input)预测flic蛋白的B细胞表位,方法如下:用Chou-Fasman[11]方案预测flic蛋白的β转角区,用Emini[12]方案预测flic蛋白的表面可及性,用Kolaskar[13]方案预测flic蛋白的抗原指数,用Parker[14]方案预测flic蛋白的亲水性。综合以上各分析方法, 取各结果的重叠区域, 即为flic蛋白可能的B细胞优势抗原表位。

2 结果

2.1 flic蛋白的理化性质分析

用ProtParam程序和DNASTAR软件中的EditSeq软件包分析flic基因编码蛋白质的理化性质,结果表明,flic基因可编码2个读码框,其序列编码的蛋白质相对分子质量为18165.04m.w, 理论等电点pI为7.56,N端氨基酸为亮氨酸,在哺乳类动物网状细胞内的半衰期为5.5h,而在酵母菌和大肠杆菌体内的半衰期分别为3min和2min,该蛋白的不稳定系数为58.81,脂肪族指数为81.43,表明该蛋白为非稳定型脂蛋白,其他理化性质见表1。

2.2 flic蛋白的翻译后修饰预测与分析

将flic蛋白的氨基酸序列提交到ScanProsite服务器, 对flic蛋白进行翻译后修饰位点进行分析。结果表明,该蛋白中含有2个酪蛋白激酶Ⅱ磷酸化位点、3个蛋白质激酶C磷酸化位点。并与Phase 1 flagellin家族其它成员的修饰方式极为相似,提示该家族在进化上可能保留相似的调控方式,结果如表2所示。

2.3 flic蛋白的二级结构预测

不同方法预测的结果不尽相同(图3)。GOR4法预测结果显示flic蛋白有21个α-螺旋中心,40个β-折叠区段,其余为无规则卷曲区域;PHD法预测结果显示flic蛋白有28个α-螺旋中心,39个β-折叠区段,其余为无规则卷曲区域;SOPMA法预测结果显示flic蛋白有38个α-螺旋中心, 29个β-折叠区段,并有6个转角区域。三种方法所测的共有α-螺旋中心在Thr33-Ala36、Val137-Lys140和Glu145-Asn146区域,其共有的β-折叠区段Trp50-Cys51、Ile71-Met75、Trp115-Leu118、Ser125-Val126、Ile149-Thr152。

注:h代表α螺旋区段;e代表β折叠区段;t代表转角区域;c代表无规则卷曲区域。

2.4 flic蛋白的跨膜区预测结果

跨膜结构域是膜中蛋白与膜脂结合的主要部位,一般由20个左右的疏水氨基酸残基组成,形成螺旋,与膜脂相结合。预测和分析跨膜结构域,对认识蛋白质的结构、功能、分类以及在细胞中的作用部位均有一定的意义。利用TMpred服务器对flic蛋白进行跨膜区预测。结果表明,在21Ala~38Ala(氨基酸编号)之间存在跨膜区的可能性最大(见图2)。

2.5 flic蛋白的B细胞表位预测结果

根据Chou-Fasman预测方案,在flic氨基酸序列的第53~59、54~60和55~61三个区域内最有可能形成转角结构(图3);Emini方案预测结果显示,在第55~61区域,flic蛋白的表面克及性分值最高(图4);Kolaskar方案预测flic蛋白的抗原指数最高值位于152~158(图5);Parker方案预测flic蛋白的亲水性区域主要集中于第 64~70和152~158(图6)。

综合以上各种方案的预测结果,经分析表明,虽然不同方案预测得到的能形成B细胞表位优势区的数量和所跨区域有所不同,但对55~61和152~158两区段,各种方案所预测的参数值均高于其他区段,而且两区段中极性氨基酸所占比例较大(肽段55~61的氨基酸序列为:色氨酸-脯氨酸-精氨酸-天冬酰胺-脯氨酸-天冬氨酸-丝氨酸;肽段152~158的氨基酸序列为:苏氨酸-谷氨酸-苏氨酸-丙氨酸-苏氨酸-丝氨酸-甘氨酸)。因此,以上两区段形成B细胞表位优势区的可能性最大。

3 讨论

鞭毛作为细菌的运动器官,在细菌的感染与免疫及细菌分类鉴定等方面发挥重要作用。由于研究技术的限制,人们最早研究鞭毛是从它的染色方法开始的,随着现代分子生物学技术的飞速发展,人们开始从基因水平来研究鞭毛作为运动器官的分子机制及其毒力相关基因[15,16,17,18,19]。

生物信息学是一门由生物、数学、计算机相交叉的学科,采用各类分子生物学数据库和分析软件对已知的核酸和蛋白质序列进行比对、分析、建立计算模型, 从而对其结构、功能进行推断及预测, 已成为生物信息学研究的一种趋势[20]。蛋白质的组成、结构决定其功能,通过研究蛋白质序列结构特征来阐明蛋白质的功能和蛋白质细胞定位是科学的[21]。本研究首次借助于计算机技术和生物学软件对APP flic蛋白的二级结构和潜在的B淋巴细胞抗原表位进行了预测和分析。其中,GOR4方法是一种基于统计的预测方法,将蛋白质的氨基酸残基当做一连串的信息值来处理后进行预测;PHD方法采用神经网络模型进行预测,是当前公认的预测效果较好的方法之一;SOPMA方法是通过比对不同氨基酸残基在特定结构内部的一致性来预测蛋白质的二级结构,因此三种方法预测的结果有所不同,综合三种方法预测结果表明,该蛋白含有较多的无规则卷曲结构和,无规卷曲是比较松散的结构,易于发生形变,以突出到蛋白表面,有利于与抗体结合,因此这些区域有成为抗原表位的可能性较大,而预测结果中的55~61和152~158两区段均位于无规则卷曲区域内,二者相符合。

当前,预测B细胞抗原表位一般依据多参数综合考虑, 以克服单参数预测模型的局限性, 提高预测的准确性。其中尤以亲水性参数、可及性参数、二级结构预测为重要[22]。本文经过亲水性方案、可及性方案、柔韧性方案、抗原指数以及结合二级结构预测等综合考虑, APP flic的B细胞表位可能位于氨基酸残基55~61和152~158两区域内或其附近。

蛋白二级结构 篇7

在蛋白质结构中,2个平行的β-strand被较长的loop连接,loop中间包含α螺旋(α-helical),并且2个β折叠片之间存在氢键,形成的结构模体β-loop-α-loop-β叫做β-α-β模体,它是含有平行的β折叠(sheet)的蛋白质中的常见模体[1,5]。因此,对β-α-β模体的统计分析及预测是十分有意义的。

在本文中,对1423条相似性小于33%的蛋白质链中包含的β-α-β模体和非β-α-β模体作为训练集,5交叉检验预测总精度和相关系数分别是75.51和0.49。将此模型应用于另外1个独立检验集进行检验预测精度达到72.23%。

1 材料和方法

1.1 材料

数据库选取了EVA的1423个相似性小于33%的蛋白质作为训练集[4],同时选取了426个非冗余的蛋白质链组成,作为独立检验集。文中对训练集,获得二级结构为ECHCE模式的片断为3878个,利用PROMOTIF[3]获得β-α-β模体分别为1622个,与ECHCE模式相匹配的1459个片断确认为β-α-β,其余2419个确认为非β-α-β;对独立检验集,有257条蛋白质链中至少包含一个β-α-β模体,这个数据库中共得到310个β-α-β模体和480个非β-α-β模体。

1.2 最佳序列片段长度的选取

由于二级结构是形成蛋白质超二级结构的基础单元,而超二级结构的构象类型与连接肽所连接的二级结构单元的种类、连接肽的长度以及连接肽残基的构象密切相关,所以有必要对序列对应的每一种二级结构进行详细的统计和分析,过程如下:

由于Loop-α-Loop结构中含有6~29个氨基酸的序列数占83.6%,为保证大部分序列被选入,且所选取的序列两端β折叠至少含有2个氨基酸残基,序列总长确定为33个氨基酸残基。确定β-α-β模体的固定长时采取以Loop-α-Loop为中央标准位置对齐,选取时需满足:当序列总长大于33时,只保留Loop-α-Loop长小于等于29的序列。选取方式参考了Kuhn[2]、Kumar[4]和Cruz[3]等的对β发夹固定模式片段截取方法。

1.3 方法

1.3.1 矩阵打分算法(PCSF)

此算法分为下面3步介绍

1.3.1. 1 位置打分矩阵的构建

考虑到氨基酸频率计数时的标准偏差的影响,引入了伪计数[6]来计算折叠子的位置概率作为打分矩阵的矩阵元,公式如下:

其中,l表示参数的个数,j表示各种参数,Ni表示第i个位置上所有参数出现的总数,nij表示第i个位置上第j种参数出现的频数,P0j表示参数j出现的背景概率。

1.3.1. 2 位点保守性参量

位点的保守性参量反映了位点氨基酸的保守性,位点的保守性参量Ii,定义如下:

1.3.1. 3 矩阵的相似性打分函数

根据(1)的矩阵元定义和(2)位点的保守性参量定义,可以组合成下列的打分函数:

F(S)称为片段打分值。其中,pi,mi n和pi,max分别是位置概率矩阵的第i列上出现的最小值和最大值。Ii由公式(2)可以求得。

1.3.2 距离函数(DM)

距离函数(DM)可以衡量所研究的样品之间存在的相似性,已被成功的应用于蛋白酶的预测研究。距离函数的计算公式如下[9]:

其中P表示20维向量(f1,f2,….f20),fi表示第i个氨基酸(20个氨基酸)出现的概率,P·Pi表示P和Pi的点积,‖P‖和‖Pi‖分别是它们的模。可以证明0≤△(P,Pi)≤1。

序列片段P被预测为△(P,Pβ-α-β)和△(P,Pnon-β-α-β)中的最大值所属的类别,可以由下面的公式表示:

1.3.3 二次判别方法(DQ)

由Chou等人提出的二次判别方法(DQ)是协方差判别函数的应用。具体计算为:

ξ将给出片段所属类别。

使用QD方法预测β-α-β和非β-α-β,对任意一序列片段,组合由PWM方法得到的2个分值、DM方法得到的2个距离值,将这4个值作为QD的输入参数。

1.3.4 精确评价指标

为了评价预测的正确率和预测方法的可信度,精度(S)、相关系数(Mcc)、β-α-β模体的敏感性(Sn)、非β-α-β模体的敏感性(Sn N)、β-α-β模体的特异性(Sp)和非β-α-β模体的特异性(Sp N)如下计算:

p为真阳性样本序列数,r为真阴性样本序列数,u假阴性样本序列数,o为假阳性样本序列数。

2 结果与讨论

训练集5交叉检验的预测结果

2.1 QD方法的预测结果

为了进一步提高预测性能,组合上述计算的PCSF和DM值作为QD的输入参数,得到了较好的预测结果见表1。Mcc的值上升为0.49,总精度也提高到了75.51%,预测效果得到了改善。

2.2 独立检验集中β-α-β模体预测结果

为了检验预测方法,对独立检验集中的β-α-β和非β-α-β模体使用同样的方法进行预测。对独立检验集分别使用PCSF、DM和QD方法的预测结果见表2。

由表2的预测结果可以看出,独立检验集使用QD方法的预测结果好于PCSF和DM方法,独立检验集中的Mcc值0.43,预测总精度72.23%。

3 结论

本文使用的数据库包含的蛋白质结构类型有全β型、α+β型和α/β型,选择的数据库远远大于Taylor和Thornton在1983和1984年对β/α类的18个蛋白质中的62个β-α-β模体进行预测的数据库[5,6],而且本文进一步运用了距离函数,以组合向量为参数进行预测,预测效果得到了明显的改善。成功的预测指出:应用的参数包含了模体的序列信息和结构信息;距离函数的引入,更反映出了数学模型应用于蛋白质超二级结构是成功的;用打分函数和距离函数值来表示位点氨基酸组分信息,保证了序列片段的保守性。因此基于数学模型的组合向量的二次判别方法是一种预测酶蛋白质中复杂超二级结构的有效方法。

摘要:蛋白质超二级结构β-α-β模体是蛋白质的重要组成部分,所以蛋白质超二级结构β-α-β模体的研究有重要的生物学意义。根据蛋白质超二级结构的保守性,用打分值、距离函数值构成的向量来表示序列信息,通过二次判别方法对蛋白质中β-α-β模体进行识别,得到了较好的预测结果。

关键词:蛋白质结构预测,β-α-β模体,打分矩阵,距离函数,二次判别方法

参考文献

[1]阎隆飞,孙之荣.蛋白质分子结构[D].清华大学出版社,1999:43-59.

[2]Kuhn,M,Meiler,J.and Baker,D.Strand-loopstrand motifs:prediction of hairpins and diverging turns in proteins[J].Proteins:Struct Funct Bioinform,2004(54):282-288.

[3]Cruz,X,Hutchinson,E.G,Hepherd,A.S.et al.Toward predicting protein topology:an approach to identifying B hairpins[J].Proc Natl Acad Sci,USA,2002(99):11157-11162.

[4]Kumar,M,Bhasin,M.Bhair Pred:prediction ofβ-hairpins in a protein from multiple alignment information using ANN and SVM techniques[J].Nucl Acids Res,2005(33):154-159.

[5]Taylor,W.R,Thornton,J.M,Recognition of supersecondary structure in proteins[J].Mol Biol.1984 Mar15,173(4):487-512.

上一篇:盈利预测信息下一篇:公允价值审计