蛋白质功能预测(精选9篇)
蛋白质功能预测 篇1
在维系生命活动过程中,蛋白质作为生物功能的载体起非常重要的作用,传统观点认为蛋白质序列决定蛋白质的结构,从而决定了蛋白质的功能,三维结构是其实现功能的必要前提[1,2]。然而,并不是所有蛋白质都能形成固定的三级结构,有些蛋白质肽链呈伸展状态,结构比较松散,却具有正常的生物学活性,研究人员将这一类孤立状态下缺乏特定三级结构而具有正常功能的蛋白质称为固有无序蛋白(intrinsically disordered proteins,IDPs)[3,4]。依据无序蛋白内无序结构的多少将其分为完全无序蛋白(整个蛋白质完全无序化)[5]和部分无序蛋白(某些区域含超过30个氨基酸残基的无序区)[6]。近年来的研究表明,生物体内普遍含有IDPs,它们广泛参与蛋白质聚集、蛋白质磷酸化、分子识别、信号转导、DNA转录翻译等生理过程,对生命活动的顺利进行具有重要的作用。对IDPs特征和功能方面的认识及研究现状的了解,有助于我们深层次的理解它们的重要性。本文从序列、结构特点,预测和鉴定方法,功能等方面对IDPs作一综述。
1 固有无序蛋白序列、结构特点
1.1 序列特点
在生理条件下蛋白质氨基酸序列决定其是有序化还是固有无序化状态。IDPs编码基因的核苷酸与有序蛋白不同,其富含鸟嘌呤核苷酸和胞嘧啶核苷酸[7],这使得IDPs在氨基酸组成上与有序蛋白存在明显差异[8]。组成IDPs的氨基酸序列具有比较明显的偏性特征[9],疏水性氨基酸含量较低,而亲水性氨基酸含量较高,IDPs富含E、K、S、Q、P、D、T等氨基酸[10]。另外,IDPs在序列上常出现重复的区域,所以其序列复杂性低于有序蛋白质[11]。IDPs无序区和有序区氨基酸分布具有不对称性,主要是由于IDPs有序区与无序区氨基酸序列在疏水性、平均电荷等多种理化性质方面存在差异造成的。
1.2 结构特点
通常在溶液里,IDPs存在多种构象不断动态变化,主要是由于IDPs较高的未被中和的电荷产生了强烈的静电排斥,无法形成稳定的疏水核心[12],所以IDPs很难形成稳定的结构。在生理条件下,由无序区造成IDPs的构象变化使其整体或部分没有确定的三维结构[13],原子位置和主链的二面角的平衡值随时发生变化,主要存在熔球态[14]、前熔球态、无规卷曲这三种构象。IDPs结构具有灵活性,当与其他物质结合时,为形成相对稳定的结构,它们会诱导其构象由无序向有序转变,即诱导折叠,这个过程通常被称为折叠与结合的耦合[15]。尽管IDPs与受体结合后局部区域发生折叠变得更加有序,但肽链上的局部区域仍可能是无序的[16]。
研究发现,IDPs分子间的相互作用力弱于其与受体间的相互作用力,也就是说,IDPs结合状态下的有序结构主要靠其与受体间的非共价键作用力来稳定[17]。在细胞内部空间拥挤的条件下,因组成蛋白质的氨基酸序列不同,IDPs的构象也会发生改变。理论上讲,由于溶液中大分子的存在使得自由空间相对减小,所以蛋白质更倾向于形成体积较小的构象[18]。这种构象可能是非折叠态或是有序折叠态。
2 固有无序蛋白的预测、鉴定
2.1 预测方法
IDPs的功能位点大多分布在无序区,所以无序区是其发挥功能的主要区域,因此判断蛋白是否无序可着手于预测蛋白质无序区。有关IDPs的预测越来越受到人们的重视,著名的蛋白质结构预测大赛(Protein Structure Prediction Center,CASP)[19]从第五届开始就已经把IDPs的预测列为其中一项重要的比赛内容。
已开发出的无序区预测方法大致可分为三种[20]:第一,利用支持向量机(SVMs)、人工神经网络等机器学习法结合贝叶斯等多种分类方法开发的算法。如发展比较完善的基于氨基酸序列特征对无序区进行预测的PONDR[21]系列分类器可以根据序列对IDPs的长短区域进行分类预测[22]。而随后发展的对训练数据库不敏感的SPINE-D[23]可以高度精确的预测长短无序区。仅凭单核处理器在几小时内鉴定全基因组的ESpritz[24]可同时快速并准确地对多条蛋白序列进行预测。这为IDPs蛋白组学研究提供了条件。DISOPRED3[25]采用一种新型SVM分类器可对无序区和蛋白质结合位点进行预测,利用SVM和长区域神经网络预测无序区,更易于整合、更新数据和维护。这类软件虽然在IDPs预测方面表现很好,但由于它们的black-box性质通常缺乏对潜在机制的解释。第二,结合多种预测算法的元方法,这种方法不直接根据输入的信息预测IDPs,而是运行几个预测程序,通过一系列程序并考虑所有结果做出最后的综合预测。如PONDR-FIT结合了包括PONDR VLXT、VSL2、VL3、Fold Index、IU-Pred、Top IDP在内的6种独立的预测方法,通过八折交叉验证训练的单层人工神经网络整合6种预测方法的结果,精度分析表明PONDR-FIT与这6种方法相比准确度平均提高11%。已经通过实验数据证实,由8种主要基于序列信息的预测软件形成的Dis Meta[26],在许多蛋白质样品生产方面非常成功。这种方法还提供二级结构、信号肽、跨膜螺旋区和由PROFsec、Signal P、TMHMM和SEG形成的低复杂性区域的分析。此类算法由多种初级预测软件组成所以其预测速度相对较慢。第三,理论上运用相关特征参数,发展出的基于IDPs氨基酸理化性质的预测软件。如人们熟知的Fold Index[27]、IUPred[28]、和Fold Unfold[29]等。随后发展的Is Unstruct[30]采用伊辛模型并基于统计物理学识别无序区。这种方法在长短无序区预测方面表现很好,其准确率高于PON-DR-FIT。此类方法快速简单,但是不能优化利用数据,通常精确性不如前两类方法。
目前开发的预测算法逐步趋于专门化,但对于IDPs与DNA、RNA、蛋白等生物大分子的相互作用结合位点的预测算法的研究较少,而且对短无序区和蛋白C端、N端无序性预测的准确率还有待提高。所以应加深对无序区结构、理化特征的研究。通过实验手段深入探究IDPs与其他配体互作的结合位点获得的最适特征参数来设计预测算法,分析互作时结合位点的氨基酸残基[31,32],并考虑固有无序蛋白和结构化蛋白训练集中的错误率,扩大分类器搜索空间,减少过拟合现象,以此来提高预测的准确度。随着人们对IDPs生化性质的深入了解,对无序区域的预测质量将得到进一步提高。
2.2 鉴定
实验鉴定IDPs的方法主要分为两种,第一,根据IDPs的理化性质来鉴定IDPs。利用IDPs普遍的热稳定性、对蛋白酶的敏感性及其在SDS凝胶电泳中表现出的低流动性特征来判断无序蛋白。第二,基于物理化学的实验方法对IDPs进行表征,主要包括核磁共振(NMR)[33]、X射线晶体衍射技术(X-Ray)[34]、圆二色谱法(CD)[35]、荧光光谱(Fluorescence Spectroscopy)、振动性圆二色谱法(Vibrational circular dichroism)、拉曼光谱(Raman Spectroscopy)[36]、沉降法、傅里叶变换红外法、小角度X射线散射(SAXS)等。其中NMR是研究无序蛋白结构最为常用的手段,无序蛋白H化学位移通常限制在8.0~8.5 ppm[37]。由于IDPs的结构是动态变化的,为获取氨基酸水平的动态信息,可用NMR方法对瞬间出现的二级、三级结构进行检测,判断蛋白无序的程度。
为了有效区分IDPs和有序蛋白质可以综合利用多种实验方法,可以对具体IDPs的构象和功能特征深入研究,为系统认识IDPs的功能机制奠定实验基础。然而,这些实验手段并非对所有蛋白都适用,如NMR目前无法测定结构庞大的蛋白质结构。且实验周期长、成本高,还存在技术问题。至今为止,大规模测定IDPs的结构还很困难,所以IDPs的实测数据较少,只有在结构测定方面取得突破性进展才能在蛋白质组范围内进行大规模研究。可以综合运用计算方法和预测软件,对已测数据进行统计分析并对未知的实验无法测定结构的蛋白进行预测。
3 固有无序蛋白的功能
3.1 分子功能
IDPs的原子内部的分子间相互作用比较小,肽链相对伸展,自由度较高,容易发生各种构象变化,而这种变构效应也是实现功能复杂性的机制之一[38]。Disprot[39]数据库(http://www.disprot.org/index.php)根据其收录的IDPs归纳了IDPs所具有的几种不同功能:首先,作为分子伴侣,帮助其他蛋白质或RNA实现正确的折叠状态,防止蛋白聚集,并促使折叠错误的蛋白质重新折叠,如拟南芥中ERD10和ERD14能阻止高温诱导的聚合和各种基底失活,减少细胞失水,从而维持细胞的渗透平衡[40]。其次,作为修饰位点,通过化学添加剂或蛋白酶切割实现蛋白质修饰。泛素化位点、糖基化位点、甲基化位点和磷酸化位点等是IDPs上主要的修饰位点。由于无序区富含磷酸化位点,且被大量的翻译后修饰,说明IDPs很可能是大量激酶和其他修饰酶的底物。第三,作为分子识别效应器,允许多个伙伴高特异性、低亲和力的结合,且通常用于信号转导。IDPs与蛋白质、核酸、配体相互作用来启动和调节大部分的分子过程。如两种折叠后结合的效应器p21和p27,可以结合多种受体分子,从而形成不同的复合体,它们分别调节不同的负责控制哺乳动物细胞周期连续的周期依赖性激酶(Cdk)。第四,分子组装,IDPs可组装、调节和稳定蛋白复合物,如核糖体的装配,其依赖蛋白质和RNA一系列的协同结合步骤。虽然,rRNA折叠初期可能是由RNA本身驱动的,但是,通过结合rRNAs,核糖体蛋白随后折叠,导致RNA和蛋白质的结构变化,并使得复合物向其自然状态转变。第五,作为分子识别净化剂,IDPs与疏水基团结合使其更加可溶,可存储和中和它们的配体,如酪蛋白和其他钙结合磷蛋白(SCPPs)[41]可溶解牛奶和其他生物流体中的磷酸钙集群,唾液富脯氨酸糖蛋白可结合消化道内的鞣酸分子等。第六,存储和帮助消除或中和重金属以解毒,如Mp Dhn12蛋白作为一个功能互补蛋白,可使转Mp Dhn12基因的Cu2+敏感体酵母在高浓度Cu2+下生长,使突变体酵母细胞重新获得Cu2+的耐受性[42]。最后,IDPs可以提供高熵链,由于IDPs构象的无序才使得熵链执行功能。熵链通常连接两个有序的域,并调节它们之间的距离,如微管相关蛋白2(MAP2)投射域,因其排斥接近微管的分子,从而提供细胞骨架的空隙。
3.2 固有无序蛋白与人类疾病
随着越来越多的IDPs被发现,人们对其功能有了一定的认识。IDPs在细胞生物学和分子生物学上具有重要的生物学功能[43]。IDPs的无序区在需要许多生物元件相互作用的信号转导和信号通路等生物过程及蛋白互作网络[44]、蛋白活性调节、大蛋白复合体组装过程中[45]起到了非常重要的作用,对大部分低吸引力、高特定性蛋白质相互作用来说是必需的[46]。
IDPs重要的生物学功能以及在蛋白质相互作用网络中的核心地位使得IDPs与各种人类疾病相关。许多疾病相关位点处于固有无序区域,而且IDPs丰度改变也可引起某些疾病的发生,尤其是某些复杂疾病,例如癌症、糖尿病、神经性疾病以及心血管疾病,都被证实与IDPs相关[47]。通过生物学实验得知一些IDPs的病理学功能,所以IDPs的深入研究对疾病治疗也具有重要意义。IDPs的研究不仅为疾病治疗和蛋白的全新设计提供新选择,而且为药物靶点的设计提供新思路。以IDPs为基础设计药物应用前景非常广阔,可能对药物开发产生重大影响[48]。
3.3 固有无序蛋白与植物抗逆性
生命形式越高级则IDPs的含量就越多,即蛋白质中无序区域含量的增加是生物进化的一个重要特点。越来越多在环境应答方面发挥重要功能的IDPs在植物中被发现,如ASR1蛋白的表达可以提高植物抗盐、耐旱的能力[49]。在拟南芥中将近23%的蛋白质被预测为完全无序[50],IDPs缺乏稳定结构使得它们能够促进植物遇到胁迫条件时的相关功能[51],可使植物在遭遇胁迫时迅速反应,减少细胞损伤。
生物系统中由各种生理过程构成复杂的互作网络,中心节点蛋白质必须可以和大量不同的配体结合。基于IDPs的结构特点,中心节点上的蛋白均具有大量的无序序列。通过对蛋白质互作数据库研究发现[52],非生物胁迫信号通路中的关节点蛋白亦包含大量的无序区,基于它们在中心节点蛋白执行功能时的作用,对IDPs特殊功能域的研究将成为关注焦点。根据已有的实验数据可以清楚地了解到IDPs与植物抗逆性强烈相关,因此IDPs被视为作物品种改良中具有潜在应用价值的一类蛋白。
4 展望
随着蛋白质组学研究的发展,基于IDPs的非折叠蛋白质组学开始受到重视,并逐渐成为研究热点。有关IDPs的研究已经成为蛋白科学领域非常重要的组成部分。揭示、阐明IDPs的生物学功能是IDPs研究的核心问题之一。目前国内外对IDPs的研究主要包括以下三方面:第一,通过实验手段对IDPs的特征、功能特性进行深入研究。第二,开发预测软件分析IDPs氨基酸相关特性并推断其可能的功能以及高通量实验数据分析。第三,对与疾病相关的IDPs的动力学性质及其在药物开发方面的应用进行研究。
对IDPs的研究不仅有利于对蛋白质折叠机制的研究,帮助人们更好地测定蛋白质的结构,还有助于蛋白质设计,可能成为新的药物靶标[53],对提高植物抗逆性也具有重要意义。迄今为止,关于IDPs的研究成果大多基于功能及结构的预测,对蛋白无序性的精准预测仍有很多障碍;而且缺乏基于IDPs变构效应的多样性生物学功能的实验研究,尤其是IDPs特殊功能域的鉴定方面;对IDPs怎样与多种靶分子特异性结合及它们之间的互作应答机制等诸多问题有待研究。因此,精确高效地分析IDPs的结构及功能特性将是解决问题的关键,可通过综合利用预测及实验方法,开发有针对性的专门化预测软件,通过NMR、X-Ray等实验方法获得IDPs结构相关的实测数据后,利用基于蛋白互作的蛋白质体外结合实验等生化方法,筛选目的蛋白及证实蛋白间的互作。总之,深入研究IDPs,对与IDPs相关疾病的药物开发和植物抗逆机制的研究具有指导意义及实际的应用前景。
摘要:固有无序蛋白是一类在天然条件下没有稳定单一的三维结构,存在多种动态互变结构,与传统蛋白不同类型的蛋白质。这类蛋白普遍参与多种生理过程,具有特定的生物学功能。该文对固有无序蛋白的序列、结构特点进行了介绍,总结了无序蛋白预测和鉴定方法,对固有无序蛋白的分子功能和抗逆机理进行了阐述,最后对其在国内外的发展趋势及应用前景进行了展望。
关键词:固有无序蛋白,结构,预测,功能
蛋白质功能预测 篇2
根据相同立体结构中的各部分只需一个旋转矩阵就能将两者叠合在一起的基本原理,对原有的结构比较方法作了改进,使其比较速度得到很大提高.尤其是对相似蛋白质结构的比较,速度的提高更为显著.由于在蛋白质天然构象的一致性分析中,模型结构之间的比较是其计算时间的.瓶颈,因此本法对提高一致分析方法的计算效率有着重要的意义.
作 者:徐建平方慧生 相秉仁 XU Jian-ping FANG Hui-sheng XIANG Bin-ren 作者单位:徐建平,相秉仁,XU Jian-ping,XIANG Bin-ren(中国药科大学分析测试中心)
方慧生,FANG Hui-sheng(中国药科大学生命科学与技术学院,南京,210009)
蛋白质功能预测 篇3
罗非鱼是原产于非洲的热带鱼类, 现已成为世界性的主要养殖鱼类。由于罗非鱼雄鱼比雌鱼生长快40%~50%, 因此提高罗非鱼的雄性率具有重要的理论与实践意义。本研究在已获得的奥利亚罗非鱼DMO基因序列的基础上, 运用生物信息学方法对其蛋白质的结构和功能进行了预测和分析, 为实验室研究奥利亚罗非鱼DMO基因编码蛋白的功能, 明确其与性别调控的关系奠定了基础。
1 材料与方法
1.1 材料
DMO的核苷酸序列测定参见笔者所在实验室的研究[15], 基因登录号为:AY487938。
1.2 方法
按照http://www.us.expasy.org、http://www.ch.embnet.org、DNAStar及NCBI上提供的核酸、蛋白质在线分析工具进行。氨基酸组成分析利用DNAstar的EDITSEQ工具;二级结构预测利用SOPMA分析工具;三级结构预测利用SWISS-MODEL和CPHmodels-2.0 Server工具;信号肽预测利用signalP分析工具;跨膜结构分析利用TMPRED;蛋白质的亲/疏水性分析利用DNAstar的Protean工具;卷曲螺旋结构利用COILS工具;基序分析利用PROSITE工具;功能结构域分析利用NCBI CD-Search service工具。
2 结果与分析
2.1 DMO的氨基酸序列结构组成特征分析
由图1可知, DMO基因编码的蛋白质由409个氨基酸组成, 分子量为44.12kD, 理论等电点pI为8.492, 极性氨基酸 (N, C, Q, S, T, Y) 占27.62%, 酸性氨基酸 (K, R) 占11.98%, 碱性氨基酸 (D, E) 10.27占%, 疏水性氨基酸 (A, C, Q, S, T, Y) 占27.13%。
2.2 DMO信号肽预测[16]
由图2可知, DMO在第29处存在信号肽酶切位点的几率仅仅为0.306, 说明该基因不存在信号肽酶切位点, 所以DMO无信号肽, 从而可以推测DMO在细胞质中合成并以可溶性状态保留在原处, 直接作用于胞液中可溶性的代谢物。
C score:Original cut score;S score:Signal score;Y score:General cut score.
2.3 DMO跨膜结构域的预测[17]
跨膜结构域的预测对正确认识蛋白质的结构、功能与细胞定位具有重要意义。利用Tmpred对DMO跨膜域进行预测。结果表明 (图3) , DMO存在两个跨膜结构域, 属于跨膜蛋白类, 说明DMO发生跨膜运动, 到细胞质中发挥作用。
2.4 DMO亲/疏水性分析预测
由图4可知, DMO在第1~17、39~113、153~301、372~410区段为高亲水性区域;余下的少数氨基酸为疏水性的。由此可见, 亲水性残基所占比例远大于疏水性残基, 因此可以推测DMO是亲水性的。
2.5 DMO卷曲螺旋结构的预测
利用Coils分析工具, 对DMO基因的氨基酸序列形成卷曲螺旋的倾向性进行预测, 以window=14为试验参数, 按照几率>50%就可形成螺旋的规则, 比较全重设定和不设定两种情况下的分析结果一致, 得出结论:在DMO氨基酸序列97~112、155~168区域最有可能形成卷曲螺旋 (图5) 。
2.6 DMO功能基序分析
Prosite数据库查询结果表明:DMO可能含有1个亮氨酸拉链结构 (21~42) , 7个蛋白激酶C磷酸化位点 (49~51, 184~186, 191~193, 235~237, 270~272, 294~296, 333~335) , 10个肉豆蔻酰化位点 (59~64, 121~126, 125~130, 129~134, 135~140, 301~306, 304~309, 307~312, 310~315, 350~355) , 5个酪蛋白激酶Ⅱ磷酸化位点 (189~192, 225~228, 227~230, 231~234, 233~236) , 1个cAMP-and cGMP-依赖蛋白激酶磷酸化位点 (296~299) 。从DMO的功能基序分析来看, 提示该蛋白可能在细胞信号传导中发挥作用, 其生物活性可能接受信号途径中多种信号的调控;含有酪蛋白激酶Ⅱ磷酸化位点, 这个位点的磷酸化/去磷酸化可能是调节其活性的方式。
Window=14. Experiment parameter 14; window=21. Experiment parameter 21; window=28. Experiment parameter 28.
2.7 DMO蛋白质结构域分析
由图6可知, DMO含有DM-domain, 而DM-domain是果蝇的性别决定基因Doublesex (dsx) 和线虫的性别决定基因Mab-3所编码的蛋白质都包含的一个新的具有DNA结合能力的保守基序, 并由此通过相似的机制控制着性别的分化发育。因此, 提示DMO与性别调控有关。
2.8 DMO的高级结构预测
2.8.1 DMO蛋白的二级结构预测
由图7可以看出, DMO蛋白含有27.38%的α-螺旋, 8.8%的β-转角和53.79%的无规卷曲。
2.8.2 DMO蛋白的三级结构预测
由图8、9可知, DMO的高级结构中具有两个α-螺旋区域。
3 讨论
随着生命科学实验技术和生物信息学的飞速发展和完善, 利用功能强大的生物分析软件, 对基因和蛋白质的结构和功能进行分析、预测, 反映了未来生命科学发展的趋势。蛋白质的组成、结构决定其功能。通过研究蛋白质序列结构特征来阐明蛋白质的功能和蛋白质细胞定位是科学的。利用核酸/蛋白质分析软件, 从分子水平对DMO氨基酸序列的结构特征进行分析, 预测结果表明:DMO具有两个亲水性螺旋区域, 97~112、155~168氨基酸区域, 没有信号肽, 含有两个跨膜结构域, 发生跨膜运动;包含三个保守的功能结构域, 分别行使性别调控, 使DNA形成二聚体和结合回纹结构的功能。利用SCANProsite软件对这该蛋白质可能的修饰位点进行分析, 发现其有多个位点可以发生磷酸化修饰, 个别位点可以发生糖基化修饰。蛋白质的磷酸化和脱磷酸化在细胞信号传到中起重要作用。磷酸化、糖基化位点可能是DMO蛋白完成其生理功能的结构基础。特别是该蛋白质序列中有多个酪蛋白激酶Ⅱ磷酸化位点, 表明酪蛋白激酶Ⅱ (CKⅡ) 对这两种蛋白生物功能的发挥具有重要的调节作用。
支持向量机方法预测离子通道蛋白 篇4
支持向量机方法预测离子通道蛋白
讨论一种基于蛋白质结构域的方法预测离子通道蛋白.通过将蛋白质的.结构域转化成为固定长度的向量,使用支持向量机方法进行离子通道蛋白的预测,并将预测结果与线性判别分析以及利用InterPro与GO映射规则进行预测的结果进行了比较.通过留一法交叉验证,取得最好的预测效果,敏感度为95.9%,专一性为98.3%.
作 者:涂白 毕然 作者单位:华中科技大学生命科学与技术学院,武汉,430074刊 名:计算机与数字工程 ISTIC英文刊名:COMPUTER AND DIGITAL ENGINEERING年,卷(期):35(10)分类号:Q816关键词:离子通道 结构域 支持向量机 基因本体
蛋白质功能预测 篇5
蛋白质的三维结构预测问题实质上是在巨大解空间中寻找最优解的问题。本文基于AB非格点模型, 采用改进的细菌觅食算法 (Bacteria Foraging Optimization, BFO) 对蛋白质三维结构进行了预测。实验结果表明, 本文方法可以得到相应蛋白质链的近似最优构型。
2 AB非格点模型
AB非格点模型是一种利用神经网络的蛋白质预测模型。在AB非格点模型中, 氨基酸残基类型用一系列二进制变量ζ1, …, ζn表示, 若第i个残基是A, 则ζi=1, 若第i个残基是B, 则ζi=-1。蛋白质预测问题可以转化成在解空间找到合适的末端键角θi (-π, π) (i=2, …, n-1) 使得分子内势能函数φ (θ) 达到最小值的约束最小值问题:
3 基于改进BFO的蛋白质三维结构预测
BFO是一种仿生随机算法, 虽然该算法有诸多优点, 但在解决高维问题时仍存在早熟问题。本文将交叉和变异算子引入到标准BFO算法的繁殖操作中, 提高算法的收敛性能和寻优速度。然后将改进后的BFO算法应用到蛋白质三维结构预测, 以确定末端键角θi (i=2, …, n-1) 。算法具体步骤如下:
Step1:初始化算法参数, 包括细菌种群大小N、细菌的移动步长C、细菌最大前进次数Ns、趋化算子次数Nc、繁殖算子次数Nre和迁徙算子次数Ned。
Step 2:随机初始化菌群位置, 并设置循环变量。
Step 3:进入标准BFO算法的趋势循环执行趋势化操作。
Step 4:进入繁殖循环, 执行改进繁殖操作。首先, 将按式 (1) 计算出的适应度函数值按从小到大排序, 选出最优细菌作为精英细菌。然后, 按式X1 (i) =λX (i) + (1-λ) X (best) 将适应度较差的N/2个细菌与精英细菌进行杂交生成N/2个新细菌, 其与未进行交叉操作的N/2个细菌组成新的子细菌群X1' (i) , 其中λ为[0, 1]间均匀分布的随机数。再次, 按式X2 (i) =X (i) +Y对适应度值较好的N/2个细菌进行变异操作, 生成N/2个新细菌, 其与未进行变异操作的N/2个细菌组成新的子细菌群X2' (i) , 其中Y服从标准正态分布。最后, 将子细菌群X1' (i) 和X2' (i) 中适应度值最优的前N个细菌挑选出来替换原细菌群。
Step 5:入标准BFO算法的迁徙循环执行迁徙操作。
Step 6:如果没有满足终止条件, 则返回Step 3;否则, 退出算法, 得到最优解。
4 实例分析
为了验证本文中的蛋白质三维结构预测方法的有效性, 使用国际上常用的算例-斐波拉切数列进行预测。为了比较, 这里还使用了PERM算法进行预测。改进BFO算法的参数设置如下:细菌种群大小N=40、细菌的移动步长C=0.05、细菌最大前进次数Ns=3、趋化算子次数Nc=40、繁殖算子次数Nre=5和迁徙算子次数Ned=5。实验结果如表1所示。从表1中可以看出, 相对于PERM算法, 本文算法得出的最优能量值更接近于目前被公认最优的PERM+共轭梯度法的能量值, 且在一定范围内序列长度越大, 本文算法的预测效果越好。
5 结语
为了克服传统BFO易早熟的缺陷, 本文使用交叉和变异算子改进传统BFO算法的繁殖操作, 并将其应用在基于AB非格点模型的蛋白质三维结构预测问题中。实验结果表明, 与其他方法相比, 本文方法不仅可以得到相应蛋白质链的近似最优构型, 而且对于长序列预测有一定的优势。
摘要:本文首先将交叉和变异算子引入到传统BFO算法的繁殖操作中, 以克服标准BFO易早熟的缺陷。然后基于AB非格点模型, 将改进后的BFO应用在蛋白质三维结构预测问题中。实验结果表明, 与其他方法相比, 本文方法不仅可以得到相应蛋白质链的近似最优构型, 而且对于长序列预测有一定的优势。
关键词:细菌觅食算法,蛋白质三维结构,预测
参考文献
[1]高冶.基于二级结构的蛋白质三维结构预测方法研究[D].海南大学 (硕士学问论文) , 2013 (04) .
蛋白质功能预测 篇6
蛋白质的空间结构在生命科学中扮演着重要的角色,其中,二级结构的预测是蛋白质结构预测中最为关键的一步。当蛋白质信息的迅速增加时,蛋白质二级结构实验测定的速度却远落后于一级结构(氨基酸序列)测定的速度。蛋白质二级结构是连接一级序列和三级空间结构的纽带。因此,根据蛋白质一级结构所提供的信息预测蛋白质二级结构就显得非常必要。
蛋白质二级结构预测发展30年来,经历了大致三个阶段[1],准确率也不断提高。近来,出现了许多方法用于蛋白质二级结构预测。
总的来说,蛋白质二级结构预测可以分为三类:基于统计方法[2,3],神经网络算法[4,5,6],混合方法[7,8]。其中以神经网络算法最好。而本文将一种优秀的构造性学习方法——交叉覆盖算法[9]结合带有进化信息的Profile编码,用于蛋白质二级结构的预测,取得了较好的效果。
2 交叉覆盖算法
交叉覆盖算法是根据神经元的几何意义[10]提出的算法。该算法的思路是:首先,设给定一个输入集K={x1,x2,…,xk}(K是n维欧式空间的点集),设K分为s个子集:K1={x1,x2,…,xm(1)},...,Ks={xm(s-1)+1,xm(s-1)+2,…,xk}。现在求作一个三层网络N构造分类器,也就是求出一组领域将属于不同类的点分开,使属于Ki的点的输出均为“yi”,其中yi=(0,…,1,0,…,0)(即第i个分量为1,其余分量为0的向量),i=1,2,…s。交叉覆盖实际上是交替覆盖,即先求出一个领域C1,它只覆盖一类的点,而不覆盖其它类的点,然后将被C1覆盖的点删去,对剩下的点再求一覆盖领域C2,然后将被C2覆盖的点删去…,如此交叉进行覆盖,直到只剩下最后一类点,将其作为一个领域。
具体的方法如下:
1)任取第i类中尚未被覆盖的点αi,并找出与αi最近的异类点和最远的同类点,它们之间的距离分别设为d1和d2(d2
2)求C(α'i)覆盖的重心α'i,按照步骤1的方法同样求覆盖C(α'i),若此覆盖比原覆盖包含的点数多,则以此覆盖代替原覆盖。
3)通过上面的操作得到一个只含同类点的最大领域,将其所覆盖的样本点删除。
4)重复以上步骤,当取完数据集中的所有类别的覆盖时,结束训练。
识别测试样本的方法是:若一个测试样本被某一领域覆盖,即可以确定其类别,若它不被任何一个领域所覆盖时,按就近原则确定其类别。
3 数据集
选取一个合适的数据集对于蛋白质二级结构预测的精度来说起到一个举足轻重的作用,通常的做法是选择一个数据集,然后通过序列比对的方法寻找其同源信息进行预测。本文采取的数据集是RS-126,这是由从布鲁克海文蛋白质结构数据库中挑选出来的126条蛋白质序列构成的,这些蛋白质的整体同源性低于25%。选择序列长度在80-120之间的序列做为数据集。
4 编码方式
编码方式对于预测蛋白质二级结构也是至关重要的,不同的编码方式对预测的准确率影响很大。常用的编码方式如正交编码,极性值编码,五位二进制编码,Profile编码。本文采取的是Profile编码,Profile编码是一种根据蛋白质家族的信息构成的编码,简单的说,Profile是指在氨基酸序列中每个位点上一种氨基酸出现的概率,将20种氨基酸出现的概率结合起来构成此位点的Profile编码,因此,每一个位点的编码共20维。
5 数据的训练与测试
以窗口划分蛋白质序列,所谓窗口就是按照氨基酸序列的顺序,以大小固定的窗口沿着蛋白质序列向后滑动。每一个窗口所包含的氨基酸片段做为一个样本,其中窗口中间位点残基的二级结构作为这个样本的类别。
6 实验结果与讨论
为了方便比较,本文采取了7交叉验证方法来评估分类器的预测准确性。并采用广泛使用的Q3标准来评估预测精度:
其中:Pα,Pβ,Pγ分别表示判断正确的α类,β类和c类的氨基酸个数,N为氨基酸的总数。
为了说明将核覆盖运用在蛋白质二级结构预测中的可行性,将交叉覆盖算法与其它方法进行比较,结果见表1。
从实验结果来看,交叉覆盖算法的准确率要高于BP神经网络,并且与SVM效果相当。另外,本文选用了一种带有进化信息的Profile编码,通过实验也说明了将交叉覆盖结合Profile编码应用到蛋白质二级结构预测中的可行性。
摘要:蛋白质二级结构预测在蛋白质空间结构预测中起着承上启下的重要作用。近年来,大量的方法应用于二级结构预测中,其中,神经网络算法效果较好。但是,由于传统的神经网络存在结构复杂、学习速度慢、运行效率低、处理海量数据困难的缺陷,大大影响了预测的效果,因此,该文将一种基于构造性神经网络算法,也就是交叉覆盖算法应用于蛋白质二级结构预测中,另外,为了引入更多的同源家族结构的信息,采用了基于概率的Profile编码方式。通过实验证明将交叉覆盖算法运用在蛋白质二级结构预测中的可行性,并且比传统的神经网络方法有了更高的准确率。
关键词:交叉覆盖算法,蛋白质二级结构,Profile编码
参考文献
[1]Rost B.Review:Protein Secondary Structure Prediction Continues to Rise[J].Journal of Structural Biology,2001(134):204-218.
[2]Garnier J.Analysis of the accuracy and implications of simple methods for prediction the secondary structure of globular protein[J].J Mol Biol,1978(120):97-120.
[3]Garnier J.GOR secondary structure prediction method IV[J].Meth Enzymol,1996(256):540-553.
[4]Kneller D G,Cohen F E,Langridge R.Improvements in protein secondary structure prediction by enhanced neural networks[J].J Mol Biol,1990(214):171-182.
[5]Rost B,Sander C.Prediction of Protein Secondary Structure at Better than70%Accuracy[J].J Mol Biol,1993(232):584-599.
[6]Jones D T.Protein secondary structure prediction based on position-specific scoring matrices[J].J Mol Biol,1999,292:195-202
[7]Frishman D and Argos P.Incorporation of non-local interactions in protein secondary structure prediction from the aminoacid sequence[J].Prot Eng,1996,9:133-142.
[8]Geourjon C and Deleage G.Significant improvements in protein secondary structure prediction by consensus prediction from multiple aligments[J].Comput Appl Biosci,1995,11(6):681-684.
[9]张铃,张钹,殷海风.多层前向网络的交叉覆盖设计算法[J].软件学报,1999,10(7):737-742.
蛋白质功能预测 篇7
1 人工神经网络与蛋白质结构预测
神经网络方法在1988年才由Qian和Sejnowski[5]提出。早期的神经网络方法能够得到63%~65%的二级结构预测准确率, 后来随着数据量的不断增长, 各种更为先进的神经网络算法不断出现, 如Rost和Sander提出的PHD方法[6]预测精度达到大约在72%左右, 在很长的一段时间里, PHD方法在二级结构预测方面起了主导的作用。后来, Riis和Krogh[7]研究了二级结构预测的另一种独特的神经网络方法。1999年, Pierre提出双向反馈神经网络预测蛋白质二级结构, 这是近几年第一个从改进网络结构方面提高蛋白质二级结构预测精度。2001年清华大学Sujun Hua和Zhirong Sun提出了采用SVM来预测蛋白质二级结构。预测精度达到75.2%。2004年Yann Guermeura等提出采用多个支持向量机结合 (M-SVM) 方法预测蛋白质二级结构, 预测精度达到76.73%。使用神经网络方法预测蛋白质二级结构使得其预测精度首次超过70%, 并且预测精度一直在不断提高, 因此神经网络在二级结构预测方面被认为是最有前景的方法之一。与前述其它方法相比, 神经网络具有应用方便、计算能力强、预测准确率较高的特点。其缺点是物理意义不甚明确, 结果不易理解和解释。
2 几种神经网络预测蛋白质结构的研究
选用误差反传前向网络 (BP) , 径向基函数网络 (RBF) , 广义回归神经网络 (GRNN) , 串并联叠层网络 (CF) , Elman网络 (ELM) 五种比较典型的神经网络对蛋白质二级结构进行预测研究“[8]所有网络均在MATLAB7.0工具箱中运行”。
2.1 几种神经网络的预测结果
以若干蛋白质氨基酸序列数字编码作为输入, 用五种网络学习并预测, 所得结果见表1:
可知, 各网络对预测集的预测结果以GRNN最佳, 整体准确率达到76.2%。根据计算可知, 网络隐层节点数的选取、隐层单元节点中心的选择、平滑参数的确定及网络权值的赋值对预测结果均有较大的影响, 特别平滑参数的选择对网络预测性能的影响非常大, “其中对GRNN网络, 学习的过程只是平滑参数调节的过程”。因此, 网络学习快速、稳健。重现性“另外, 其它网络的初始权值随机赋值, 在所给条件下难以达到最佳预测结果”。
2.2 GRNN网络训练集样本数对预测结果的影响
训练集包含有9个蛋白质 (1GCN, 1GUJ, 1ID6, 1PPT, 1Q2F, 1ZNJ, 2BDS, 7API, 1BDS) , 预测结果见表2 (为简便, 预测结果采用整体预测准确率Q3) :
从测试的结果可以看到通过训练后的神经网络模型已经掌握了蛋白质结构和氨基酸组成之间的复杂关系。受条件所限, 否则可能取得较好的预测结果。
3 结果和展望
利用神经网络对蛋白质结构预测, 经过近20年的不断研究, 已取得了非常可喜的结果。在对神经网络的不断改进中, 预测正确率也在逐渐的提高。另外, 利用神经网络对蛋白质三级结构预测的研究也是非常的少, 这也是蛋白质结构预测方面有待研究的课题。我们相信随着生物、数学、物理、化学和计算机等各个领域的不断渗透, 蛋白质结构预测的会有很好的前景。
摘要:蛋白质结构预测在生物信息学研究中占有重要地位。对神经网络在蛋白质结构预测中的应用作了评述。首先, 简要地介绍了人工神经网络, 然后对近年来用神经网络算法解决蛋白质结构预测的研究作了回顾, 并分析了算法的效果和特点。最后, 展望了用神经网络算法解决蛋白质结构预测问题的前景。
关键词:神经网络,蛋白质二级结构预测,预测,准确率
参考文献
[1]Levitt M, Chothia C.Structural patterns in globular proteins[J].Nature, 1976, 261:552-557.
[2]Nakashima H, Nishikawa K, Ooi T.The fold-ing type of a protein is relevant to the amino acid composition[J].J.Boichem, 1986, 99:152-162.
[3]Chou P Y.Prediction of protein structural classes from amino acid composition[A].Pre-diction of Protein Struc.ture and the principles of Protein Conformation[C].New York:Plenum Press, 1989:549-586.
[4]李晓琴, 罗辽复.氨基酸组成聚类、蛋白质结构型和结构型的预测[J].生物物理学报, 1998, 14 (4) :729-736.
[5]Qian N., Sejnowski T.J.Predicting the sec-ondary structure of globu-lar proteins using neural network models[J].J.Mol.Biol.1988, 202:865-884.
[6]Rost B., Sander C.Prediction of protein sec-ondary structure at betterthan70%accuracy[J].J.Mol.Biol.1993, 232:584-599.
[7]Riis S.K., Krogh A.Improving prediction of protein secondary struc-ture using structuredneural networks and multiple sequence align-ments[J].J.Comput.Biol.1996, 3:163-183.
蛋白质功能预测 篇8
三磷酸腺苷(Adenosine 5′-triphosphate,ATP)在分子细胞生物学中扮演着一个重要的角色,如膜运输、细胞活性、肌肉收缩、信号、复制和转录DNA、以及各种代谢过程[1,2]。ATP与蛋白质相互作用是通过蛋白质的ATP绑定位点进行ATP绑定,通过蛋白质-ATP水解提供化学能,利用这种化学能提供动力,蛋白质才能够执行多种生物功能。显然,ATP需要和蛋白质残基(即氨基酸,一维结构上即为蛋白质序列中的若干位点)绑定才能在细胞活动中完成各种任务,因此研究预测蛋白质残基的ATP绑定位点对于人体蛋白质的功能分析显得尤为重要。此外,蛋白质-ATP绑定位点的准确定位也在化疗药物的研发设计[2]中表现出比较突出的价值。因此,准确地定位蛋白质-ATP绑定残基对于人体蛋白质的功能分析和药物设计都具有非常重要的意义。
目前确定蛋白质-ATP作用绑定残基的研究已经取得了很大的进展,然而,随着蛋白质测序技术的飞速发展,已经积累了大量的蛋白质序列数据未标定,传统的生物学实验方法往往遇到实验密集、昂贵、耗时等问题,因此从蛋白质序列出发通过智能计算方法[3]预测蛋白质-ATP绑定位点有着迫切的需求。
Nobeli等人最初研究了在鸟嘌呤和腺嘌呤与蛋白质区别的分子识别方法,开创了用分子识别方法进行鸟嘌呤和腺嘌呤与蛋白质区别的先河,但是实验结果并不十分理想[4]。ATPint是最早被提出的专门用于蛋白质-ATP绑定残基的预测方法[5]。ATPint使用蛋白质序列的位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM)作为基本的特征源。最近,Kurgan等人开发了两个更加准确的预测方法分别为ATPsite[6]和NsitePred[7]。其中,ATPsite主要基于序列、进化信息和二级结构的组合方法识别蛋白质-ATP绑定残基,而NsitePred可以对多种类型的核苷酸进行预测,如二磷酸腺苷(Adenosine diphosphate,ADP)、腺嘌呤核糖核苷酸(Adenosine monophosphate,AMP)等。以上两种方法均使用的数据为227个非冗余的ATP绑定蛋白质,其较大的数据量有利于较好结果的预测。
从机器学习角度看,蛋白质-ATP绑定位点预测是一个典型的不平衡学习问题[8]。不同类别样本的数量很明显不同,比如,ATP227数据,非绑定残基的数量是绑定残基的数量的23倍多。不同类别的样本在不平衡的情况下,直接采用传统的机器学习算法,即使得到了较高的识别率,但对于样本数目较少的正类来说,分类效果则未必好。解决不平衡学习的基本方案是改变样本在不同类别的分布,调整样本分布[9]。而随机下采样是比较常用的调整策略,其做法是从众多的负类样本中随机选取一部分,使正负样本达到平衡,在此基础上执行传统的机器学习算法,提高系统的学习效果[10]。
本文研究了蛋白质-ATP绑定位点预测问题,根据机器学习关于可以将分类问题作为回归问题的特例的观点出发,并根据所研究问题本身的特点,提出了一种基于随机下采样和支持向量回归的蛋白质-ATP绑定位点预测方法。在标准数据集上的实验结果以及与几种最新发布的预测方法的对比结果,验证了本文所提出方法的有效性。
1 数据集
本文所采用的数据集来自Chen等提供的227条非冗余的蛋白质序列(简称ATP227)[6],其中包含3 393个ATP绑定残基,80 409个非绑定残基。从两个类别样本的数据数量中明显可以看出蛋白质-ATP绑定位点预测是一个典型的类别不平衡问题。从相似度角度看,ATP227中任意两条蛋白质序列的相似度低于40%。为了验证本文所述方法的泛化能力,使用了一个包含17条蛋白质序列的独立测试集[7]。该独立测试集中任意两条序列的相似性低于40%,并且独立测试集中任一序列与ATP227中的任一序列的相似性也低于40%。
2 提出的方法
2.1 方法原理与思想
蛋白质-ATP绑定位点预测问题就是要分清蛋白质序列中,哪些位点的残基是绑定的,哪些是非绑定的,这是个典型的不平衡二分类问题,其中绑定位点是样本数目稀少的正类样本,也是最感兴趣的类别,而非绑定位点是样本数目庞大的负类样本。
按照机器学习的观点,可以将分类问题和回归问题统一起来考虑[11,12]。假设给定一批样本(xi,yi),i=1,2,…,n,其中样本点xi∈Rd,对于回归问题,yi∈R,对于分类的问题,这里yi为离散的类别标号。一方面,把回归问题转换为分类问题,相当于将每个yi分别加减一个回归误差允许阈值ε,从而得到第一类样本(xi,yi+ε)和第二类样本(xi,yi-ε),找到的回归曲线尽可能地穿过所有原始样本点,相当于把这两类样本正确分开,原始的回归问题于是转化为分类问题[11],这种情况是平衡的两类分类问题。另一方面,分类问题相当于将高维样本数据xi∈Rd向离散的类标号yi=1,2,…,c(而不是连续的实数)做映射,因此可以将分类看作是回归的特例,这种情况各类样本不一定是平衡的,二分类问题也不例外。但是不平衡会影响回归的精度,举个极端情况来说,比如正类只有一个样本,而负类有很多样本。既然回归问题的几何解释是回归曲线尽可能靠近所有样本点,使得总误差尽可能小,在这种情况下,回归曲线必然靠近占优的负类样本。因为这种情况下,无论正类样本还是负类样本,每个样本点对于回归问题具有同等意义的权重,或者说,少数的正类样本并没受到足够的重视。因此,有必要采取措施,使得正负样本变得均衡。
在蛋白质-ATP绑定位点预测问题中,每个残基属于绑定位点还是非绑定位点,不仅仅取决于残基自身是哪种类型的残基,更在很大程度上取决于附近的残基(即上下结构环境)类型及他们是否是绑定位点,换言之,是否属于绑定残基并非是一个0-1二值逻辑,而是有一定的置信水平的。因此,采用支持向量回归(Support Vector Regression,SVR)的方法,预测某个残基属于绑定残基的置信水平,更接近于问题本身的性质特点,然后选取合适的阈值进行判别,是一个比较合理的方法。基于这种考虑,提出并设计了一个基于支持向量回归的蛋白质-ATP绑定位点预测方法。首先对样本进行适当的平衡化处理,在此基础上,根据上文关于分类和回归问题关系的分析讨论,通过支持向量回归的方法构建模型进行预测。尽管支持向量机(Support Vector Machine,SVM)分类方法(support vector classification,SVC)已被广泛用于蛋白质-ATP绑定预测[13,14]。目前将支持向量回归方法用于蛋白质-ATP绑定预测问题的研究还较少,鲜有这方面的报道。基于以上分析,从蛋白质的序列出发,基于序列的位置特异性得分矩阵,使用滑动窗口抽取序列中每个残基的辨别特征;应用随机下采样策略,消除正负样本存在的显著不平衡;最后,使用支持向量回归模型进行蛋白质-ATP绑定位点的预测,选取最优阈值判别蛋白质-ATP是否绑定,得到预测结果。本文方法流程见图1。
2.2 特征提取与标准化
2.2.1 位置特异性得分矩阵
位置特异性得分矩阵(Position Specific Scoring Matrix,PSSM)能够在一定程度上反映蛋白质序列的进化信息,已经被其他研究者广泛用于生物信息学预测问题中,如蛋白质二级结构预测[13]、蛋白质-ATP绑定位点预测[14,15,16,17,18,19]、蛋白质功能预测[20]、横跨膜的螺旋线预测[21]、亚细胞定位[22,23]等。对于一个包含n个氨基酸残基的蛋白质序列,使用PSI-BLAST[24](默认阈值E-value=0.001)生成n×20的PSSM矩阵。
2.2.2 逻辑斯蒂位置特异性得分矩阵
对PSSM矩阵的每个元素是通过逻辑斯蒂函数进行标准化(称LPSSM)的。逻辑斯蒂函数定义如下:
式中x是PSSM矩阵中原始得分。
2.3 随机下采样和支持向量回归
2.3.1 随机下采样
通常情况下,在一个不平衡的数据集中,采样方法可以使数据集平衡,从而能从不平衡的数据集中得到学习[25,26,27]。对于大多数的不平衡数据集,下采样方法可以提供一个较小的训练集,大量缩短训练和预测的时间,并且能提高分类精确度。随机下采样方法为从小类样本中无重复地随机抽取Smin个样本N次,即数据集较小的绑定位点为正样本,从大类样本中无重复地随机抽取Smax个样本N次,即数据集较大的非绑定位点为负样本,每次随机抽取后正样本和负样本的数量相同,即Smin=Smax,从而得到平衡样本集S=Smin+Smax。
2.3.2 支持向量回归
本文采用支持向量回归方法构建模型,使用广为采用的工具Libsvm[28],在构建模型时,由于潜在的回归模型未必是线性的(实际研究中发现往往是非线性回归模型),为了建立非线性回归模型,先通过某个核函数诱导的非线性映射Φ:x↦Φ(x)把原始数据非线性映射到特征空间中,在特征空间建立线性SVR模型。在实验中,将核函数类型采用径向基函数(Radial Basis Function,RBF)形式,如式(2)所示:
式中γ为核参数。假定一个训练样本集{x,y}1n,训练输入参数xi∈Rn和输出预测值y∈R,SVR预测如式(3)所示:
式中:
式中:qi,qi*为对偶参数且满足式(4)条件;K(x,xi)为核函数。
2.4 算法评价指标
几个经常使用的评价指标,即特异性(Spe)、灵敏度(Sen)、准确性(Acc)、马氏相关系数(MCC)。方法定义如下式:
式中:TP、FP、TN和FN分别代表正类预测为正类样本的个数、负类预测为正类样本的个数、负类预测为负类样本的个数和正类预测为负类样本的个数。预测的效果可以通过混淆矩阵[29]来表示,如图2所示。
在不平衡样本下,这些指标将用于选取最优阈值,并将在下文的实验结果中报告展示。
由于SVR的预测输出参数y是连续实数,而不是离散的类标号(例如在两类问题中,两类样本的类标号可分别标记为+1和-1),需要进行参数转化,选取合适的阈值,将SVR模型输出的连续实数y离散化为相应的类标号。从某种意义上说,SVR模型输出的连续实数y相当于分类器的置信水平,这也正是本文采用SVR回归模型进行蛋白质-ATP绑定预测的原因之一。通过逐步调整分类阈值,产生一系列的混淆矩阵。从每一个混淆矩阵计算对应的Spe、Sen、Acc和MCC指标参数,即四个评价指标对阈值是依赖的,它们随阈值的变化而变化。在样本数量明显不平衡的情况下,评价不平衡学习方法的指标显得尤为重要,而评价参数MCC能够反映不平衡学习的预测综合性能,因此,得到最佳MCC值就对应最佳阈值。
3 结果与分析讨论
3.1 优化滑动窗口矩阵
由于邻近蛋白质残基有相互影响,采用滑动窗口增加蛋白质空间局部信息,进行MCC参数最优选取,如图3所示。由图3所示,MCC值随着滑动窗口从3~17时不断上升,期间上升较为平滑,其主要归因于蛋白质ATP227数据量较大,滑动窗口从17之后MCC值开始下滑,即17为LPSSM的滑动窗口大小的最优值,则对应的特征维数即340(17×20)。
3.2 性能分析
通过5重交叉验证获取预测值,实验发现选取阈值T=1.433时,指标MCC最大。通过参考阈值最优(1.433)时的4项评价指标,非经过逻辑斯蒂标准化之前的数据(OriginalPSSM[30])与经过逻辑斯蒂标准化之后的数据(LPSSM在2.2.2节已介绍)进行比较,如表1所示,可以发现LPSSM比OriginalPSSM四项指标都要高,特别是MCC中要高出约9%,这个效果还是比较明显的。
与ATPint,ATPsite,NsitePred,SVRATP(使用支持向量回归方法)进行比较,其中SVRATP未经过下采样处理,经过下采样后处理的方法称为RUS_SVRATP(random under-sampling,RUS),如表2所示。
注:*数据来自文献[7]。
首先,从SVR和前三种方法(非SVR)比较的角度可以发现:
(1)SVRATP和RUS_SVRATP明显优越于ATPint,SVRATP在四项评价指标中均优于ATPsite;
(2)SVRATP的MCC值为0.544,其分别高于ATP-site、NsitePred各11%和8%。另外NsitePred是最近发布的蛋白质-ATP绑定位点预测方法,但SVRATP略优于NsitePred;
(3)虽然RUS_SVRATP相比ATPsite、NsitePred、SVRATP在Spe和Acc均略低,但是MCC值为0.609分别高出前者17%,14%,6%。
本文也在表2中用到t检验[31],如果产生的p值是低于显著水平(0.05),那么不同表现的两种方法就可以认为具有统计意义。其次,从SVR角度看:
(1)数据方面,RUS_SVRATP比SVRATP的MCC值要好,可能因为不平衡数据经过随机下采样后为平衡数据,负样本对训练中的模型干扰减少,模型更优,所以得到预测结果更好;
(2)预测方面,SVRATP与RUS_SVRATP两者实验结果较好得益于SVR预测结果为连续实数,更加有利于最优阈值选取。
在独立数据集中与不同的蛋白质-ATP绑定位点预测方法进行比较,如表3所示,可看出:
(1)显然RUS_SVRATP在独立测试数据集中表现最好;
(2)其中RUS_SVRATP的MCC值比表现较好的NsitePred高出10%,另外和其他三项评价指标Sen、Spe、Acc都要比其他三个预测方法效果要好,分别高出7.2%,0.5%,0.7%;
(3)另外SVRATP实验结果跟前三种方法对比也较好,这表明SVR对于蛋白质-ATP残基具有良好的预测效果;
(4)从泛化能力角度看,随机下采样后的平衡数据比不平衡数据的数量更少,训练次数更少,预测结果更优,泛化能力更强。
注:*数据来自文献[7]。
3.3 讨论
本文方法性能的改进主要得益于:
(1)logistic标准化处理后使正负样本更具代表性;
(2)不平衡数据经过随机下采样后为平衡数据,负样本对训练中的模型干扰减少;
(3)最重要的一点是用SVR预测模型预测置信度水平的方法取代了传统的硬分类。
除了以上3点主要原因,还有以下两种因素:
(1)在本次实验中,最近公布的Swiss-Prot(www ebi.ac.uk/swissprot)组合了更多的蛋白质序列数据库信息,更加有利于PSI-BLAST[24]方法搜索,因此可以提供更加准确的蛋白质进化信息;
(2)选择核函数时,SVR的性能是由正则化参数和核参数影响的,考虑到这个问题,实验中在两个阶段尽可能的优化这两个参数,首先通过反复实验初步确定网格搜索的间隔,然后对网格搜索间隔进一步优化。最终得到c和g两个参数其值分别为1和0.6。
从以上实验结果可以看出,本文所述方法较之前提出方法[5,6,7]有一定提升,可为相关领域的研究人员特别是生物信息学方面的研究者提供一个新的研究思路,在这类问题的背景中,某个待识别样本的类别归属不仅取决于自身属性,也在很大程度上受到上下结构环境的影响,这时可以采取建立回归模型预测类别归属置信度的方法,即用回归预测取代传统的硬分类,会获得较好的分类效果。
4 结语
本文采用从蛋白质的序列出发,首先使用滑动窗口抽取序列中每个残基的特征;其次应用随机下采样策略,消除正负样本存在的显著不平衡;最后建立支持向量回归模型进行预测,并选取最优阈值来判定蛋白质序列中的每个残基是否是蛋白质-ATP绑定位点,从而得到最终的预测结果。实验从特征提取方法、随机下采样方法和预测方法三个角度进行比较,实验结果表明基于随机下采样和支持向量回归的方法有效地提高了预测精度。
未来的工作包括两个方向:
(1)通过合并新的特征提取方法和较优的分类器方法进一步提高RUS_SVRATP预测精度。例如基于回归的逻辑斯蒂L1标准化特征提取方法[32]已经成功用于活性位点预测;基于多重序列校准的稀疏逆协方差估计方法已经成功用于结构关系预测[33]。这两种新方法为提高RUS_SVRATP预测精度提供了研究方向。
(2)除了研究ATP,还有其他绑定配体类型如金属离子、维生素、二硫键等,因此有效地区分不同类型的绑定配体的绑定机制也为进一步的研究提供了思路。
摘要:将蛋白质序列的ATP绑定位点与非绑定位点进行分类是个不平衡的二分类问题,其中绑定位点是样本数目稀少的正类样本,非绑定位点是样本数目众多的负类样本。根据机器学习关于可以将分类问题作为回归问题的特例的观点出发,并根据所研究问题本身的特点,在此提出一种基于随机下采样和支持向量回归的蛋白质-ATP绑定位点预测方法。首先,使用滑动窗口抽取蛋白质序列中每个残基的特征,得到一批不平衡的两类样本;其次,应用随机下采样策略,消除正负样本存在的显著不平衡;最后,使用支持向量回归建立预测模型,并选取合适的阈值进行蛋白质-ATP绑定位点的预测。在标准数据集上的实验结果以及与几种最新报道的预测方法的对比结果,验证了本文所述方法的有效性。
蛋白质功能预测 篇9
在蛋白质结构中,2个平行的β-strand被较长的loop连接,loop中间包含α螺旋(α-helical),并且2个β折叠片之间存在氢键,形成的结构模体β-loop-α-loop-β叫做β-α-β模体,它是含有平行的β折叠(sheet)的蛋白质中的常见模体[1,5]。因此,对β-α-β模体的统计分析及预测是十分有意义的。
在本文中,对1423条相似性小于33%的蛋白质链中包含的β-α-β模体和非β-α-β模体作为训练集,5交叉检验预测总精度和相关系数分别是75.51和0.49。将此模型应用于另外1个独立检验集进行检验预测精度达到72.23%。
1 材料和方法
1.1 材料
数据库选取了EVA的1423个相似性小于33%的蛋白质作为训练集[4],同时选取了426个非冗余的蛋白质链组成,作为独立检验集。文中对训练集,获得二级结构为ECHCE模式的片断为3878个,利用PROMOTIF[3]获得β-α-β模体分别为1622个,与ECHCE模式相匹配的1459个片断确认为β-α-β,其余2419个确认为非β-α-β;对独立检验集,有257条蛋白质链中至少包含一个β-α-β模体,这个数据库中共得到310个β-α-β模体和480个非β-α-β模体。
1.2 最佳序列片段长度的选取
由于二级结构是形成蛋白质超二级结构的基础单元,而超二级结构的构象类型与连接肽所连接的二级结构单元的种类、连接肽的长度以及连接肽残基的构象密切相关,所以有必要对序列对应的每一种二级结构进行详细的统计和分析,过程如下:
由于Loop-α-Loop结构中含有6~29个氨基酸的序列数占83.6%,为保证大部分序列被选入,且所选取的序列两端β折叠至少含有2个氨基酸残基,序列总长确定为33个氨基酸残基。确定β-α-β模体的固定长时采取以Loop-α-Loop为中央标准位置对齐,选取时需满足:当序列总长大于33时,只保留Loop-α-Loop长小于等于29的序列。选取方式参考了Kuhn[2]、Kumar[4]和Cruz[3]等的对β发夹固定模式片段截取方法。
1.3 方法
1.3.1 矩阵打分算法(PCSF)
此算法分为下面3步介绍
1.3.1. 1 位置打分矩阵的构建
考虑到氨基酸频率计数时的标准偏差的影响,引入了伪计数[6]来计算折叠子的位置概率作为打分矩阵的矩阵元,公式如下:
其中,l表示参数的个数,j表示各种参数,Ni表示第i个位置上所有参数出现的总数,nij表示第i个位置上第j种参数出现的频数,P0j表示参数j出现的背景概率。
1.3.1. 2 位点保守性参量
位点的保守性参量反映了位点氨基酸的保守性,位点的保守性参量Ii,定义如下:
1.3.1. 3 矩阵的相似性打分函数
根据(1)的矩阵元定义和(2)位点的保守性参量定义,可以组合成下列的打分函数:
F(S)称为片段打分值。其中,pi,mi n和pi,max分别是位置概率矩阵的第i列上出现的最小值和最大值。Ii由公式(2)可以求得。
1.3.2 距离函数(DM)
距离函数(DM)可以衡量所研究的样品之间存在的相似性,已被成功的应用于蛋白酶的预测研究。距离函数的计算公式如下[9]:
其中P表示20维向量(f1,f2,….f20),fi表示第i个氨基酸(20个氨基酸)出现的概率,P·Pi表示P和Pi的点积,‖P‖和‖Pi‖分别是它们的模。可以证明0≤△(P,Pi)≤1。
序列片段P被预测为△(P,Pβ-α-β)和△(P,Pnon-β-α-β)中的最大值所属的类别,可以由下面的公式表示:
1.3.3 二次判别方法(DQ)
由Chou等人提出的二次判别方法(DQ)是协方差判别函数的应用。具体计算为:
ξ将给出片段所属类别。
使用QD方法预测β-α-β和非β-α-β,对任意一序列片段,组合由PWM方法得到的2个分值、DM方法得到的2个距离值,将这4个值作为QD的输入参数。
1.3.4 精确评价指标
为了评价预测的正确率和预测方法的可信度,精度(S)、相关系数(Mcc)、β-α-β模体的敏感性(Sn)、非β-α-β模体的敏感性(Sn N)、β-α-β模体的特异性(Sp)和非β-α-β模体的特异性(Sp N)如下计算:
p为真阳性样本序列数,r为真阴性样本序列数,u假阴性样本序列数,o为假阳性样本序列数。
2 结果与讨论
训练集5交叉检验的预测结果
2.1 QD方法的预测结果
为了进一步提高预测性能,组合上述计算的PCSF和DM值作为QD的输入参数,得到了较好的预测结果见表1。Mcc的值上升为0.49,总精度也提高到了75.51%,预测效果得到了改善。
2.2 独立检验集中β-α-β模体预测结果
为了检验预测方法,对独立检验集中的β-α-β和非β-α-β模体使用同样的方法进行预测。对独立检验集分别使用PCSF、DM和QD方法的预测结果见表2。
由表2的预测结果可以看出,独立检验集使用QD方法的预测结果好于PCSF和DM方法,独立检验集中的Mcc值0.43,预测总精度72.23%。
3 结论
本文使用的数据库包含的蛋白质结构类型有全β型、α+β型和α/β型,选择的数据库远远大于Taylor和Thornton在1983和1984年对β/α类的18个蛋白质中的62个β-α-β模体进行预测的数据库[5,6],而且本文进一步运用了距离函数,以组合向量为参数进行预测,预测效果得到了明显的改善。成功的预测指出:应用的参数包含了模体的序列信息和结构信息;距离函数的引入,更反映出了数学模型应用于蛋白质超二级结构是成功的;用打分函数和距离函数值来表示位点氨基酸组分信息,保证了序列片段的保守性。因此基于数学模型的组合向量的二次判别方法是一种预测酶蛋白质中复杂超二级结构的有效方法。
摘要:蛋白质超二级结构β-α-β模体是蛋白质的重要组成部分,所以蛋白质超二级结构β-α-β模体的研究有重要的生物学意义。根据蛋白质超二级结构的保守性,用打分值、距离函数值构成的向量来表示序列信息,通过二次判别方法对蛋白质中β-α-β模体进行识别,得到了较好的预测结果。
关键词:蛋白质结构预测,β-α-β模体,打分矩阵,距离函数,二次判别方法
参考文献
[1]阎隆飞,孙之荣.蛋白质分子结构[D].清华大学出版社,1999:43-59.
[2]Kuhn,M,Meiler,J.and Baker,D.Strand-loopstrand motifs:prediction of hairpins and diverging turns in proteins[J].Proteins:Struct Funct Bioinform,2004(54):282-288.
[3]Cruz,X,Hutchinson,E.G,Hepherd,A.S.et al.Toward predicting protein topology:an approach to identifying B hairpins[J].Proc Natl Acad Sci,USA,2002(99):11157-11162.
[4]Kumar,M,Bhasin,M.Bhair Pred:prediction ofβ-hairpins in a protein from multiple alignment information using ANN and SVM techniques[J].Nucl Acids Res,2005(33):154-159.
[5]Taylor,W.R,Thornton,J.M,Recognition of supersecondary structure in proteins[J].Mol Biol.1984 Mar15,173(4):487-512.
【蛋白质功能预测】推荐阅读:
蛋白质结构及功能预测11-14
结合蛋白质互作与基因表达谱信息大范围预测蛋白质的精细功能10-15
蛋白质功能05-28
蛋白功能09-18
蛋白质08-26
同源蛋白质06-15
蛋白质电泳08-06
植物蛋白质08-14
角蛋白质09-24
白蛋白/球蛋白09-04