生物信息学软件分析

2024-12-26

生物信息学软件分析(共8篇)

生物信息学软件分析 篇1

研究目的:从大量数据中筛选出感兴趣的基因(包括编码基因和非编码基因)。通过下列步骤进行分析和验证:

1.通过生物信息学的方法筛选出候补集合。(中间包括滤除各种噪声或者误差。)

2.定性分析:Reverse Transcription PCR(RT)。看看有没有。

3.定量分析:Quantification PCR。有的话多不多。

4.定全长。RACE。

5.生物功能研究。

可以采用敲除和过表达的方式,并使用chip-seq免疫共沉淀技术,找出该基因和已知蛋白的关系。如果找到已知的蛋白,可以继续研究和该蛋白相互作用的蛋白以及target等的研究。如果效果比较好,可以使用细胞模型,如果细胞模型比较好,可以继续上动物模型,如果动物模型好,可以继续上临床。这样一篇新英格兰级别的文章就诞生了。呵呵。

[生物信息学研究中高通量数据分析的一些套路]

生物信息学软件分析 篇2

关键词:Agilent 6500 Q-TOF MS,代谢组学,Mass Profiler Professional

前言

代谢组学是考察生物体系受刺激或扰动后(如将某个特定的基因变异或环境变化后)其所有小分子代谢产物的变化或其随时间的变化,来研究生物体系代谢途径的一种技术[1]。目前代谢组学在疾病诊断、毒理、植物、营养学等领域有着广泛的应用。代谢组学研究的流程主要包括代谢谱差异分析、潜在生物标记物鉴定及代谢通路分析。

在代谢组学分析的各种技术手段中,LC/Q-TOF MS作为一种先进的分离分析技术,在众多分析方法中脱颖而出,尤其对于非靶标代谢组学分析,其强大的定性分析能力使之被公认为最好的复杂样品分析技术之一,已经被广泛应用于代谢组学的研究领域中。代谢组学是一种系统研究手段,通过数据采集得到的是多维、大量的信息,必须应用化学计量学的手段对这些信息进行提取,进而找出有意义生理学信息。

1 安捷伦完整代谢组学解决方案简介

对于代谢组学分析,安捷伦科技可提供业内代谢物组学研究最完备的分析平台—包括GC、LC、CE、GC/MS、LC/MS和CE/MS等,同时可提供强大的数据处理及软件工具包用于代谢物鉴定、定量和统计分析。安捷伦6500系列Q-TOF MS质谱仪结合安捷伦全新推出的生物信息学软件Mass Profiler Professional(MPP)可以为代谢组学中生物标识物发现及确认提供最全线的解决方案,从而应对代谢组学对分析方法提出的重大挑战。本文将重点对6500 Q-TOF结合MPP软件方案进行详细探讨。

图1为安捷伦Q-TOF MS代谢组学研究平台的示意图。安捷伦代谢组学研究平台包括完整的硬件和软件解决方案,覆盖从样品的分离和检测、代谢物的特征提取、代谢谱的差异统计分析、潜在生物标记物的鉴定及到代谢通路分析的整个分析流程。

1.1分离和检测一6500系列超高解析度飞行时间质谱(Q-TOF MS)

1.1.1安捷伦质谱发展历程简介

安捷伦公司具有悠久的质谱研发历史,从1971年5930 A世界第一台单四极杆气质联用仪开始,近40年来安捷伦在质谱研究与发展的道路上不断开拓创新并推陈出新,在带给用户市场更好的技术及产品的同时,也积累丰富宝贵的质谱经验。过去10年中,安捷伦公司在液质领域中便有近200项技术专利,不但在数量及质量上居众多专业质谱厂家之首,也从而凭借事实及实力逐步成为液质市场的领导者。

在液质领域,目前安捷伦公司可提供全系列的四极杆及飞行时间质谱,如单四极杆液质、三重四极杆液质、飞行时间质谱、四极杆-飞行时间质谱等,根据不同的分析需求,上述质谱系统可为分析人员提供最佳的解决方案。目前安捷伦液质联用系统应用领域遍及药品研发、药代动力学、中药与天然产物分析、临床研究、食品安全监控、环境监测、法医与毒物分析、基因组学、蛋白组学和代谢组学等领域。

此外,安捷伦公司对用户的支持服务十分重视。拥有一批规模庞大、经验丰富的维修及应用支持队伍,为用户解决安捷伦分析仪器的应用操作及保修难题,使他们能充分发挥仪器的性能和效率。这也是安捷伦公司连续多年在市场调查中,名列最佳用户满意度公司的重要原因。由于安捷伦公司是唯一能提供从色谱分离、质谱检测、到数据采集处理的计算机工作站,打印机一体化设计的生产厂家,故更加能够有效保证系统的兼容性和维护服务。

2.1.2安捷伦超高解析度四极杆-飞行时间质谱(Q-TOF MS)简介

2006年,安捷伦液质联用平台全面整合至6000系列产品,其中6500系列四极杆-飞行时间串联质谱(Q-TOF MS)兼具高度的质量精确性和高分辨率、高灵敏度,以及远远超过其它四极杆-飞行时间串联质谱(Q-TOF MS)系统和轨道阱质谱仪的超宽谱图内动态范围。针对药物杂质定性、食品安全筛查、代谢组学和蛋白质生物标志物等复杂样品分析,6500系列四极杆-飞行时间串联质谱(Q-TOF MS)提供用户所需要的轮廓谱分析、鉴定、表征,甚至定量等各种先进功能。

2009年第57届美国质谱年会(ASMS)上,安捷伦公司隆重推出业内超一流性能的超高解析度高分辨质谱(Ultra High Definition(UHD)AccurateMass Q-TOF)。超高解析度飞行时间质谱采用全新设计理念,从独特的离子聚焦技术、离子光学系统、特殊材料的飞行管设计,到高速电路、双增益处理器以及4 GHz ADC离子检测器等独一无二的整体设计,使得该系统能够完美实现超高灵敏度(fg级)、超高分辨率(40000)、超高质量精度(500ppb)以及超快数据采集速度的最佳平衡,并以此建立高清质谱新标准。其BSA酶解产物检测灵敏度可至400 attomole。该系统可与UHPLC完美匹配,获取高品质MS和MS/MS数据而不会引起分辨率损失。其主要技术特点及优势如下:喷射流离子聚焦技术(Agilent Jet Stream Ion Focusing Technology):专利的喷射流离子聚焦技术实现质谱灵敏度的革命性突破。利用该技术,质谱灵敏度可实现数量级的提高,对于很多难以检测的化合物,其灵敏度更是突破fg级水平,从而对药物代谢与药代动力学、食品/环境安全监测、蛋白质组学/代谢组学等复杂基质中痕量化合物的精确定性定量分析提供强大的技术支持,喷射流离子聚焦技术为UHD Q-TOF MS的超一流灵敏度性能提供关键的技术基础。

Ion Beam Compression (IBC)和Enhanced Mirror Technology (EMT)技术:该专利的创新技术巧妙实现离子束的空间压缩、冷却及整形,使得质谱的精确度和分辨率在实现本质提高的同时,可依然保持台式布局。采用上述技术后,安捷伦6538/6540 Q-TOF MS(见图2)在不牺牲灵敏度(fg级)和动态范围(5个数量级)的情况下,分辨率及质量精度可分别达到40000ppb和500 ppb,尤其可确保低质量端的高分辨率及高质量精度,除传统的生物大分子分析外,对食品、药品及环境等小分子分析亦能进一步提高结果的准确性和可靠性。

4GHz高速检测器和模数转换离子采集模式(ADC技术):4GHz高速检测器和ADC技术源于Agilent电子测量部门领先全球的高速示波器技术,ADC技术使质谱检测器可检测并采集所有到达检测器的离子信息,相对于传统Q-TOF MS所采用的时间数字转换模式(TDC技术),ADC技术具有明显的优势并有效弥补TDC技术的固有缺陷,从而实现更宽的扫描内动态范围、更高的质量准确度和更高的质谱分辨率。

与最新芯片-液相色谱系统(HPLC-Chip)无缝联接:随着分离技术的快速发展,微流控技术已成为目前最为先进、高端、热门的分离手段之一,安捷伦芯片液相色谱成功地让上述理念成为现实。插拔式的色谱柱技术彻底消除传统纳流液相色谱/质谱的不足。从微量样品的多肽到小分子样品的定性定量分析,液相色谱-芯片/质谱技术提供

可靠、重现以及超高灵敏度的分析结果。该系统与MS联用,可在最小样品量的情况下使灵敏度水平达到2~3个数量级以上的飞跃;针对不同的分析领域安捷伦可提供10余种不同特点芯片供选择使用,使系统优势得到最大程度的发挥,并获得最佳的分析结果。HPLC-Chip与UHD Q-TOF MS技术联用具有许多传统LC/Q-TOF MS无法实现的优势,结合强大的软件及数据处理工具,已然成为复杂体系分析不可替代的利器。

1.2 特征提取-安捷伦MassHunteir质谱工作站

安捷伦的MassHunter质谱工作站软件包含专利的分子特征提取(Molecular Feature Extraction MFE)功能,可以自动化地实现对高分辨质谱LC/TOF MS及LC/Q-TOF MS数据的化合物特征提取。图3为MFE功能示意图。MFE归纳化合物在质谱图中所有的相关离子(加H+、Na+或K+等各种加合离子、多聚体及同位素离子等)并自动化的进行数据提取,最终实现背景过滤,将包含在总离子流图中所有的代谢产物尽可能全部提取出来,并生成后续代谢谱差异分析所需的包含m/z、保留时间及丰度信息的三维数据文件。

1.3 统计分析-鉴定-代谢通路分析——安捷伦生物信息学软件MPP

安捷伦全新的生物信息学软件MPP集成代谢谱的差异统计分析、潜在生物标记物的寻找、潜在生物标记物的鉴定(ID Browser)及代谢通路分析(Pathway Analysis)等诸多功能。MPP结合安捷伦优异性能的仪器硬件平台可以为代谢组学研究提供最全线的解决方案。MPP能够对来自大样本组的GC/MS、LC/MS及CE/MS数据中的保留时间和丰度进行标准化;用一系列实用的统计分析和图形化工具(包括1-way和2-way ANOVA、PCA,以及分类预测算法)进行数据分析;用内置的ID Browser功能采用METLIN和Fiehn等安捷伦代谢组学数据库进行检索及利用精确质量数进行分子式生成来实现代谢物的鉴定;用内置的代谢通路分析工具Pathway Analysis进行代谢途径中大小分子的相关性分析,并利用已有数据构建新通路;从而识别样品之间的差异和关联,最终实现快速发现疾病或药物毒性等研究中的生物标志物(见图4)。

1.4安捷伦特有的代谢物数据库及谱库介绍一METLIN,Fiehn库

在非靶向代谢组学实验中,代谢物的鉴定是关键步骤。用化合物的精确质量数进行代谢物数据库检索,可以缩小筛选范围,大大加快代谢物的鉴定过程。安捷伦METLIN代谢物数据库是当今世界上最全面的代谢物数据库之一,它包含23000多种内源性和外源性代谢物、二肽和三肽的精确质量数、化学式和结构信息。除可采用精确质量数进行检索外,还可以同时采用质量数和保留时间共同检索以增加检索的可靠性。此外,还可以根据关键词、分子式、化合物名称,或KEGG、CAS、HMP或METLIN编号进行信息查询。METLIN代谢物数据库可以支持单一化合物检索,也可以支持批处理文件检索。

目前安捷伦正在扩展METLIN代谢物数据库的谱库检索功能,可以利用代谢物的MS/MS质谱图进行谱图匹配检索。此外,安捷伦独有的保留时间锁定代谢物谱库Agilent Fiehn Metabolomics Retention Time Locked Library可灵活方面地用于GC/MS分析,该库为第一个代谢组学研究的代谢物标准商业数据库,包括内源性代谢物鉴定。

2 应用实例

采用安捷伦6500系列Q-TOF MS代谢组学研究平台可以为代谢组学各个研究领域提供解决方案,下面将从中医药代谢组学、疾病诊断代谢组学及植物代谢组学等几方面的应用进行介绍。

2.1 中医药代谢组学

将代谢组学用于中医药领域对实现中医药客观化、规范化和科学化研究有着重要的指导意义,新兴学科代谢组学的出现,给中医药复杂理论体系的研究、中医药现代化提供强有力的研究手段。中医病证引起代谢物组的共性分析和生物标记物的发现,可促进深层次理解中医脏象理论,预测疾病的发生,整体性评价中药复方综合疗效、安全性和作用机制[2]。专家认为,运用具有反映整体思想的、先进的代谢组学方法来研究中药,对搞清中药的物质基础、作用机理、作用靶标、药效作用、组方依据、配伍规律和毒副作用以及对中药种质资源等进行的研究都是十分必要的。

本实例采用安捷伦6500系列Q-TOF MS结合MPP软件进行生物学信息挖掘,研究代谢组学在中医“上火”证候模型复制中的应用。

动物实验:将附子、干姜、肉桂按照比例混合作为温热方剂“上火”阳性药物。雄性SD大鼠20只,随机分为空白组和模型组,每组10只。空白组给水,模型组给阳性药。检测体重、尿量、饮水量和肛温,每天收集尿液,连续监测2个月。尿液样本离心取上清-20℃保存,分析前室温融化,加水稀释,过滤膜进样。

数据采集:安捷伦1200 RRLC/6520 Q-TOF MS。数据分析:原始数据用MassHunter软件进行分子特征提取,生成的文件导入MPP进行化学计量学分析。

采用主成分分析方法(PCA)对样本数据进行分析,其中空白组、给药第1天、给药第20天及给药第35天的PCA分析结果(见图5)。

♦空白;■给药第1天;▲给药第20天;●给药第35天

从图5中可看出,4组不同时期样本在PCA空间可以清晰的分为4类,说明大鼠给温热方剂后,模型动物尿液代谢物组发生显著变化,与空白组比较明显被分类,暗示给予温热方剂后模型组大鼠正常生理代谢被干扰。模型组动物随着给药时间的增加,代谢产物的变化随之增强。其中给药后第一天,内源性代谢物即产生显著变化,与空白组区分明显。这种趋势到给药第35天,可以看出更加显著。代谢组学分析的结果和实验过程中肛温变化的趋势相吻合,实现对“上火”模型的复制研究。后续代谢通路分析表明,模型动物体内的尿酸循环发生代谢扰动。

通过本实验的研究,为中医模型建立的评判提供更为客观的科学支持,为推进中医药的现代化研究提供解决方案。

2.2 疾病诊断代谢组学

疾病诊断代谢组学通过分析体液组成,运用化学计量学方法对疾病组和正常组进行分类,获取因疾病诱导而发生变化的特殊代谢产物——生物标记物,帮助了解病变过程中机体代谢情况的改变,辅助临床诊断和治疗[3,4,5,6]。

本例以疟疾研究为例,探讨安捷伦代谢组学平台在疾病诊断中的应用。

疟疾(Malaria)是被疟蚊叮咬后感染疟原虫所引起的虫媒传染病,疟疾会导致体内红细胞感染疟原虫。为研究疟疾的发病机理及发病后对人体代谢的影响,采用代谢组学的研究手段研究空白组和感染组的代谢样本。采用PCA对两组样本进行分析,PCA的分析结果(见图6)。

图6中可看出,对照组与感染组样本在PCA空间可以显著的分为两组,用MPP内置的IDbrowser功能对潜在的生物标记物进行METLIN数据库检索及分子式生成,将鉴定的生物标记物进行代谢通路pathway分析,发现疟疾会导致尿素循环异常(见图7)。本实验的研究结果与文献报道一致。

2.3 植物代谢组学-食品真伪鉴定

利用代谢组学获取植物成分的指纹图谱,并利用模式识别比较样本的指纹差异,可以用于食品的真伪鉴定。

本实例选用葡萄酒为研究对象,利用代谢组学的研究手段鉴别不同的葡萄酒类型。

样本的获取:从市场上选购45瓶不同类型的葡萄酒,其中赤霞珠15瓶、梅洛16瓶、黑比诺14瓶。

数据采集:Agilent 1200 RRLC/6530Q-TOF MS,红酒样品无需样品前处理直接进样分析。

数据分析:原始数据用MassHunter软件进行分子特征提取,生成的文件导入MPP进行化学计量学分析。

采用偏最小二乘法PLSD随机将葡萄酒样本分为训练集及测试集进行建模和模型预测能力评价。图8是PLSD的分析结果,从图8中可看出,3种不同的葡萄酒样本实现显著的分组,进而可以用来区分不同品种的葡萄酒种类。通过精确质量数进行数据库检索和分子式生成,在发现的潜在的生物标记物中,鉴定出其中最为显著的潜在生物标记物为花青素,表明其中赤霞珠、梅洛及黑比诺葡萄酒中花青素的含量存在显著的差异。

红色:赤霞珠;蓝色:梅洛;褐色:黑比诺

3 结论

安捷伦6500系列Q-TOF MS保证代谢组学分析所要求的高质量精度、高重现性及高耐受性的要求,功能强大的MPP软件集成统计学分析、潜在生物标记物鉴定及代谢·通路分析完备的功能。从分离检测、数据处理、统计学分析到化合物鉴定、通路分析及生物学解释,安捷伦代谢组学平台可以为代谢组学各个研究领域提供全面、强大的解决方案。

参考文献

[1] Nicholson J K,Lindon J C,Holmes E.,Metabonomics:understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscop ic data.Xenobiotica,1999,29(11) :1181~1189

[2] 贾伟,蒋健,刘平等.代谢组学在中医药复杂理论体系研究中的应用[J],中国中药杂志,2006,31(8) :621~624

[3] Lindon J C,Holmes E,Bollard M E,et al.Metabonomics technologies and their applications in physiological monitoring,drug safety assessment and disease diagnosis.Biomarkers,2004,9(1) :1~31

[4] Brindle J T,Antti H,Holmes E,et al.Rapid and noninvasive diagnosis of the presence and severity of coronary heart disease using H-1-NMR-based metabonomics.Nat Med,2002,8(12) :1439~1444

[5] Griffin J L,Walker L A,Garrod S,et al.NMR spectroscopy based metabonomic studies on the comparative biochemistry of thekidney and urine of the bank vole(Clethrionomys glareolus),woodmouse(Apodemus sylvaticus),white toothed shrew(Croci2dura suaveolens)and the laboratory rat.Comp Biochem Phys b,2000,127(3) :357~367

生物信息学现状分析 篇3

【关键词】生物; 信息学; 技术

中图分类号:G633.91 文献标识码:A 文章编号:1009-8283(2009)05-0258-01

1 生物信息学的产生

21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,与此同时,诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,以及逐步受到各国政府重视的信息高速公路计划的实施,为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。

2 生物信息学研究内容

2.1序列比对

比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基礎上编写的比对软件包——BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。

2.2 结构比对

比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。

2.3 蛋白质结构预测

从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。

2.4 计算机辅助基因识别

给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。

2.5 非编码区分析和DNA语言研究

在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。

3 生物信息学的新技术

3.1Lipshutz(Affymetrix,Santa clara,CA,USA)

Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析,以获得序列、表达和基因分型信息。

3.2 基因的功能分析

Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务——基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。

Babbitt(University of California,San Francisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解,要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现,因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列 是重要的。

3.3 新的数据工具

Letovsky(Johns hopkins University,Baltimore,MD,USA)介绍了GDB数据库,它由每条人类染色体的许多不同图谱组成,包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容,以及由不同研究者用同种方法得到的图谱。就位置查询而言,如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的,该数据库使用了一种公用坐标系统(common coordinate system)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。

Candlin(PE applied Biosystems,Foster City,CA,USA)介绍了一种新的存储直接来自ABⅠPrism dNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。

参考文献:

[1]顾明亮. 生物芯片技术及展望[J] 滨州医学院学报, 2003,(02) .

[2]菅复春,张子宏,肖乃淼,张龙现. 基因芯片技术的应用[J] 河南畜牧兽医, 2006,(08) .

生物信息学 篇4

1,数学基础要好点。线代,高数,统计等。

2,计算机知识。windows ,linux, unix系统等,各种常用生物软件的使用。可以自己找来一个个试。

3,matlab 里面有的关于生物方面的工具包也很多的。

4,生物知识,不用说的。

其他: 如果要深入的话,最好会编程。什么java,perl,等。我是刚开始学。大家多指教。

导师推荐了好几本书:

《生物信息学概论》 “Introduction to bioinformatics”(英)T K Attwood , D J Parry-Smith 著罗静初 等译北京大学出版社 2002年4月第一版本书从生物信息学的研究对象、意义出发,介绍生物信息学研究的基本方法和常用工具。主要介绍的是核酸和蛋白质序列的计算机分析方法,探讨利用现有的计算机程序,从现有的数据库中能够获取什么、不能够获取什么。全书共分十章:1.概论,2.信息网络,3.蛋白质信息资源,4.基因组信息资源,5.DNA序列分析,6.双序列比对,7.多序列比对,8.二次数据库搜索,9.数据库搜索实例,10.序列分析软件包。每章末尾均提供了进一步阅读指南和有关的网址。这本书的一大特色在于丰富的例子和图表,使读者可以很直观的了解和掌握书中的内容。此外,书的末尾还附有与生物信息学相关的词汇表。总的说来,这本书实用性强,可以作为高等院校生物信息学教材,也可以作为生命科学和生物技术各领域分子生物学研究和开发工作者的生物信息学参考书。

《生物信息学手册》郝柏林 张淑誉 编著上海科学技术出版社 2000年10月第一版一本手册式的生物信息学书籍。除了介绍了生物信息学,还包括了计算机及计算机网络(这一部分提供了一些网址)和分子生物学的知识。更为重要的是,该书的主要部分?quot;生物信息数据库“和”服务、软件和算法“部分,提供了大量的网址。几乎是每一个条目下面都有不少网址。这本书将网络上的生物信息学资源进行了索引式的介绍,并作了必要的说明。书中列举了近千条网址和引文,基本涵盖了生物学研究的各个方面,堪称生物信息的汪洋大海中的导航图。对生物信息学的服务、软件和算法,本书也作了较全面的描述。本书可供广大生命科学工作者以及由物理学、数学和计算机学转入生命科学领域的研究教学人员参阅(上面可以查到很多网址)。

《生物信息学》赵国屏 等 编著科学出版社 2002年4月 第一版本书是”863“生物高科技丛书之一。它比较全面地介绍了生物信息学的若干个主要分支,并特别介绍了与人类基因组研究

相关的生物信息学的一些较新成果;着重介绍了数据库和数据库的查询、序列的同源比较及其在生物进化研究中的应用;以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题;还介绍了蛋白质结构研究中的生物信息学问题,以及与分子设计和药物设计相关的生物信息学技术。本书可供生物信息学专业和生命科学相关专业的本科生、研究生和教学科研人员阅读学习,也可供相关专业的科技和应用机构的科研、管理和决策人员参考。注意,本书有很大篇幅是讲基因芯片和蛋白质结构预测的。

《生物信息学--基因和蛋白质分析的实用指南》 ”Bioinformatics--A

Practical Guide to the Analysis of Genes and Proteins "Andreas D.Baxevanis B.F.Francis Ouellette 著李衍达 孙之荣 等 译清华大学出版社 2000年8月 第一版这本书由前卫计算生物学家撰写,贯穿了已有的工具和数据库,包括应用软件、因特网资源、向数据库提交DNA序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。以下是该书的目录:1.因特网与生物学家,2.GeneBank序列数据库,3.结构数据库,4.应用GCG进行序列分析,5.生物数据库的信息检索,6.NCBI数据模型,7.序列比对和数据库搜索,8.多序列比对和实际应用,9.系统发育分析,10.利用核酸序列的预测方法,11.利用蛋白质序列的预测方法,12.鼠类和人类公用物理图谱数据库漫游,13.ACEDB: 基因组信息数据库,14.提交DNA序列数据库。本书有很多实际的序列和序列分析的例子。这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。

在第14章提及的通讯资源:互联网和通信地址;电话和传真号码

DDBJ/EMBL和GenBank的一般联系信息以及提交DNA序列到这些数据库的入口。

DDBJ(信息生物学中心,NIG)

地址:DDBJ,1111 Yata,Mishima,Shiznoka 411,Japan

传真:81-559-81-6849

E-mail

提交: ddbjsub@ddbj.nig.ac.jp

更新: ddbjupd@ddbj.nig.ac.jp

信息: ddbj@ddbj.nig.ac.jp

互联网

主页:

WebIn:

GenBank(国家生物技术信息中心,NIH)

地址:Gen Bank National Center for Biotechnology Information, Nationtional Library of Medicine, National Institutes of Health, Building 38A, Room 8N805, Bethesda MD 20894

电话:301-496-2475

传真:301-480-9241

E-mail

提交: gb-sub@ncbi.nlm.nih.gov

EST/GSS/STS batch-sub@ncbi.nlm.nih.gov

更新: update@ncbi.nlm.nih.gov

信息: datalib@ebi.ac.uk

互联网

主页:

BankIt:

在DNA序列数据库中使用的遗传密码:

DDBJ/EMBL/GenBank特征表文档可用WWW方式获得或者从EBI或NCBI的FTP服务器上得到PostScript文件。ftp://ncbi.nlm.nih.gov/genbank/docs/ ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/

EMBL和GenBank数据库的版本信息

EMBL ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc

GenBank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt

Sequin: DNA序列数据库的提交和更新工具 http://www.ncbi.nlm.nih.gov/Sequin

EST, STS和GTS主页,获取信息和向这些特定GenBank数据库提交序列

EST http://www.ncbi.nlm.nih.gov/dbEST

STS http://www.ncbi.nlm.nih.gov/dbSTS

GSS http://www.ncbi.nlm.nih.gov/dbGSS

生物信息学电子资料总汇 篇5

1.《生物信息学手册》 郝柏林等

11.《生物信息学:序列与基因组分析》原版 钟扬等译

http:///Soft/2007/2096.htm

16.生物信息学课件教程(河北农业大学)

http://home.imhb.cn/indexCF/home/MyDocumentDown.aspx?MSAutoID=143779

17.生物信息学讲义(西南交通大学)

http:///Soft/2007/2105.htm

18.简明生物信息学基础实验讲义

30-40.《生物信息学导论》课程-北京大学理论生物学中心

61.蛋白质的结构预测与分子设计 来鲁华等

?from=isnom(2分)

62.探索--基因组学、蛋白质组学和生物信息学-孙之荣主译

http://home.imhb.cn/indexCF/home/MyDocumentDown.aspx?MSAutoID=28742

63.计算生物学和系统生物学基础讲义

http://iask.sina.com.cn/user/my_ishare.php?uid=1419224700

利用X射线晶体衍射图及核磁共振谱解析

同源建模

DNA微阵列与聚类分析

基于计算的蛋白质组注释

基于计算的蛋白质设计

蛋白质结构预测方法:同源建模与折叠识别...分子建模:方法及应用

蛋白质结构与分类导论

蛋白质二级结构预测

RNA二级结构预测

DNA序列进化

DNA序列分析中的马尔科夫模型与隐马尔科

DNA模体建模与识别

DNA序列比较与比对

基因组序列与DNA序列分析

文献讨论

亲缘分析

多序列比对 II

多序列比对I

绪论-序列比对与动态规划

64.华南农业大学——生物信息学

http://xy.scau.edu.cn/zhwxxx/swxxx/index.asp

65.《计算机辅助药物分子设计 》 [徐小杰等]

http://blog.imhb.cn/Blog/blogdetail.aspx?bid=59173

66.生物信息学导论-数据库 厦门大学

http://download.csdn.net/source/1673247

67.计算机辅助药物设计 陈凯先

生物信息学专业计算机课程 篇6

关键词:生物信息学;生物专业; 教学方法;学科交叉

Abstract: The characteristics of the professional teaching of bioinformatics are introduced , then the paper analyzes on the professional students of biological problems existing in the teaching of computer, biological computer curriculum teaching methods are put forward.

Keywords: Bioinformatics; biology; teaching method; course cross

0.概述

近年来,伴随着生命科学的快速发展,有关生物的数据逐渐增多,而分析手段也很多,产生了生物信息学这个概念。

生物信息学是由生物学与计算机科学、应用数学以及统计学等学科相互交叉而形成的一门新兴学科,它使用计算机和信息技术对生物信息数据进行采集、处理、存储、检索和分析,从而达到揭示相关数据中所蕴含的生物学意义的目的[1]。

为了快速有效地从海量的生物数据中获得所需信息,提高发现问题、解决问题的能力,在生物信息学教学过程中有必要开设一些计算机课程、数学及工程相关课程,这样可以启发学生综合运用数学、物理、工程科学和计算机知识的能力,拓宽其知识面,了解学科前沿和最新进展,培养跨越生命科学、计算科学、数理科学等不同领域的大科学素质和意识,为今后选择新兴交叉学科领域进行深造奠定基础。

因此很多大学增设了生物信息学这个本科专业,有的在计算机学院中增加生物信息专业本科,有的在生命学院增加生物信息本科,在本文中主要讨论在生命学院中开始生物信息学专业。

作为一门交叉学科,不同专业的学科体系对生物信息学课程教学提出了不同的要求,如何在生物专业学生中开展生物信息与计算机课程的结合,是培养更高理论和实践能力的生物信息专业人才的关键。

1 生物信息学的特点

生物信息学涉及分子生物学、微生物学、生物化学、蛋白质化学、分子遗传学、基因组学、生物物理学、概率论与数理统计、信息论及计算机技术等学科,学科交叉性极强。

仅就计算机技术而言,计算机编程、数据库技术和模式识别、软件工程及网络技术等都在生物信息学中有广泛的应用[1,2]。

因此,生物信息学是将不同领域知识高度集中的学科。

2 计算机课程的设置

对生物信息学来说,计算机技术就是一个工具,用来对生物数据进行处理。

工欲善其事,必先利其器,所以要做好数据的分析工作,必须让学生学好计算机课程,但更应该在生物信息学专业的教学计划中把计算机课程设置恰当,让学生受益[2]。

2.1 课程的选择顺序

生物信息学面对的是海量生物数据,所以首先需要学习使用编程工具,如JAVA或者C++语言或者Perl语言等编程工具,然后安排数据结构等课程对编程课程进行深入了解,后期安排数据库技术、数据挖掘等课程,方便学生进行实践应用。

2.2 教材和授课内容的合理选择

在学习生物的.学生中开设生物信息学专业,那么教材的选择应该兼顾学生的知识背景和学习兴趣,由于学生对蛋白、进化、蛋白质结构、基因序列有一些认识,但对计算机比较恐惧,因此计算机教材可选用比较简单、易懂的,如JAVA课程主要讲解编程思想,那么主要包括环境变量设置、语法和如何编程,那么选择教材时就选包括这些内容的教材就可以了,并在上课过程中,结合一些生物信息软件来讲解,激发学生的学习兴趣。

同时,选择适合的授课内容也是必不可少的环节:序列比对算法、基因识别算法、蛋白质结构预测、分子动力学模型及机器学习或模式识别算法在生物信息学中的应用等方面的内容,此外在大学初期也要加强数学、物理和计算机方面的基本知识的课程开设[2]。

能够从他们自己的知识体系出发, 阐述生物数据如何用计算机方法和技术进行获得并处理;并且了解学生已经掌握哪些生物学知识,在授课过程中,针对学生的特点综合使用多本教材更能达到预期效果。

使学生认识到计算机技术和方法在生物学研究领域的广阔应用空间。

随着生物信息学研究的深入,国内外出现了大量的生物信息学教材、专著和一些最新的文献。

2.3从抽象到具体的教学理念

由于生物信息学涉及数学、统计学及算法等众多理论知识,但有生物基础的学生具有生物学知识储备,缺乏计算机知识。

所以在为生物学专业上进行计算机课程时尽量采用结合实例进行讲解。

首先,针对生物学专业学生计算机知识薄弱的特点,尽可能将生物信息学问题转化为学生熟知领域的问题,例如,在讲解蛋白质二级结构预测时,可考虑学生学习过螺旋、折叠和无规则卷曲的特征,讲解模式识别算法预测二级结构的过程时用可采用一些模型如苹果等进行形象讲解更容易被学生接受了;其次,充分利用现代化教育技术及网络资源,对于未接触过计算机实验学生来说,程序代码对于他们而言是枯燥无味的,在教学过程中充分利用计算机实验和网络资源,让学生了解计算机程序的运行过程和网络中生物信息软件的使用,从而对计算机处理生物学数据产生感性认识。

例如,在讲解利用聚类算法分析基因芯片数据时,可以先播放基因芯片制作过程的Flash动画,让学生身临其境,这样不仅可以激发学生的学习兴趣,更可以加深学生对知识的理解和掌握。

或者讲解聚类算法可以用物种分类进行类比来讲解[2]。

2.4加强实验环节

生物专业的生物信息学课程的教学过程就是让学生了解并掌握计算机科学和技术如何处理分析生物学数据的过程。

因此,进行理论教学的同时,实验教学环节也是必不可少的[3]。

计算机实验不同于生物实验,而是主要通过计算机进行处理,例如可通过计算机实验直观的了解三大核酸数据库:蛋白质序列和结构数据库的数据组织方式;通过实验可以让学生掌握如何利用Acclrys Discovery Stdio软件进行蛋白质结构预测,感受蛋白质结构显示软件的强大威力,更重要的是,使学生了解到计算机技术和方法在生物数据处理过程中的举足轻重的作用。

从生物信息学实验课中,他们可以领略到计算机科学技术的魅力,增加作为生物信息学专业学生的自豪感,并坚定学好生物信息学知识的信念。

3 后续课程的构想

在后续课程中,由于前面为学生设置数据库原理与设计及数据挖掘等课程,可开设一些专题讲座,如了解数据库设计后,可结合生物专业的特点,可能了解了在网络环境中三大核酸数据库的组织结构,讲解它们是如何采用数据库知识进行组织的,并进行一些简单数据库的设计工作;在数据挖掘课程后可采用一些统计学软件如MATLAB处理生物数据的一些专题[4,5]。

又如开设讲解生物信息学的研究热点与与原来讲解的课程进行对接。

也可讲解一下药物信息学的设计、疾病靶点的选择等,激发学生学习生物信息学的意义,让有可能进一步深造的学生知道前进的动力。

4 结束语

作为一门新兴的学科,生物信息学专业的发展非常迅速,新的理论、算法和应用程序不断涌现。

因此在进行生生物信息学专业教学中,不拘泥于现有的生物信息学教材和计算机教材时纳入最新的研究成果,将相关研究领域的一些新的研究方法、网络资源以及工具软件介绍给学生。

例如, GCG软件是一套蛋白质、核酸序列分析软件,一般在Linux环境下使用,包括130多个软件,但现在这些类似功能的软件很多可网络上下载到Windows系统环境下进行蛋白质、核酸序列分析,因此可介绍这些软件给同学使用,方便同学在自己的电脑里熟练使用这些软件,同时有些软件有更新的算法和版本也可以介绍,及时更新学生的知识体系,培养学生相关学科前沿的意识,拓展学生视野。

参考文献:

[1] 孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,:3

[2] 丁彦蕊,蔡宇杰.计算机专业生物信息学课程教学的实践探讨,安徽农业科学,,40(29)14596-14597

[3] 高亚梅,韩毅强.生物信息学本科教学初探[J].生物信息学,,5(1):44-48

[4] 戴凌燕,姜述君,高亚梅.《生物信息学》课程教学方法探索与实践[J].生物信息学,,7(4) :311~313.

生物信息学软件分析 篇7

关键词:纤维素酶,Pantoea ananatis,16S rDNA

纤维素是自然界中分布广泛且产量最丰富的一种碳水化合物资源, 但是由于其难于分解, 加上目前获得的纤维素酶的活性较低, 导致纤维素资源的利用率非常的低。我国纤维素资源产量非常丰富, 仅仅是秸秆和皮壳每年就可达7×108t。但是这些原料很多被焚烧掉, 这样做既危害生态平衡, 又加重了环境的污染。但是, 如果将这些纤维素资源通过生物或酶的降解作用, 水解成葡萄糖, 则是非常有价值的工业原料。其前提是开发高效的纤维素酶。纤维素酶在工农业生产中有着广泛的应用, 其底物是纤维素分子[1,2]。纤维素分子由吡喃型D-葡萄糖残基以β-1, 4-糖苷键相连接而构成, 可被纤维素酶系所降解。目前对于真菌纤维素酶的研究较多, 但对于细菌纤维素酶研究相对较少[3]。细菌由于其种类繁多, 适应环境各异, 其纤维素酶种类也有较大差别, 是开发不同种类纤维素酶基因的宝库, 有深入研究的价值。

在菌种资源开发研究中, 首先是筛选相关生产性能的菌株, 对其进行分类鉴定。通过常规生化实验方法可以有效地对菌株进行鉴定, 但由于这种方法的工作量较大, 不利于大量、快速的分析。现代生物技术的发展为微生物鉴定提供了简便快捷的方法。目前国际上对于细菌菌种的分类往往采用分析16S r DNA序列的方法, 与同源序列进行比对, 快速确定菌株分类地位。生物信息学是应用信息科学研究生物体系和生物过程中信息存贮、信息内涵和信息传递的学科。它是数学、统计、计算机与生物命科学的交叉新兴学科, 它广泛地渗透到生物学相关的很多研究领域中, 更是食品生物工程研究中不可缺少的重要工具。课题组筛选到一株具有较高的纤维素酶活性菌株Y1, 总结了利用16S r DNA序列对细菌进行初步鉴定的一般方法。

1 材料与方法

1.1 材料

1.1.1 菌株

课题组从胡萝卜、生姜、牛蒡等农产品果实和叶表面筛选产纤维素酶菌株。

1.1.2 培养基[4]

LB (Luria-Bertani) 培养基 (L-1) :胰蛋白胨10g, 酵母膏5g, Na Cl 10g。

筛选培养基 (L-1) :羧甲基纤维素10g, 酵母膏5g, 蛋白胨10g, KH2PO41g, Mg SO40.2g, Na Cl 10g, 葡萄糖2g, 琼脂12g。

1.1.3 试剂

生物化学试剂购自上海生工生物工程技术服务有限公司。DNA marker、Taq DNA聚合酶、d NTP mixture等分子生物学试剂购自天根生化科技 (北京) 有限公司。

1.2 筛选产酶菌株[4]

通过固体筛选培养基分离培养单菌落, 经过2~4d培养, 使用浓度为0.5%刚果红将养基染色5min, 再使用5%的Na Cl溶液进行脱色。若菌落周围出现透明圈, 则说明该菌株产纤维素酶。

1.3 菌株形态分析

在显微镜下观察Y1细胞形态, 并分析其菌落特征。

1.4 菌株基因组DNA的提取[5]

1.5 产纤维素酶菌株的16S r DNA序列分析

引物序列为:F:5'AGAGTTTGATCCTGGCTCAG 3';R:5'GGTTACCTTGTTACGACTT 3'。

PCR程序是: (1) 94℃预变性5min; (2) 94℃变性30s, (3) 57℃退火60s, (4) 72℃延伸90s, 进行22次循环扩增; (5) 72℃延伸10min。委托上海生工生物工程技术服务有限公司将16S r DNA测序。在NCBI网站登录获得的序列, 获得accession number。利用Gene Bank基因库中的信息, 分析菌株的分类学地位。使用DNAMAN程序建立演化树和同源树。

2 结果与分析

2.1 获得产纤维素酶菌株

从筛选到的多株菌株中确定产酶活性较高的菌株Y1。显微镜下观察菌株Y1菌体呈杆状, 菌落分散分布, 菌落呈边缘平滑的圆形, 直径在1~2mm左右, 颜色是不透明的淡黄色, 菌落湿润且有光泽。

2.2 基因组DNA的提取结果

菌株Y1的基因组DNA进行0.5%琼脂糖凝胶电泳的结果如图1A, 这显示出提取的基因组DNA分子量较大, 浓度大约100ng/μl, 适合用作基因扩增的模板。

2.3 16S r DNA基因扩增结果

通过PCR扩增了菌株Y1相应的基因片段, 琼脂糖凝胶电泳分析结果表明, 扩增出特异目的条带 (图1B) 。引物的特异性较好, 泳道上没有明显的杂带。

2.4 16S r DNA测序分析

获得菌株Y1长度是1 405bp的16S r DNA序列, NCBI序列号是:FJ796220。序列比对显示:Y1的序列与Pantoea ananatis strain BD 561的16S核糖体序列相似性最高, 达99%。说明Pantoea ananatis Y1是一株尚未研究过的新菌株。采用DNAMAN软件对Y1和相近物种序列比较分析结果如图2, 其同源树如图3。序列比对表明, Y1与4株Pantoea ananatis的序列相似性最高。同源树也显示出Y1与这4株菌的同源性最高。

A.菌株Y1基因组DNA电泳结果;B.菌株Y1 16S r DNA序列扩增结果;M:D2000 DNA marker。A.Electrophoresis of Y1 genomic DNA;B.Y1 16S r DNA;M:DNA marker.

3 讨论

本文通过食品生物技术的方法对筛选到的一株产纤维素酶活性较高的细菌进行了鉴定分析。分析的具体方法是:筛选获得菌株, 提取其基因组DNA, 通过PCR扩增16S r DNA序列, 在NCBI网站上获得序列相似性序列, 使用序列分析软件获得同源树, 初步确定所分析菌株的种类。本文使用的两个引物8F和1 492R是16S r DNA序列分析的通用引物, 使用这两个引物可以获得长度约1 500bp的序列。对于这样长度的16S r DNA序列分析, 一般采用两个测序反应即可将其序列测通, 从而可以获得其全长序列。本文分别使用8F和1 492R进行双向测序, 根据序列的重叠特征, 获得了长度达1 405bp的准确序列, 初步确定产纤维素酶菌株Y1是Pantoea ananatis。由于Pantoea ananatis合成类胡萝卜素途径与高等植物相似, 因此有关于此种菌类胡萝卜素合成的研究[6]。另外, 研究人员在Pantoea ananatis ATCC 43072中克隆到编码4-木糖醇脱氢酶基因xdh的795bp开放阅读框[7]。本文的Pantoea ananatis Y1是从近百株产纤维素酶菌株中筛选到的产纤维素酶活性较高的菌株。对于其纤维素酶基因的克隆分析, 会推动新型纤维素酶基因的开发和利用。

参考文献

[1]方诩, 秦玉琪, 李雪芝, 等.纤维素酶与木质纤维素生物降解转化的研究进展[J].生物工程学报, 2010, (7) :4-9.

[2]Lynd L.R.Microbial cellulose utilization fundamentals and biotechnol-ogy[J].Microbil.Mol.Biol.Rev., 2002, 66:506-577.

[3]徐建.中性纤维素酶菌株的选育及强分解纤维素细菌1.1002分类地位的确立[D].沈阳农业大学硕士学位论文, 2000:16.

[4]侯进慧, 蔡侃, 郑宝刚, 等.一株牛蒡根际纤维素降解芽孢菌的分离鉴定和发酵分析[J].食品科学, 2010, 31 (21) :312-315.

[5]Syn C.K.C., Swarup S.A scalable protocol for the isolation of large-sized genomic DNA within an hour from several bacteria[J].Analytical Bi-ochemistry, 2000, 278:86-901.

[6]Yoon S.H.Engineering the lycopene synthetic pathway in E.coli bycomparison of the carotenoid genes of Pantoea agglomerans and Pantoeaananatis[J].Appl.Microbiol.Biotechnol., 2007, 74 (1) :131-139.

生物信息学软件分析 篇8

摘 要 牛疱疹病毒Ⅰ型( bovine herpesvirus-1,BHV-1)是牛的一种重要病原,可引起牛严重的呼吸道感染、结膜炎、脑炎、产奶量下降、子宫炎、肠炎、传染性脓疱性外阴阴道炎和流产等。以GenBank中编号为U06934.1的BHV-1 gE基因为材料分析其生物信息学,以预测其蛋白主要抗原表位,有助于建立相应的实验模型。

关键词 BHV-1 gE基因;生物信息学分析;抗原表位

中图分类号:Q517 文献标志码:A 文章编号:1673-890X(2014)21--02

1 材料与方法

1.1 BHV-1 gE编码蛋白氨基酸序列

以GenBank中编号为U06934.1的Bovine Herpesvirus 1 (type 1.1) FM glycoprotein gE,complete cds基因为材料。

1.2 gE的跨膜区预测

采用DAS服务器(Cserzo M. et al,1997)(http://www.sbc.su.se/miklos/DAS/),将氨基酸序列输入工作区预测跨膜区。

1.3 gE蛋白二级结构预测

用SOPMA服务器(Geourjon,C. et al,1995)(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)预测gE蛋白的二级结构。

1.4 gE蛋白亲水性、可及性、极性及柔韧性参数预测

采用Hopp&Woods亲水性参数(Hopp TP et al,1981)、Janin可及性参数(Jaint,1979)、Zimmerman极性参数(Zimmerman JM et al,1968)及柔韧性参数预测(http://www.expasy.org/cgi-bin/protscale.pl)。

1.5 gE蛋白抗原位点的预测

采用Antigenic Propensity服务器(Kolaskar AS et al.,FEBS,276,172 1990)(http://www.imtech.res.in/raghava/bcepred/bcepred_submission.htm(l)预测其抗原位点。

2 结果

2.1 gE蛋白的跨膜区预测

采用DAS服务器gE分析,gE蛋白跨膜域位置跨膜区位于14-23、360-363、423-444残基位置之间。

2.2 gE蛋白二级结构预测

二级结构上α-螺旋 (Hh) 106 个占18.43%、伸张结构(β-片层)(Ee)119个占20.70%、β-转角(Tt) 16 个占2.78%、无规卷曲 (Cc) 334个占58.09%,β-转角趋向于突出到蛋白表面,在多肽及蛋白中易作识别位点。

2.3 gE蛋白亲水性、可及性、极性及柔韧性参数预测

采用Janin可及性参数、Zimmerman极性参数、Hopp&Woods亲水性参数对gE蛋白预测,gE蛋白 Janin可及性参数在第427-440个残基达到最大值,gE蛋白 Hopp&Woods亲水性参数422~430个残基达到最大值

2.4 gE蛋白抗原位点的预测

采用Antigenic Propensity服务器预测gE蛋白抗原位点结果如下(下划线区域都是该蛋白质的潜在抗原表位)。

1MQPTAPPRRRLLPLLLPQLLLFGLMAEAKPATETPGSASVDTVFTARAGAPVFLPGPAARPDVRAVRGWSVLAGACSPPVPEPVCLDDRECFTDVALDAACLRTARVAPLAIAELAERPDSTGDKEFVLADPHVSAQLGRNATGVLIAAAAEEDGGVYFLYDRLIGDAGDEETQLALTLQVATAGAQGAARDEEREPATGPTPGPPPHRTTTRAPPRRHGARFRVLPYHSHVYTPGDSFLLSVRLQSEFFDEAPFSASIDWYFLRTAGDCALIRIYETCIFHPEAPACLHPADAQCSFASPYRSETVYSRLYEQCRPDPAGRWPHECEGAAYAAPVAHLRPANNSVDLVFDDAPAAASGLYVFVLQYNGHVEAWDYSLVVTSDRLVRAVTDHTRPEAAAADAPEPGPPLTSEPAGAPTGPAPWLVVLVGALGLAGLVGIAALAVRVCARRASQKRTYDILNPFGPVYTSLPTNEPLDVVVPVSDDEFSLDEDSFVDDDSDDDGPASNPPADAYDLAGAPEPTSGFARAPANGTRSSRSGFKVWFRDPLEDDAAPARTPAAPDYTVVAARLKSILR575

2.5 综合分析

将各种参数和方法预测的可能有抗原表位的肽段综合分析,从表中可以发现,应用不同的预测方法,其预测的抗原表位的个数和抗原表位可能出现的肽段有所不同,其中在第427个氨基酸序列片段达到最大值,但氨基酸序列片段420至480则显示多种预测方法基本一致,具有较好的亲水性、可及性、极性及柔韧性,gE基因分子以β-转角(2.78%)出现的区域较少,α-螺旋(18.43%)较多蛋白结构比较稳定。因此,B细胞表位可能在此两片段或它们附近。

3 结语

牛传染性鼻气管炎(Infectious bovine rhinotracheitis,IBR)是由牛传染性鼻气管炎病毒( IBRV) 引起牛的一种急性、热性、接触性传染病,以高热、呼吸困难、鼻炎、鼻窦炎和上呼吸道炎症为主要特征。又称牛疱疹病毒Ⅰ型( bovine herpesvirus-1,BHV-1),IBRV属于疱疹病毒科(Herpesviridae)、疱疹病毒甲亚科(Alphaherpesvirinae),水痘病毒属(Varicellovirus),是牛的一种重要病原。

在机体内,疏水性残基一般埋在蛋白内部,而亲水性残基位于表面,因此蛋白的亲水部位与蛋白的抗原位点有密切的联系,最高亲水性区域常位于抗原决定簇内部或其附近。根据亲水性参数、可及性参数、柔韧性参数以及二级结构预测等综合考虑,BHV-1病毒的抗原表位大部分位于氨基酸残基420-480等区域内或其附近。

本实验通过对BHV-1 gE基因的氨基酸序列生物学分析,为下一步实验的开展奠定了良好的基础。

上一篇:清明节踏青的作文900字下一篇:请问工资怎么算