生物信息学名词解释(精选8篇)
生物信息学名词解释 篇1
1.生物信息学(bioinformatics):是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
2.Genom基因组:某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示的表格。
3.数据库查询(database query):是指对序列、结构以及各种二次数据中的注释信息进行关键词匹配查找检索。
4.数据库搜索(database search):在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。
5.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。
6.Alignment:比对,从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。
7.表达序列标签(EST):某个基因cDNA克隆测序所得的部分序列片段,长度约为200-600bp。EST可以定位出基因在genome上的位置。
8.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。In Silico Cloning电子克隆:利用种子序列从EST及UniGene数据库中搜索相似性序列,进行拼装、检索、分析等,以此获得目标基因的全称cDNA,在此基础上也能够实现基因作图定位。9.Contig:即重叠群,把含有STS序列标签位点的基因片段分别测序后,重叠分析就可以得到完整的染色体基因组序列。
10.Homologymodeling同源建模:是目前最为成功且实用的蛋白质结构预测方法,它的前提是已知一个或多个同源蛋白质的结构。当两个蛋白质的序列同源性高于35%,一般情况下认为他们的三维结构基本相同
11.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分
12.PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。、13.BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。
14.Phylogenetic tree:系统发生树,又称为演化树,是表明被认为具有共同祖先的各物种间演化关系的树。是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。
15.Homology:同源性,是指两个对象间的肯定或者否定的关系。如两个基因在进化上是否曾具有共同祖先。
16.Data mining:数据挖掘,指从生物信息数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。
17.二次数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单归类、整理或注释。
生物信息学名词解释 篇2
生物信息学是由于生物学家经过实验得到的大量数据需要工具解释这些数据的意义,导致生物与计算机的结合而产生的。目前人们普遍接受的生物信息学定义是在美国人类基因组计划(HGP)第一个五年总结报告中给出的一个较为完整的解释:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义。
生物信息学与计算生物学的区别:生物信息学主要侧重于对生物学中所得信息的采集、存贮、分析处理与可视化方面,更侧重于生物学领域中计算方法的使用和发展;而计算生物学主要侧重于使用计算技术对生物学问题进行研究方面。强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。也没有必要严格讨论生物信息学与计算生物学之间的区别,目前,生物信息学比计算生物学在生物学中应用更广,同时生物信息学可以通过Internet得到大量免费的数据库和应用程序。
生物信息学与基因组信息学。生物信息学不同于基因组信息学,它包含的范围更广,不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。
总之,生物信息学作为一门新的研究领域,它把DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。
2 生物信息学主要研究内容
从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。
2.1 序列比对
在生物学中序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性。双序列比较是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程序包有BLAST、FASTA等。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。
2.2 序列分析
随着越来越多生物体的DNA序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA测序过程中被打散的DNA序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA有很多重复的区域,相同的片段可能属于不同的区域。由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%~5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA序列需要大胆的想象和崭新的思路。
2.3 功能基因组
功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学的研究主要包括以下几个方面的内容:(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。1995年,Owen White设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步分析它们的功能。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(4)比较基因组学研究,是识别和建立不同生物体的基因或其他基因组特征的联系。在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。(5)功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测。
2.4 基因表达数据的分析
对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一。目前对基因表达数据的处理主要是进行聚类分析,虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。
2.5 蛋白质结构预测
蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列(也称为一级结构)可以容易地由它的基因编码序列获得。蛋白质的结构对于理解蛋白质的功能十分重要。目前尚没有普遍可行方案实现蛋白质结构的准确预测;大多数方案为启发式的。
蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。常用方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PSEDATOR、PSA。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型方法可以完成所有蛋白质10%~30%的空间结构预测工作。得到蛋白质结构后就可以进一步分析研究蛋白质的功能。
2.6 药物设计
基于生物大分子结构的药物设计是生物信息学中极为重要的研究领域。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。计算机辅助药物设计主要包括活性位点分析法、数据库搜寻、全新药物设计。目前,活性位点分析软件有DRID、GREEN、HSITE等。另外还有一些基于蒙特卡罗、模拟退火技术的软件如MCSS、HINT、BUCKETS等。目前数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法中比较著名的软件有Catalyst和Unity,而以前者应用更普遍。另一类方法是基于受体的,也称为分子对接法,具代表性的分子对接软件主要有 DOCK、F1exX和GOLD。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、Leapfrog、GROW、SPROU以及北京大学来鲁华等开发的LigBuilder等,其中LUDI最为常用。
3 结束语
生物信息学是一门新兴的极具发展潜力的学科,对计算机工作者也提出极高的要求,在序列比对中目前的研究热点主要有多序列比对算法及基因组比对算法。在序列分析中重点是研究基因重组及基因识别算法,同时对非编码区的识别也是个重点。同时后基因组时代从结构转向功能的研究涉及到基因组功能的注释,基因的表达调控机制,比较基因组的研究等内容。同时蛋白质的结构预测对蛋白质的功能理解也非常重要, 然后依据特定蛋白质的功能进行必要的药物设计。
参考文献
[1]新药药物靶标开发技术[M].高等教育出版社,ISBN,2006.
[2]http://www.wikipedia.org/[Z].
[3]张春霆.生物信息学的现状与展望世界科技研究与发展[M].2000/06.
生物信息学现状分析 篇3
【关键词】生物; 信息学; 技术
中图分类号:G633.91 文献标识码:A 文章编号:1009-8283(2009)05-0258-01
1 生物信息学的产生
21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,与此同时,诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,以及逐步受到各国政府重视的信息高速公路计划的实施,为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。
2 生物信息学研究内容
2.1序列比对
比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基礎上编写的比对软件包——BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。
2.2 结构比对
比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。
2.3 蛋白质结构预测
从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。
2.4 计算机辅助基因识别
给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。
2.5 非编码区分析和DNA语言研究
在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。
3 生物信息学的新技术
3.1Lipshutz(Affymetrix,Santa clara,CA,USA)
Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析,以获得序列、表达和基因分型信息。
3.2 基因的功能分析
Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务——基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。
Babbitt(University of California,San Francisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解,要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现,因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列 是重要的。
3.3 新的数据工具
Letovsky(Johns hopkins University,Baltimore,MD,USA)介绍了GDB数据库,它由每条人类染色体的许多不同图谱组成,包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容,以及由不同研究者用同种方法得到的图谱。就位置查询而言,如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的,该数据库使用了一种公用坐标系统(common coordinate system)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。
Candlin(PE applied Biosystems,Foster City,CA,USA)介绍了一种新的存储直接来自ABⅠPrism dNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。
参考文献:
[1]顾明亮. 生物芯片技术及展望[J] 滨州医学院学报, 2003,(02) .
[2]菅复春,张子宏,肖乃淼,张龙现. 基因芯片技术的应用[J] 河南畜牧兽医, 2006,(08) .
生物信息学综述 篇4
3生物信息学综述
摘要: 主要是对生物信息学的起源及概念进行论述,以及区别基因组信息学,重点对生物信息学的研究内容进行综述,并对国内外研究的热点问题进行讨论,最后是对发展前景提出未来展望。由于人类基因组计划的胜利完成与生物信息学的发展密切相关,使生物信息学的发展为生命科学的发展和研究带来了很多的帮助,并对其进行一般性的分析。
一、生物信息学的起源
生物信息学是80年代开始于人类基因组计划的启动,而兴起的一门边缘学科。随着生物科学和计算机科学的迅猛发展,由此而诞生的生物信息学逐渐发展成为一门独立的学科。其名字来源更早,生物信息学的概念是在1956年美国田纳西州盖特林堡召开的 “ 生物学中的信息理论研讨会 ” 上产生的。并由林华安博士在1987年正式为这一领域定下”生物信息学”这一称谓。生物信息学主要是一门运用生物学、数学、统计学、物理学、化学、信息科学以及计算机科学等诸多学科的理论方法研究生物学系统和生物学过程中信息流的综合系统科学,通过其独特的桥梁作用和整合作用 , 使人们能够从各生物学科众多分散的观测资料中, 获得对生物学系统和生物学过程运作机制的理解, 最终达到自由应用于实践的目的。生物信息学的实质就是利用计算机科学和网络技术来解决生物学问题。
生物信息并不仅限于基因组信息,生物信息学也并不等同于基因组信息学。我们普遍认为生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,找到代表蛋白质和DNA基因的编码区,特别是阐明非编码区的实质,从而认识生物有机体代谢、发育、分化和进化的规律;同时在发现了新基因信息之后进行蛋白质空间结构的模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。因此,现代生物信息学主要包括3个重要内容,它们分别是基因组信息学、蛋白质的结构模拟以及药物设计。基因组信息学是指从基因组水平研究遗传的学科。随着各种生物基因组测序计划的展开与分子结构测定技术的突破以及因特网的普及,无数的生物学数据如雨后春笋般迅速涌现。到目前为止,已经测出了上百种生物体的完整基因组序列。如何分析这些从实验过程中获得的大量原始数据,并从中获得与生物结构、功能相关的有用信息是当前困扰理论生物学家的一个棘手问题。解决这些问题又可以带来新技术的进步,推动生命科学的发展。.二、生物信息学与基因组研究的关系
利用数学模式和计算机处理数据的功能来处理和分析大量增加的人类基因组信息的结果,使人类基因组计划和生物信息学紧紧地结合起来了,而且随着两者的紧密结合和互相渗透,人类基因组计划的前进步伐会大大加快,从而提前完成计划,为人类造福。
生物信息学以基因组信息学为核心,主要任务是收集、储存、分发基因组的数据和信息,管理和分析、处理基因组及相关的蛋白质、mR NA 的信息,根据基因组数据和信息的比较分析,发现新的基因,并对基因结构和功能进行研究。在此基础上, 归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据 , 从而认识生物代谢、发育、分化、进化的规律。因此生物信息学的研究内容是伴随着基因组研究的不断成功而发展的。也就是说 , 生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。这个定义的含义是双重的: 一是对海量数据的收集、整理与服务, 即管理好这些数据;二是从中发现新的规律 ,用好这些数据。
人类基因组信息为药物发展提供了新的候选分子和新的候选药靶基因,基因组信息学提供的大量信息为这类技术的发展提供了广阔的天地。产生了许多新技术,其中有利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。
三、生物信息学的主要研究内容
如今生物信息学界的大部分研究人员都把注意力都集中在序列比对、序列分析、基因组、蛋白质组、蛋白质结构以及与此密切相关的药物设计上方面。
1、序列比对
生物学中的序列是指核酸或氨基酸序列,而序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基础上编写的比对软件包BALST和FASTA。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。
2、序列分析
序列分析主要是获知DNA序列对应的基因和基因调控序列。而DNA有很多重复的区域,相同的片段可能属于不同的区域。由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。目前在基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。、基因组
基因组表示一个生物体所有遗传信息的总和.一个生物体基因组所包含的信息决定了该生物体的生长、发育、繁殖和消亡等几乎所有的生命现象.3.1、获取人和各种生物的完整基因组
基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有 32 亿个碱基 , 要得到人的全部遗传密码首先要把人的基因组打碎 , 测完一个个小段的序列后再把它们重新拼接起来。迄今为止 , 人们对人类基因组真正掌握规律的只有 DNA 上 的编码蛋白质的区域 , 最新资料表明这部分序列只占基因组的 1.1%。在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明非编码序列具有重要的生物功能。由于它们并不编码蛋白质 , 一般认为 , 它们的生物学功能可能体现在对基因表达的时空调控上。
3.2、发现新基因和新的单核普酸多态性
发现新基因是当前国际上基因组研究的热点 , 使用生物信息学的方法是发现新基因的重要手段。
利用EST数据库发现新基因称为基因的电脑克隆。EST序列是基因表达的短 CDNA 序列 , 它们携带着完整基因的某些片段的信息。通过计算分析从基因组 DNA 序列中确定新基因编码区 , 已经形成许多分析方法 , 如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异等。此外, 还可以从基因组序列预测新基因 , 其本质是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开。从方法上讲就是找出在编码区和非编码区有哪些数学和物理学特征是不一样的 , 将这些序列与已知基因数据库进行比较 , 就可以发现新基因。
单核苷酸的多态性(SNP)表现为单个碱基上的变异。在人群中的表现有差异,如有的人吸烟喝酒长寿, 有的人自幼病痛缠身;还有同一种治疗肿瘤的药物对某些人非常有效 , 对其他热门则完全无效等等现象。一般认为 ,SNP的研究是人类基因组计划走向应用的重要步骤。这主要是因为 SNP 将提供一个强有力的工具 , 用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP 在基因组中分布相当广泛。近年来的研究表明 , 在人类基因组中每 300 个碱基对就出现一次。大量存在的 SNP 位点 , 使人们有机会发现与各种疾病相关的基因组突变。
3.3、功能基因组
功能基因组就是进行基因组功能的注释,了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。包括以下几个方面:(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(4)比较基因组学研究。它是识别和建立不同生物体的基因或其他基因组特征的联系。在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。
(5)功能基因组相关信息分析。
4、蛋白质组
蛋白质组是指一个基因组、一种生物或一种细胞/组织所表达的整套蛋白质.而有关蛋白质组的研究称为蛋白质组学。蛋白质组学的核心内容包括蛋白质组研究体系的建立、完善和与重要生物学问题有关的功能蛋白质组研究两个部分。基因组对生命体的整体控制必须通过它所表达的蛋白质来执行 , 由于基因芯片技术只能反映从基因组到 RNA 的转录水平上的表达情况 , 而从 RNA 到蛋白质还有许多中间环节的影响,这样,仅凭基因芯片技术人们还不能最终掌握生物功能的具体执行者一一蛋白质的整体表达状况。因此,近年在发展基因芯片的同时 , 人们还发展了一套研究基因组所有蛋白质产物表达情况的技术一一蛋白质组研究技术,包括二维凝胶电泳技术和质谱测序技术。、蛋白质结构及新药设计
基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来。然而,要了解它们的功能 , 只有氨基酸序列是远远不够的,因此出现蛋白质结构比对和功能预测。比对是通过比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,具有相似功能的蛋白质结构一般相似。目前通过X 射线晶体结构分析、多维核磁共振波谱分析和电子显微镜二维晶体三维重构等物理方法可以获得蛋白质的三维结构,还有一种方法是通过计算机辅助预测的方法。蛋白质结构预测的目的是利用已知的一级序列来构建出蛋白质的立体结构模型.对蛋白质进行结构预测需要具体问题具体分析,不同的已知条件下对于不同的蛋白质需要采取不同的策略。了解蛋白质的功能从而找到其致病的分子机理,知道它们的空间结构,再设计药物对这些疾病进行治疗。生物信息学中的理论模拟与结构预测相当的重要,基于生物大分子结构知识的药物设计也成了当前药物研究的一个热点 ,它根据药物分子与大分子之间作用的互补原理,在受体结构的基础上反过来设计药
物分子。而且生物信息学可用于药物靶标基因的发现和验证。
四、国内外生物信息学的现状和未来展望
生命科学与信息科学是目前发展最为迅速的两大领域,作为这两大学科交叉的产物之
一,生物信息学同样发展迅速,并在基因组学研究中发挥巨大的作用。
国外一直非常重视生物信息学的发展, 各种专业研究机构和公司涌现很多, 生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。由于对生物信息学的人才需求迅猛,发达国家也面临着供不应求、人才匮乏的局面。
国内对生物信息学领域也越来越重视,取得了一定成绩 , 甚至在国际上还占有一席之地,如北京的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在 EST 序列拼接方面以及在基因组演化方面、天津大学的张春霆院士在 DNA 序列的几何学分析方面都取得重要成果。北京大学研究建立起一个EMBL的镜像数据库,并提供数据检索服务。在复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。中科院上海生化所、生物物理等在结构生物学和基因预测研究方面也有相当的基础,中科院计算所作为我国计算机科学的顶尖机构,利用自身优势,也开始在生物信息方面投入大量的人力物力,从事相关的研究。但从全国总体来看与国际水平差距很大,需要努力。
目前,绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的 3 家数据库系统产生 , 他们共同组成了 DDBJ/EMBL/GenBank国际核酸序列数据库 , 每天交换数据 , 同步更新。其他一些国家 , 如德国、法国、意大利、瑞士、澳大利亚、丹麦和以色列等 , 在分享网络共享资源的同时 , 也分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业数据库以及自己的分析技术 , 服务于本国生物(医学)研究和开发 , 有些服务也对全世界开放。此外 , 国内生物(医药)科学研究与开发对生物信息学研究和服务的需求市场非常广阔。但是 , 真正开展生物信息学具体研究和服务的机构或公司却相对较少 , 仅有的几家科研机构主要开展生物信息学理论研究 , 生物信息学服务公司提供的服务仅局限于简单的计算机辅助分子生物学实验设计 , 而且服务体系也不完善。
生物信息学积极倡导的全球范围的资源共享将对整个人类社会的发展产生深远的影响,其研究领域和应用范围也将得到进一步的拓展。那时它不仅具有重要的学术价值,还有很大的商业价值,有着广阔的发展前景。随着后基因组时代的到来,它将发挥着越来越不可替代的作用。将成为生物医学、生物工程、农学、遗传学、制药和高科技产业的巨大推动力。可以毫不夸张地说,生物信息学将是21世纪生物科学发展的核心领域。
参考文献:
刘秀艳,滕胜--应用计算机识别蛋白质功能[J ].生命的化学
田云,卢向阳--生物信息学[J ].生物学杂志
陈新 《生物信息学概论》
百度百科--生物信息学
Stein LD et al.Gene1998
我眼中的生物信息学 篇5
学院 外国语学院
年级 10级
班级商务一班
姓名 刘冰心
学号 101201041
4一、生物信息学的概念
从广义上来说,生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。包括了两层含义,一是对海量数据的收集、整理与服务,也就是管好这些数据;另一个是从中发现新的规律,也就是用好这些数据。
从狭义上来说,生物信息学是把基因组 DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和 RNA基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在 DNA序列中的遗传语文规律;在此基础上,归纳、整理与基因组遗传语文信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。
二、生物信息学的主要研究方向
1、序列比对
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据中决定物理和基因图遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列,这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。
2、蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA,蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前
提假设是内在的氨基酸序列与3维结构一一对应。观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模和指认方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。
3、基因识别非编码区分析研究
基因识别的基本问题是给定基组序列后正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成,一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列目前没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%。
4、分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况:Orthologous:不同种族,相同功能的基因;Paralogous:相同种族,不同功能的基因;Xenologs:有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征和基于距离的方法和一些传统的聚类方法来实现。
5、序列重叠群装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪方法,这就要求把大量的较短的序列全体构成了重叠群。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。
6、遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历
史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。
7、基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。
三、生物信息学得意义
生物信息学专业计算机课程 篇6
关键词:生物信息学;生物专业; 教学方法;学科交叉
Abstract: The characteristics of the professional teaching of bioinformatics are introduced , then the paper analyzes on the professional students of biological problems existing in the teaching of computer, biological computer curriculum teaching methods are put forward.
Keywords: Bioinformatics; biology; teaching method; course cross
0.概述
近年来,伴随着生命科学的快速发展,有关生物的数据逐渐增多,而分析手段也很多,产生了生物信息学这个概念。
生物信息学是由生物学与计算机科学、应用数学以及统计学等学科相互交叉而形成的一门新兴学科,它使用计算机和信息技术对生物信息数据进行采集、处理、存储、检索和分析,从而达到揭示相关数据中所蕴含的生物学意义的目的[1]。
为了快速有效地从海量的生物数据中获得所需信息,提高发现问题、解决问题的能力,在生物信息学教学过程中有必要开设一些计算机课程、数学及工程相关课程,这样可以启发学生综合运用数学、物理、工程科学和计算机知识的能力,拓宽其知识面,了解学科前沿和最新进展,培养跨越生命科学、计算科学、数理科学等不同领域的大科学素质和意识,为今后选择新兴交叉学科领域进行深造奠定基础。
因此很多大学增设了生物信息学这个本科专业,有的在计算机学院中增加生物信息专业本科,有的在生命学院增加生物信息本科,在本文中主要讨论在生命学院中开始生物信息学专业。
作为一门交叉学科,不同专业的学科体系对生物信息学课程教学提出了不同的要求,如何在生物专业学生中开展生物信息与计算机课程的结合,是培养更高理论和实践能力的生物信息专业人才的关键。
1 生物信息学的特点
生物信息学涉及分子生物学、微生物学、生物化学、蛋白质化学、分子遗传学、基因组学、生物物理学、概率论与数理统计、信息论及计算机技术等学科,学科交叉性极强。
仅就计算机技术而言,计算机编程、数据库技术和模式识别、软件工程及网络技术等都在生物信息学中有广泛的应用[1,2]。
因此,生物信息学是将不同领域知识高度集中的学科。
2 计算机课程的设置
对生物信息学来说,计算机技术就是一个工具,用来对生物数据进行处理。
工欲善其事,必先利其器,所以要做好数据的分析工作,必须让学生学好计算机课程,但更应该在生物信息学专业的教学计划中把计算机课程设置恰当,让学生受益[2]。
2.1 课程的选择顺序
生物信息学面对的是海量生物数据,所以首先需要学习使用编程工具,如JAVA或者C++语言或者Perl语言等编程工具,然后安排数据结构等课程对编程课程进行深入了解,后期安排数据库技术、数据挖掘等课程,方便学生进行实践应用。
2.2 教材和授课内容的合理选择
在学习生物的.学生中开设生物信息学专业,那么教材的选择应该兼顾学生的知识背景和学习兴趣,由于学生对蛋白、进化、蛋白质结构、基因序列有一些认识,但对计算机比较恐惧,因此计算机教材可选用比较简单、易懂的,如JAVA课程主要讲解编程思想,那么主要包括环境变量设置、语法和如何编程,那么选择教材时就选包括这些内容的教材就可以了,并在上课过程中,结合一些生物信息软件来讲解,激发学生的学习兴趣。
同时,选择适合的授课内容也是必不可少的环节:序列比对算法、基因识别算法、蛋白质结构预测、分子动力学模型及机器学习或模式识别算法在生物信息学中的应用等方面的内容,此外在大学初期也要加强数学、物理和计算机方面的基本知识的课程开设[2]。
能够从他们自己的知识体系出发, 阐述生物数据如何用计算机方法和技术进行获得并处理;并且了解学生已经掌握哪些生物学知识,在授课过程中,针对学生的特点综合使用多本教材更能达到预期效果。
使学生认识到计算机技术和方法在生物学研究领域的广阔应用空间。
随着生物信息学研究的深入,国内外出现了大量的生物信息学教材、专著和一些最新的文献。
2.3从抽象到具体的教学理念
由于生物信息学涉及数学、统计学及算法等众多理论知识,但有生物基础的学生具有生物学知识储备,缺乏计算机知识。
所以在为生物学专业上进行计算机课程时尽量采用结合实例进行讲解。
首先,针对生物学专业学生计算机知识薄弱的特点,尽可能将生物信息学问题转化为学生熟知领域的问题,例如,在讲解蛋白质二级结构预测时,可考虑学生学习过螺旋、折叠和无规则卷曲的特征,讲解模式识别算法预测二级结构的过程时用可采用一些模型如苹果等进行形象讲解更容易被学生接受了;其次,充分利用现代化教育技术及网络资源,对于未接触过计算机实验学生来说,程序代码对于他们而言是枯燥无味的,在教学过程中充分利用计算机实验和网络资源,让学生了解计算机程序的运行过程和网络中生物信息软件的使用,从而对计算机处理生物学数据产生感性认识。
例如,在讲解利用聚类算法分析基因芯片数据时,可以先播放基因芯片制作过程的Flash动画,让学生身临其境,这样不仅可以激发学生的学习兴趣,更可以加深学生对知识的理解和掌握。
或者讲解聚类算法可以用物种分类进行类比来讲解[2]。
2.4加强实验环节
生物专业的生物信息学课程的教学过程就是让学生了解并掌握计算机科学和技术如何处理分析生物学数据的过程。
因此,进行理论教学的同时,实验教学环节也是必不可少的[3]。
计算机实验不同于生物实验,而是主要通过计算机进行处理,例如可通过计算机实验直观的了解三大核酸数据库:蛋白质序列和结构数据库的数据组织方式;通过实验可以让学生掌握如何利用Acclrys Discovery Stdio软件进行蛋白质结构预测,感受蛋白质结构显示软件的强大威力,更重要的是,使学生了解到计算机技术和方法在生物数据处理过程中的举足轻重的作用。
从生物信息学实验课中,他们可以领略到计算机科学技术的魅力,增加作为生物信息学专业学生的自豪感,并坚定学好生物信息学知识的信念。
3 后续课程的构想
在后续课程中,由于前面为学生设置数据库原理与设计及数据挖掘等课程,可开设一些专题讲座,如了解数据库设计后,可结合生物专业的特点,可能了解了在网络环境中三大核酸数据库的组织结构,讲解它们是如何采用数据库知识进行组织的,并进行一些简单数据库的设计工作;在数据挖掘课程后可采用一些统计学软件如MATLAB处理生物数据的一些专题[4,5]。
又如开设讲解生物信息学的研究热点与与原来讲解的课程进行对接。
也可讲解一下药物信息学的设计、疾病靶点的选择等,激发学生学习生物信息学的意义,让有可能进一步深造的学生知道前进的动力。
4 结束语
作为一门新兴的学科,生物信息学专业的发展非常迅速,新的理论、算法和应用程序不断涌现。
因此在进行生生物信息学专业教学中,不拘泥于现有的生物信息学教材和计算机教材时纳入最新的研究成果,将相关研究领域的一些新的研究方法、网络资源以及工具软件介绍给学生。
例如, GCG软件是一套蛋白质、核酸序列分析软件,一般在Linux环境下使用,包括130多个软件,但现在这些类似功能的软件很多可网络上下载到Windows系统环境下进行蛋白质、核酸序列分析,因此可介绍这些软件给同学使用,方便同学在自己的电脑里熟练使用这些软件,同时有些软件有更新的算法和版本也可以介绍,及时更新学生的知识体系,培养学生相关学科前沿的意识,拓展学生视野。
参考文献:
[1] 孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,:3
[2] 丁彦蕊,蔡宇杰.计算机专业生物信息学课程教学的实践探讨,安徽农业科学,,40(29)14596-14597
[3] 高亚梅,韩毅强.生物信息学本科教学初探[J].生物信息学,,5(1):44-48
[4] 戴凌燕,姜述君,高亚梅.《生物信息学》课程教学方法探索与实践[J].生物信息学,,7(4) :311~313.
生物信息学名词解释 篇7
生命科学的迅猛发展使人们从基因组学、蛋白质组学等研究领域中获得了大量的数据[1]。但数据并不等同于信息和知识,而是信息和知识的源泉。如何收集、存储和分析这些数据,尤其是如何从不连贯的数据中获取有用的生物学信息,仅仅依靠传统的数理统计手段是难以解决这些问题的。
伴随着蛋白质组学和基因组学研究的发展,生物信息学(bioinformatics)应运而生[2]。生物信息学以数学理论和计算机技术为主要手段,应用软件和计算机网络为主要工具,通过对海量的原始数据进行收集、存储、管理、分析、注释、加工和处理,从而获得新的知识。通过将数据挖掘和信息处理技术应用于临床医学数据,生物信息学在医学基础研究和临床实践领域都发挥了巨大的辅助和推动作用。将生物信息学的方法应用到质谱数据的挖掘,可以很大程度上提高疾病预测的准确度,并提高分类效率。
本文在查阅大量文献的基础上,综述了质谱分析的生物信息学方法,并分析、对比了几种代表性研究方法的优劣。
1 质谱分析的主要方法
数据挖掘[3]是从大量、不完整、有噪声、模糊、随机的数据中,提取隐含在其中人们事先不知道的、但又是潜在有用的信息和知识的过程。而质谱分析的目的在于从原始质谱数据中提取有用信息,为临床疾病诊断和个体化治疗方案的确定提供决策性建议。从信息学角度讲,属于数据挖掘范畴。
质谱分析的方法有很多,每种方法都有自己的优点和不足之处,到目前为止还没有一种普适的方法。比选择分类方法更重要的是熟悉选定的方法,以保证其正确和合理使用。通常需要根据主观标准来进行选择,如研究人员的经验和科学背景等。
目前,质谱分析主要有决策树模型(Decision Tree Analysis,DTA)[5]、偏最小二乘法(Partial Least Squares,PLS)、人工神经网络(Artificial Neural Networks,ANN)[6]和支持向量机(Support Vector Machines,SVM)[7]等几种方法。根据是否具有记忆和学习功能,可分为非智能算法(DTA、PLS)与智能算法(ANN、SVM)两类。
在进行质谱数据分析前,首先需要对数据进行预处理,为高质量的挖掘结果打好基础。
1.1 质谱数据的预处理
“预处理”一词给人的印象是处理一系列主要分析的次要前期阶段。然而,预处理阶段有其特殊的重要性,因为它影响到数据处理后期阶段的特定编码格式的选择。选择正确的编码格式,可以大大降低后续处理的计算量,提高分析的能力和效率。
迄今,还没有一种通用、公认的方法读出谱线。目前常用的读出谱峰的方法有:幅值法、一阶导数法和二阶导数法。信噪比大的明显的谱峰,由平均质量和强度最高值检测和表征(图1A)[4]。这里所说的“质量”,实际上是“质荷比”[8]。
如果不同谱线的峰值对应相近的质量,谱线的峰值就会互相配合并集群,这就是所谓的谱峰聚类(图1B)。峰值完全依靠谱结构分组。每个高峰聚类对应于一个质量区间,由一个特征性的质量来描述,如某一集群中众多谱峰的平均位置所对应的质量。按照谱峰的最大强度值读出所有的谱线。
峰值的自动检测和聚类往往同步进行。在峰值检测的第一步,峰值都是独立地由单一质谱决定的。谱峰聚类后,单一质谱依据较严格的标准被再次分析,从而最初遗漏的信噪比较小的峰值将被发现,也就是说一个峰值如果存在于许多谱中,那么它也很有可能存在于一个谱中。在图1中,右侧标记“×”的极大值被其他谱证明,而左边极大值的则得不到证明。峰值检测和聚类通常分两个步骤进行:第一,峰值自动检测和集群;第二,根据检查结果,由有经验的工作人员手动调整。
1.2 决策树模型
1.2.1 模型原理
决策树模型是一种阶梯式划分数据(图2)的算法。从给定的样本数目基本一致的两个数据集开始(图2A,顶部)(例如两组分别来自健康人和病人的血清质谱的峰丛强度),通过从不同类别中将病例分离,检查所有可能的特征截断值的用途。两个数据点之间的每个特定功能的截断,对应于两个分类器:一个分类器将数值小(大)于截断值的样本分配到“白(黑)”类中,另一个功能相反的分类器将数值低(高)于截断值的样本分配到“黑(白)”类中(图2A,中)。判断截断是否有效的依据是正确归类病例的数目。用所有测得的功能检查所有不同的截断后,选择最有用的截断/特征对。在图2A(下)中,最有用的切断标记为“*”,该截断生成的分类器只有3个错误分类的病例。从而,可获得优化的同质类中的子数据集,例如图2B中的子数据集I和II。数据分区的过程反复进行,直到获得的同质类(Class homogenous)的子数据集的大小可以接受。图2B显示了一个连续应用两个截断的例子,最后产生三个子数据集,记为“终端节点”I-III。
决策树生成中的核心问题是“过拟合”现象。决策树过于拟合实际数据集,因而对于未曾发现的数据很可能是不适合的。
研究只对非过度拟合的决策树感兴趣。非过拟合决策树的分类标准并不代表实际数据集的特性,而是潜在患者群的典型特征。如图3 A,在单一的决策树中使用许多分裂标准,生成树所使用的数据集的错误分类的数量可以减少到零。然而,只有最初的几个准则可以推广到无形的数据。
可以通过停止准则防止过度拟合。停止准则,即决策树生成过程中当遇到某一标准时,则停止生成,例如,当所有终端节点少于5例病人时。交叉验证是估计最佳分裂标准数量的一种很好的方式(图3B)。通过选择各自的测试集上整体分类错误最少的树的结构,可以获得决策树的最佳截断个数。
1.2.2 模型举例
(1)研究[15]表明,发明蛋白质芯片飞行时间质谱系统,根据各蛋白质峰的质荷比(m/z),采用决策树算法,建立一个决策树的蛋白质指纹图谱模型;将检测人血清中相应的蛋白质的质荷比与本发明的模型进行分析,就可以初步用于肺癌诊断,其预测准确率为71%。
(2)研究[16]表明,分类决策树模型的交叉验证(测试组)总准确率为81.8%,ALN有转移的乳腺癌患者检出率为83.3%,ALN无转移的检出率为80%,构建的分类决策树模型能达到区分ALN是否有转移的最佳效果。
1.3 偏最小二乘法(PLS)
偏最小二乘法(Partial Least Squares,PLS)是一种适合处理变量数很大的建模方法,具有较强的提供信息能力,在分析化学中得到了广泛的应用[11,12]。PLS变量筛选法是在PLS回归法基础上作变量筛选的[9]。
1.3.1 PLS回归法原理
PLS法是一种研究两个数据块或矩阵和相关关系的方法。在该方法中对数据矩阵实施序列的正交变换:
其中h为隐变量的个数。在变换过程中,使得到的矢量ti与对数据矩阵变换得到的矢量ui=Yqi的协方差为最大值。具体PLS正交变换算法见文献[10]
式(1)可写为矩阵的形式:
PLS回归模型为:
将(2)带入(3),可得:
因此,PLS回归法的模型系数由(4)得:
其中,隐变量的个数或矩阵中变量的个数小于矩阵中变量的个数。
2.3.2 PLS变量筛选法原理
PLS变量筛选法是在PLS方法技术上发展起来的一种变量筛选法,能提取成分复杂的图谱信息,且可以避免谱图数据共线的问题。预测能力强且模型相对简单。
在PLS变量筛选法中,首先用PLS法对含有全部变量的数据处理,建立一个预报稳定性较高的模型。在此基础上,利用其中回归系数等有关信息进行变量筛选。主要采用以下判据删除影响不大的变量:
△Ei表示当删除第个变量时,PLS回归模型的拟合误差增加值;T为PLS法得到的正交矩阵,矩阵(TTT)-1为对角矩阵,较容易计算;R是PLS正交分解得到的矩阵,而矢量1i为第1i个分量为1、其余分量为0的一种特殊矢量;bi为第i个变量对应的回归系数。在PLS变量筛选法中,主要是删除那些△Ei值很小对应的变量。
1.3.3 模型举例
⑴研究[17]中,Goncalves等应用SELDI-TOF-MS研究了81例早期乳腺癌患者的血清蛋白质组图谱,其中40个蛋白质在有转移组和无转移组中有显著性差异表达。采用偏最小二乘法,最终得到了一个由40个蛋白组成的蛋白质组预后预测图谱,其预测的敏感度和特异度分别是87%和76%。血清蛋白质组学在乳腺癌预后预测中得到应用。
⑵研究[9]表明:肝癌病人和健康人的血清蛋白质指纹图谱数据,经过数据预处理、PLS变量筛选法建立分类模型,模型CR值达到0.9611,100个样本完全判断正确。
1.4 人工神经网络模型
人工神经网络(Artificial Neural Networks,ANN)模型的研究目标,是通过研究人脑的组成机理和思维方式,探索人类智能的奥秘,进而通过模拟人脑的结构和工作模式,使机器具有类似人类的智能。应用到医学数据处理上,就是通过建立模型,找出血清蛋白质谱中表征健康或疾病的信息。
感知器(perceptron)模型是一种最基础的神经网络模型。在感知器模型的基础上,发展出了反向传播(Back Propagation,BP)神经网络、自组织映射(Self-Organized Mapping,SOM)神经网络等模型[12]。
BP神经网络可以处理共线性效应和变量间交互作用,善于处理非线性的、模糊的、含有噪声的数据情况,且理论基础牢固,物理概念清晰,通用性好。SOM神经网络是无监督竞争式学习网络,通过学习能够提取待处理数据中的某种内在规律,并按离散时间方式进行分类,大大减弱了一致性准则中的人为因素。神经网络的局限性在于,建立在渐进理论的基础上,需要无穷多的样本才能较真实的模拟样本的分布函数,而实际上所得的样本都是有限的。
1.4.1 反向传播模型原理
反向传播模型也称B-P模型,是一种用于前向多层的反向传播学习算法。所以将其称作反向学习算法,是因为在修改各人工神经元的连接权值时,所依据的是该网络的实际输出与其期望的输出之差,将这一差值反向一层一层的向回传播,来决定连接权值的修改(图4)。
B-P算法的学习过程如下:
(1)选择一组训练样例,每一个样例由输入信息和期望的输出结果两部分组成;
(2)从训练样例集中取一样例,把输入信息输入到网络中;
(3)分别计算经神经元处理后的各层节点的输出;
(4)计算网络的实际输出和期望输出的误差;
(5)从输出层反向计算到第一个隐层,并按照某种能使误差向减小方向发展的原则,调整网络中各神经元的连接权值;
(6)对训练样例集中的每一个样例重复(3)~(5)的步骤,直到对整个训练样例集的误差达到要求时为止。
1.4.2 自组织映射模型原理
自组织映射神经网络是聚类分析中广泛使用的一种高维可视化的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SOM网络由输入层和竞争层(输出层)组成,且两层之间是全连接的(图5)。目前,SOM算法已被广泛应用于众多信息处理领域,在血清蛋白质谱分析中也发挥着很大作用[13]。
SOM算法的学习过程如下:
将网络中各输入神经元与竞争层神经元的连接情况抽出,设网络输入模式为:
竞争层神经元矢量为:
其中式(7)的Pk为连续值,式(8)的Aj为数字量。竞争层神经元j与输入层神经元之间的连接权矢量为
1.4.3 模型举例
⑴研究[18]采用BP-ANN算法,建立并存储诊断模型、预后模型。诊断模型对大肠癌的诊断灵敏度和特异度分别为82.22%和80.45%,阴性预测值94.74%,阳性预测值51.39%,准确度为80.80%。预后模型通过回验,证明该模型的检验符合率为62.96%。
⑵在研究[14]中,对所有质谱数据用SOM-ANN进行特征选择(网络为6*6,迭代次数为1 000次),按权值大小挑出权值大的那些特征,对权值相同的特征挑出其中一个。在卵巢癌质谱数据的实验结果中,当特征维数选择为5左右时,SOM的识别率达到了87.2%,是一种有效的特征选择方法。
1.5 支持向量机
支持向量机(Support vector machine,SVM)是一种新型模式识别方法,它能根据有限的样本信息,在研究对象模型的复杂性与分类器的学习能力之间寻求最佳的折中方案。理论上,支持向量机算法得到的是全局最优点,解决了局部极值问题。该算法将实际问题通过非线性变换转换到高维的特征空间,巧妙地解决了维数问题,使算法复杂度与样本维数无关。但是支持向量机算法的核函数选择困难,且算法的复杂性导致训练速度较慢,不宜解决大规模的分类问题。
支持向量机刚主要用于解决数据分类问题,分类问题中最常见的是线性可分问题(图6左)、大约线性可分(图6右)、线性不可分情况(图7)[14]。
1.5.1 模型原理
SVM的基本思想是根据结构风险最小原理,寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即构造一个分类函数,将两类样本尽可能地区分开来,使得分类平面两侧的余裕(margin)尽可能最大(图8)。
图8中十字和圆圈分别代表两类训练样本点,分类线H能把两类正确的分开,H1、H2平行于H,且分别通过两类样本中离分类线H最近的点。H1、H2之间的距离叫两类的分类空隙或分类间隔。
1.5.2 模型举例
⑴本研究[19]中应用非线性的SVM分类器(nonlinear SVM classifier),在此基础上分别应用1 000次5倍交叉验证和“留一法”交叉验证两种方法,并建立评价模型。经过计算筛选出最佳组合是:3 932m/z+5635 m/z,即由这两个蛋白质峰构建的模型可达到对乳腺癌患者的最佳检测效果。
⑵研究[14]表明,脑良性肿瘤样本较少,用SVM模型可以使这样的小样本具有较好的推广性。在研究生物信息学方面,选择了“留一法”SMV分类器简历评价模型,可以筛选出在胶质瘤和脑良性肿瘤及健康对照中表达有差异的新的潜在生物标记,并且可以建立检测胶质瘤敏感性和特异性都很高的判别模型,为胶质瘤的诊断提供了新的方法。
2 质谱分析的发展趋势及前景展望
高通量检测技术的进步,使原始蛋白质表达谱的采集得以实现,但随之而来的是后续分析、处理技术和方法的新挑战。使用得当的话,质谱分析的结果可应用于疾病预警或者检测,为个体化治疗方案的制定提供支持。
本文综述了质谱分析的几种主要方法:决策树模型、偏最小二乘法、神经网络模型和支持向量机。对分析方法的基本原理、适用范围、优势和不足之处做了具体论述,并分别给出疾病诊断的实例加以说明,展现了质谱分析方法对疾病判别和预测的重要作用。
综上所述,通过对临床血清蛋白质谱数据库的原始数据开展分析,可以发现与疾病诊断或健康状况预警相关联的特征信息,提示或协助临床诊断和个体化治疗方案的确定,对人群健康分析和疾病预警的实现具有重要的指导意义。研究人员将在改进现存方法的基础上,创新质谱处理方法,寻找生物信息学和临床诊断间的契合点。
摘要:蛋白质谱具有复杂、数据量大等特点,采用一般的统计学方法难以得到满意的疾病预测或分类结果。文从生物信息学的角度出发,综述了质谱数据挖掘的决策树模型、偏最小二乘法、神经网络模型和支持向量机几种主要方法,并对不同的方法给出了疾病诊断的实例说明,体现了质谱分析方法对疾病判别和预测的重要作用。
生物信息学名词解释 篇8
关键词:MySQL 数据库 生物信息学
中图分类号:G64 文献标识码:A 文章编号:1674-098X(2016)02(b)-0141-02
随着计算机技术和生物技术的快速发展,MySQL数据库课程不仅是计算机类专业、信息管理专业的重要专业课程,也是生物信息学专业的必修课程。MySQL数据库作为应用型课程,其课程体系注重培养学生利用数据库技术解决实际问题的能力,然而由于专业方向、教学手段、考核方式等方面的限制,容易使学生学习目标不明确、缺乏学习兴趣,导致学习效果较差。如何改变生物信息学专业的MySQL数据库教学现状,是值得深入思考的问题,该文从教学实践出发,探讨MySQL数据库课程在生物信息学专业中的重要性和教学方法。
1 MySQL数据库特点
MySQL由瑞典MySQL AB公司开发的一款开放源码的中小型关系数据库管理系统,是当前网站开发中尤其是PHP开发中使用最为广泛的数据库。MySQL支持多线程充分利用CPU资源,提供TCP/IP、ODBC和JDBC等多种数据库连接途径,支持Linux、Solaris和Windows等多种操作系统,使用系统核心提供的多线程机制提供完全的多线程运行模式,提供了面向C、C++、Java、Perl、PHP和Python等编程语言接口,优化SQL查询算法,可有效地提高查询速度。它具有操作简单、体积小、速度快等优点,语法简单,容易被学生理解和接受,在编写网站应用程序时,几乎离不开数据库,所以,在教学中选取MySQL作为教学用数据库管理系统。
2 MySQL数据库课程教学方法研究
MySQL数据库具有很多特点,是网站应用程序不可缺少的重要部分。对于生物信息学专业的学生而言,使用很多数据库,如,NCBI、UCSC等进行生物数据检索,而获得数据后,如何进行数据存储、数据处理和分析成为一个重点难点问题。学习MySQL数据库课程,能使学生快速地掌握使用方法,提高处理数据效率。为保证良好的MySQL数据库教学效果,从以下几方面开展教学方法研究和实践。
2.1 理论与实践紧密结合,调动学生学习兴趣
根据MySQL数据库理论性和应用性强的特点,为使学生全面掌握数据库基本知识和技能,提出理论与实践紧密结合的教学方法,重视课堂理论知识的传授,紧密结合实践训练。例如:理论学习关系数据库模型时,引入实例,指导学生从GenBank数据库获取核酸和蛋白质序列,调动学生主动思考,如何存储为关系模型数据,加深学生对关系模型的理解和应用,并为同学分配任务,进行核酸和蛋白质序列的查询、修改关系操作,通过这种具有专业特色的理论学习与实践训练相结合的教学方法,使学生掌握了MySQL数据库理论知识的同时,也激励同学主动开展实践训练,能够使枯燥的理论知识变得生动有趣,使学生认识到MySQL数据库课程的重要性,进一步促进生物信息学专业课程的学习。
2.2 项目与任务驱动结合,培养学生动手能力
针对MySQL数据库课程的特点,开展项目与任务紧密结合的教学方法。总体上将课程划分为若干阶段的教学过程,并将教学过程分解在一个项目案例MySQL数据库系统中。例如:构建人类疾病相关基因数据库系统,将该项目划分按照数据库设计周期划分为以下6个阶段:需求分析阶段、概念结构设计阶段、逻辑结构高设计阶段、物理结构设计阶段,数据库实施阶段和数据库运行与维护阶段,分配子项目和子任务,包括人类疾病相关基因数据的获得与处理、转化为关系模型结构数据、数据模式分解、MySQL数据库构建、关系表构建、数据类型设置、数据导入、创建索引、视图、触发器以及存储过程等,充分调动学生学习的主动性,发挥主观能动性,用项目和任务引导学生学习知识点,即把知识点的讲授贯穿在实际应用项目的开发过程之中,指导学生掌握实际的MySQL数据库的分析、设计与开发过程,培养学生动手研发能力。
2.3 考核与教学反思结合,优化教学内容
目前,MySQL的数据库课程理论与实践考核存在考核过程效率低、考核内容覆盖面小、考核方法少等问题使教师难以全面掌握学生的学习效果,所以,在考核过程中督促学生全面掌握数据库相关知识,提出了可靠的理论与实践考核方法,即制订合理的考核内容计划,构建全面的数据库、试题库、理论试题库和实践试题库,全面覆盖表与数据库的创建、表结构的修改及索引的创建、数据操作、查询及视图、触发器与存储过程的创建、用户与权限管理等,结合生物信息学专业知识进行理论和实践考试,保证理论考试和实践考试能够全面真实地反映学生的掌握水平。同时,进行教学反思,即时纠正教学过程中还存在的问题,对于课堂上学生提出的一些独特见解给予充分肯定,推广的好方法、好思路、好见解,完善教学过程,拓宽教师的教学思路,提高教学水平。
3 结语
MySQL数据库课程是生物信息学专业的重要专业基础课,具有较强的应用性。该文根据MySQL数据库特点,结合生物信息学专业特色,提出了理论与实践结合、项目与任务结合、考核与教学反思结合的教学方法,不仅调动学生的学习主动性,而且在实践过程中使学生充分认识到MySQL数据库课程在生物信息学数据存储、数据处理等方面的重要作用,通过数据库试题库进行理论与实践考核,督促学生全面掌握数据库相关知识,通过项目与任务结合培养了学生的实践能力,很好地完成了教学任务,但具体教学过程中可能还会存在一些问题,这需要教师根据课程环境进行即时调整不断地完善,使MySQL数据库课程在生物信息学专业中发挥更重要的作用。
参考文献
[1]钟志宏.MySQL数据库实践考核的方法研究[J].黔南民族师范学院学报,2012(6):83-84.
[2]赵彦.探析高职院校MySQL数据库课程教学[J].信息教育,2012(9):127-128.
[3]党小争.以工作过程为导向的项目驱动法在MySQL数据库课程教学中的应用[J].教育教学论坛,2014,4(18):82-83.