生物信息学序列分析(共3篇)
生物信息学序列分析 篇1
1 引言
生物信息学是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白组学两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达结构与功能的生物信息。
生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析,也就是研究新的计算机方法,从大量的序列信息中获取基因结构、功能和进化等知识。在从事分子生物学研究的几乎所有实验室中,对所获得的生物序列进行生物信息学分析已经成为下一步实验之前的一个标准操作。而在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定,拼接,基因的表达分析,到RNA和蛋白质的结构功能预测,物种亲缘树的构建都需要进行生物分子序列的相似性比较。例如,有关病毒癌基因与细胞癌基因关系的研究,免疫分子相互识别与作用机制的研究,就大量采用了这类比较分析方法。这种相似性比较分析方法就称为系列比对(Sequence Alignment)。目前,国际互联网上提供了众多的序列比对分析软件。然而,不同的分析软件会得到不同的结果,同时所使用的参数在很大程度上影响到分析的结果。有时常常会由于采用了不合适的参数而丢失了弱的但却具有统计学显著性意义的主要信息,导致随后的实验研究走弯路。因此,生物信息学中的序列比对算法的研究具有非常重要的理论与实践意义。
序列比对问题根据同时进行比对的序列数目分为双序列比对和多序列比对。双序列比对有比较成熟的动态规划算法,而多序列比对目前还没有快速而又十分有效的方法。一般来说,评价生物序列比对算法的标准有两个:一为算法的运算速度,二为获得最佳比对结果的敏感性或准确性。人们虽已提出众多的多序列比对算法,但由于问题自身的计算复杂性,它还尚未得到彻底解决,是生物信息学中一个非常重要且具有挑战性的研究课题。
2 序列比对
比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中,比对是最常用的研究手段。
最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比较,从而获得蛋白质折叠类型的信息。
序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点记录两个维上对应的两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是NeedlemanWunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法。
在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。粗糙的比对方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和功能的不同影响效果。用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的替换矩阵,但国际上常用的替换矩阵有PAM和BLOSUM等。它们来源于不同的构建方法和不同的参数选择。对于不同的对象可以采用不同的替换矩阵以获得更多信息。
多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对多序列比对的研究还在不断前进中,现有的大多数算法都基于渐进的比对思想,在两两比对的基础上逐步得到多序列比对的结果。
多序列比对算法是生物信息学中的最基本算法,是生物体的进化分析、蛋白质的分析和预测等生物体研究的基础,具有重要的理论意义和使用价值。
3 序列同源性与序列相似性
序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。序列同源(homology)指的是序列来自相同的祖先,意味着这些序列具有相同的进化历史,而序列的相似性(similarity)指的是两序列在某参数条件下的相像,它可以用相同残基的百分比或是其他的方法来表示。序列之间的相似度是可以量化的参数,而序列是否同源需要有进化事实的验证,显著的相似性通常意味着同源。
序列比对是运用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基数,比对算法的结果在很大程度上反映了序列之间的相似性程度以及它们的生物学特征。序列比对根据同时进行比对的序列数目多少可分为双序列比对(pairwise sequence alignment)和多序列比对(multiple sequence alinment)。序列比对从比对范围考虑也可分为全局比对(global alignment)和局部比对(local alignment),全局比对考虑序列的全局相似性,局部比对考虑序列片断之间的相似性。如下所示。
全局比对:
在实际应用中,用全局比对方法企图找出只有局部相似性的两个序列之间的关系显然是徒劳的;而用局部比对得到的局部相似性结果则同样不能说明这两个序列的三维结构或折叠方式是否相同。
4 序列比对算法
在生物分子信息处理过程中,将生物分子序列抽象为字符串,其中的字符取自特定的字母表。字母表是一组符号或字符,字母表中的元素组成序列。如DNA序列由四种核苷酸组成,用“A”,“T”,“C”,“G”代表四种碱基,其复杂度为4,“CCATGCTAGAT”可代表一个简单的DNA序列。蛋白质序列由20中氨基酸组成,由{ABCDEFGHIKLMNPQRSTV WXYZ}代表不同的残基。“X”表示某个不确定的残基。“B”表示天冬胺或天冬胺酸,用三个字符表示“Asx”。“Z”表示谷氨酰胺或谷氨酸,用三个字符表示为“Glx”,其复杂度为23,“BEGSSTTNMABNNMA”可代表一个简单的蛋白质序列。因此生物序列比对可以看作字符串的比对。对字符串的编辑操作有以下三种:插入———在序列中插入一个或多个字符;删除———在序列中删除一个或多个字符;替换———用另一个字符替代某个字符。
4.1 序列比对基本定义
定义1序列是有限长度的字符串,序列中的字符由某个有限字符集合Ω确定。对于DNA,Ω={A,C,T,G}。对于蛋白质,Ω由20种代表氨基酸的字符组成。
定义2对于序列S,|S|表示S中字符个数。S[i]表示序列的第i个字符。S[1…i]表示序列的前i个字符组成的子序列。
定义3我们用“-”来表示插入和删除所产生的空位,则:
(1)(a,a)表示匹配(从序列S到序列T没有发生变化);
(2)(a,-)表示从S中删除字符a,或是在T中插入空位;
(3)(a,b)表示用T中的字符b替代S中的a,(a≠b);
(4)(-,b)表示在S中插入空位,是从T中删除字符b。
定义4对于x,y∈Ω∪{-},定义σ(x,y)为计分函数,表示x,y比较时的得分。以下是最简单的一种定义公式:
定义5 S和T的一个比对A用序列S和T中字符的一一对应表示,其中
(1)|S'|=|T'|;
(2)S',T'去掉空格就是S和T。
定义6序列比对A的得分为M,得分M越高表示序列的相似程度越高。
4.2 序列比对算法
Needleman-Wunsch算法是双序列比对的经典算法,其使用的是动态规划的基本思想。对于长度分别为m和n的两个序列S和T,构造矩阵T,矩阵T中的最后一个元素T[m][n]即对应于最优比对的得分,而最优比对本身则可以通过回溯算法得到。该算法的时间和空间复杂度均为O(mn)。
Smith-Waterman对Needleman-Wunsch算法稍加改动,使其可以计算局部最优比对,其所需的时间和空间复杂度仍是O(mn)。
Mayers和Miller使用Hirschberg提出的技巧在时间复杂度不变的前提下将空间约减到O(m+n)。
M.Crochemore等人对经典算法加以改进,提出了一个可以在O(n2/log n)时间内实现的双序列比对算法。其主要思路是对序列进行压缩编码,从而将序列分为若干段,从而将比对所构造的矩阵分为若干块来计算。后面的块的计算可以利用前面的块的结果在常数时间内计算得出。
除了利用矩阵来计算序列比对外,还有两种常用于序列分析的后缀队列Suffix Array和后缀树。
AVID是一个双序列全局比对算法,首先,用后缀树找出所有的最大匹配子序列,并在其中选择所有不重叠,不交叉的序列作为锚点。然后用锚点作为最后比对的一部分,在锚点之间的序列部分则递归的用此算法进行比对。
生物数据的信息量极大,序列比对的计算需要耗费大量的时间。由于进行算法可以大大地加快问题求解速度,近年来对该问题并行化的研究也引起研究者的注意。
在CREW-PARM模型上,Aggarwal和Apostolico等人独立地提出了一个O(log m log n)时间,使用mn/log m个处理机的并行算法;Mi Lu等人设计了两个并行算法;一个使用mn/logm台处理机,时间复杂度为O(log2m+log m);另一个使用mn/log2mlog log m台处理机,时间复杂度为O(log2m log log m)。
对于多序列比对问题,传统方法所采用的表示模型是行一列模型,即对于输入的多个序列插入空位并排列比对,使其达到相同的长度。对于N个序列S1,…,Sn,其多序列比对是一个新的序列集S'=(S1',…,SN'),S'的所有序列长度相同,并且每一个序列Si'由Si插入空位‘-’得到。如果将各序列在垂直方向排列起来,则可以根据每一列观察各序列中字符的对应关系。图1是6个蛋白质序列片断基于行-列模型的多序列比对。
多序列比对问题实际上是两条序列比对问题的一般化推广。但是由于DNA或蛋白质数据库容量的指数级增长,当比对的序列大大超过两个时,基于基本动态规划法的多序列比对算法的计算量是非常惊人的,这使得多序列比对这一NP难题变得更加复杂。因此,为了解决这一问题,许多近似算法和启发式算法被提出。以下介绍几种典型的多序列比对算法。
动态规划方法:给定k条长度均为n的序列,根据在两条序列比对中的动态规划算法的思想,需要计算一个K维的超级立方体,该立方体的尺寸为(n+1)k。在双序列比对的动态规划解决方案中,每一项(i,j)要由(i-1,j-1)、(i-1,j)和(i,j-1)这三项来决定,在这个超级立方体中的每一项要有2k-1个相邻的项来决定。这样该问题的时间复杂度是O((2n)k),空间复杂度是O(2nk)。
渐进比对算法:渐进比对算法是最常用的、简单而又有效的启发式多序列比对方法,它所需要的时间较短、所占内存较少。这个算法首先是Hogeweg和Hesper给出的,随后Feng和Doolittle对此做了进一步研究和改进。基于渐进比对算法并被广泛使用且成为多序列比对标准方法的软件有:Clustal W和T-Coffee等。渐进比对算法的基本思想是迭代地利用两序列动态规划比对算法,先由两个序列的比对开始,逐渐添加新序列,直到所有序列都加入为止。但是不同的添加顺序会产生不同的比对结果。因此,确定合适的比对顺序是渐进比对算法的一个关键问题。而两个序列越相似人们对它们的比对就越有信心。因此,整个序列的比对应该从最相似的两个序列开始,由近至远逐步完成。作为全局多序列比对的渐进比对算法有个基本的前提假设:所有要比对的序列是同源的,即由共同的祖先序列经过一系列的突变积累,并经自然选择遗传下来的。分化越晚的序列之间相似程度就越高。因此,在渐进比对过程中,应该对近期的进化事件比远期的进化事件给予更大的关注。由于同源序列是进化相关的,因此可以按着序列的进化顺序,即沿着系统发育树(指导树)的分支,由近至远将序列或已比对序列按双重比对算法逐步进行比对,重复这一过程直到所有序列都已添加到这个比对中为止。
渐进比对算法主要由三个步骤组成:计算距离矩阵;构建指导树;依据指导树进行渐进比对。
这类算法的主要优点是:简单、快速,但存在两个主要问题:比对参数选择问题和局域最小化问题。
迭代比对方法:这种方法是使用比对记分函数反复添加一附加的序列到已比对的比对序列中,首先在所有的两条序列比对中找出距离值最小的一组,组成最优比对,然后反复地找出与最优比对距离值最小的序列。与最优比对的表头文件进行匹配,并且根据所得的结果相应的修改最优比对和表头文件。
Clustal W算法:比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将他们分成若干个组,并在每组之间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。
当得到多序列比对后,需要对比对的质量进行评价,SP模型是评价比对优劣的最常用模型。设得分函数具有可加性,多序列比对的得分是各列得分之和,对于某一列字符的得分可用公式(3)进行计算,即某一列字符的SP得分为一列中所有字符对得分之和:
其中ci表示该列中的第i个字符,f(ci,cj)表示字符ci和字符cj比较所得分值。具体计算时,可以先对多序列比对的每一列进行计算,然后将各列得分相加,也可以先计算所有两两序列比对的得分,然后再将得分相加。这两种计算在f('-','-')=0这一条件成立下等价。
多序列比对的目标是:在计分机制确定的情况下,寻找使得比对得分最高的多序列之间的最优比对。可以证明,利用SP模型寻找最优多重序列比对是一个NP完全问题。
要获得给定的多个基因或蛋白质序列之间的一个正确的比对是一个困难的计算问题,其困难在于两个方面:一是如何根据包括结构信息在内的生物学意义对给定比对打分,即如何获得一个完美的目标函数(Obj ective Function简称OF);二是在目标函数确定的情况下,如何求得分值最高的最优比对。前者要依据生物学的知识和实际问题的需要来决定。假设已经求得的目标函数相当完美且简单,后者也将是一个非常困难的计算问题。
5 结束语
随着生物学数据的大量积累,对序列比对算法的敏感性和运算速度提出了更高的要求,对计算的挑战就令人生畏,序列比对中的主要困难就是如何研究和设计同时具备高敏感性和高速度的算法,序列比对算法研究仍然是生物信息学中一个非常重要且具有挑战性的研究课题,对序列比对算法研究具有非常重要的意义。
参考文献
[1]Katoh.K,Kuma.K,Toh.H.,and Miyata.T.MAFFT version5:improvement in accuracy of multiple sequence alignment[J].Nucleic Acids Research.2005,33(2):511-518.
[2]Morgenstern,B.Werner,N.,Prohaska,S.J.,Steinkamp,R.,Schneider,I.,Subramanian,A.R.,Stadler,P.F.,and Weyer-Menkhoff,J.Multiple sequence alignment with user_defined constraints[J].Bioinformatics.2004.
[3]Simossis.V.A,Kleinjung.J and Heringa.J.Hommology-extended sequence alignment[J].Nucleic Acids Research,2005,33(3):816-824.
[4]Zhang,M.,Fang,W.W.,Zhang,J,H.,and Chi,Z.X.MSAID:Multiple Sequence Alignment Based on a Measure of Information Discrepancy[J].Computational Biology and Chemistry,2005,29(2):175-181.
[5]Edgar,R.C.MUSCLE:multiple sequence alignment with high accuracy and high throughput[J].Nucleic Acids Research,2004,32(5):1792-1797.
[6]Edbert,R.C.,and Sjolander,K.COACH:profile-profile alignment of protein families using hidden Markov models[J].Bioinformatics,2004,20(8):1309-1318.
[7]T K Attwood,D J Parry-Smith著.罗静初,等译.生物信息学概论[M].北京:北京大学出版社,2001:141-145.
[8]张敏.生物序列比对算法研究现状与展望[J].大连大学学报,2004,25(4):75-78.
[9]张永,李其申,江泽涛,蔡虹.基于序列结构信息的多序列比对算法[J].微计算机信息,2007,23(21):240-242.
[10]李镍岚,李其申,张永.一种基于动态规划的全局双序列比对优化算法[M].电脑知识与技术,2007.3:124-126.
生物信息学序列分析 篇2
1,数学基础要好点。线代,高数,统计等。
2,计算机知识。windows ,linux, unix系统等,各种常用生物软件的使用。可以自己找来一个个试。
3,matlab 里面有的关于生物方面的工具包也很多的。
4,生物知识,不用说的。
其他: 如果要深入的话,最好会编程。什么java,perl,等。我是刚开始学。大家多指教。
导师推荐了好几本书:
《生物信息学概论》 “Introduction to bioinformatics”(英)T K Attwood , D J Parry-Smith 著罗静初 等译北京大学出版社 2002年4月第一版本书从生物信息学的研究对象、意义出发,介绍生物信息学研究的基本方法和常用工具。主要介绍的是核酸和蛋白质序列的计算机分析方法,探讨利用现有的计算机程序,从现有的数据库中能够获取什么、不能够获取什么。全书共分十章:1.概论,2.信息网络,3.蛋白质信息资源,4.基因组信息资源,5.DNA序列分析,6.双序列比对,7.多序列比对,8.二次数据库搜索,9.数据库搜索实例,10.序列分析软件包。每章末尾均提供了进一步阅读指南和有关的网址。这本书的一大特色在于丰富的例子和图表,使读者可以很直观的了解和掌握书中的内容。此外,书的末尾还附有与生物信息学相关的词汇表。总的说来,这本书实用性强,可以作为高等院校生物信息学教材,也可以作为生命科学和生物技术各领域分子生物学研究和开发工作者的生物信息学参考书。
《生物信息学手册》郝柏林 张淑誉 编著上海科学技术出版社 2000年10月第一版一本手册式的生物信息学书籍。除了介绍了生物信息学,还包括了计算机及计算机网络(这一部分提供了一些网址)和分子生物学的知识。更为重要的是,该书的主要部分?quot;生物信息数据库“和”服务、软件和算法“部分,提供了大量的网址。几乎是每一个条目下面都有不少网址。这本书将网络上的生物信息学资源进行了索引式的介绍,并作了必要的说明。书中列举了近千条网址和引文,基本涵盖了生物学研究的各个方面,堪称生物信息的汪洋大海中的导航图。对生物信息学的服务、软件和算法,本书也作了较全面的描述。本书可供广大生命科学工作者以及由物理学、数学和计算机学转入生命科学领域的研究教学人员参阅(上面可以查到很多网址)。
《生物信息学》赵国屏 等 编著科学出版社 2002年4月 第一版本书是”863“生物高科技丛书之一。它比较全面地介绍了生物信息学的若干个主要分支,并特别介绍了与人类基因组研究
相关的生物信息学的一些较新成果;着重介绍了数据库和数据库的查询、序列的同源比较及其在生物进化研究中的应用;以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题;还介绍了蛋白质结构研究中的生物信息学问题,以及与分子设计和药物设计相关的生物信息学技术。本书可供生物信息学专业和生命科学相关专业的本科生、研究生和教学科研人员阅读学习,也可供相关专业的科技和应用机构的科研、管理和决策人员参考。注意,本书有很大篇幅是讲基因芯片和蛋白质结构预测的。
《生物信息学--基因和蛋白质分析的实用指南》 ”Bioinformatics--A
Practical Guide to the Analysis of Genes and Proteins "Andreas D.Baxevanis B.F.Francis Ouellette 著李衍达 孙之荣 等 译清华大学出版社 2000年8月 第一版这本书由前卫计算生物学家撰写,贯穿了已有的工具和数据库,包括应用软件、因特网资源、向数据库提交DNA序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。以下是该书的目录:1.因特网与生物学家,2.GeneBank序列数据库,3.结构数据库,4.应用GCG进行序列分析,5.生物数据库的信息检索,6.NCBI数据模型,7.序列比对和数据库搜索,8.多序列比对和实际应用,9.系统发育分析,10.利用核酸序列的预测方法,11.利用蛋白质序列的预测方法,12.鼠类和人类公用物理图谱数据库漫游,13.ACEDB: 基因组信息数据库,14.提交DNA序列数据库。本书有很多实际的序列和序列分析的例子。这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。
在第14章提及的通讯资源:互联网和通信地址;电话和传真号码
DDBJ/EMBL和GenBank的一般联系信息以及提交DNA序列到这些数据库的入口。
DDBJ(信息生物学中心,NIG)
地址:DDBJ,1111 Yata,Mishima,Shiznoka 411,Japan
传真:81-559-81-6849
提交: ddbjsub@ddbj.nig.ac.jp
更新: ddbjupd@ddbj.nig.ac.jp
信息: ddbj@ddbj.nig.ac.jp
互联网
主页:
WebIn:
GenBank(国家生物技术信息中心,NIH)
地址:Gen Bank National Center for Biotechnology Information, Nationtional Library of Medicine, National Institutes of Health, Building 38A, Room 8N805, Bethesda MD 20894
电话:301-496-2475
传真:301-480-9241
提交: gb-sub@ncbi.nlm.nih.gov
EST/GSS/STS batch-sub@ncbi.nlm.nih.gov
更新: update@ncbi.nlm.nih.gov
信息: datalib@ebi.ac.uk
互联网
主页:
BankIt:
在DNA序列数据库中使用的遗传密码:
DDBJ/EMBL/GenBank特征表文档可用WWW方式获得或者从EBI或NCBI的FTP服务器上得到PostScript文件。ftp://ncbi.nlm.nih.gov/genbank/docs/ ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/
EMBL和GenBank数据库的版本信息
EMBL ftp://ftp.ebi.ac.uk/pub/databases/embl/release/relnotes.doc
GenBank ftp://ncbi.nlm.nih.gov/genbank/gbrel.txt
Sequin: DNA序列数据库的提交和更新工具 http://www.ncbi.nlm.nih.gov/Sequin
EST, STS和GTS主页,获取信息和向这些特定GenBank数据库提交序列
EST http://www.ncbi.nlm.nih.gov/dbEST
STS http://www.ncbi.nlm.nih.gov/dbSTS
GSS http://www.ncbi.nlm.nih.gov/dbGSS
生物信息学论文 篇3
摘 要:本文阐述了生物信息学产生的背景,生物学数据库,生物信息学的主要研究内容,与生物信息学关系密切的数学和计算机科学技术领域,生物信息学产业等内容,展望了其未来并提出了若干在我国发展生物信息学的建议。着重指出,理解大量生物学数据所包括的生物学意义已成为后基因组时代极其重要的课题。生物信息学的作用将日益重要。有理由认为,今日生物学数据的巨大积累将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段。因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。关键字:生物信息学产生背景发展现状前景
随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运 算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了 快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命 科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形 成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展,被誉为“解读生命天书的慧眼”。
一、生物信息学产生的背景
生物信息学是80年代未随着人类基因组计划(Human genome project)的启动而兴起的一门新的交叉学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。事实上,它是一门理论概念与实践应用并重的学科。
生物信息学的产生发展仅有10年左右的时间---bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。事实上,生物信息学的存在已有30多年,只不过最初常被称为基因组信息学。美国人类基因组计划中给基因组信息学的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。
自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的。
数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与
正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。
二、生物信息学研究的发展现状
资金和实力非常重要,生物信息的研究投入短期不算大,但是结合成果,其投入相当的大。因为目前生物信息主要在于教学和和研究,商业领域的应用不算很广。如一套LIMS加上软件就要花上数千万。加上相关项目的研究开发,不是国内相关的机构所能承受的。所以需要得到政府的支持和帮助。以及有识之士的投入。否则我们又将远远落后国外。国内的制药行业将永不得翻身!基因的流失(国外一些国家打着给国内免费治疗,分析疾病的考旗帜,暗中收集了国内不同省份,地区的遗传类疾病和特性。这些资源,我们国家忽略,应当说目前还没有这样的实力进行研究)。落后就要挨打,21世纪是生物的世纪。基因大战不可避免。基因和疾病的研究很大程度就是数据的分析。里面的领头羊就是生物信息。国内应当在基础教学,基础研究并结合应用力度。
当然国内的人才济济,如有更多计算机领域和数学(统计方面的)人才参与到生物信息,将如虎添翼。目前我国生物信息学发展面临着如下几方面的困境:
⒈政府投资不足
虽然国际上生物信息学研究在各发达国家中比较受重视,但仍有不少研究机构抱怨政府资金投入不够。最近美国许多研究院纷纷申请要求政府加大生物信息学工具与数据库方面的投入,而且欧洲、日本、澳大利亚在这些领域也存在着资金困扰问题,欧洲生物信息学研究所(EBI)和欧洲基金会生命科学中心去年都遇到了麻烦。目前虽然危机已经暂时渡过,但未来几年EBI数据库和其它基础结构仍将受到资金短缺的困扰,一致有人发出了“免费数据服务还能维持多久”的疑问。
2.来自商业机构的竞争
基因组研究潜在的巨大商业利润使得国际上一批大型制药公司和化学公司向该领域大规模的进军。世界最大制药集团之一的Giba Geigy和Sandoz合资建立的Novartis公司投资2.5亿美元建立基因组研究所;Glaxo-Wellcome在基因组研究领域投入4700万美元,将研究人员增加一倍;Smith Kline公司花125亿美元扩展人基因组的顺序,将生物信息学的研究人员从2人增加至70人,并将该公司药物开发项目中的25%建立在基因组学之上。这一方面给生物信息学发展注入了生机,另一方面对那些政府支持的不以赢利为目的的研究机构造成了巨大的压力,学术部门的资金投入远远不及工业部门,其负面冲击力不可忽视。毕竟经济利益的盲目追求会导致基因组研究的片面性,生物信息学长路漫漫,保护这些学术部门的良好发展非常有必要。
3.专业人才匮乏
目前该领域缺乏懂得如何利用计算机技术处理大量生物数据的生物学家,不少生物学家只是将计算机用来打字或作为图纸的替代品。甚至出现了这样有趣的现象:制药业、工业、农业、生物技术研究团体经常在学术机构大肆搜查那些“可疑人”,更有甚者他们彼此间互挖“墙角”。虽然对于人才的渴求与日俱增,但全世界也仅有20多个专业人才培训中心,而且这些中心本身也处在恶性循环中,那些经培训后的人才往往由于高薪诱惑而投身应用工业部门,导致培训教育人员越来越少,出现“断层”现象。
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:“人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关”。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。
三、生物信息学的发展前景
《第三次技术革命》里有这样描述:“一场与工业革命和以计算机为基础的革命有相同影响力的变化正在开始。下一个伟大时代将是基因组革命时代,它现在处于初期阶段。”基因组学的发展已经进入后基因组研究阶段,致力于蛋白质功能研究的蛋白质组学和功能蛋白质组学正在蓬勃发展,在生物信息学发展的带动下,我们必定能够揭示各种生命现象的奥秘,并带动多个学科的跨越式发展。生物信息学的发展将对分子生物学、药物设计、工作流管理和医疗成像等领域产生巨大的影响,极有可能引发新的产业革命。此外,生物信息学所倡导的全球范围的资源共享也将对整个自然科学乃至人类社会的发展产生深远的影响。有理由相信,今日生物学数据的巨大积累将导致重大生物学规律的发现,生物信息学的发展在国内、外基本上都处在起步阶段,因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。
生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。这一点必须着重指出。预测生物信息学的未来主要就是要预测他对生物学的发展将带来什么样的根本性的突破。这种预测是十分困难的,甚至几乎不可能。但机不可失,时不再来,鉴于生物信息学在我国生物信息学和经济发展中的重要意义和其发展的紧迫性,因此,由国家出面组织全国的力量,搞个类似“两弹一星”那样的,但是,规模要小的多,花钱也少的多的生物信息学发展计划,不是不可以考虑的。要充分发挥中央与地方,生物学科研究人员等方方面面的积极性。生物信息学研究投资少,见效快,可充分发挥我国智力资源丰富的长处,是特别适合我国国情的一项研究领域。要在大学里建立生物信息学专业,设立硕士点和博士点,培养专门人才。可以组织一大批数学、物理、化学和计算机科技工作者,在自愿的基础上,学习有关的生物学知识,开展多方面的生物信息学研究。
经过十几年或更长的时间的努力,逐渐使我国成为生物信息学研究强国,是完全有可能的。信息学的商业价值十分显著。国外很多大学,研究机构,软件公司甚至政府机构纷纷成立各种生物信息机构,建立自立的生物信息集成系统,研制这方面的软件,重金招聘人才,期望从中获取更多的生物信息和数据加以研究和利用,缩短药物开发周期,抢注基因专利,获取更大利润。我国如不加大资金投入力度,将来可能会花更多的钱去购买别人的软件,使用专利基因或购买新的药物。所幸,我国也开始重视这一学科:南、北方人类基因组中心的相继建成,北大生物城的破土动工等,标志着我国对生物信息学的重视。我们有理由相信,我国的生物信息学在21世纪会有巨大的飞跃。
参考文献
1.陈润生.生物信息学.生物物理学报,1999,15(1):5
2.北京生物技术和新医药产业促进中心.世纪之交的新科学:生物信息学.生物技术通 报,1999,(8):49
3.杨福愉.展望21世纪的分子生物学.生物物理学报,1999,15(1):1
4.郑国清,张瑞玲,;生物信息学的形成与发展;河南农业科学;2002.11
5.王玉梅,王艳.国外生物信息学发展动态分析;科技情报开发与经济;2002.06