生物信息学中科院

生物信息学中科院（精选8篇）

生物信息学中科院篇1

浅谈对生物信息学的认识

摘要生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学, 是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。经过一学期的学习，我学到了很多很有用的知识，给我印象最深的有序列比对、蛋白质结构分析、核酸序列分析、数据库及数据库检索等内容。关键字：生物信息学认识基因组学数据库

时光飞逝，一学期马上就要结束了，本学期的专业选修课也即将结束。在上课之前，我一直认为生物信息学就是在讲关于人类及动物的基因，以及基因之间的差别。但是，刚上了几节课，我就发现生物信息学根本不是我想象的那么简单，就这样我怀着对自己的怀疑和对这门课的好奇走进了这门课。

生物信息学是一门新兴的、正在迅速发展的交叉学科,美国国家基因组研究中心认为, 生物信息学是一个代表生物学、数学和计算机的综合力量的新兴学(Bioinformatics is an emerging scientific discipline representing the combined power of biology,mathematics, and computers)。

现代生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学, 是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。

在这短短的一学期课中，在老师的带领下，我们学到了很多关

于生物信息学的知识，其中给我印象最深的有序列比对、蛋白质结

构分析、核酸序列分析、数据库及数据库检索等内容。

比如，序列比对，它的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学角度来看，它包含很多意义；如从

相互重叠的序列片段中重构DNA的完整序列等。老师主要给我们介

绍了blast比对。

再如，对蛋白质的分析。比如我们实验测定了一条蛋白质序列

或者从DNA序列翻译得来一条蛋白质序列，我们要借助生物信息学

方法来对它进行基本性质及结构分析。其中基本性质包括它的分子

量、氨基酸数目、排列顺序、等电点分析等。结构分析包括跨膜螺

旋分析等。要运用的工具是protparam tool 和TMHMM。对于这两

个工具我都进行了实际操作练习，我觉得这对我们以后的理论学习

和实验分析都非常重要。现代生物信息学的主要研究领域及其进展

1、基因组学和蛋白组学研究

基因组和蛋白组研究是生物信息学的主要内容.同样, 生物信息

学是基因组和蛋白组研究中必不可少的工具。

基因组学(Genomics)和蛋白组学(Proteomics)的实质就是分析和解读核酸和蛋白质序列中所表达的结构与功能的生物信息.这方面的研究已成为生物信息学的主要研究内容之一.一种生物的全部遗传构成被称为该种生物的基因组.有关基因组的研究称为基因组学.其中, 序列基因组学(Sequence genomics)主要研究测序和核苷酸序列;结构基因组学(Structural genomics)着重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学

(Functional genomics)则研究以转录图为基础的基因组表达图谱;比较基因组学(Comparative ge2nomics)的研究内容包括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。

蛋白组和蛋白组学的概念是随基因组和基因组学的出现而出现的.蛋白组(proteme)的概念是由于基因表达水平并不能代表细胞中活性蛋白质的数量, 基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量的动态变化过程而提出的.在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组, 代表这一有机体全部蛋白质组成及其作用方式.有关蛋白组的研究称为蛋白组学.其中, 蛋白组的研究技术与方法、双向凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容。生物信息学在基因组和蛋白组研究中所起的作用主要有:（1)基因组信息结构的计算分析.即对基因组数据进行大规模并行计算并预测各种新基因和功能位点, 研究大量非编码区序列的信息结构和可能的生物学意义。(2)模式生物全基因组信息结构的比较研究.即

对已完成全基因组测序的各种模式生物的基因组信息结构进行比较分析, 包括同源序列的搜索比较和指导基因克隆.(3)功能基因组的相关信息分析, 包括对基因表达图谱及其相关算法和软件的研究, 与功能基因组信息相关的核酸、蛋白质的空间结构的预测模拟以及蛋白质的功能预测。

2、生物信息数据库

复杂的生物和生物界和日新月异的生命科学研究产出的大量的生物学信息，对这些信息的储存、检索、比较分析必须借助于计算机数据库技术, 包括各类生物学信息数据库的建立与维护、数据的添加与注释、更新与查询、数据库资料的网络化等研究内容。现有的数据库有：核酸序列数据库（GenBank、EMBL、DDBJ）、基因组数据库、基因图谱数据库、蛋白质序列数据库（SWTSS-

PROT、PIR）和蛋白质结构数据库（Interpro）等。随着生命科学的不断发展，数据库种类不断增加、结构日益复杂、使用也越来越方便。

生物信息学作为一门新兴学科已经成为生命科学研究中必不可少的研究手段本文对数据库与数据库搜索序列比对蛋白质结构预测药物设计基因芯片技术几个方面做了介绍较为系统地阐述了生物信息学在这些领域的应用当然它所涉及的内容与方法远远不只上面提到的那些新基因和的发现与鉴定非编码区信息结构分析遗传密码的起源和生物进化完整基因组的比较

研究大规模基因功能表达谱的分析等都是生物信息学研究的对象相信不久的将来生物信息学会在生命

科学领域扮演越来越重要的角色。

参考文献：

1、现代生物信息学及其主要研究领域萧浪涛(湖南农业大学理学院, 湖南长沙 410128)

2、生物信息学技术进展郭志云张怀渝梁龙军事医学科学院生物工程研究所,北京100071;四川农业大学生命科学及理学院,雅安 6250143、利用生物信息学技术研究蛋白功能的几种方法王剑利杨章民综述王一理审阅西安交通大学医学院免疫病理学研究室(西安, 710061)

生物信息学中科院篇2

生物信息学是由于生物学家经过实验得到的大量数据需要工具解释这些数据的意义,导致生物与计算机的结合而产生的。目前人们普遍接受的生物信息学定义是在美国人类基因组计划(HGP)第一个五年总结报告中给出的一个较为完整的解释:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义。

生物信息学与计算生物学的区别:生物信息学主要侧重于对生物学中所得信息的采集、存贮、分析处理与可视化方面,更侧重于生物学领域中计算方法的使用和发展;而计算生物学主要侧重于使用计算技术对生物学问题进行研究方面。强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。也没有必要严格讨论生物信息学与计算生物学之间的区别,目前,生物信息学比计算生物学在生物学中应用更广,同时生物信息学可以通过Internet得到大量免费的数据库和应用程序。

生物信息学与基因组信息学。生物信息学不同于基因组信息学,它包含的范围更广,不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。

总之,生物信息学作为一门新的研究领域,它把DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。

2 生物信息学主要研究内容

从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。

2.1 序列比对

在生物学中序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性。双序列比较是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程序包有BLAST、FASTA等。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。

2.2 序列分析

随着越来越多生物体的DNA序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA测序过程中被打散的DNA序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA有很多重复的区域,相同的片段可能属于不同的区域。由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%～5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA序列需要大胆的想象和崭新的思路。

2.3 功能基因组

功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学的研究主要包括以下几个方面的内容:(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。1995年,Owen White设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步分析它们的功能。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(4)比较基因组学研究,是识别和建立不同生物体的基因或其他基因组特征的联系。在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。(5)功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测。

2.4 基因表达数据的分析

对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一。目前对基因表达数据的处理主要是进行聚类分析,虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。

2.5 蛋白质结构预测

蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列(也称为一级结构)可以容易地由它的基因编码序列获得。蛋白质的结构对于理解蛋白质的功能十分重要。目前尚没有普遍可行方案实现蛋白质结构的准确预测;大多数方案为启发式的。

蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。常用方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PSEDATOR、PSA。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型方法可以完成所有蛋白质10%～30%的空间结构预测工作。得到蛋白质结构后就可以进一步分析研究蛋白质的功能。

2.6 药物设计

基于生物大分子结构的药物设计是生物信息学中极为重要的研究领域。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。计算机辅助药物设计主要包括活性位点分析法、数据库搜寻、全新药物设计。目前,活性位点分析软件有DRID、GREEN、HSITE等。另外还有一些基于蒙特卡罗、模拟退火技术的软件如MCSS、HINT、BUCKETS等。目前数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法中比较著名的软件有Catalyst和Unity,而以前者应用更普遍。另一类方法是基于受体的,也称为分子对接法,具代表性的分子对接软件主要有 DOCK、F1exX和GOLD。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、Leapfrog、GROW、SPROU以及北京大学来鲁华等开发的LigBuilder等,其中LUDI最为常用。

3 结束语

生物信息学是一门新兴的极具发展潜力的学科,对计算机工作者也提出极高的要求,在序列比对中目前的研究热点主要有多序列比对算法及基因组比对算法。在序列分析中重点是研究基因重组及基因识别算法,同时对非编码区的识别也是个重点。同时后基因组时代从结构转向功能的研究涉及到基因组功能的注释,基因的表达调控机制,比较基因组的研究等内容。同时蛋白质的结构预测对蛋白质的功能理解也非常重要, 然后依据特定蛋白质的功能进行必要的药物设计。

参考文献

[1]新药药物靶标开发技术[M].高等教育出版社,ISBN,2006.

[2]http://www.wikipedia.org/[Z].

[3]张春霆.生物信息学的现状与展望世界科技研究与发展[M].2000/06.

高中生物教学中科学世界观的教育篇3

一、基因——世界的物质性

基因是有遗传效应的ＤＮＡ片段，是由最基本的脱氧核苷酸组成，它是实在的化学物质，具有一定的化学组成和空间结构，并非虚无的、神秘的东西，应使学生懂得正是这种物质性决定了生物的遗传现象。

二、蛋白质的生物合成——事物的普遍联系

在细胞核中ＤＮＡ通过“转录”形成ｍＲＮＡ，ｍＲＮＡ由核孔进入细胞质并与核糖体结合，再以ｍＲＮＡ为模板、ｔＲＮＡ为转运工具将氨基酸一个个连结起来，合成具有一定氨基酸序列的蛋白质，使学生从中看出有关物质和结构是相互依赖才能发挥作用的，体现了事物的普遍联系。

三、新陈代谢——对立统一规律

同化作用合成有机物，贮存能量；异化作用分解有机物，释放能量。从方向上看两者虽然是对立的，但是同化作用为异化作用提供了分解所需的物质和能量，异化作用为同化作用的进行提供了物质和能量的基础，两者又是互相依赖而存在的，离开一方，另一方就不能进行，它们共同组成生物体的新陈代谢过程，以此使学生理解事物发展的对立统一规律性。

四、生命活动调节——质量互变规律

随着各生物体内某种激素分泌逐渐增加和积累，当达到一定阈值时引起相应的生理活动，然后再进行下次调节，如此反复进行，从而使学生理解量变是质变的基础，质变是量变的结果，质变后又开始新的量变，量变后又引起新的质变，循环往复以至无穷，体现了质量互变规律。

五、遗传和变异——否定之否定规律

遗传是保持生物原有特性和性状的存在，变异是促使生物向其他特性和性状的转化，生物都有遗传和变异的特征，体现了生物体也是肯定和否定的统一体。遗传除包括原有特性的遗传外，还包括新形成的可遗传变异的遗传，体现了肯定中包含否定的辩证关系；变异是不定向的，经选择后只有与环境适应的可遗传的变异才保留下来，体现了否定中包含肯定的辩证关系，这就是事物发展的辩证否定观。可遗传变异的积累最终导致了新物种的产生，这是新事物对旧事物的否定，新物种不仅包含了旧物种的一些特征，而且还包含了更适应环境的进步特征，体现了辩证否定是事物联系和发展的环节。

生物信息学(第二版) 篇4

D.R.Westhead，J.H.Parish & R.M.Twyman

科学出版社2004

A生物信息学概述

相关学习网站plexes）的形成。了解这些复合物对于注释蛋白质功能是必需，也是解释信号级联和调控网络等分子途径的一个步骤。死效应反映了两个突变的蛋白质

2．遗传方法

抑制子突变体可以通过恢复被破坏的蛋白质互作来补偿有害的原始突变体。而合成致死效应反映了两个突变的蛋白质不能相互作用，显性负突变（dominant negative mutation）显示了一种起着多聚复合体作用的蛋白质。

3．亲和性方法

可通过几种利用蛋白质亲和性（特异结合的倾向）分析的物理方法来为蛋白质之间的相互关系提供直接的证据，比如亲和性管柱层析法，免疫共沉淀。由Ciphergen公司使亲和实验格式更趋微型化，使得在蛋白质芯片的发展中达到顶峰。

4．分子和原子的方法

X射线晶体学和核磁共振谱有助于在原子水平识别蛋白质互作，其它的蛋白质互作分析的分子方法包括荧光共振能量传递（FRET），表面基元共振谱（SPR）和表面增强激光接吸附/离子化技术（SELDL），其中的很多方法可通过质谱技术直接集成到蛋白质注释中。

5．基于文库的方法

基于文库的蛋白质互作实验有两个主要优点：它是高度并行的实验格式；候选互作蛋白质及其cDNAs之间直接关联。

影响最大的方法是酵母双杂交系统（yeast two-hybrid system，Y2H），在这个系统中蛋白质通过识别与之连接的一个功能转录因子进行互作。

C数据库--内容，结构和注释

已注释的序列数据库

1．初级序列数据库

GenBank（NCBI）、核酸序列数据库（EMBL）和日本的DNA数据库（DDBJ）

2．SWISS-PROT和TrEMBL

SWISS-PROT收集了确认的蛋白质序列及与结构，功能和所属蛋白质家族有关的注释信息。相关数据库TrEMBL翻译了初级核酸数据库中的编码序列。

其他数据库

1．OMIM

OMIM指人类孟德尔遗传的联机数据库，用于研究人类遗传学和人类分子生物学的强大资源。每个OMIM条目都有一个对特定基因或性状的已知信息的全文总结，并有指向初级序列数据库和其它遗传学资源的链接。

2．Incyte和UniGene

Incyte是商业数据库，它提供了基因序列和专家注释的记录，这是专门为药物研究开发服务的数据库。UniGene是一种用来把GenBank序列聚类并与EST数据相关联的实验工具。

3．结构数据库

蛋白质数据库（PDB），核酸数据库（NDB），大分子结构数据库（MSD）

E通过序列相似性标准搜索序列数据库

序列相似性搜索

1．序列联配

序列联配是是相似度量化的第一步，用来区分偶然性的相似和真实的生物学关系。联配结果以变化（突变）、插入或缺失（或空位indel）来显示序列之间的差异，这些差异可以用进化术语来说明。

2．联配算法

动态规划算法可以计算两条之间的最佳联配，其中广泛使用的算法有Smith-Waterman算法（局部联配）和Needleman-Wunsch算法（全局联配）。

3．联配分支和空位罚分

用简单的联配分值来测量相同匹配残基的比例或数目。得从联配分值中扣去空位罚分，以保证联配算法能得出有生物学意义的结果而没有太多的空位。

数据库搜索：FASTA和BLAST

1．统计分值

相似度记分的P值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。低P值表明重要的匹配，这些匹配可能会有真实生物学意义。相关的E值（期望值）是至少与所识别的相似性记同样高分值的偶然事件的期望概率。两序列见相似度的低P值对应于大数据库搜索的高E值。

2．敏感性和特异性

敏感性衡量数据库中真实生物序列关系的比例，该关系表现为击中项（有意义的相似序列）。特异性指的是对应于真实生物学关系的击中项的比例。改变E和P的默认值会导致这些互补的优良度测量方法之间的平衡。

F多序列联配：基因和蛋白质家族

多序列联配和家族关系

1．多序列联配

多序列联配表明两条或两条以上序列之间的关系，可以解释关于蛋白质结构和功能的许多线索。当所考察的序列不同时，保守的残基往往是维持稳定结构或生物学功能的关键残基。

2．渐进联配

渐进联配方法以两序列联配来初步评价序列是如何相关的，并在这个基础上构建向导树，然后使用向导树逐步添加序列到联配中，从最密切相关的序列开始到距离最远的序列结束。

蛋白质家族和模式数据库

1．蛋白质家族

把序列分配到蛋白质家族中是预测蛋白质功能是非常有价值的方法。多序列联配信息的表示方法有很多种，包括联配本身、一致序列、保守残基和残基模式、序列轮廓以及其他的序列家族的概率模型。这些根据不同的应用都有不同的用途，其中大多数已经被开发和存储在数据库中，里面含有大量不同蛋白质家族的信息，这样的数据库称为二级数据库。

2．一致序列

这些序列把多序列联配的信息压缩至单条序列，主要的缺点是除了在特定位置最常见的残基之外，它们不能表示任何概率信息。一致序列的产生说明了任何蛋白家族的表示都是有偏向的，这主要是由于来源的序列集是有偏向的。

3．PROSITE

PROSITE数据库包括与蛋白质家族成员、特定蛋白功能及翻译后修饰有关的序列模式。PROSITE模式与一致序列的不同在于，它们往往比序列全长要短得多，并且给出了一种描述多序列联配中一套可接受的残基组合的方法。PROSITE模式中已知的假阳性（或假阴性）都已经在数据库中注明。PROSITE数据库在某些条目含有序列轮廓，以尝试描述比模式更长的序列片段（通常指整个结构域）。

4．PRINTS和BLOCKS

PRINTS和BLOCKS是密切相关的，它们分别通过来自一组蛋白或蛋白家族中最高度保守区域的多序列联配无空位片段的形式来表示蛋白质家族。

蛋白质结构域家族

1．结构域家族

许多蛋白质是由模式结构的结构域组建的，因此蛋白质家族的研究其实是对蛋白质结构域家族的研究。

2．序列轮廓

序列轮廓（也成权重矩阵）是一种描绘蛋白质结构与家族相关序列的方法，其优点是描述了结构域序列的全长，包括观察到每个氨基酸的可能性，以及序列每个位点插入和缺失的可能性。

3．隐马尔科夫模型

隐马尔科夫模型（HMMs）是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹配、插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。代表某蛋白结构域家族的模型从该家族中生成序列的概率较高，从其他家族中生成序列的概率较低。

J微阵列数据分析

微阵列数据：分析方法

1．微阵列原始数据

微阵列数据就是经过杂交的阵列的扫描图像，扫描图像显示每一个点的杂交信号强度。这些图像可通过单通道、双通道荧光标记、同位素标记或比色标记等方法获得，其记录方式各不相同。

2．数据质量

准确记录个点的信号强度是微阵列数据分析的基本要求，DNA阵列可包含数千个特征点，因此数据的获取和分析必须自动进行。阵列上必须包含对照点以衡量非特异杂交和不同

阵列上杂交的多变性。

3．基因表达矩阵

从微阵列实验得到的原始数据首先要转换成表，即基因表达矩阵。表中的各行代表基因，各列代表不同的实验条件，表中的数据为信号强度，代表各个基因的相对表达水平。

4．表达数据分组

基因表达矩阵中的每一个基因都有其特定的表达模式，即一系列条件下基因表达情况的测量值。微阵列数据分析就是要将这些数据按表达模式的相似程度进行分类。

序列采样和SAGE

1．序列采样数据分析

差异基因表达的研究，可以通过从不同的cDNA文库中随机挑取克隆来进行，也可以通过抽取EST数据来进行。这种分析需要抽取成千上万的序列以达到统计上的显著性，即使对于中度冗余度的mRNA也要如此。

2．SAGE

北大生物信息学硕士培养计划篇5

（试行）

一、培养目标

1.较好地掌握马克思主义、毛泽东思想和邓小平理论，拥护党的基本路线，热爱祖国，遵纪守法，学风严谨，品行端正，有较强的事业心和献身科学的精神，积极为国家现代化建设服务；

2.掌握一门外国语，具有坚实宽广的与生物信息学跨学科研究相关的生物学以及计算机与信息科学方面的理论基础；

3.在生物信息学跨学科研究的某一领域掌握较系统的专门知识、技术与方法，能够运用所掌握的基础理论与专门知识解决科学研究或实际工作中的问题，具有从事教学与科学研究工作和其他实际工作的能力。

二、研究方向与指导教师（暂略）

三、招生、入学考试和学习年限

1.招生对象

生物学、数学、化学、物理学、计算机与信息工程科学类大学本科毕业生或同等学力者，以及具备较好相关知识背景的其它学科的大学本科毕业生。

2.入学考试

参加全国研究生招生统一考试。考试科目为政治理论课（理）、外语、专业基础课和专业课（专业基础课和专业课考试科目，包括生物学、数学、计算机科学与技术、物理学、化学等相关学科的课程，可根据报考者的学历背景及其报考导师的专业领域等情况进行选择）。

3.学习年限

三年

四、课程设置

生物信息学跨学科研究方向硕士研究生课程设置包括以下四个部分：

（一）公共必修课

（1）科学技术哲学与政治理论课

（2）第一外国语

（二）专业必修课（核心课程）

概率论与数理统计

数据库概论

普通生物学

生物信息学概论

生物化学与分子生物学

遗传学与细胞生物学

生物信息学研究中的数学方法

（三）讨论班与前沿讲座课（必修课）

生物信息学跨学科研究方向硕士研究生须参加讨论班与前沿讲座课程的学 1

习达四学期。每学期参加讨论班与前沿讲座课学习至少7次以上，记1学分；四学期共计4学分。

（四）选修或补修课

1.计算机科学

数据结构

数据库原理与技术

数据库进展与新技术

程序设计语言

（一）程序设计语言

（二）计算机程序设计与技巧

操作系统概论

2.数学

高等概率论与数理统计

高等统计学

随机过程论

组合数学

信息论与信号处理

算法设计与分析

算法研究

3.生物学与医（药）学

现代生物学概论

生物统计学

分子和细胞生物学

现代生物化学与分子生物学研究技术

蛋白质化学与工程

分子免疫学

生物英语

4.物理学

群论

量子力学

5.化学

量子化学

统计热力学

分子设计方法的原理及应用

生物信息学跨学科研究方向硕士研究生须依照培养方案修满39学分。其中：公共必修课7学分，专业必修课（核心课程）10学分，讨论班与前沿讲座课4学分（必修），选修或补修课16学分；学位论文选题报告2学分。

如果生物信息学跨学科研究方向硕士研究生按照培养方案所修课程为学校面向本科生开设的主干基础课程，成绩合格，则计入学分。

五、科学研究与学位论文工作

生物信息学跨学科研究方向硕士研究生在入学一年到一年半时间内，应按照培养方案修完除讨论班与前沿讲座课程以外的其它所有必修课、选修或补修课，并完成学位论文选题报告，用一年半到二年的时间从事与其专业研究方向相关的科学研究与学位论文工作。科学研究与学位论文工作可大致分为三个阶段：学位论文选题报告；科学研究工作的开展；学位论文写作与申请答辩。

六、其它

生物信息学中科院篇6

2.Genom基因组：某一物种的一套完整染色体组中的所有遗传物质。其大小一般以其碱基对总数表示的表格。

3.数据库查询（database query）：是指对序列、结构以及各种二次数据中的注释信息进行关键词匹配查找检索。

4.数据库搜索（database search）：在分子生物信息学中有特定含义，它是指通过特定的序列相似性比对算法，找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。

5.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

6.Alignment：比对，从核酸以及氨基酸的层次去分析序列的相同点和不同点，以期能够推测它们的结构、功能以及进化上的联系。

7.表达序列标签（EST）：某个基因cDNA克隆测序所得的部分序列片段，长度约为200-600bp。EST可以定位出基因在genome上的位置。

8.开放阅读框（ORF）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。In Silico Cloning电子克隆：利用种子序列从EST及UniGene数据库中搜索相似性序列，进行拼装、检索、分析等，以此获得目标基因的全称cDNA，在此基础上也能够实现基因作图定位。9.Contig：即重叠群，把含有STS序列标签位点的基因片段分别测序后，重叠分析就可以得到完整的染色体基因组序列。

10.Homologymodeling同源建模：是目前最为成功且实用的蛋白质结构预测方法，它的前提是已知一个或多个同源蛋白质的结构。当两个蛋白质的序列同源性高于35%，一般情况下认为他们的三维结构基本相同

11.序列表谱（profile）：是一种特殊位点或模体序列，在多序列比较的基础上，氨基酸的权值和空位罚分

12.PAM矩阵：PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。、13.BLOSUM矩阵：模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如，在BLOSUM62矩阵中，比对的分值来自不超过62%一致率的一组序列。

14.Phylogenetic tree：系统发生树，又称为演化树，是表明被认为具有共同祖先的各物种间演化关系的树。是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。

15.Homology：同源性，是指两个对象间的肯定或者否定的关系。如两个基因在进化上是否曾具有共同祖先。

16.Data mining：数据挖掘，指从生物信息数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

生物信息学中科院篇7

生命科学的迅猛发展使人们从基因组学、蛋白质组学等研究领域中获得了大量的数据[1]。但数据并不等同于信息和知识，而是信息和知识的源泉。如何收集、存储和分析这些数据，尤其是如何从不连贯的数据中获取有用的生物学信息，仅仅依靠传统的数理统计手段是难以解决这些问题的。

伴随着蛋白质组学和基因组学研究的发展，生物信息学(bioinformatics)应运而生[2]。生物信息学以数学理论和计算机技术为主要手段，应用软件和计算机网络为主要工具，通过对海量的原始数据进行收集、存储、管理、分析、注释、加工和处理，从而获得新的知识。通过将数据挖掘和信息处理技术应用于临床医学数据，生物信息学在医学基础研究和临床实践领域都发挥了巨大的辅助和推动作用。将生物信息学的方法应用到质谱数据的挖掘，可以很大程度上提高疾病预测的准确度，并提高分类效率。

本文在查阅大量文献的基础上，综述了质谱分析的生物信息学方法，并分析、对比了几种代表性研究方法的优劣。

1 质谱分析的主要方法

数据挖掘[3]是从大量、不完整、有噪声、模糊、随机的数据中，提取隐含在其中人们事先不知道的、但又是潜在有用的信息和知识的过程。而质谱分析的目的在于从原始质谱数据中提取有用信息，为临床疾病诊断和个体化治疗方案的确定提供决策性建议。从信息学角度讲，属于数据挖掘范畴。

质谱分析的方法有很多，每种方法都有自己的优点和不足之处，到目前为止还没有一种普适的方法。比选择分类方法更重要的是熟悉选定的方法，以保证其正确和合理使用。通常需要根据主观标准来进行选择，如研究人员的经验和科学背景等。

目前，质谱分析主要有决策树模型(Decision Tree Analysis,DTA)[5]、偏最小二乘法(Partial Least Squares,PLS)、人工神经网络(Artificial Neural Networks,ANN)[6]和支持向量机(Support Vector Machines,SVM)[7]等几种方法。根据是否具有记忆和学习功能，可分为非智能算法(DTA、PLS)与智能算法(ANN、SVM)两类。

在进行质谱数据分析前，首先需要对数据进行预处理，为高质量的挖掘结果打好基础。

1.1 质谱数据的预处理

“预处理”一词给人的印象是处理一系列主要分析的次要前期阶段。然而，预处理阶段有其特殊的重要性，因为它影响到数据处理后期阶段的特定编码格式的选择。选择正确的编码格式，可以大大降低后续处理的计算量，提高分析的能力和效率。

迄今，还没有一种通用、公认的方法读出谱线。目前常用的读出谱峰的方法有：幅值法、一阶导数法和二阶导数法。信噪比大的明显的谱峰，由平均质量和强度最高值检测和表征(图1A)[4]。这里所说的“质量”，实际上是“质荷比”[8]。

如果不同谱线的峰值对应相近的质量，谱线的峰值就会互相配合并集群，这就是所谓的谱峰聚类(图1B)。峰值完全依靠谱结构分组。每个高峰聚类对应于一个质量区间，由一个特征性的质量来描述，如某一集群中众多谱峰的平均位置所对应的质量。按照谱峰的最大强度值读出所有的谱线。

峰值的自动检测和聚类往往同步进行。在峰值检测的第一步，峰值都是独立地由单一质谱决定的。谱峰聚类后，单一质谱依据较严格的标准被再次分析，从而最初遗漏的信噪比较小的峰值将被发现，也就是说一个峰值如果存在于许多谱中，那么它也很有可能存在于一个谱中。在图1中，右侧标记“×”的极大值被其他谱证明，而左边极大值的则得不到证明。峰值检测和聚类通常分两个步骤进行：第一，峰值自动检测和集群;第二，根据检查结果，由有经验的工作人员手动调整。

1.2 决策树模型

1.2.1 模型原理

决策树模型是一种阶梯式划分数据(图2)的算法。从给定的样本数目基本一致的两个数据集开始(图2A，顶部)(例如两组分别来自健康人和病人的血清质谱的峰丛强度)，通过从不同类别中将病例分离，检查所有可能的特征截断值的用途。两个数据点之间的每个特定功能的截断，对应于两个分类器：一个分类器将数值小(大)于截断值的样本分配到“白(黑)”类中，另一个功能相反的分类器将数值低(高)于截断值的样本分配到“黑(白)”类中(图2A，中)。判断截断是否有效的依据是正确归类病例的数目。用所有测得的功能检查所有不同的截断后，选择最有用的截断/特征对。在图2A(下)中，最有用的切断标记为“*”,该截断生成的分类器只有3个错误分类的病例。从而，可获得优化的同质类中的子数据集，例如图2B中的子数据集I和II。数据分区的过程反复进行，直到获得的同质类(Class homogenous)的子数据集的大小可以接受。图2B显示了一个连续应用两个截断的例子，最后产生三个子数据集，记为“终端节点”I-III。

决策树生成中的核心问题是“过拟合”现象。决策树过于拟合实际数据集，因而对于未曾发现的数据很可能是不适合的。

研究只对非过度拟合的决策树感兴趣。非过拟合决策树的分类标准并不代表实际数据集的特性，而是潜在患者群的典型特征。如图3 A，在单一的决策树中使用许多分裂标准，生成树所使用的数据集的错误分类的数量可以减少到零。然而，只有最初的几个准则可以推广到无形的数据。

可以通过停止准则防止过度拟合。停止准则，即决策树生成过程中当遇到某一标准时，则停止生成，例如，当所有终端节点少于5例病人时。交叉验证是估计最佳分裂标准数量的一种很好的方式(图3B)。通过选择各自的测试集上整体分类错误最少的树的结构，可以获得决策树的最佳截断个数。

1.2.2 模型举例

(1)研究[15]表明，发明蛋白质芯片飞行时间质谱系统，根据各蛋白质峰的质荷比(m/z)，采用决策树算法，建立一个决策树的蛋白质指纹图谱模型;将检测人血清中相应的蛋白质的质荷比与本发明的模型进行分析，就可以初步用于肺癌诊断，其预测准确率为71%。

(2)研究[16]表明，分类决策树模型的交叉验证(测试组)总准确率为81.8%，ALN有转移的乳腺癌患者检出率为83.3%，ALN无转移的检出率为80%，构建的分类决策树模型能达到区分ALN是否有转移的最佳效果。

1.3 偏最小二乘法（PLS)

偏最小二乘法(Partial Least Squares,PLS)是一种适合处理变量数很大的建模方法，具有较强的提供信息能力，在分析化学中得到了广泛的应用[11,12]。PLS变量筛选法是在PLS回归法基础上作变量筛选的[9]。

1.3.1 PLS回归法原理

PLS法是一种研究两个数据块或矩阵和相关关系的方法。在该方法中对数据矩阵实施序列的正交变换：

其中h为隐变量的个数。在变换过程中，使得到的矢量ti与对数据矩阵变换得到的矢量ui=Yqi的协方差为最大值。具体PLS正交变换算法见文献[10]

式(1)可写为矩阵的形式:

PLS回归模型为：

将(2)带入(3)，可得：

因此，PLS回归法的模型系数由(4)得：

其中，隐变量的个数或矩阵中变量的个数小于矩阵中变量的个数。

2.3.2 PLS变量筛选法原理

PLS变量筛选法是在PLS方法技术上发展起来的一种变量筛选法，能提取成分复杂的图谱信息，且可以避免谱图数据共线的问题。预测能力强且模型相对简单。

在PLS变量筛选法中，首先用PLS法对含有全部变量的数据处理，建立一个预报稳定性较高的模型。在此基础上，利用其中回归系数等有关信息进行变量筛选。主要采用以下判据删除影响不大的变量：

△Ei表示当删除第个变量时，PLS回归模型的拟合误差增加值;T为PLS法得到的正交矩阵，矩阵(TTT)-1为对角矩阵，较容易计算;R是PLS正交分解得到的矩阵，而矢量1i为第1i个分量为1、其余分量为0的一种特殊矢量;bi为第i个变量对应的回归系数。在PLS变量筛选法中，主要是删除那些△Ei值很小对应的变量。

1.3.3 模型举例

⑴研究[17]中，Goncalves等应用SELDI-TOF-MS研究了81例早期乳腺癌患者的血清蛋白质组图谱，其中40个蛋白质在有转移组和无转移组中有显著性差异表达。采用偏最小二乘法，最终得到了一个由40个蛋白组成的蛋白质组预后预测图谱，其预测的敏感度和特异度分别是87%和76%。血清蛋白质组学在乳腺癌预后预测中得到应用。

⑵研究[9]表明：肝癌病人和健康人的血清蛋白质指纹图谱数据，经过数据预处理、PLS变量筛选法建立分类模型，模型CR值达到0.9611,100个样本完全判断正确。

1.4 人工神经网络模型

人工神经网络(Artificial Neural Networks,ANN)模型的研究目标，是通过研究人脑的组成机理和思维方式，探索人类智能的奥秘，进而通过模拟人脑的结构和工作模式，使机器具有类似人类的智能。应用到医学数据处理上，就是通过建立模型，找出血清蛋白质谱中表征健康或疾病的信息。

感知器(perceptron)模型是一种最基础的神经网络模型。在感知器模型的基础上，发展出了反向传播(Back Propagation,BP)神经网络、自组织映射(Self-Organized Mapping,SOM)神经网络等模型[12]。

BP神经网络可以处理共线性效应和变量间交互作用，善于处理非线性的、模糊的、含有噪声的数据情况，且理论基础牢固，物理概念清晰，通用性好。SOM神经网络是无监督竞争式学习网络，通过学习能够提取待处理数据中的某种内在规律，并按离散时间方式进行分类，大大减弱了一致性准则中的人为因素。神经网络的局限性在于，建立在渐进理论的基础上，需要无穷多的样本才能较真实的模拟样本的分布函数，而实际上所得的样本都是有限的。

1.4.1 反向传播模型原理

反向传播模型也称B-P模型，是一种用于前向多层的反向传播学习算法。所以将其称作反向学习算法，是因为在修改各人工神经元的连接权值时，所依据的是该网络的实际输出与其期望的输出之差，将这一差值反向一层一层的向回传播，来决定连接权值的修改(图4)。

B-P算法的学习过程如下：

(1)选择一组训练样例，每一个样例由输入信息和期望的输出结果两部分组成;

(2)从训练样例集中取一样例，把输入信息输入到网络中;

(3)分别计算经神经元处理后的各层节点的输出;

(4)计算网络的实际输出和期望输出的误差;

(5)从输出层反向计算到第一个隐层，并按照某种能使误差向减小方向发展的原则，调整网络中各神经元的连接权值;

(6)对训练样例集中的每一个样例重复(3)～(5)的步骤，直到对整个训练样例集的误差达到要求时为止。

1.4.2 自组织映射模型原理

自组织映射神经网络是聚类分析中广泛使用的一种高维可视化的无监督学习算法，是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SOM网络由输入层和竞争层(输出层)组成，且两层之间是全连接的(图5)。目前，SOM算法已被广泛应用于众多信息处理领域，在血清蛋白质谱分析中也发挥着很大作用[13]。

SOM算法的学习过程如下：

将网络中各输入神经元与竞争层神经元的连接情况抽出，设网络输入模式为：

竞争层神经元矢量为:

其中式(7)的Pk为连续值，式(8)的Aj为数字量。竞争层神经元j与输入层神经元之间的连接权矢量为

1.4.3 模型举例

⑴研究[18]采用BP-ANN算法，建立并存储诊断模型、预后模型。诊断模型对大肠癌的诊断灵敏度和特异度分别为82.22%和80.45%，阴性预测值94.74%，阳性预测值51.39%，准确度为80.80%。预后模型通过回验，证明该模型的检验符合率为62.96%。

⑵在研究[14]中，对所有质谱数据用SOM-ANN进行特征选择(网络为6*6，迭代次数为1 000次)，按权值大小挑出权值大的那些特征，对权值相同的特征挑出其中一个。在卵巢癌质谱数据的实验结果中，当特征维数选择为5左右时，SOM的识别率达到了87.2%，是一种有效的特征选择方法。

1.5 支持向量机

支持向量机(Support vector machine,SVM)是一种新型模式识别方法，它能根据有限的样本信息，在研究对象模型的复杂性与分类器的学习能力之间寻求最佳的折中方案。理论上，支持向量机算法得到的是全局最优点，解决了局部极值问题。该算法将实际问题通过非线性变换转换到高维的特征空间，巧妙地解决了维数问题，使算法复杂度与样本维数无关。但是支持向量机算法的核函数选择困难，且算法的复杂性导致训练速度较慢，不宜解决大规模的分类问题。

支持向量机刚主要用于解决数据分类问题，分类问题中最常见的是线性可分问题(图6左)、大约线性可分(图6右)、线性不可分情况(图7)[14]。

1.5.1 模型原理

SVM的基本思想是根据结构风险最小原理，寻找一个满足要求的分割平面，使训练集中的点距离该平面尽可能地远，即构造一个分类函数，将两类样本尽可能地区分开来，使得分类平面两侧的余裕(margin)尽可能最大(图8)。

图8中十字和圆圈分别代表两类训练样本点，分类线H能把两类正确的分开，H1、H2平行于H，且分别通过两类样本中离分类线H最近的点。H1、H2之间的距离叫两类的分类空隙或分类间隔。

1.5.2 模型举例

⑴本研究[19]中应用非线性的SVM分类器(nonlinear SVM classifier)，在此基础上分别应用1 000次5倍交叉验证和“留一法”交叉验证两种方法，并建立评价模型。经过计算筛选出最佳组合是：3 932m/z+5635 m/z，即由这两个蛋白质峰构建的模型可达到对乳腺癌患者的最佳检测效果。

⑵研究[14]表明，脑良性肿瘤样本较少，用SVM模型可以使这样的小样本具有较好的推广性。在研究生物信息学方面，选择了“留一法”SMV分类器简历评价模型，可以筛选出在胶质瘤和脑良性肿瘤及健康对照中表达有差异的新的潜在生物标记，并且可以建立检测胶质瘤敏感性和特异性都很高的判别模型，为胶质瘤的诊断提供了新的方法。

2 质谱分析的发展趋势及前景展望

高通量检测技术的进步，使原始蛋白质表达谱的采集得以实现，但随之而来的是后续分析、处理技术和方法的新挑战。使用得当的话，质谱分析的结果可应用于疾病预警或者检测，为个体化治疗方案的制定提供支持。

本文综述了质谱分析的几种主要方法：决策树模型、偏最小二乘法、神经网络模型和支持向量机。对分析方法的基本原理、适用范围、优势和不足之处做了具体论述，并分别给出疾病诊断的实例加以说明，展现了质谱分析方法对疾病判别和预测的重要作用。

综上所述，通过对临床血清蛋白质谱数据库的原始数据开展分析，可以发现与疾病诊断或健康状况预警相关联的特征信息，提示或协助临床诊断和个体化治疗方案的确定，对人群健康分析和疾病预警的实现具有重要的指导意义。研究人员将在改进现存方法的基础上，创新质谱处理方法，寻找生物信息学和临床诊断间的契合点。

摘要：蛋白质谱具有复杂、数据量大等特点,采用一般的统计学方法难以得到满意的疾病预测或分类结果。文从生物信息学的角度出发,综述了质谱数据挖掘的决策树模型、偏最小二乘法、神经网络模型和支持向量机几种主要方法,并对不同的方法给出了疾病诊断的实例说明,体现了质谱分析方法对疾病判别和预测的重要作用。

生物信息学中科院篇8

关键词：生物信息学教学内容教学方法

中图分类号：G642 文献标识码：A 文章编号：1673-9795（2012）12（a）-0068-01

生物信息学是生物学与计算机科学交叉的学科，主要是对数据进行储存、提取和分析，是生命科学前沿的研究领域之一。《生物信息学》是东北农业大学生命科学学院的一门专业主干课程，也是一门具有很强的应用性的课程，其主要用于对大量生物学数据的分析和处理。东北农业大学动物遗传育种专业研究内容同样涉及家养动物的遗传育种的分子遗传基础研究，其生物学数据庞大，因此，需要生物信息学知识的协助，动物遗传育种专业同样需要开设《生物信息学》。为了适应动物遗传育种专业的培养目标和培养方案的需要，该课程的教学内容和教学方法都必须打破传统的模式，建立适应当前培养目标的教学内容和教学方法。与此同时，应该将理论与实践联系起来，从而提高教学效果。

1　《生物信息学》的教学内容

首先，《生物信息学》的理论课程主要讲述生物信息学的概念、生物信息学的发展历程、生物信息学的特点、序列分析、基因组注释、计算进化生物学、生物多样性的度量、蛋白质结构预测、蛋白质表达分析、比较基因组学、基因表达分析、调控分析、生物系统模拟等等。讲授过程要由浅入深，让学生对生物信息学的概念有了一定的了解以后，逐步解释生物信息学在动物遗传育种中的应用。

生物信息学的发展速度非常快，因此，要求我们不断学习新的理论和实践知识，更新教学内容以拓宽学生的视野。随着研究水平的提高，相应的数据库资源、工具及软件都在不断更新，很多教材中的分析软件、讲解实例都已经不再是当前最普遍、最实用的了，因此，很多学生在查阅文献时发现课堂所学的内容与最新研究有出入，从而产生了困惑和迷茫。在教学的过程中，教师自身应该站在生物信息学的前沿、掌握新的新的核心技术，在保持课程原有的核心内容的基础上，通过课堂讲授、课后资料补充等方式适当增加这些内容，以增长该课程知识的新颖性和实用性。同时，应该鼓励学生搜集该领域相关的最新知识、了解该领域的最新动态、激发学生的兴趣，这样不仅能使学生开阔视野，还能增加老师和学生之间的交流，促进学生对生物信息学的了解。

其次，要增加生物信息学应用于具体实验数据的分析。不同于生命科学学院，动物科学专业对于生物信息学的需要主要是将其应用于大规模数据的解释中，主要以应用为主，对于生物信息学方法的开发则很少涉及。因此，在动物科学专业《生物信息学》的教学过程中应该以生物信息学的应用为主。建议在每个章节结束以后，尽快将本章节的内容应用到具体的数据解释中，例如，在讲授了蛋白序列比较原理之后，要让学生自己上网搜集几个物种的蛋白序列，然后进行同源性比较，分析各物种的亲缘关系等。这样及时将所学到的知识用于具体的实践中，能够增强学生对理论知识的掌握能力。否则时间间隔太久，学生学到的理论知识都忘记了，这样就很难达到教学的目的了。因此，要适当的增加实验课程的学时，是实验课能够和学习的理论知识完全匹配。这里所说的实验课主要指学生的上机实验，生物信息学的学习离不开计算机、网络。因此，在理论课的学习过程中要增加学生利用计算机网络进行分析处理数据的机会。

2　《生物信息学》的教学方法

首先，要充分发挥多媒体的优势，从而提高教学质量。在《生物信息学》课程中，许多基本名词和术语是很难理解的，教师在讲授这些信息的时候，如果只是通过语言描述，学生只能是机械的、被动的接受这些知识，不能完全理解。多媒体由于其具有形象、直观、生动、活泼等特点，能够引起学生的学习兴趣。利用多媒体教学还能变静为动化无声为有声，充分调动课堂的气氛。同时，多媒体教学能够节省老师写板书、画图的时间，这样可以把一些剩余时间留给学生，利用这部分时间对当堂课学习的内容进行充分的理解和讨论，是教学过程变成一个师生共同参与的活动。

其次，增加实践教学。实践教学是实现现代生物信息学课程教学目标的重要手段之一，传统的“以教师为中心，以课堂为中心，以教材为中心”的模式已不能满足现代教育的发展需求。实验教学相对于理论教学具有直观性、验证性、综合性、启发性和创新性的特点，是生命科学研究的基本工具。生物信息学不需要价格昂贵的实验设备，一台联网的电脑及一些相关的分析软件就足以开展生物信息学相关的实验内容。生物信息学的实验教学除了增加学时，为学生提供更多动手操作的机会外，更应多开展设计型和综合型实验，培养学生的创新能力及分析问题、解決问题的能力。教师可以将学生分为若干小组，每个小组可选择一个感兴趣的小命题，要求综合运用生物信息学方法进行研究，为学生提供更多的动手操作机会，以改善教学效果及提高学生的思维和动手能力。另外，鼓励学生积极申报与生物信息学相关的大学生科研课题，在教师的指导下由学生自己完成，进一步加强和巩同学生对生物信息学知识的理解和综合运用的能力。

3　结语

随着生物科学突飞猛进的发展，生物信息学正处在一个快速上升的时期。生物科学和计算机科学的飞速发展已成为生物信息学进步的主要动力。如何充分有效地使生物信息学技术服务于生命科学和计算机科学，正成为科学家们关注的焦点之一。对于《生物信息学》的教学来说，单靠课堂教学培养出来的学生，很难讲理论知识应用于实际的批量数据的分析、解释中，不能满足动物遗传育种分子遗传基础研究中对于生物信息学人才的需求。目前，毕业的学生较多，但是真正能够将学到的理论知识应用到具体的实践中的人却寥寥无几。在生物信息学教学中，应注重学生的创新意识、实践能力的培养，采用启发式、讨论式、研究式等生动活泼的教学方法，在课堂教学中使用现代化的教学手段，使课堂教学形象化，并在教学实践中对课程教学体系不断改进，充实完善，以进一步提高生物信息学的教学质量。

参考文献

[1]张立凡，连林生，鲁绍雄.生物信息学在动物遗传育种中的应用[J].畜牧与兽医，2004（36）：44-46.

[2]生物信息学与功能基因组学[M].孙之荣，译.北京：化学工业出版社，2006.

【生物信息学中科院】推荐阅读：

生物信息学一07-13