生物信息学专题论文(通用8篇)
生物信息学专题论文 篇1
高三生物教案:酶和ATP专题导学复习
【】鉴于大家对查字典生物网十分关注,小编在此为大家搜集整理了此文高三生物教案:酶和ATP专题导学复习,供大家参考!本文题目:高三生物教案:酶和ATP专题导学复习专题5 酶和ATP 【考纲要求】
1.酶在代谢中的作用 Ⅱ 2.ATP能量代谢中的作用 Ⅱ 【课前回顾区】
1.请从酶的本质、作用、机理、特性,ATP的结构、转化、再生途径、意义等方面尝试构建知识网络。2.以下几种对酶的理解是否正确? ①只有具有分泌功能的细胞才能产生()②酶可以自身合成,也可以从外界食物中获取()③酶在细胞内、细胞外、体外均可发挥作用()④酶只起催化作用()⑤酶只能缩短达到化学平衡所需要的时间,不能改变化学反应平衡点()3.请用图示的方式表示酶、激素、载体、抗体与蛋白质的关系。
4.请正确说出下列四种化合物的化学组成中,O内符号所对
第 1 页第 1 页 应的含义
5.写出ATP与ADP的相互转化反应式,并说明两者之间的转化是否属于可逆反应。【课堂探究区】
探究一:与酶有关的曲线分析
【典型例题1】图甲是H2O2酶活性受pH的影响,图乙表示在最适温度下,pH =b时H2O2分解产生的O2量随时间的变化。若该酶促反应过程中改变某一初始条件,以下改变正确的是()A、pH=a 时,e点下移,d点左移 B、pH=c 时,e点为0 C、温度降低时,e点不移,d点右移 D、H2O2量增加时,e点不移,d点左移
【对位练习一】右图表示在不同处理条件(a、b、c)下,某酶促反应生成物的量和反应时间的关系,则处理条件不可能是()A.温度不同 B.酶制剂的量不同 C.反应底物的量不同 D.pH不同 探究二:酶特性的实验探究
【典型例题2 】下面是某同学设计的探究温度是否影响酶活性的实验。(一)实验原理:
第 2 页第 2 页 A.___ __ B.(二)材料用具:可溶性淀粉溶液、新鲜唾液稀释液、碘液等。(三)实验步骤
①取3支试管分别编号为1号、2号、3号,各注入2ml可溶性淀粉溶液;②将1号、2号、3号试管分别同时放入37℃、沸水、冰块中保温5min;请回答下面问题:
(1)在上面的空白处写出该实验的实验原理并补全实验步骤。
(2)本实验的因变量是_________ _____,无关变量是______ _(至少写出二点)。
(3)步骤②与步骤③能否调换顺序?请说明理由______ ______ _(4)该同学所设计的实验中,号试管起对照实验的作用;该实验一般不用斐林试剂检测,因为斐林试剂的检测需要,这将干扰实验的 变量,对实验结果造成影响。
【对位练习二】为了验证温度对酶活性的影响,某同学设计了如下实验方案和步骤:取三支大小相同的试管,编号为甲、乙、丙,分别向三支试管中加入3mL浆糊,再各加入2mL新
第 3 页第 3 页 鲜的淀粉酶溶液,振荡后,将甲、乙、丙三支试管分别置于0℃、35℃、100℃下约5min,取出试管,各加入2mL斐林试剂(边加边振荡),用热水浴检验,观察试管内物质颜色的变化。下列对实验的评价正确的是()①实验步骤不正确 ②温度设置不合理 ③不能用斐林试剂检验
A.只有①正确 B.只有②正确 C.①和②正确 D.①②③都正确
探究三:ATP与能量的关系及与新陈代谢的关系
【典型例题3】下图中能正确表示动物细胞内ATP生成量与氧气供给量之间关系的是()【对位练习三】反应式ADP+Pi+能量 ATP是在所有生活细胞中发生的反应,下列与反应式中能量相关的叙述正确的是()A.向右反应需要的能量可以来自细胞内蛋白质的合成过程所释放的能量
B.向右反应需要的能量可以来自糖类等有机物的氧化分解 C.向左反应释放的能量可以用于叶绿体中H2O的分解或CO2固定
D.向左反应释放的能量可以用于人体对所有营养成分的吸收
谈谈你的收获:
第 4 页第 4 页 说说你的疑问: 【课后检测】
1.(2018新课标.2)甲、乙两种酶用同一种蛋白酶处理,酶活性与处理时间的关系如下图所示。下列分析错误的是 A.甲酶能够抗该种蛋白酶降解 B.甲酶是不可能具有催化功能的RNA C.乙酶的化学本质为蛋白质
D.乙酶活性的改变是因为其分子结构的改变
2.下列关于酶特性实验设计的叙述中,正确的是()A.验证酶的专一性时,自变量是酶的种类 B.验证酶的高效性时,自变量是酶的浓度 C.探究温度对酶活性,自变量是温度
D.探究酶催化作用的最适PH时,应设置过酸、过碱、中性三组
3.下列有关细胞代谢的描述中,错误的是()A.在真核细胞的线粒体基质、叶绿体基质和细胞质基质中,有ATP的分解,但不能合成ATP的部位只有叶绿体基质 B.在丙酮酸的彻底氧化分解、CO2的固定、蛋白质的合成等生化反应中,一定是在细胞器中完成的是蛋白质的合成 C.在mRNA、ATP合成酶和RNA聚合酶等物质中,不能通过核孔的是ATP合成酶
D.在细胞的吸能反应、放能反应和突触释放递质的过程中,第 5 页第 5 页 能使ADPATP的比值增大的是放能反应
4.下图表示人体肝细胞内的某种生化反应,有关叙述正确的是()A.甲和乙都是反应的底物 B.丙、丁的分子量之和小于乙 C.该反应过程一定发生于细胞外 D.甲、乙、丙可能都不是蛋白质
5.生物体内的新陈代谢与ATP、酶有密切关系。下面甲图表示了细胞某些代谢过程与ATP的关系;乙图表示酶在化学变化中的作用。请分析回答:
(1)甲图中,若生物体为蓝藻,细胞消耗ADP的主要场所是________。而在玉米体内,叶肉细胞通过生理过程①产生ATP的具体部位是________________________________。(2)由太阳能转变为骨骼肌收缩所需的能量,需要依次经过甲图中________(填数字)过程。
(3)乙图中,若表示过氧化氢酶作用于一定量的H2O2(温度和pH等条件都保持最适宜),生成物量与反应时间的关系,在d min后曲线变成水平的主要原因是__________________。若其他条件不变,将该酶的浓度增加一倍,请在图上画出生成物量变化的曲线。
(4)过氧化氢酶之所以能够加快化学反应的速率是因为它能__________________。Fe3+也能催化H2O2的分解,但与过氧化氢酶相比,要达到生成物量的最大值,反应时间一般
第 6 页第 6 页 ________d min。专题5 酶和ATP 【典型例题1】 C 【对位练习一】 C 【典型例题2】(1)实验原理:
A:淀粉酶可使淀粉水解成麦芽糖, 淀粉遇碘变蓝色,麦芽糖遇碘不显色;B:温度影响酶的活性从而影响淀粉的水解量,滴加碘液根据是否有蓝色出现及蓝色深浅来判断酶的活性。实验步骤:
③向三支试管中分别加入等量的唾液,摇匀后放置在各自的温度下保温5mi ④向三支试管中分别加入1滴碘液,观察溶液颜色的变化。(2)酶的活性 淀粉溶液的浓度和体积、酶溶液的浓度和体积、PH、反应时间、实验操作顺序等
(3)不能。因为调换顺序后,2号与3 号试管中的淀粉也会被水解
(4)1号试管 水浴加热 自变量 【对位练习二】 D 【典型例题3】 B 【对位练习三】B 【课后检测】 1-4 BCDD
第 7 页第 7 页 5.(1)细胞质(基质)叶绿体囊状结构薄膜(2)①②③④
(3)底物已完全被消耗尽 如图虚线所示(4)降低化学反应的活化能 大于(长于)
第 8 页第 8 页
生物信息学专题论文 篇2
生物信息学是由于生物学家经过实验得到的大量数据需要工具解释这些数据的意义,导致生物与计算机的结合而产生的。目前人们普遍接受的生物信息学定义是在美国人类基因组计划(HGP)第一个五年总结报告中给出的一个较为完整的解释:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义。
生物信息学与计算生物学的区别:生物信息学主要侧重于对生物学中所得信息的采集、存贮、分析处理与可视化方面,更侧重于生物学领域中计算方法的使用和发展;而计算生物学主要侧重于使用计算技术对生物学问题进行研究方面。强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。也没有必要严格讨论生物信息学与计算生物学之间的区别,目前,生物信息学比计算生物学在生物学中应用更广,同时生物信息学可以通过Internet得到大量免费的数据库和应用程序。
生物信息学与基因组信息学。生物信息学不同于基因组信息学,它包含的范围更广,不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。
总之,生物信息学作为一门新的研究领域,它把DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。
2 生物信息学主要研究内容
从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。
2.1 序列比对
在生物学中序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性。双序列比较是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程序包有BLAST、FASTA等。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。
2.2 序列分析
随着越来越多生物体的DNA序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA测序过程中被打散的DNA序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA有很多重复的区域,相同的片段可能属于不同的区域。由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%~5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA序列需要大胆的想象和崭新的思路。
2.3 功能基因组
功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学的研究主要包括以下几个方面的内容:(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。1995年,Owen White设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步分析它们的功能。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(4)比较基因组学研究,是识别和建立不同生物体的基因或其他基因组特征的联系。在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。(5)功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测。
2.4 基因表达数据的分析
对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一。目前对基因表达数据的处理主要是进行聚类分析,虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。
2.5 蛋白质结构预测
蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列(也称为一级结构)可以容易地由它的基因编码序列获得。蛋白质的结构对于理解蛋白质的功能十分重要。目前尚没有普遍可行方案实现蛋白质结构的准确预测;大多数方案为启发式的。
蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。常用方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PSEDATOR、PSA。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型方法可以完成所有蛋白质10%~30%的空间结构预测工作。得到蛋白质结构后就可以进一步分析研究蛋白质的功能。
2.6 药物设计
基于生物大分子结构的药物设计是生物信息学中极为重要的研究领域。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。计算机辅助药物设计主要包括活性位点分析法、数据库搜寻、全新药物设计。目前,活性位点分析软件有DRID、GREEN、HSITE等。另外还有一些基于蒙特卡罗、模拟退火技术的软件如MCSS、HINT、BUCKETS等。目前数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法中比较著名的软件有Catalyst和Unity,而以前者应用更普遍。另一类方法是基于受体的,也称为分子对接法,具代表性的分子对接软件主要有 DOCK、F1exX和GOLD。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、Leapfrog、GROW、SPROU以及北京大学来鲁华等开发的LigBuilder等,其中LUDI最为常用。
3 结束语
生物信息学是一门新兴的极具发展潜力的学科,对计算机工作者也提出极高的要求,在序列比对中目前的研究热点主要有多序列比对算法及基因组比对算法。在序列分析中重点是研究基因重组及基因识别算法,同时对非编码区的识别也是个重点。同时后基因组时代从结构转向功能的研究涉及到基因组功能的注释,基因的表达调控机制,比较基因组的研究等内容。同时蛋白质的结构预测对蛋白质的功能理解也非常重要, 然后依据特定蛋白质的功能进行必要的药物设计。
参考文献
[1]新药药物靶标开发技术[M].高等教育出版社,ISBN,2006.
[2]http://www.wikipedia.org/[Z].
[3]张春霆.生物信息学的现状与展望世界科技研究与发展[M].2000/06.
生物信息学现状分析 篇3
【关键词】生物; 信息学; 技术
中图分类号:G633.91 文献标识码:A 文章编号:1009-8283(2009)05-0258-01
1 生物信息学的产生
21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,与此同时,诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,以及逐步受到各国政府重视的信息高速公路计划的实施,为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。
2 生物信息学研究内容
2.1序列比对
比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基礎上编写的比对软件包——BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。
2.2 结构比对
比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。
2.3 蛋白质结构预测
从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。
2.4 计算机辅助基因识别
给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。
2.5 非编码区分析和DNA语言研究
在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。
3 生物信息学的新技术
3.1Lipshutz(Affymetrix,Santa clara,CA,USA)
Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析,以获得序列、表达和基因分型信息。
3.2 基因的功能分析
Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务——基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。
Babbitt(University of California,San Francisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解,要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现,因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列 是重要的。
3.3 新的数据工具
Letovsky(Johns hopkins University,Baltimore,MD,USA)介绍了GDB数据库,它由每条人类染色体的许多不同图谱组成,包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容,以及由不同研究者用同种方法得到的图谱。就位置查询而言,如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的,该数据库使用了一种公用坐标系统(common coordinate system)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。
Candlin(PE applied Biosystems,Foster City,CA,USA)介绍了一种新的存储直接来自ABⅠPrism dNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。
参考文献:
[1]顾明亮. 生物芯片技术及展望[J] 滨州医学院学报, 2003,(02) .
[2]菅复春,张子宏,肖乃淼,张龙现. 基因芯片技术的应用[J] 河南畜牧兽医, 2006,(08) .
生物信息学简介 篇4
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W.Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学系统生物学-比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。
姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
2、发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测
定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,“生物信息学”正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
3、主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。
1、序列比对
序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。
2、蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。
3、基因识别非编码区分析研究
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列目前没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。
4、分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况:Orthologous:不同种族,相同功能的基因;Paralogous:相同种族,不同功能的基因;Xenologs:有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。
5、序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。
6、遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。
7、基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。
8、生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop,2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9、生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难,需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10、生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11、其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。从现在的发展不难看出,基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。
4、生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,“噪声”模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能.机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法——观测和假设——面对高数据的体积,快速的数据获取率和客观分析的要求——已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设
和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用“黑箱”操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.5、生物信息学的数学问题
生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1、统计学的悖论
数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2、度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢,我们不妨给出一般的描述:假定两个向量为A,B,其中,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.6、统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最小间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃
刀(“Occam Razor”)原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.7、讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA.乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入“后基因组时代”,目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史,在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.8、总结
生物信息学在生物方面的应用 篇5
从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。
生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。
基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。
1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。
2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。
3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。
生物信息学在人类基因组计划中也具有重要的作用。
大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。
人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完
整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信
息分析得到的。
当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps的研究。在我国开展中华民族SNPs研究也是至重要的。
总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。
生物信息学在功能基因组学同样具有重要的应用 目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基酸序列同源性比较。同源性比较的结果大体可以分为如下几种方式:与生化和生理功能均已知的基因具有同源性;虽与生化和生理功能均已知的基因具同源性,但对该基因功能的了解尚不深入,仍停留在表达水平~I:;与其它物种中生化和生理功能均未知的基因具同源性。同源性检索分析方法为该DNA片段的功能提供了间接的证据。
揭示序列数据所隐含的生物学意义的另一重要方法是模式识别技术。顾名思义,模式别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别相关蛋白质的性质。如果某一蛋白质序列或结构中的一部分具有保守性,种保守性或者与蛋白质的生物活性有关,或者与蛋白质的折叠方式有关;那么,这种特片模式可以用来识别该蛋白家族中的新成员。换句话说,如果将已知蛋白质的特征序列模式和特征结构模式
搜集起来,构建成数据库.则可以用来确定新测定的蛋白质序列中是否具有某种特征模式,从而确定该未知蛋白属于哪个蛋白质家族。这在治疗肾病问题上具有突破性进展。
生物信息学专业就业前景 篇6
所以说这个专业前景比生物学其他专业要好些,其实其他领域也可以进去,因为本身这个专业要学些计算机方面的知识,一般都会编些程序什么的,个人能力比一般的生物学专业的学生要多些。
一是教育方向,大学老师是不错的选择;
二是企业,从车间的技术员,到研发员;
生物信息学专题论文 篇7
生命科学的迅猛发展使人们从基因组学、蛋白质组学等研究领域中获得了大量的数据[1]。但数据并不等同于信息和知识,而是信息和知识的源泉。如何收集、存储和分析这些数据,尤其是如何从不连贯的数据中获取有用的生物学信息,仅仅依靠传统的数理统计手段是难以解决这些问题的。
伴随着蛋白质组学和基因组学研究的发展,生物信息学(bioinformatics)应运而生[2]。生物信息学以数学理论和计算机技术为主要手段,应用软件和计算机网络为主要工具,通过对海量的原始数据进行收集、存储、管理、分析、注释、加工和处理,从而获得新的知识。通过将数据挖掘和信息处理技术应用于临床医学数据,生物信息学在医学基础研究和临床实践领域都发挥了巨大的辅助和推动作用。将生物信息学的方法应用到质谱数据的挖掘,可以很大程度上提高疾病预测的准确度,并提高分类效率。
本文在查阅大量文献的基础上,综述了质谱分析的生物信息学方法,并分析、对比了几种代表性研究方法的优劣。
1 质谱分析的主要方法
数据挖掘[3]是从大量、不完整、有噪声、模糊、随机的数据中,提取隐含在其中人们事先不知道的、但又是潜在有用的信息和知识的过程。而质谱分析的目的在于从原始质谱数据中提取有用信息,为临床疾病诊断和个体化治疗方案的确定提供决策性建议。从信息学角度讲,属于数据挖掘范畴。
质谱分析的方法有很多,每种方法都有自己的优点和不足之处,到目前为止还没有一种普适的方法。比选择分类方法更重要的是熟悉选定的方法,以保证其正确和合理使用。通常需要根据主观标准来进行选择,如研究人员的经验和科学背景等。
目前,质谱分析主要有决策树模型(Decision Tree Analysis,DTA)[5]、偏最小二乘法(Partial Least Squares,PLS)、人工神经网络(Artificial Neural Networks,ANN)[6]和支持向量机(Support Vector Machines,SVM)[7]等几种方法。根据是否具有记忆和学习功能,可分为非智能算法(DTA、PLS)与智能算法(ANN、SVM)两类。
在进行质谱数据分析前,首先需要对数据进行预处理,为高质量的挖掘结果打好基础。
1.1 质谱数据的预处理
“预处理”一词给人的印象是处理一系列主要分析的次要前期阶段。然而,预处理阶段有其特殊的重要性,因为它影响到数据处理后期阶段的特定编码格式的选择。选择正确的编码格式,可以大大降低后续处理的计算量,提高分析的能力和效率。
迄今,还没有一种通用、公认的方法读出谱线。目前常用的读出谱峰的方法有:幅值法、一阶导数法和二阶导数法。信噪比大的明显的谱峰,由平均质量和强度最高值检测和表征(图1A)[4]。这里所说的“质量”,实际上是“质荷比”[8]。
如果不同谱线的峰值对应相近的质量,谱线的峰值就会互相配合并集群,这就是所谓的谱峰聚类(图1B)。峰值完全依靠谱结构分组。每个高峰聚类对应于一个质量区间,由一个特征性的质量来描述,如某一集群中众多谱峰的平均位置所对应的质量。按照谱峰的最大强度值读出所有的谱线。
峰值的自动检测和聚类往往同步进行。在峰值检测的第一步,峰值都是独立地由单一质谱决定的。谱峰聚类后,单一质谱依据较严格的标准被再次分析,从而最初遗漏的信噪比较小的峰值将被发现,也就是说一个峰值如果存在于许多谱中,那么它也很有可能存在于一个谱中。在图1中,右侧标记“×”的极大值被其他谱证明,而左边极大值的则得不到证明。峰值检测和聚类通常分两个步骤进行:第一,峰值自动检测和集群;第二,根据检查结果,由有经验的工作人员手动调整。
1.2 决策树模型
1.2.1 模型原理
决策树模型是一种阶梯式划分数据(图2)的算法。从给定的样本数目基本一致的两个数据集开始(图2A,顶部)(例如两组分别来自健康人和病人的血清质谱的峰丛强度),通过从不同类别中将病例分离,检查所有可能的特征截断值的用途。两个数据点之间的每个特定功能的截断,对应于两个分类器:一个分类器将数值小(大)于截断值的样本分配到“白(黑)”类中,另一个功能相反的分类器将数值低(高)于截断值的样本分配到“黑(白)”类中(图2A,中)。判断截断是否有效的依据是正确归类病例的数目。用所有测得的功能检查所有不同的截断后,选择最有用的截断/特征对。在图2A(下)中,最有用的切断标记为“*”,该截断生成的分类器只有3个错误分类的病例。从而,可获得优化的同质类中的子数据集,例如图2B中的子数据集I和II。数据分区的过程反复进行,直到获得的同质类(Class homogenous)的子数据集的大小可以接受。图2B显示了一个连续应用两个截断的例子,最后产生三个子数据集,记为“终端节点”I-III。
决策树生成中的核心问题是“过拟合”现象。决策树过于拟合实际数据集,因而对于未曾发现的数据很可能是不适合的。
研究只对非过度拟合的决策树感兴趣。非过拟合决策树的分类标准并不代表实际数据集的特性,而是潜在患者群的典型特征。如图3 A,在单一的决策树中使用许多分裂标准,生成树所使用的数据集的错误分类的数量可以减少到零。然而,只有最初的几个准则可以推广到无形的数据。
可以通过停止准则防止过度拟合。停止准则,即决策树生成过程中当遇到某一标准时,则停止生成,例如,当所有终端节点少于5例病人时。交叉验证是估计最佳分裂标准数量的一种很好的方式(图3B)。通过选择各自的测试集上整体分类错误最少的树的结构,可以获得决策树的最佳截断个数。
1.2.2 模型举例
(1)研究[15]表明,发明蛋白质芯片飞行时间质谱系统,根据各蛋白质峰的质荷比(m/z),采用决策树算法,建立一个决策树的蛋白质指纹图谱模型;将检测人血清中相应的蛋白质的质荷比与本发明的模型进行分析,就可以初步用于肺癌诊断,其预测准确率为71%。
(2)研究[16]表明,分类决策树模型的交叉验证(测试组)总准确率为81.8%,ALN有转移的乳腺癌患者检出率为83.3%,ALN无转移的检出率为80%,构建的分类决策树模型能达到区分ALN是否有转移的最佳效果。
1.3 偏最小二乘法(PLS)
偏最小二乘法(Partial Least Squares,PLS)是一种适合处理变量数很大的建模方法,具有较强的提供信息能力,在分析化学中得到了广泛的应用[11,12]。PLS变量筛选法是在PLS回归法基础上作变量筛选的[9]。
1.3.1 PLS回归法原理
PLS法是一种研究两个数据块或矩阵和相关关系的方法。在该方法中对数据矩阵实施序列的正交变换:
其中h为隐变量的个数。在变换过程中,使得到的矢量ti与对数据矩阵变换得到的矢量ui=Yqi的协方差为最大值。具体PLS正交变换算法见文献[10]
式(1)可写为矩阵的形式:
PLS回归模型为:
将(2)带入(3),可得:
因此,PLS回归法的模型系数由(4)得:
其中,隐变量的个数或矩阵中变量的个数小于矩阵中变量的个数。
2.3.2 PLS变量筛选法原理
PLS变量筛选法是在PLS方法技术上发展起来的一种变量筛选法,能提取成分复杂的图谱信息,且可以避免谱图数据共线的问题。预测能力强且模型相对简单。
在PLS变量筛选法中,首先用PLS法对含有全部变量的数据处理,建立一个预报稳定性较高的模型。在此基础上,利用其中回归系数等有关信息进行变量筛选。主要采用以下判据删除影响不大的变量:
△Ei表示当删除第个变量时,PLS回归模型的拟合误差增加值;T为PLS法得到的正交矩阵,矩阵(TTT)-1为对角矩阵,较容易计算;R是PLS正交分解得到的矩阵,而矢量1i为第1i个分量为1、其余分量为0的一种特殊矢量;bi为第i个变量对应的回归系数。在PLS变量筛选法中,主要是删除那些△Ei值很小对应的变量。
1.3.3 模型举例
⑴研究[17]中,Goncalves等应用SELDI-TOF-MS研究了81例早期乳腺癌患者的血清蛋白质组图谱,其中40个蛋白质在有转移组和无转移组中有显著性差异表达。采用偏最小二乘法,最终得到了一个由40个蛋白组成的蛋白质组预后预测图谱,其预测的敏感度和特异度分别是87%和76%。血清蛋白质组学在乳腺癌预后预测中得到应用。
⑵研究[9]表明:肝癌病人和健康人的血清蛋白质指纹图谱数据,经过数据预处理、PLS变量筛选法建立分类模型,模型CR值达到0.9611,100个样本完全判断正确。
1.4 人工神经网络模型
人工神经网络(Artificial Neural Networks,ANN)模型的研究目标,是通过研究人脑的组成机理和思维方式,探索人类智能的奥秘,进而通过模拟人脑的结构和工作模式,使机器具有类似人类的智能。应用到医学数据处理上,就是通过建立模型,找出血清蛋白质谱中表征健康或疾病的信息。
感知器(perceptron)模型是一种最基础的神经网络模型。在感知器模型的基础上,发展出了反向传播(Back Propagation,BP)神经网络、自组织映射(Self-Organized Mapping,SOM)神经网络等模型[12]。
BP神经网络可以处理共线性效应和变量间交互作用,善于处理非线性的、模糊的、含有噪声的数据情况,且理论基础牢固,物理概念清晰,通用性好。SOM神经网络是无监督竞争式学习网络,通过学习能够提取待处理数据中的某种内在规律,并按离散时间方式进行分类,大大减弱了一致性准则中的人为因素。神经网络的局限性在于,建立在渐进理论的基础上,需要无穷多的样本才能较真实的模拟样本的分布函数,而实际上所得的样本都是有限的。
1.4.1 反向传播模型原理
反向传播模型也称B-P模型,是一种用于前向多层的反向传播学习算法。所以将其称作反向学习算法,是因为在修改各人工神经元的连接权值时,所依据的是该网络的实际输出与其期望的输出之差,将这一差值反向一层一层的向回传播,来决定连接权值的修改(图4)。
B-P算法的学习过程如下:
(1)选择一组训练样例,每一个样例由输入信息和期望的输出结果两部分组成;
(2)从训练样例集中取一样例,把输入信息输入到网络中;
(3)分别计算经神经元处理后的各层节点的输出;
(4)计算网络的实际输出和期望输出的误差;
(5)从输出层反向计算到第一个隐层,并按照某种能使误差向减小方向发展的原则,调整网络中各神经元的连接权值;
(6)对训练样例集中的每一个样例重复(3)~(5)的步骤,直到对整个训练样例集的误差达到要求时为止。
1.4.2 自组织映射模型原理
自组织映射神经网络是聚类分析中广泛使用的一种高维可视化的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SOM网络由输入层和竞争层(输出层)组成,且两层之间是全连接的(图5)。目前,SOM算法已被广泛应用于众多信息处理领域,在血清蛋白质谱分析中也发挥着很大作用[13]。
SOM算法的学习过程如下:
将网络中各输入神经元与竞争层神经元的连接情况抽出,设网络输入模式为:
竞争层神经元矢量为:
其中式(7)的Pk为连续值,式(8)的Aj为数字量。竞争层神经元j与输入层神经元之间的连接权矢量为
1.4.3 模型举例
⑴研究[18]采用BP-ANN算法,建立并存储诊断模型、预后模型。诊断模型对大肠癌的诊断灵敏度和特异度分别为82.22%和80.45%,阴性预测值94.74%,阳性预测值51.39%,准确度为80.80%。预后模型通过回验,证明该模型的检验符合率为62.96%。
⑵在研究[14]中,对所有质谱数据用SOM-ANN进行特征选择(网络为6*6,迭代次数为1 000次),按权值大小挑出权值大的那些特征,对权值相同的特征挑出其中一个。在卵巢癌质谱数据的实验结果中,当特征维数选择为5左右时,SOM的识别率达到了87.2%,是一种有效的特征选择方法。
1.5 支持向量机
支持向量机(Support vector machine,SVM)是一种新型模式识别方法,它能根据有限的样本信息,在研究对象模型的复杂性与分类器的学习能力之间寻求最佳的折中方案。理论上,支持向量机算法得到的是全局最优点,解决了局部极值问题。该算法将实际问题通过非线性变换转换到高维的特征空间,巧妙地解决了维数问题,使算法复杂度与样本维数无关。但是支持向量机算法的核函数选择困难,且算法的复杂性导致训练速度较慢,不宜解决大规模的分类问题。
支持向量机刚主要用于解决数据分类问题,分类问题中最常见的是线性可分问题(图6左)、大约线性可分(图6右)、线性不可分情况(图7)[14]。
1.5.1 模型原理
SVM的基本思想是根据结构风险最小原理,寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即构造一个分类函数,将两类样本尽可能地区分开来,使得分类平面两侧的余裕(margin)尽可能最大(图8)。
图8中十字和圆圈分别代表两类训练样本点,分类线H能把两类正确的分开,H1、H2平行于H,且分别通过两类样本中离分类线H最近的点。H1、H2之间的距离叫两类的分类空隙或分类间隔。
1.5.2 模型举例
⑴本研究[19]中应用非线性的SVM分类器(nonlinear SVM classifier),在此基础上分别应用1 000次5倍交叉验证和“留一法”交叉验证两种方法,并建立评价模型。经过计算筛选出最佳组合是:3 932m/z+5635 m/z,即由这两个蛋白质峰构建的模型可达到对乳腺癌患者的最佳检测效果。
⑵研究[14]表明,脑良性肿瘤样本较少,用SVM模型可以使这样的小样本具有较好的推广性。在研究生物信息学方面,选择了“留一法”SMV分类器简历评价模型,可以筛选出在胶质瘤和脑良性肿瘤及健康对照中表达有差异的新的潜在生物标记,并且可以建立检测胶质瘤敏感性和特异性都很高的判别模型,为胶质瘤的诊断提供了新的方法。
2 质谱分析的发展趋势及前景展望
高通量检测技术的进步,使原始蛋白质表达谱的采集得以实现,但随之而来的是后续分析、处理技术和方法的新挑战。使用得当的话,质谱分析的结果可应用于疾病预警或者检测,为个体化治疗方案的制定提供支持。
本文综述了质谱分析的几种主要方法:决策树模型、偏最小二乘法、神经网络模型和支持向量机。对分析方法的基本原理、适用范围、优势和不足之处做了具体论述,并分别给出疾病诊断的实例加以说明,展现了质谱分析方法对疾病判别和预测的重要作用。
综上所述,通过对临床血清蛋白质谱数据库的原始数据开展分析,可以发现与疾病诊断或健康状况预警相关联的特征信息,提示或协助临床诊断和个体化治疗方案的确定,对人群健康分析和疾病预警的实现具有重要的指导意义。研究人员将在改进现存方法的基础上,创新质谱处理方法,寻找生物信息学和临床诊断间的契合点。
摘要:蛋白质谱具有复杂、数据量大等特点,采用一般的统计学方法难以得到满意的疾病预测或分类结果。文从生物信息学的角度出发,综述了质谱数据挖掘的决策树模型、偏最小二乘法、神经网络模型和支持向量机几种主要方法,并对不同的方法给出了疾病诊断的实例说明,体现了质谱分析方法对疾病判别和预测的重要作用。
生物信息学专题论文 篇8
关键词:MySQL 数据库 生物信息学
中图分类号:G64 文献标识码:A 文章编号:1674-098X(2016)02(b)-0141-02
随着计算机技术和生物技术的快速发展,MySQL数据库课程不仅是计算机类专业、信息管理专业的重要专业课程,也是生物信息学专业的必修课程。MySQL数据库作为应用型课程,其课程体系注重培养学生利用数据库技术解决实际问题的能力,然而由于专业方向、教学手段、考核方式等方面的限制,容易使学生学习目标不明确、缺乏学习兴趣,导致学习效果较差。如何改变生物信息学专业的MySQL数据库教学现状,是值得深入思考的问题,该文从教学实践出发,探讨MySQL数据库课程在生物信息学专业中的重要性和教学方法。
1 MySQL数据库特点
MySQL由瑞典MySQL AB公司开发的一款开放源码的中小型关系数据库管理系统,是当前网站开发中尤其是PHP开发中使用最为广泛的数据库。MySQL支持多线程充分利用CPU资源,提供TCP/IP、ODBC和JDBC等多种数据库连接途径,支持Linux、Solaris和Windows等多种操作系统,使用系统核心提供的多线程机制提供完全的多线程运行模式,提供了面向C、C++、Java、Perl、PHP和Python等编程语言接口,优化SQL查询算法,可有效地提高查询速度。它具有操作简单、体积小、速度快等优点,语法简单,容易被学生理解和接受,在编写网站应用程序时,几乎离不开数据库,所以,在教学中选取MySQL作为教学用数据库管理系统。
2 MySQL数据库课程教学方法研究
MySQL数据库具有很多特点,是网站应用程序不可缺少的重要部分。对于生物信息学专业的学生而言,使用很多数据库,如,NCBI、UCSC等进行生物数据检索,而获得数据后,如何进行数据存储、数据处理和分析成为一个重点难点问题。学习MySQL数据库课程,能使学生快速地掌握使用方法,提高处理数据效率。为保证良好的MySQL数据库教学效果,从以下几方面开展教学方法研究和实践。
2.1 理论与实践紧密结合,调动学生学习兴趣
根据MySQL数据库理论性和应用性强的特点,为使学生全面掌握数据库基本知识和技能,提出理论与实践紧密结合的教学方法,重视课堂理论知识的传授,紧密结合实践训练。例如:理论学习关系数据库模型时,引入实例,指导学生从GenBank数据库获取核酸和蛋白质序列,调动学生主动思考,如何存储为关系模型数据,加深学生对关系模型的理解和应用,并为同学分配任务,进行核酸和蛋白质序列的查询、修改关系操作,通过这种具有专业特色的理论学习与实践训练相结合的教学方法,使学生掌握了MySQL数据库理论知识的同时,也激励同学主动开展实践训练,能够使枯燥的理论知识变得生动有趣,使学生认识到MySQL数据库课程的重要性,进一步促进生物信息学专业课程的学习。
2.2 项目与任务驱动结合,培养学生动手能力
针对MySQL数据库课程的特点,开展项目与任务紧密结合的教学方法。总体上将课程划分为若干阶段的教学过程,并将教学过程分解在一个项目案例MySQL数据库系统中。例如:构建人类疾病相关基因数据库系统,将该项目划分按照数据库设计周期划分为以下6个阶段:需求分析阶段、概念结构设计阶段、逻辑结构高设计阶段、物理结构设计阶段,数据库实施阶段和数据库运行与维护阶段,分配子项目和子任务,包括人类疾病相关基因数据的获得与处理、转化为关系模型结构数据、数据模式分解、MySQL数据库构建、关系表构建、数据类型设置、数据导入、创建索引、视图、触发器以及存储过程等,充分调动学生学习的主动性,发挥主观能动性,用项目和任务引导学生学习知识点,即把知识点的讲授贯穿在实际应用项目的开发过程之中,指导学生掌握实际的MySQL数据库的分析、设计与开发过程,培养学生动手研发能力。
2.3 考核与教学反思结合,优化教学内容
目前,MySQL的数据库课程理论与实践考核存在考核过程效率低、考核内容覆盖面小、考核方法少等问题使教师难以全面掌握学生的学习效果,所以,在考核过程中督促学生全面掌握数据库相关知识,提出了可靠的理论与实践考核方法,即制订合理的考核内容计划,构建全面的数据库、试题库、理论试题库和实践试题库,全面覆盖表与数据库的创建、表结构的修改及索引的创建、数据操作、查询及视图、触发器与存储过程的创建、用户与权限管理等,结合生物信息学专业知识进行理论和实践考试,保证理论考试和实践考试能够全面真实地反映学生的掌握水平。同时,进行教学反思,即时纠正教学过程中还存在的问题,对于课堂上学生提出的一些独特见解给予充分肯定,推广的好方法、好思路、好见解,完善教学过程,拓宽教师的教学思路,提高教学水平。
3 结语
MySQL数据库课程是生物信息学专业的重要专业基础课,具有较强的应用性。该文根据MySQL数据库特点,结合生物信息学专业特色,提出了理论与实践结合、项目与任务结合、考核与教学反思结合的教学方法,不仅调动学生的学习主动性,而且在实践过程中使学生充分认识到MySQL数据库课程在生物信息学数据存储、数据处理等方面的重要作用,通过数据库试题库进行理论与实践考核,督促学生全面掌握数据库相关知识,通过项目与任务结合培养了学生的实践能力,很好地完成了教学任务,但具体教学过程中可能还会存在一些问题,这需要教师根据课程环境进行即时调整不断地完善,使MySQL数据库课程在生物信息学专业中发挥更重要的作用。
参考文献
[1]钟志宏.MySQL数据库实践考核的方法研究[J].黔南民族师范学院学报,2012(6):83-84.
[2]赵彦.探析高职院校MySQL数据库课程教学[J].信息教育,2012(9):127-128.
[3]党小争.以工作过程为导向的项目驱动法在MySQL数据库课程教学中的应用[J].教育教学论坛,2014,4(18):82-83.