生物信息学进展研究(精选9篇)
生物信息学进展研究 篇1
1 生物信息学概述
生物信息学是由于生物学家经过实验得到的大量数据需要工具解释这些数据的意义,导致生物与计算机的结合而产生的。目前人们普遍接受的生物信息学定义是在美国人类基因组计划(HGP)第一个五年总结报告中给出的一个较为完整的解释:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义。
生物信息学与计算生物学的区别:生物信息学主要侧重于对生物学中所得信息的采集、存贮、分析处理与可视化方面,更侧重于生物学领域中计算方法的使用和发展;而计算生物学主要侧重于使用计算技术对生物学问题进行研究方面。强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。也没有必要严格讨论生物信息学与计算生物学之间的区别,目前,生物信息学比计算生物学在生物学中应用更广,同时生物信息学可以通过Internet得到大量免费的数据库和应用程序。
生物信息学与基因组信息学。生物信息学不同于基因组信息学,它包含的范围更广,不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。
总之,生物信息学作为一门新的研究领域,它把DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。
2 生物信息学主要研究内容
从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。
2.1 序列比对
在生物学中序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性。双序列比较是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程序包有BLAST、FASTA等。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。
2.2 序列分析
随着越来越多生物体的DNA序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA测序过程中被打散的DNA序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA有很多重复的区域,相同的片段可能属于不同的区域。由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%~5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA序列需要大胆的想象和崭新的思路。
2.3 功能基因组
功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学的研究主要包括以下几个方面的内容:(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。1995年,Owen White设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步分析它们的功能。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(4)比较基因组学研究,是识别和建立不同生物体的基因或其他基因组特征的联系。在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。(5)功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测。
2.4 基因表达数据的分析
对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一。目前对基因表达数据的处理主要是进行聚类分析,虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。
2.5 蛋白质结构预测
蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列(也称为一级结构)可以容易地由它的基因编码序列获得。蛋白质的结构对于理解蛋白质的功能十分重要。目前尚没有普遍可行方案实现蛋白质结构的准确预测;大多数方案为启发式的。
蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。常用方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PSEDATOR、PSA。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型方法可以完成所有蛋白质10%~30%的空间结构预测工作。得到蛋白质结构后就可以进一步分析研究蛋白质的功能。
2.6 药物设计
基于生物大分子结构的药物设计是生物信息学中极为重要的研究领域。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。计算机辅助药物设计主要包括活性位点分析法、数据库搜寻、全新药物设计。目前,活性位点分析软件有DRID、GREEN、HSITE等。另外还有一些基于蒙特卡罗、模拟退火技术的软件如MCSS、HINT、BUCKETS等。目前数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法中比较著名的软件有Catalyst和Unity,而以前者应用更普遍。另一类方法是基于受体的,也称为分子对接法,具代表性的分子对接软件主要有 DOCK、F1exX和GOLD。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、Leapfrog、GROW、SPROU以及北京大学来鲁华等开发的LigBuilder等,其中LUDI最为常用。
3 结束语
生物信息学是一门新兴的极具发展潜力的学科,对计算机工作者也提出极高的要求,在序列比对中目前的研究热点主要有多序列比对算法及基因组比对算法。在序列分析中重点是研究基因重组及基因识别算法,同时对非编码区的识别也是个重点。同时后基因组时代从结构转向功能的研究涉及到基因组功能的注释,基因的表达调控机制,比较基因组的研究等内容。同时蛋白质的结构预测对蛋白质的功能理解也非常重要, 然后依据特定蛋白质的功能进行必要的药物设计。
参考文献
[1]新药药物靶标开发技术[M].高等教育出版社,ISBN,2006.
[2]http://www.wikipedia.org/[Z].
[3]张春霆.生物信息学的现状与展望世界科技研究与发展[M].2000/06.
[4]陈晖.计算机辅助药物设计的基本方法[EB/OL].http://www.istis.sh.cn.
生物信息学进展研究 篇2
人类基因组计划的成功实施使生命科学进入了信息时代。
基因组学、蛋白质组学和生物芯片 技术的发展,使得与生命科学相关的数据量呈线性高速增长。
对这些数据全面、正确的解读 ,为阐明生命的本质提供了可能。
连接生物数据与医学科学研究的是生物信息学(Bioinform atics)。
应用生物信息学研究方法分析生物数据,提出与疾病发生、发展相关的基因或基因 群,再进行实验验证,是一条高效的研究途经。
医学是研究生命的科学,医学研究在基础上 就注定离不开对生物信息的了解。
我国目前医学研究生教学模式主要有两种, 一是医学本科教育延续过来的理论型, 这种类型 的教育是在本科教学大纲的基础上, 按照教学计划进行理论讲授, 最后按照导师指定的课题 完成毕业论文。
这种培养模式突出理论学习, 忽视了实验机能和科研能力的培养。
二是科研 能力培养的前轻后重型, 前期只是进行理论授课, 后期由导师指导学生的科研。
这种模式虽 然开设了一定的实验项目, 但对研究生科研能力的培养缺乏系统性, 并且前期的培养不足直 接影响到研究生后期的学位课题和论文的进度、质量。
因此,笔者对生物信息学在医学硕士研究生中的教育初探,不但有利于该门课程尚未完全形 成成熟的课程体系之际,为教师学习借鉴先进的教育思想与教学实践经验,更有利于医学硕 士研究生对生物信息学的学习。
1 生物信息学的研究范围
生物信息学是一门新兴的交叉学科,涉及生物学、数学和信息科学等学科领域,并注定以互 联网为媒介,数据库为载体,利用数学知识、各种计算模型,并以计算机为工具,进行各种 生物信息分析,以理解海量分子数据中的生物学含义。
生物信息包括多种类型的数据,如核酸和蛋白质序列、蛋白质二级结构和三级结构的数据等 。
由实验获得的核酸蛋白序列和三维结构数据等构成初级数据,由此构建的数据库称初级数 据库。
由初级数据分析得来的诸如二级结构、疏水位点、结构域(Domain),由核酸序列翻译 来的蛋白质以及预测的二级三级结构,称为二级数据。
创新算法和软件是生物信息学持续发 展的基础,高通量生物学研究方法和平台技术是验证生物信息学研究结果的关键技术。
因此 ,现代生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学 等学科相互渗透而形成的交叉学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列 等各种生物信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学和遗传学信息 的科学。
生物信息学现状分析 篇3
【关键词】生物; 信息学; 技术
中图分类号:G633.91 文献标识码:A 文章编号:1009-8283(2009)05-0258-01
1 生物信息学的产生
21世纪是生命科学的世纪,伴随着人类基因组计划的胜利完成,与此同时,诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,以及逐步受到各国政府重视的信息高速公路计划的实施,为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段,从而诞生了生物信息学。
2 生物信息学研究内容
2.1序列比对
比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础。两个序列的比对现在已有较成熟的动态规划算法,以及在此基礎上编写的比对软件包——BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。
2.2 结构比对
比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。
2.3 蛋白质结构预测
从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。
2.4 计算机辅助基因识别
给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。
2.5 非编码区分析和DNA语言研究
在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。
3 生物信息学的新技术
3.1Lipshutz(Affymetrix,Santa clara,CA,USA)
Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。然后这些阵列就可以直接用于并行DNA杂交分析,以获得序列、表达和基因分型信息。
3.2 基因的功能分析
Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务——基因组水平的基因功能分析。这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。
Babbitt(University of California,San Francisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。对蛋白质超家族的结构和功能的相互依赖性的理解,要求了解自然所塑造的一个特定结构模板的隐含限制。蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现,因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列 是重要的。
3.3 新的数据工具
Letovsky(Johns hopkins University,Baltimore,MD,USA)介绍了GDB数据库,它由每条人类染色体的许多不同图谱组成,包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容,以及由不同研究者用同种方法得到的图谱。就位置查询而言,如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。为此目的,该数据库使用了一种公用坐标系统(common coordinate system)来排列这些图谱。数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。
Candlin(PE applied Biosystems,Foster City,CA,USA)介绍了一种新的存储直接来自ABⅠPrism dNA测序仪的数据的关系数据库系统BioLIMS。该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。
参考文献:
[1]顾明亮. 生物芯片技术及展望[J] 滨州医学院学报, 2003,(02) .
[2]菅复春,张子宏,肖乃淼,张龙现. 基因芯片技术的应用[J] 河南畜牧兽医, 2006,(08) .
腻苔的生物信息客观化研究进展 篇4
1腻苔的细胞形态学
袁肇凯[2]曾观察黄腻苔患者的舌上皮细胞呈弥漫性过度角化的倾向, 许多细胞胞浆呈杏黄色或橘黄色, 胞核消失, 细胞极薄, 多有皱折;张平等[3]研究20例黄腻苔、21例正常舌脱落上皮细胞发现黄腻苔脱落细胞的平均面积、周长、等效直径及最大直径均小于正常舌脱落细胞;龚一平[4]等对442例病理性舌苔、苔质的定量研究发现, 癌症患者的腻苔明显细腻。同为腻苔, 癌症患者的腻苔定量值小于其他疾病的腻苔定量值, 统计学处理有明显差异;李灿东[5]等对76例慢性胃炎脾胃湿热患者的舌印片脱落细胞成熟指数 (MI) 、成熟价值 ( MV) 研究发现, 脾胃湿热证舌象以红舌黄腻苔为主;舌印片MI、MV 变化以红舌和黄腻苔最明显。从以上研究可见, 无论在胞浆颜色, 胞核形状及细胞的形状方面都有差异, 说明腻苔的舌苔在细胞形态方面有一定的变化, 需进一步深入研究。
2腻苔的细胞生物化学研究
许海霞[6]等对71例胃癌患者的血清EGF进行测定, 发现胃癌患者舌苔以腻苔为多, 其次是剥苔, 结果显示胃癌患者舌苔变化明显, 且血清 EGF 与舌苔变化有一定的关系;1995年沈英森等[7]对100例白腻苔、黄腻苔患者的舌质和舌苔pH值进行研究, 认为腻苔可见于多种疾病, 且与湿邪关系密切;舌苔的pH值变化比舌质pH值变化明显, 偏酸性, 舌质与舌苔的pH值变化并不一致, 二者之间有显著性差异;金明华[8]等对60例白腻苔、黄腻苔患者血浆 SOD和MDA的水平进行检测, 结果显示:黄白腻苔患者血浆SOD水平较正常薄白苔降低, MDA水平则较正常薄白苔明显升高;万力生[9]等对60例厌食症患儿的相关凋亡相关基因 Bax、Bcl-2和Fas在舌苔上皮细胞内的表达情况研究发现, 厌食症患儿厚腻苔组治疗前舌苔细胞中 Bcl-2基因表达增加, Bax和 Fas 基因表达下降;阙铁生[10]对50例湿热证患者舌上皮细胞凋亡研究发现, 脾胃湿热证黄腻苔同时存在着舌上皮细胞凋亡的明显减少和细菌总数的增多, 且黄腻苔越重。吕军影[11]对湿热证黄腻苔舌上皮细胞凋亡指数的分析发现, 湿热证舌苔上皮细胞凋亡指数低于正常薄白苔;张诗军[12]等对43例黄腻苔血清MPA、SOD测定显示, 黄腻苔患者血清MDA明显升高, SOD含量明显下降。以上研究主要从血清学及舌苔液进行了研究, 结果也发现了很多不同的改变, 如血清中过氧化物歧化酶的改变, 凋亡基因表达量改变以及舌苔本身的pH值的上皮细胞的凋亡程度等, 这些研究成果为舌诊客观化开辟广阔的前景, 但这些都只见停留在简单的理化检测, 信息量较分散。
3腻苔的微生物学研究
吕军影[13]等对52例黄腻苔菌群密集度和菌群多样性的变化研究发现, 黄腻苔细菌总数明显多于正常薄白苔, 湿热证黄腻苔组发现真菌的例数和真菌种类明显多于对照组;肖飞[14]等对22例肺癌患者的舌苔进行变性梯度凝胶电泳分析发现, 肺癌病人白腻苔样本条带数量处中等, 多数有 12条条带左右, 黄腻苔样本最少有6条条带, 最多有11条条带, 相同舌苔类型的不同样本之间有较高的相似性, 提示舌苔类型与菌群结构相关, 分析与鉴定菌群的组成可促进中医诊断标准化的发展。
生物信息学进展研究 篇5
对生物多样性信息学做了简要介绍,并说明了其在生物学与地质学交叉领域研究中的.应用现状,指出了生物多样性信息学发展过程中存在的困难及其在地质学研究中的应用前景.生物多样性信息学在生物多样性信息数据库和生物多样性信息处理程序2方面取得了很大的进展,而古生物学、生物与环境协同演化、地质生态学等研究领域的一些课题已经应用了生物多样性信息学的成果.
作 者:程丹丹 赖旭龙 张克信 CHENG Dan-dan LAI Xu-long ZHANG Ke-xin 作者单位:程丹丹,CHENG Dan-dan(中国地质大学,环境学院,武汉,430074)
赖旭龙,张克信,LAI Xu-long,ZHANG Ke-xin(中国地质大学,地球科学学院,武汉,430074)
生物信息学进展研究 篇6
生物信息学是在生命科学的研究中, 生物学与计算机科学及应用数学等多学科相互交叉而形成的一门新兴的综合性学科。它以海量生物学实验数据为基本研究对象, 进行数据的获取、加工、存储、检索与分析, 从而实现揭示相关生物学意义的目的。在人类基因组计划的推动下, 各种类型的生物数据, 如核酸序列、蛋白质序列和蛋白质结构的生物信息数据, 呈现指数增长的迅猛趋势。为了对这些规模庞大、结构复杂的生物数据进行有效的管理和使用, 早在七、八十年代, 世界各地的科研人员就建立了大量的生物信息数据库。[1]
1、生物信息学数据库的分类及特点
生物信息学的重要内容之一就是生物信息学数据库, 1 9 6 0年左右, Ma rga re t D a yh o ff创立国际蛋白质序列数据库 (P S D) 。1 9 8 2年, L o s A l a m o s建立第一个核酸序列数据库G e n B a n k。现在这些数据库中的数据已经是天文数字, 而且每日都在增长。[2,3]现在, 生物信息学各级各类数据库几乎覆盖了生命科学的各个领域, 大部分是免费的。这些数据库基本上可以分为两类:一次数据库和二次数据库。其中, 核酸和蛋白质一级结构序列数据库、基因组数据库生物大分子 (主要是蛋白质) 三维空间结构数据库构成一次数据库, 以上述3类数据库和文献资料为基础构建的二次数据库
1.1 一次数据库
一般说来, 一次数据库的数据库量大, 更新速度快, 用户面广, 通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。例如, 欧洲生物信息学研究所用O r a c l e数据库软件管理、维护核酸数据库EMBL。而基因组数据库GDB的管理、运行则基于S y b a s e数据库系统, 即使是安装其镜像。也需要有S y b a s e支撑。O r a c l e和S y b a s e均为流行的数据库管理商业软件。而二次数据库的容量则要小得多, 更新速度也不像一次数据库那样快, 也可以不用大型商业数据库软件支撑。许多二次数据库的开发基于Web浏览器, 使用超文本语言HTML和Java程序编写的图形界面, 有的还带有搜索程序。这类针对不同问题开发的二次数据库的最大特点是使用方便, 特别适用于计算机使用经验并不丰富的生物学家。
1.2 二次数据库
二次数据库种类繁多, 以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库Trans Fac, 真核生物启动子数据库EPD, 克隆载体数据库V e c t o r, 密码子使用表数据库C U T G等。以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库P r o s i t e, 蛋白质功能位点序列片段数据库P r i n t s, 同源蛋白家族数据库Pfam, 同源蛋白结构域数据库Blocks。以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库Kabat, 蛋白激酶数据库PKinase等。以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具, 如蛋白质二级结构构象参数数据库DSSP, 已知空间结构的蛋白质家族数据库FSSP, 已知空间结构的蛋白质及其同源蛋白数据库HSSP等。蛋白质回环分类数据库则是用于蛋白质结构、功能和分子设计研究的专门数据库。此外, 酶、限制性内切酶、辐射杂交、氨基酸特性表、序列分析文献等, 也属于二次数据库或专门数据库。
生物信息数据库具有以下特点: (1) 数据库种类的多样性。生物信息各类数据库几乎覆盖了生命科学的各个领域。 (2) 数据库的更新和增长快。数据库的更新周期越来越短, 有些数据库每天更新, 数据的规模以指数形式增长。 (3) 数据库的复杂程度不断增加。数据库中除了基本数据之外, 还包括大量的注释、链接、参考文献等信息。 (4) 数据库使用网络化。几乎所有的数据库都可以在互联网上访问, 并且公共数据库之间相互链接, 使用户可以迅速得到大量的相关生物分子信息。
2、生物信息学数据库的应用
2.1 序列比较
序列比较的一个基本操作就是序列比对 (Alignment) , 即将两个序列的各个元素按照对应等同关系进行排列, 其结果是两个序列共有的排列顺序, 这是序列相似程度的一种定性描述, 它反应了在什么部位两个序列相似, 在什么部位两个序列存在差别。最优排列反应了两个序列的最大相似程度和最少的不同之处, 寻找最优排列的一般算法就是动态规划算法。一个新序列与数据库中的某个序列的比较在很短的时间内就可以完成, 但由于DNA序列数据库的数据量巨大, 逐个比较需要很长的时间。因此, 对于D N A序列搜索比较算法, 要求具有较高的速度。目前在序列搜索方面有多种不同的实用程序, 但较成功的两个程序是B L A S r和F A S T A, 它们能够根据所给定的目标序列, 快速地从DNA序列数据库或蛋白质序列数据库中找出同源序列。它们采取专门的技术以加快搜索速度, 如BLAST采用的是局部序列比对技术。现在, 这两个程序已被广泛地应用于DNA或蛋白质序列分析。
2.2 数据挖掘技术
生物信息学的诞生及发展使得核酸、蛋白质结构和功能的数据, 各种疾病相关数据及生物文献数据都飞速增长。但由此也带来一系列问题:一方面, 日益增长的数据对信息的采集和处理提出了空前的要求;另一方面, 如何从已经积累的海量数据和知识出发, 从DNA序列中识别编码蛋白质的基因, 以及调控基因表达的各种信号, 预测蛋白质的功能和结构, 解读生物的遗传密码, 进行药物设计等, 都是目前面临的巨大挑战。而数据挖掘技术是解决上述问题强有力的工具, 它能够有效地从大量数据中提取潜在的信息与知识。数据挖掘就是从大量不完全的、有噪声的、模糊的或随机的数据中, 提取潜在的、人们事先不知道但又是有用的信息和知识。数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术, 它能开采出潜在的知识, 找出最有价值的信息, 指导商业行为或辅助科学研究。目前, 序列分析、基因表达、同源性研究、蛋白质结构预测以及药物设计等领域都为数据挖掘提供了广阔的研究空间, 也显示出了数据挖掘在这些方面的发展潜力。
3、生物信息学数据库应用展望
生物信息学是一门新兴学科, 作为一种生物学数据处理、分析的工具, 已经成为生命科学研究中必可不少的研究手段, 目前各相关数据库通过信息资源整合, 逐步形成了构架于这类数据库之上的数据整合平台, 为生物信息学的研究构建信息平台。网络技术飞速发展, 为生物信息学数据库网络化提供了极大的便利, 目前基本所有的生物信息学数据库均已经和网络连接, 随着网络信息检索工具、搜索引擎功能的逐步完善, 为分子生物学家利用这些信息资源提供了前所未有的机遇。结合基因组学、蛋白组学、转录组学、比较基因组学等新兴生物学分支的兴起, 生物信息学数据库的进一步完善, 数据量的日益增多, 生物信息数据库必将在生命科学各个领域的研究中起到重要的支撑作用。
目前我国的许多科研人员非常重视对国际生物信息学数据库的利用以开展自己的研究工作。很多高校和科研机构已经开展了生物信息学的研究和建立生物信息学数据库以及开发相应的软件。这些都充分说明了我国对利用国际生物信息学数据库以及开展生物信息学研究的重视。有理由相信, 我国的生物信息学研究在21世纪将取得更大的进展。
摘要:随着生物信息学的发展, 生物信息数据库日趋完善。本文阐述了生物信息学数据库在生物信息学的发展过程中发挥的巨大作用;介绍了世界上主要的生物信息学数据库及其分类和特点;论述了如何利用生物信息学数据库以及对生物信息学数据库的展望。
关键词:生物信息学,数据库,数据挖掘
注释
1[1]Cantor C R and Lim H A.Electrophoresis, Supercomputing and the Human genomes[M].New Jersey:World Scientific Publishing Co.1991 58-6 2.
2[2]欧洲分子生物学实验室 (EMBL) 的核酸序列数据库[DB/OL].[2009-10-12].http://www.ebi.ac.uk/embl.
生物信息学进展研究 篇7
一、以多媒体网络同步教学系统为基础的生态课堂学习环境
课堂生态系统是由教师、学生和学习环境等组成的一种动态平衡系统,包含了各类个体、群体与多维生态因子的动态组合和互动,各类生态群体与生态因子的力量波动、消长与平衡,能量 (教学情绪和兴趣等) 和物质 (知识和技能等) 的传递与循环等等。学生的学习活动离不开特定的学习环境,他们在学习系统中与他人与环境相互适应、交往和互动。营造良好的学习环境是构建生态课堂、实现信息技术与课堂有效整合的必要条件。
生物信息学是网络环境下生物教学的全新内容,利用多媒体网络教室的网络化、开放性、交互性的优势初步构建了生物信息学课堂教学的信息化学习环境,它包括学习者可能要利用的内容资源、技术工具,包括可能会发生交往关系的人,也包括作为学习活动的一般背景的物理情境和社会心理情境。多媒体网络教室将计算机网络教室、语音实验室和多媒体综合教室的功能融为一体,为师生提供了一个交流互动的教学平台与学习环境,通过New Class400多媒体网络教学系统的转播示范、遥控辅导、答题示范等功能实现师生实时交流。同时该教学系统也可以通过屏幕监视和语音监听等功能实现教学监督[3]。信息化学习环境中的相关资源包括网络图书馆、各类分子生物学数据库、搜索引擎、生物信息学资源网站与各类生物信息学的网络课程等等。学生可以随时登陆互联网进行信息查询,使用分析工具。信息化学习环境中交流的工具包括电子邮件,用于教师发布课程资料,收发实验报告,讨论问题等,还包括生物信息学的专题论坛、BBS、博客、QQ等。在这样的课堂学习环境中,学生除了直接与同伴、教师进行学习、交流互动外,还可以利用技术工具与学习环境中的信息资源和学习社群进行互动。学生在获得和利用需要的信息和资源的同时也向学习环境提供自己的见解和学习成果,学生既是知识的消费者,也是知识的生产者。在教学设计过程中,主要为学生构建针对具体教学目的和教学内容的学习环境,包括教学内容相关的资源目录、数据库和工具软件简介及网址,指导学生有效利用资源进行知识构建;根据具体教学内容开设相应主题的讨论社群及专题论坛,发表相应的博客信息等组织学生互动交流,以达到最佳的学习效果。互动交流的对象除了同伴、教师,也包括学科专家、家长、志愿参加者和感兴趣的任何人,作为更大的社会文化环境的一部分,获得外部的社会性支持帮助,与社会文化环境之间保持动态联系。教师在信息化的学习环境中除了课堂监控管理以外,主要是通过查看学生的学习状况以及师生交流为学生提供建议和指导,促进学生对学习过程的自我计划、自我监控和自我调节。
二、生态课堂的特性
(一)生态课堂的开放性
开放性是生物信息学生态课堂最重要的特性。多媒体网络教室为课堂教学提供基本的开放性的学习环境,学生可以利用互联网中的所有资源辅助其学习,并通过各种网络形式与专家、家长等讨论问题,发表自己的见解。同时师生之间、学生之间的交流讨论也随时处于开放性状态,多媒体网络同步教学系统的小组讨论、转播示范、遥控辅导、答题示范等功能为师生的单独交流、多向交流提供方便的途径。这种开放性对于彻底改变传统课堂的封闭性,创造良好的学习环境具有重要意义。开放性生态课堂所采用的接受性学习也具有了全新的意义。生物信息学知识的大量积累及基本技能的演示主要通过接受性学习进行系统的传授。区别于传统的课堂接受性学习,开放性、网络化的课堂教学环境能让学习者接触到通过传统手段无法接触到的信息,有助于引发学习者的学习兴趣和注意力,促进新信息的传递和内化。
在教学过程中,利用多媒体网络教学系统的广播功能完成教学内容与信息的传递与内化,并在讲授的过程中在互联网上对相关内容进行操作演示,充分利用学习生态系统中各类信息资源和社会文化环境促进接受性学习。例如在讲授分子生物信息学数据库时,先通过广播教学介绍数据库的基本情况,再连接到具体的数据库,边浏览边讲解,并进行数据库相关操作的演示。然后通过相应内容的课堂实训操作让学生在课堂上进行及时、有效的练习与应用,促进知识的巩固熟练和深化迁移。将接受性学习与体验性、实践性学习紧密结合起来。在此过程中,鼓励学生借助网络资源结合教学内容进行扩展性学习。在学生的扩展性学习过程中,接受性学习传授的信息和知识成为其进一步学习的基础,同时师生间、生生间的互动交流又对其学习起到帮助、指导的作用,并共享扩展性学习成果。这种网络化、开放性、交互性的信息化学习环境为接受性学习提供了新型的学习生态环境,彻底摒弃了传统的封闭死板的课堂学习环境,实现了学习者与学习环境的互动交流。这种课堂教学生态系统的开放性对于探究性学习与合作学习同样重要。在探究性学习过程中,教师的情境创设、学生的探究活动、学生与所处学习生态系统有效的交流都依赖于系统的开放性。探究性学习注重学生主体与学习生态环境的交互作用,是多向互动的学习过程。开放性是实现这一多向互动学习过程的必要条件。开放性的学习环境也为学习者在学习过程中自主选择学习内容、实现个别性教学提供了必要的条件,真正达到因材施教、发展个性的教学目的。
在网络环境下,教师首先为学生创设有关生物信息学教学的探究情境,例如二级数据库的教学内容,针对不同科学研究问题和目的构建的二级数据库在互联网上层出不穷,这些数据库对于解决某一科学问题具有重要的价值,是一类重要的生物信息学资源。在学习了一级数据库的知识和数据库检索技能的基础上,要求学生利用互联网及各类资源或途径,选择自己感兴趣的科学问题,例如蛋白激酶的结构与功能、流感病毒、基因突变等,然后学生自主地搜集、组织和分析相关的资料,通过任务分解、协作讨论等方式开展探究,最终解决问题,找到相应的二级数据库,并通过数据库浏览和检索获得需要的信息,形成知识体系。合作学习过程中的有效互动同样以开放性的生态系统为必要条件。多媒体网络同步教学系统与开放性、网络化的学习环境为合作学习的异质小组的分组及小组内的实时交流提供了更多的实现工具,更有利于生生互动、生师互动。利用同步教学系统的小组分组功能实现的异质分组,小组学生通过同步教学系统彼此相连,利用耳麦直接对话,小组成员间、小组间互不干扰,保证了良好的课堂学习环境。
(二)生态课堂的平等性
平等性是生态观的课堂教学区别于传统教学最明显的特征,是构建平等、协商的和谐师生认知关系、实现师生共同发展的基础。师生作为课堂生态系统中的主体因素,他们之间应该是平衡和谐的[4]。建立伙伴型或合作型的师生关系,教师是学生学习的启发者、指导者和合作者,学生也是教学的积极参与者和促进者,师生双方共同交流、互相沟通、互相启发、互相补充,在交往的过程中实现心灵的对话、情感的交流和新知的发现,促进师生的共同发展。这种和谐的师生关系无论是在接受性学习还是探究性学习、合作型学习过程中都是非常重要的基本的师生之间的认知关系。
在生态课堂中,多元、异质的学习主体,民主、平等地生活在共同体中,并通过活动而相互关联。每个人都有自己的能力倾向,都有各自的优势。意义的形成依靠每一个人的力量合作实现。因此在生态课堂教学过程中,引导每个学生在主动学习和独立学习的基础上,加强合作,彼此学习,积极交流讨论。这种合作关系将充分调动学生学习的积极性,使不同程度的学生获得成功,始终保持一种积极向上的学习情绪,从而获得较好的教学效果。在生物信息学生态课堂开放性、网络化的学习环境中,学习者之间的有效的、实时的、广泛的交流是推动教学活动不断向前发展、学习者进行知识构建的主要动力。与社会人士、专业人员跨越时空限制的交流讨论极大地增强了学生学习的兴趣,有利于学生开展深入的研究性学习,培养其创新能力。
和谐的师生关系还意味着要尊重人的差异性、多样性、独特性,重视学生独特的感受、体验、主体性以及潜能的开发,及时满足学生合理的需求等等。同时,学生的世界观、价值观正在形成之中,教师既要根据学生的个别差异尊重他们的选择,又要根据一定的理性“标准”加以引导,使每位学生都在生态课堂中发展自我,完善自我。例如在探究性学习过程中,在教师创设的统一的探究情境下,学生根据各自的兴趣、爱好和条件,自由选择研究课题,通过探究活动来构建可以灵活迁移的知识与技能,同时发展发现问题、解决问题能力,自主学习能力和综合实践能力。教师针对不同学生的个别化指导和讨论也将促进学生个性的发展。另外在教学评价过程中,也应该尊重学生个体的差异性,注意用发展性来评价学生。
(三)生态课堂的发展性
生态课堂是由教师、学生、教学事件和环境等组成的一种动态平衡系统,具有自我更新、自我发展的能力,生态系统内的每一分子,也有自我发展的内在要求。在生态课堂中,学生有充分的思维空间,有充足的活动时间,通过平等对话、提问、讨论、合作学习等方式积极主动地发现问题、解决问题,教学过程是师生积极主动交往、共同发展的过程。学生的发展不应仅停留于知识学习、能力训练的层面上,更应注重培养学生学会生存,学会学习,终身学习,终身发展,是一种生命为了求得发展、享受生命过程与成长快乐的可持续性的发展。同时,这种发展性也表现在课堂生态系统通过教师、学生与生态环境的相互交流、相互作用不断发展,达到平衡和良性循环。例如在虚拟学习社区中,学习共同体通过充分的对话和共同的探索将公共知识转化为个人知识,同时,社区又通过系统自组织将个人问题转化为公共问题,并借助公共知识解决个人困境,由此构成一种加速个人学习和创新的良性循环,共同促进了整个教学生态系统中各个元素的发展。
三、生态课堂的教学实践
教师、学生与学习环境是生物信息学生态课堂的三个组成部分,教师和学生在生态课堂学习环境下建立起一种平等和谐、共同发展的关系,教师与学生之间的所有信息,包括知识、情感、行为等相互交流与反馈及时畅通,形成良性循环。同时,以多媒体网络同步教学系统为基础的生物信息学生态课堂学习环境与师生的相互交流、相互作用形成物质流、知识流、信息流,促进学生的全面和谐发展,实现课堂教学目标。
生态课堂的教学实践针对不同的教学内容采用接受性学习、探究性学习与合作学习等不同的学习活动,实现教学过程和效果的最优化。以小组合作学习为例,教师在课堂教学中依据教学内容和教学目标,通过问题的激发,图片、数据、材料的展示,乃至虚拟情景的铺垫与烘托等多种可选择的手段,来创设充满生机的学习生态环境,激发学生探索、求知的欲望,让学生乐于与人合作,分享彼此的经验。例如基因预测的小组合作学习。教师首先介绍基因预测的意义、背景及有重要价值和影响的科研成果,激发学生对该问题的兴趣,列举小组合作学习任务,提出学习成果的展示要求,通过学习成果总结的文字材料和课堂小组的幻灯演示讲解交流各小组合作学习成果,并在整体上形成有关基因预测的系统知识。小组学习内容的多元化是小组合作学习取得良好效果的关键之一。多元化的小组学习内容有利于小组的任务分工与协作,为小组内学生提供了更多的表现机会,有利于发挥他们的多种潜力,从而为小组作出贡献。基因预测的小组讨论题目包括原核基因预测、真核基因预测、启动子与转录因子结合位点预测等。每个小组需要通过小组合作的形式学习相关的基础理论知识、预测的原理、相应的软件工具、软件使用的具体实例演示及注意事项、展望等内容。每个学习任务内容保证每个小组学生至少分担一个独立的分解任务,并通过小组内的互动合作与知识的整合完成整个学习任务,使学生的合作技能、社交能力得到发展,促进学生协作和共同进步。合作学习的成绩评定以各小组在单位时间内实现共同目标过程中的总成绩为评价的依据,评定采用小组自评、小组互评、教师评价结合小组及成员的活动表现、讨论记录等进行。教师在整个教学实践中担负着组织者、协调者和促进者的作用,充分发挥学生自我学习的积极性和主动性,使学生在生态课堂内不仅体会到学习探索的乐趣,更在交往合作中锻炼自我、发展自我,促进学生的全面发展。
综上所述,教育生态观的思维模式和生态哲学的思维方法对指导课堂教学改革,实现信息技术与生物信息学课堂教学有效整合有积极的意义。
(课题组成员还有:戴凌燕)
参考文献
[1]杨冬梅.课堂教学生态观阐释[J].黑龙江高教研究, 2006, (4) .
[2]高亚梅, 韩毅强.生物信息学本科教学初探[J].生物信息学, 2007, (1) .
[3]高亚梅等.应用多媒体网络教室构建生物信息学教学新模式[J].黑龙江教育学院学报, 2007, (11) .
生物信息学进展研究 篇8
1 当今医学高等教育的重要特点———学科交叉
交叉学科是以单学科或多学科结合为表现形式的由两门或两门以上的学科相互渗透、融合而成的综合学科[1]。学科的综合、交叉、融合已经成为当代科学的发展趋势。生物、医药、健康、环境等关系到人类生存和发展的领域不断给我们提出单一学科的知识所不能解决的复杂课题, 学科之间因此相互融合与渗透, 涌现出众多的新兴交叉学科, 并使得各种高水平的创新成果应运而生。这种学科发展趋势是高等教育面临的新特点, 同时也对高等教育提出了新要求。
2 当今医学人才培养的特点——创新人才培养
培养创新人才已经成为高等教育界共同的价值追求, 其不仅是理论问题, 更是重要的实践课题[2]。2006年1月26日中共中央、国务院做出了关于“实施科技规划纲要, 增加自主创新能力”的决定。确定要“全面实施规划纲要, 经过15年努力, 到2020年使我国进入创新型国家行列”, 并强调要“深化教育改革, 加快教育发展, 推进素质教育和创新教育, 为建设创新型国家培养结构合理、素质优良的各级各类人才”。培养创新人才已是高校构筑人才培养模式的根本目标。
3带来的挑战
在上述背景下, 交叉学科的教育开展与创新人才培养成为亟待解决的问题。要解决这个问题, 必须从人才培养方案、教学计划修订、课程体系改革、课程教学改革等多方面入手。但无论如何改革, 最终的落脚点都是课程的教与学。因此, 如何根据时代发展的需要, 采用高质量的交叉学科课程教学方法、改革课程重知识传承的单一功能、培养医学创新人才是摆在我们面前的一个不可回避的课题。本文从课程教学改革的角度和层面, 来探索新形势下大学课程的教学模式。
二改革研究载体课程——生物信息学
生物信息学是典型的交叉学科课程, 是用数理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物医学数据的一门学科[3]。它主要包括两重含义:一是对海量数据的收集、整理与服务, 即管理好这些数据;二是从中发现新的规律, 即利用好这些数据。在基因组和蛋白质组研究时代, 它是医学、药学、生物学的研究载体和必要工具。与其他的生物医学学科相比, 主要有以下三大特点:第一, 以生物医学数据库为基础, 数据极其庞大复杂。第二, 操作分析主要依靠计算机为工具, 在互联网环境中运行, 通过网络强大的搜索功能实现数据收集、储存、管理与提供。第三, 是一门生物医学、信息科学、计算机科学等诸多学科综合交叉的前沿产物, 与其他学科相比, 综合交叉性强、难度大、发展时间短、还在不断完善与更新中。因而目前还没有成熟的生物信息学教学模式, 各高校、尤其是医学院校, 尚处于摸索探讨的阶段。
三生物信息学教学改革详述
1课程改革 (教学) 目标
探索CM教学法与PBL教学法结合应用模式, 并以交叉学科课程“生物信息学”为研究平台, 将CM教学法与PBL教学法结合应用于生物信息学教学。从具体的操作层面上探讨教学模式的变革这个涉及人才培养活动中最基本、最直接、最核心的问题, 构建一种可操作性很强、关键能力培养效果显著、以能力培养为中心的新的教学模式。
2 课程教学模式运用
CM教学法与PBL教学法结合使用。教学分小组进行, 以“自主式学习”为核心, 以教师的辅助、指导与管理为学生保驾护航, 按照CM和PBL的特点进行无缝连接, 形成一种包含自主式、启发式、探究式、参与式、讨论式等多种方式的新的教学实施模式。
3 问题集和案例集的制定
(1) 问题集的制定
问题集分为A、B、C、D、E五大模块, 具体如下。
A:生物数据库的检索和使用。
A1:如何利用Entrez系统检索和使用常用生物数据库?A2:如何利用SRS系统检索和使用常用生物数据库?
B.生物数据库的理解和识别。
B1:如何理解和识别基因序列数据库Genbank、EMBL、DDBJ?B2:如何理解和识别蛋白质序列数据库PIR、Swiss Prot?B3:如何理解和识别蛋白质模体功能数据库Prosite?B4:如何理解和识别大分子结构数据库PDB?B5:如何理解和识别生物功能数据库KEGG、GO?B6:如何理解和识别基因组数据库GDB?
C:生物序列比对分析。
C1:什么是双序列比对和多序列比对?C2:如何利用blast软件进行双序列比对?C3:如何利用Clustal W/X软件进行多序列比对分析?
D:核酸序列分析。
D1:如何进行重复序列分析?D2:如何利用数据库搜索比对确定编码序列?D3:如何利用编码区统计特性分析确定编码序列?D4:如何进行启动子分析?D5:如何进行内含子/外显子剪接位点分析?D6:如何进行翻译起始位点和翻译终止信号分析?D7:如何人工翻译基因?D8:如何利用序列综合分析软件进行核酸序列综合分析?
E:蛋白质序列分析。
E1:如何从氨基酸组成辨识蛋白质?E2:如何预测蛋白质的物理性质?E3:如何进行蛋白质二级结构预测?E4:如何进行蛋白质特殊局部结构预测?E5:如何进行蛋白质空间结构预测?E6:如何利用空间结构互补进行药物设计?
上述每个问题下还有子问题, 因篇幅原因, 不在此一一详述。
(2) 案例集的设定
根据学生分组数设置相应的案例集, 每个案例要涵盖上述A到E五大模块的问题集, 且涵盖顺序要符合课程内容的教学规律。因为篇幅原因, 这里仅以其中一个案例为例来说明。
案例:乳腺癌相关致病基因的生物信息分析及潜在药物设计。备注:已有研究表明, 某基因X在乳腺癌患者中常常呈现特异性表达, 该基因序列如下 (***) , 请分析该基因的相应情况, 并设计抑制该基因表达的药物。提示:首先, 在数据库中检索到该基因 (要完成该步骤需先解决A1、A2) 。其次, 对该基因进行基本解读 (需先解决B1) 。第三, 要将该基因进行序列比对分析其总体特征 (需先解决C1、C2) 。第四, 分析该基因的特征并翻译成蛋白质 (需先解决D1-D6) 。最后, 分析其蛋白质相关特征并进行药物设计 (需先解决B2、B4、E1-E6) 。
4 教学实施策略
分组:根据能力和兴趣分组, 选择能力互补且有共同兴趣的学生组成不同学习小组, 一般以4~6人为一组, 对于总体能力特别强的小组可以适当减少人数。
学习策略:对每组学生分发问题集, 并针对每组布置不同的案例。给所有学生提供学习资源, 包括书本、资料、网络学习地址、网络资源、软件资源等。让学生根据案例、提示和问题集, 参考相关的学习资源, 自主学习。学习方式以自主探究、小组讨论为主。教师全程参与指导、启发和答疑, 并定期组织集中讨论。在课堂时间外, 全程开放实验室, 供学生学习、讨论和探究。
5 教学评价体系设置
制定以能力为本位的、多样式的教学考核评价体系。第一, 理论考试分, 占50分, 考查重点是在完成案例过程中, 通过系统性解决问题集, 所获得的基本概念、基本思路、总体架构等理论性知识体系。第二, 案例完成分, 占30分, 包括案例解决过程15分 (过程记录) 、案例最终完成报告文档15分, 主要考查在完成案例过程中的学习过程, 以及边学习边解决实际案例的能力。第三, 拓展测试分20分, 在此项考查中, 会给学生布置一个新的案例, 让学生去解决, 考查学生利用所学知识解决实际科研、应用问题的能力。
6 教学效果
在此次课程教学改革中, 我们以2个班为对象。其中一个班为实验班, 采用CM和PBL结合教学。另一个班为对照班, 采用普通教学, 进行教学实施和对照。对普通班只进行第一、三项教学评价。
在两个班的对比中, 我们发现, 第一项理论考试, 普通班的平均成绩为82.45, 实验班的平均成绩为83.52, 实验班的成绩略好, 经T检验分析, 两者无显著性差异。第三项拓展测试中, 普通班的平均成绩为62.76, 实验班的平均成绩为88.95, 经T检验分析, 其P值小于0.01, 有显著性差异。从评价结果中可看出, 与普通教学形式相比, 实验班的理论考试成绩并不逊色, 反而还略有优势。更为重要的是, 在解决实际科研与应用性问题能力的测试中, 实验班占据明显优势。此外, 在课程结束后, 实验班的30位同学均组成科研团队 (每队5人) , 先后参加了校生命科学竞赛和浙江省第六届生命科学竞赛 (生物与健康竞赛) , 1队获省竞赛一等奖、1队获省竞赛三等奖、1队获校竞赛二等奖, 为我校创造参与该项赛事取得历史最好成绩做出了重要的贡献。
参考文献
[1]姜维寰.科学分类的历史沿革及当代交叉科学体系[J].科学学研究, 2013 (3) .
[2]朱崇实.研究型大学与创新人才培养[J].国家教育行政学院学报, 2014 (9) .
生物信息学进展研究 篇9
关键词:Agilent 6500 Q-TOF MS,代谢组学,Mass Profiler Professional
前言
代谢组学是考察生物体系受刺激或扰动后(如将某个特定的基因变异或环境变化后)其所有小分子代谢产物的变化或其随时间的变化,来研究生物体系代谢途径的一种技术[1]。目前代谢组学在疾病诊断、毒理、植物、营养学等领域有着广泛的应用。代谢组学研究的流程主要包括代谢谱差异分析、潜在生物标记物鉴定及代谢通路分析。
在代谢组学分析的各种技术手段中,LC/Q-TOF MS作为一种先进的分离分析技术,在众多分析方法中脱颖而出,尤其对于非靶标代谢组学分析,其强大的定性分析能力使之被公认为最好的复杂样品分析技术之一,已经被广泛应用于代谢组学的研究领域中。代谢组学是一种系统研究手段,通过数据采集得到的是多维、大量的信息,必须应用化学计量学的手段对这些信息进行提取,进而找出有意义生理学信息。
1 安捷伦完整代谢组学解决方案简介
对于代谢组学分析,安捷伦科技可提供业内代谢物组学研究最完备的分析平台—包括GC、LC、CE、GC/MS、LC/MS和CE/MS等,同时可提供强大的数据处理及软件工具包用于代谢物鉴定、定量和统计分析。安捷伦6500系列Q-TOF MS质谱仪结合安捷伦全新推出的生物信息学软件Mass Profiler Professional(MPP)可以为代谢组学中生物标识物发现及确认提供最全线的解决方案,从而应对代谢组学对分析方法提出的重大挑战。本文将重点对6500 Q-TOF结合MPP软件方案进行详细探讨。
图1为安捷伦Q-TOF MS代谢组学研究平台的示意图。安捷伦代谢组学研究平台包括完整的硬件和软件解决方案,覆盖从样品的分离和检测、代谢物的特征提取、代谢谱的差异统计分析、潜在生物标记物的鉴定及到代谢通路分析的整个分析流程。
1.1分离和检测一6500系列超高解析度飞行时间质谱(Q-TOF MS)
1.1.1安捷伦质谱发展历程简介
安捷伦公司具有悠久的质谱研发历史,从1971年5930 A世界第一台单四极杆气质联用仪开始,近40年来安捷伦在质谱研究与发展的道路上不断开拓创新并推陈出新,在带给用户市场更好的技术及产品的同时,也积累丰富宝贵的质谱经验。过去10年中,安捷伦公司在液质领域中便有近200项技术专利,不但在数量及质量上居众多专业质谱厂家之首,也从而凭借事实及实力逐步成为液质市场的领导者。
在液质领域,目前安捷伦公司可提供全系列的四极杆及飞行时间质谱,如单四极杆液质、三重四极杆液质、飞行时间质谱、四极杆-飞行时间质谱等,根据不同的分析需求,上述质谱系统可为分析人员提供最佳的解决方案。目前安捷伦液质联用系统应用领域遍及药品研发、药代动力学、中药与天然产物分析、临床研究、食品安全监控、环境监测、法医与毒物分析、基因组学、蛋白组学和代谢组学等领域。
此外,安捷伦公司对用户的支持服务十分重视。拥有一批规模庞大、经验丰富的维修及应用支持队伍,为用户解决安捷伦分析仪器的应用操作及保修难题,使他们能充分发挥仪器的性能和效率。这也是安捷伦公司连续多年在市场调查中,名列最佳用户满意度公司的重要原因。由于安捷伦公司是唯一能提供从色谱分离、质谱检测、到数据采集处理的计算机工作站,打印机一体化设计的生产厂家,故更加能够有效保证系统的兼容性和维护服务。
2.1.2安捷伦超高解析度四极杆-飞行时间质谱(Q-TOF MS)简介
2006年,安捷伦液质联用平台全面整合至6000系列产品,其中6500系列四极杆-飞行时间串联质谱(Q-TOF MS)兼具高度的质量精确性和高分辨率、高灵敏度,以及远远超过其它四极杆-飞行时间串联质谱(Q-TOF MS)系统和轨道阱质谱仪的超宽谱图内动态范围。针对药物杂质定性、食品安全筛查、代谢组学和蛋白质生物标志物等复杂样品分析,6500系列四极杆-飞行时间串联质谱(Q-TOF MS)提供用户所需要的轮廓谱分析、鉴定、表征,甚至定量等各种先进功能。
2009年第57届美国质谱年会(ASMS)上,安捷伦公司隆重推出业内超一流性能的超高解析度高分辨质谱(Ultra High Definition(UHD)AccurateMass Q-TOF)。超高解析度飞行时间质谱采用全新设计理念,从独特的离子聚焦技术、离子光学系统、特殊材料的飞行管设计,到高速电路、双增益处理器以及4 GHz ADC离子检测器等独一无二的整体设计,使得该系统能够完美实现超高灵敏度(fg级)、超高分辨率(40000)、超高质量精度(500ppb)以及超快数据采集速度的最佳平衡,并以此建立高清质谱新标准。其BSA酶解产物检测灵敏度可至400 attomole。该系统可与UHPLC完美匹配,获取高品质MS和MS/MS数据而不会引起分辨率损失。其主要技术特点及优势如下:喷射流离子聚焦技术(Agilent Jet Stream Ion Focusing Technology):专利的喷射流离子聚焦技术实现质谱灵敏度的革命性突破。利用该技术,质谱灵敏度可实现数量级的提高,对于很多难以检测的化合物,其灵敏度更是突破fg级水平,从而对药物代谢与药代动力学、食品/环境安全监测、蛋白质组学/代谢组学等复杂基质中痕量化合物的精确定性定量分析提供强大的技术支持,喷射流离子聚焦技术为UHD Q-TOF MS的超一流灵敏度性能提供关键的技术基础。
Ion Beam Compression (IBC)和Enhanced Mirror Technology (EMT)技术:该专利的创新技术巧妙实现离子束的空间压缩、冷却及整形,使得质谱的精确度和分辨率在实现本质提高的同时,可依然保持台式布局。采用上述技术后,安捷伦6538/6540 Q-TOF MS(见图2)在不牺牲灵敏度(fg级)和动态范围(5个数量级)的情况下,分辨率及质量精度可分别达到40000ppb和500 ppb,尤其可确保低质量端的高分辨率及高质量精度,除传统的生物大分子分析外,对食品、药品及环境等小分子分析亦能进一步提高结果的准确性和可靠性。
4GHz高速检测器和模数转换离子采集模式(ADC技术):4GHz高速检测器和ADC技术源于Agilent电子测量部门领先全球的高速示波器技术,ADC技术使质谱检测器可检测并采集所有到达检测器的离子信息,相对于传统Q-TOF MS所采用的时间数字转换模式(TDC技术),ADC技术具有明显的优势并有效弥补TDC技术的固有缺陷,从而实现更宽的扫描内动态范围、更高的质量准确度和更高的质谱分辨率。
与最新芯片-液相色谱系统(HPLC-Chip)无缝联接:随着分离技术的快速发展,微流控技术已成为目前最为先进、高端、热门的分离手段之一,安捷伦芯片液相色谱成功地让上述理念成为现实。插拔式的色谱柱技术彻底消除传统纳流液相色谱/质谱的不足。从微量样品的多肽到小分子样品的定性定量分析,液相色谱-芯片/质谱技术提供
可靠、重现以及超高灵敏度的分析结果。该系统与MS联用,可在最小样品量的情况下使灵敏度水平达到2~3个数量级以上的飞跃;针对不同的分析领域安捷伦可提供10余种不同特点芯片供选择使用,使系统优势得到最大程度的发挥,并获得最佳的分析结果。HPLC-Chip与UHD Q-TOF MS技术联用具有许多传统LC/Q-TOF MS无法实现的优势,结合强大的软件及数据处理工具,已然成为复杂体系分析不可替代的利器。
1.2 特征提取-安捷伦MassHunteir质谱工作站
安捷伦的MassHunter质谱工作站软件包含专利的分子特征提取(Molecular Feature Extraction MFE)功能,可以自动化地实现对高分辨质谱LC/TOF MS及LC/Q-TOF MS数据的化合物特征提取。图3为MFE功能示意图。MFE归纳化合物在质谱图中所有的相关离子(加H+、Na+或K+等各种加合离子、多聚体及同位素离子等)并自动化的进行数据提取,最终实现背景过滤,将包含在总离子流图中所有的代谢产物尽可能全部提取出来,并生成后续代谢谱差异分析所需的包含m/z、保留时间及丰度信息的三维数据文件。
1.3 统计分析-鉴定-代谢通路分析——安捷伦生物信息学软件MPP
安捷伦全新的生物信息学软件MPP集成代谢谱的差异统计分析、潜在生物标记物的寻找、潜在生物标记物的鉴定(ID Browser)及代谢通路分析(Pathway Analysis)等诸多功能。MPP结合安捷伦优异性能的仪器硬件平台可以为代谢组学研究提供最全线的解决方案。MPP能够对来自大样本组的GC/MS、LC/MS及CE/MS数据中的保留时间和丰度进行标准化;用一系列实用的统计分析和图形化工具(包括1-way和2-way ANOVA、PCA,以及分类预测算法)进行数据分析;用内置的ID Browser功能采用METLIN和Fiehn等安捷伦代谢组学数据库进行检索及利用精确质量数进行分子式生成来实现代谢物的鉴定;用内置的代谢通路分析工具Pathway Analysis进行代谢途径中大小分子的相关性分析,并利用已有数据构建新通路;从而识别样品之间的差异和关联,最终实现快速发现疾病或药物毒性等研究中的生物标志物(见图4)。
1.4安捷伦特有的代谢物数据库及谱库介绍一METLIN,Fiehn库
在非靶向代谢组学实验中,代谢物的鉴定是关键步骤。用化合物的精确质量数进行代谢物数据库检索,可以缩小筛选范围,大大加快代谢物的鉴定过程。安捷伦METLIN代谢物数据库是当今世界上最全面的代谢物数据库之一,它包含23000多种内源性和外源性代谢物、二肽和三肽的精确质量数、化学式和结构信息。除可采用精确质量数进行检索外,还可以同时采用质量数和保留时间共同检索以增加检索的可靠性。此外,还可以根据关键词、分子式、化合物名称,或KEGG、CAS、HMP或METLIN编号进行信息查询。METLIN代谢物数据库可以支持单一化合物检索,也可以支持批处理文件检索。
目前安捷伦正在扩展METLIN代谢物数据库的谱库检索功能,可以利用代谢物的MS/MS质谱图进行谱图匹配检索。此外,安捷伦独有的保留时间锁定代谢物谱库Agilent Fiehn Metabolomics Retention Time Locked Library可灵活方面地用于GC/MS分析,该库为第一个代谢组学研究的代谢物标准商业数据库,包括内源性代谢物鉴定。
2 应用实例
采用安捷伦6500系列Q-TOF MS代谢组学研究平台可以为代谢组学各个研究领域提供解决方案,下面将从中医药代谢组学、疾病诊断代谢组学及植物代谢组学等几方面的应用进行介绍。
2.1 中医药代谢组学
将代谢组学用于中医药领域对实现中医药客观化、规范化和科学化研究有着重要的指导意义,新兴学科代谢组学的出现,给中医药复杂理论体系的研究、中医药现代化提供强有力的研究手段。中医病证引起代谢物组的共性分析和生物标记物的发现,可促进深层次理解中医脏象理论,预测疾病的发生,整体性评价中药复方综合疗效、安全性和作用机制[2]。专家认为,运用具有反映整体思想的、先进的代谢组学方法来研究中药,对搞清中药的物质基础、作用机理、作用靶标、药效作用、组方依据、配伍规律和毒副作用以及对中药种质资源等进行的研究都是十分必要的。
本实例采用安捷伦6500系列Q-TOF MS结合MPP软件进行生物学信息挖掘,研究代谢组学在中医“上火”证候模型复制中的应用。
动物实验:将附子、干姜、肉桂按照比例混合作为温热方剂“上火”阳性药物。雄性SD大鼠20只,随机分为空白组和模型组,每组10只。空白组给水,模型组给阳性药。检测体重、尿量、饮水量和肛温,每天收集尿液,连续监测2个月。尿液样本离心取上清-20℃保存,分析前室温融化,加水稀释,过滤膜进样。
数据采集:安捷伦1200 RRLC/6520 Q-TOF MS。数据分析:原始数据用MassHunter软件进行分子特征提取,生成的文件导入MPP进行化学计量学分析。
采用主成分分析方法(PCA)对样本数据进行分析,其中空白组、给药第1天、给药第20天及给药第35天的PCA分析结果(见图5)。
♦空白;■给药第1天;▲给药第20天;●给药第35天
从图5中可看出,4组不同时期样本在PCA空间可以清晰的分为4类,说明大鼠给温热方剂后,模型动物尿液代谢物组发生显著变化,与空白组比较明显被分类,暗示给予温热方剂后模型组大鼠正常生理代谢被干扰。模型组动物随着给药时间的增加,代谢产物的变化随之增强。其中给药后第一天,内源性代谢物即产生显著变化,与空白组区分明显。这种趋势到给药第35天,可以看出更加显著。代谢组学分析的结果和实验过程中肛温变化的趋势相吻合,实现对“上火”模型的复制研究。后续代谢通路分析表明,模型动物体内的尿酸循环发生代谢扰动。
通过本实验的研究,为中医模型建立的评判提供更为客观的科学支持,为推进中医药的现代化研究提供解决方案。
2.2 疾病诊断代谢组学
疾病诊断代谢组学通过分析体液组成,运用化学计量学方法对疾病组和正常组进行分类,获取因疾病诱导而发生变化的特殊代谢产物——生物标记物,帮助了解病变过程中机体代谢情况的改变,辅助临床诊断和治疗[3,4,5,6]。
本例以疟疾研究为例,探讨安捷伦代谢组学平台在疾病诊断中的应用。
疟疾(Malaria)是被疟蚊叮咬后感染疟原虫所引起的虫媒传染病,疟疾会导致体内红细胞感染疟原虫。为研究疟疾的发病机理及发病后对人体代谢的影响,采用代谢组学的研究手段研究空白组和感染组的代谢样本。采用PCA对两组样本进行分析,PCA的分析结果(见图6)。
图6中可看出,对照组与感染组样本在PCA空间可以显著的分为两组,用MPP内置的IDbrowser功能对潜在的生物标记物进行METLIN数据库检索及分子式生成,将鉴定的生物标记物进行代谢通路pathway分析,发现疟疾会导致尿素循环异常(见图7)。本实验的研究结果与文献报道一致。
2.3 植物代谢组学-食品真伪鉴定
利用代谢组学获取植物成分的指纹图谱,并利用模式识别比较样本的指纹差异,可以用于食品的真伪鉴定。
本实例选用葡萄酒为研究对象,利用代谢组学的研究手段鉴别不同的葡萄酒类型。
样本的获取:从市场上选购45瓶不同类型的葡萄酒,其中赤霞珠15瓶、梅洛16瓶、黑比诺14瓶。
数据采集:Agilent 1200 RRLC/6530Q-TOF MS,红酒样品无需样品前处理直接进样分析。
数据分析:原始数据用MassHunter软件进行分子特征提取,生成的文件导入MPP进行化学计量学分析。
采用偏最小二乘法PLSD随机将葡萄酒样本分为训练集及测试集进行建模和模型预测能力评价。图8是PLSD的分析结果,从图8中可看出,3种不同的葡萄酒样本实现显著的分组,进而可以用来区分不同品种的葡萄酒种类。通过精确质量数进行数据库检索和分子式生成,在发现的潜在的生物标记物中,鉴定出其中最为显著的潜在生物标记物为花青素,表明其中赤霞珠、梅洛及黑比诺葡萄酒中花青素的含量存在显著的差异。
红色:赤霞珠;蓝色:梅洛;褐色:黑比诺
3 结论
安捷伦6500系列Q-TOF MS保证代谢组学分析所要求的高质量精度、高重现性及高耐受性的要求,功能强大的MPP软件集成统计学分析、潜在生物标记物鉴定及代谢·通路分析完备的功能。从分离检测、数据处理、统计学分析到化合物鉴定、通路分析及生物学解释,安捷伦代谢组学平台可以为代谢组学各个研究领域提供全面、强大的解决方案。
参考文献
[1] Nicholson J K,Lindon J C,Holmes E.,Metabonomics:understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscop ic data.Xenobiotica,1999,29(11) :1181~1189
[2] 贾伟,蒋健,刘平等.代谢组学在中医药复杂理论体系研究中的应用[J],中国中药杂志,2006,31(8) :621~624
[3] Lindon J C,Holmes E,Bollard M E,et al.Metabonomics technologies and their applications in physiological monitoring,drug safety assessment and disease diagnosis.Biomarkers,2004,9(1) :1~31
[4] Brindle J T,Antti H,Holmes E,et al.Rapid and noninvasive diagnosis of the presence and severity of coronary heart disease using H-1-NMR-based metabonomics.Nat Med,2002,8(12) :1439~1444
[5] Griffin J L,Walker L A,Garrod S,et al.NMR spectroscopy based metabonomic studies on the comparative biochemistry of thekidney and urine of the bank vole(Clethrionomys glareolus),woodmouse(Apodemus sylvaticus),white toothed shrew(Croci2dura suaveolens)and the laboratory rat.Comp Biochem Phys b,2000,127(3) :357~367