生物信息学课程简介(共8篇)
生物信息学课程简介 篇1
1、简介
生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。
生物信息学是一门利用计算机技术研究生物系统之规律的学科。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?
生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W.Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。
生物信息学的主要研究方向: 基因组学系统生物学-比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。
姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。
原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
2、发展简介
生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测
定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,“生物信息学”正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
3、主要研究方向
生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。
1、序列比对
序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。
2、蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构
在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。
3、基因识别非编码区分析研究
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列目前没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。
4、分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况:Orthologous:不同种族,相同功能的基因;Paralogous:相同种族,不同功能的基因;Xenologs:有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。
5、序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。
6、遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。
7、基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。
8、生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop,2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9、生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难,需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10、生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11、其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。从现在的发展不难看出,基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。
4、生物信息学与机器学习
生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,“噪声”模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能.机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法——观测和假设——面对高数据的体积,快速的数据获取率和客观分析的要求——已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设
和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用“黑箱”操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.5、生物信息学的数学问题
生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1、统计学的悖论
数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2、度量空间的假设
在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢,我们不妨给出一般的描述:假定两个向量为A,B,其中,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.6、统计学习理论在生物信息学中应用的困难
生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最小间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃
刀(“Occam Razor”)原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.7、讨论与总结
人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法
Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA.乐观中的隐扰
生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入“后基因组时代”,目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史,在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.8、总结
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:“人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关”。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。
生物信息学课程简介 篇2
关键词:生物信息学,教学,问题,对策
生物信息学 (Bioinformatics) 一门集计算机科学、生物科学、信息科学、应用数学、统计学等多门学科相互交叉而形成的新兴交叉学科, 实质就是利用计算机科学和技术解决生物学问题。近年来, 随着生物信息学在提高动物植物育种效率、创新遗传资源、加快改良进程、种质资源优化、病虫害防治、作生态环境改善等农业方面广泛的应用。《生物信息学》课程也相应地列入各农业院校大学生教学计划, 积极开展生物信息学教学。我校在可设生物信息学专业基础上, 除在生物类专业开设《生物信息学》课程外, 在动物科学和生物科学 (动物方向) 也开设此课程。然而在实际的教学中常因种种问题, 影响了课程本身应有教学效果。本文现就三年来在动物科学和生物科学 (动物方向) 的生物信息学教学实践体会, 对其存在的问题和对策作一论述。
1 农科类生物信息学课程教学中存在的问题
1.1 教学大纲和学时不匹配
生物信息学作为一门的新兴的交叉学科, 要求学生了解、掌握的基础知识是很多的, 而为适应社会对农业专业知识的需求, 高等院校把宽口径专业人才作为培养目标, 这势必要增加基础课程的教学内容, 减少专业课程教学的学时。农科类《生物信息学》课程设置一般均为专业选修课, 大纲规定授课仅为27或36学时, 学时少与教学内容多的矛盾非常突出。
1.2 理论和实践教学脱节
生物信息学作为一门理论与实践要紧密结合的学科, 仅靠理论授课而无实验学时很不合理。在多年的教学实践中发现, 在理论课学习2学时后应该安排2学时或至少1学时的实验课是普遍受学生欢迎的, 这样可以演练所学的软件和方法等, 但在实际操作中这也不允许。
1.3 学生对生物信息学的认识不同
在教学过程中, 通过与同学们交流得知, 他们认为该课程只是一门工具学科, 是处理实验过程中得来的DNA片段等等, 而他们没有参与实验过程, 认识不到生物信息学分析数据的意义所在。再加上作为农业院校来说, 尽管为生物科学专业, 但主要侧重于动物方向, 缺乏对课程应有的重视。比如, 讲授构建进化树的时候, 对于给定的一组序列, 学生能够利用不同的模型得出聚类图, 但是他们不明白这些序列是如何得来并被选择用于聚类的, 容易混淆序列相似性和同源性的概念, 难于分辨直系同源和旁系同源的定义。
1.4 生物信息学的教材选择
生物信息学的内涵十分广泛, 在不同研究领域、研究方向、研究内容中的应用范围和应用程度不同。生物信息学的教材五花八门, 中外文版本均有, 内容和重点各不相同, 总的来说主要侧重于医学和生物类, 而对于农学类, 尤其是动物方面你的更少, 导致很多高校教师无法选择合适的教材。
1.5 学习资源不足、教学手段单一
生物信息学的学习资源包括网络资源、图书资料等教学硬件设施和相关的教学软环境。而在国内大部分农业高校都仅是具备多媒体教学, 教学手段单一, 对于针对生物信息学课程而设置的网络实验室、以实现讲授演示, 人人动手, 在Internet 上实际操作很难达到。
2 教学中的对策及教学改革实践思考
2.1 教学大纲突出专业特点
针对课程内容多而学时数少的矛盾, 要及时调整教学大纲, 在适当增加教学学时基础上, 根据各专业本身的特点对教学目标和任务上进行, 侧重对生物信息学一些基本的概念、基本原理和方法的讲解, 突出该课程在本专业的应用内容。其它涉及生物学和医学的内容可以由学生自学。
另外, 在教学大纲中合理安排理论学时和实验学时, 避免枯燥无味的教条板书, 注重学科发展的讲解内容。
2.2 教学内容丰富、精炼
在农科类生物信息学的教学过程中, 首先要对生物信息学的产生背景、研究目标和内容、研究现状和发展前景做详细介绍, 让学生在轻松的环境中学习生物信息学原理, 并产生兴趣。其次要把有限的教学学时用到与专业密切相关的新知识、新技术教学中去, 避免内容重复。例如, 在介绍生物学的基础知识时, 在生物化学等相关课程中学过的知识可以简单带过, 对于生物信息学课程本身涉及到的一些数学模型和编程算法, 笔者也是简略讲授, 因为这些牵涉到深奥的计算机和数理功底, 而这也是很多本科生所不具备的。因此, 我们可以根据学生特点, 选择性的讲解教材中有实用性的章节, 了解学科发展的特点, 辅以学科研究的最新成果, 既抓住主干, 又适当扩展枝叶, 以实际应用为主要侧重点, 着重培养学生的能力, 以适应今后工作学习的需要。
2.3 教材选择要难易适中
在三年的教学中发现, 生物信息学的教材很多, 如罗静初等译的《生物信息学概论》、赵国屏等编著的《生物信息学》等, 这些对于生物专业比较好的教材, 而对动物科学等专业来说, 专业性太强, 缺乏具体的事例, 侧重点也各不相同。因此, 在多方选择后, 最终选择由农业院校相关教师编著的教材, 学生普遍反映较为适用。
2.4 调整教学手段和教学方法
(1) 讲课时采用启发式的教学方法。以学生为主体, 教师为主导, 把握内容的脉络, 突出分析思路和分析方法, 站在学生的角度自问自答, 课堂自始至终使学生大脑处于兴奋状态。然后在讲清课程重点难点的基础上, 引导学生积极思维, 把问题留给学生, 让学生通过自学、思考寻找答案。同时, 注意各章节知识的联系, 让学生掌握要点。再通过具体的实例, 一步一步引导学生将所学知识应用到实践中去。
(2) 生物信息学基本概念多, 容易混淆, 宜采用图文并茂的方式, 增加学生的感性认识。如在讲述蛋白质结构预测一章时, 需要大量的蛋白质三维结构图片, 指出教材中所提到的重要位点, 帮助学生理解;还要教学生用专业看图软件观察蛋白质的结构, 这样碰到相似的问题, 他们也会自己解决。可见, 利用多媒体辅助教学手段进行形象直观教学, 可以达到提高教学效率的目的。
2.5 注重实践教学环节
由于生物信息学是一门实践性很强的学科, 所以在讲完每一章节后, 给学生出适量的思考题, 让学生通过课外练习和上机的亲手操作, 进一步理解和掌握基本概念和基本方法, 有助于学生独立思考, 独立解决问题。尤其是数据库的使用, 可以在讲课时利用互联网这一有效途径对照实际的数据库进行操作, 让学生耳濡目染, 掌握实实在在的操作知识。再通过上机进行实战演练, 把所学知识牢牢掌握。如怎样利用生物信息学数据库找到想要的未知基因?学生就必须首先知道有哪些数据库可供查找, 然后要熟悉该数据库的服务内容, 会使用数据库进行搜索, 还要知道该未知基因位于哪个物种。比如在讲解查找文献时, 对于关键词的设定以及搜索结果的分析, 老师可以现场演示, 让学生有很清晰的思路, 然后再由学生自己操作, 前后对比结果。只有自己亲自动手操作了, 才能把课堂上老师讲的东西转化为自己的工具, 间接地保证了整体教学质量。
2.6 完善课程考核体系
针对课程特点, 制定合理考核方案和课程成绩评定比例, 突破传统的闭卷考试模式。可以以课程研究论文的形式, 要求学生自查资料, 结合即将到来的毕业论文设计, 提前练兵。也可以布置“独立作业”, 检验学生的学习效果。平时考勤情况和作业情况应占适当的比例。如在上机结束时就要求学生把作业交上来, 可作为平时成绩的重要参考。由于考试形式多种多样, 受到学生的普遍欢迎。
3 结语
生物信息学是一门重要的且处于快速发展中的学科, 其发展与生命科学发展是相辅相成的。在教学中, 授课教师的生物信息学知识体系要不断完善, 更重要的是授课教师的授课策略要及时更新, 尽量丰富生物信息学教学内容, 只有这样才能既紧跟国内外发展前沿又能立足学生实际, 切实做好生物信息学的课程教学工作, 提高该课程的教学质量, 以此满足我国目前该领域对人才的教育需要, 培养出具有一定的实践操作能力和很强的创新能力的本科生。
参考文献
[1]张幸果, 丁俊强, 朱伟, 汤官中.关于如何提高生物信息学教学质量的探讨[J].江西农业学报, 2010, 22 (3) :194-195
[2]刘博婷.浅谈生物信息学课程教学[J]韶关学院学报 (自然科学) , 2009, 30 (12) :130-133
生物信息学课程简介 篇3
基金项目:黑龙江省高等学校教改工程项目(JG2014011152)
中图分类号:Q811.4-4
在现代生物学高通量方法发展的前景下,海量数据的产生不仅使得生物医学研究模式发生了巨大转变,同时在科学家对数据的管理操作以及挖据分析方面也产生了极大的需求。对于生命科学相关领域研究者来说,不仅要学会获得及使用生物信息学工具和资源,还要了解其基本的理论和实践应用。因此,为生命科学专业学生提供生物信息学培训,能够为其未来有效的分析处理数据以及跟进研究提供必要的帮助。在课程设置上,除了传统的讲座及资源演示外,使用交互性及以问题为中心的合作式教学方式,可以大大提高学习的质量和成果。在这样的背景下,本文将讨论并确定课程需求和学习目标等各种务实的标准,选择合适的授课对象和授课教师,开发课程质量评估标准。遵守这些标准可能不仅有助于指导课程组织者和教师在生物信息学课程中出色完成任务,而且,重要的是,还可以提高生命科学专业学生的学习效果。
1 课程需求
生物信息学课程的开设应该使得生命科学专业学生具有能够完整的完成一项数据分析任务的能力。目前,在生命科学研究领域,对于生物信息方法掌握的需求在不断提升,特别是在高通量测序技术产生大量数据的今天,数据量及复杂度也在成指数趋势上升,这种研究趋势变化的速率如此之大,以至于用于处理、存储、分析及整合这些数据的工具和技术的发展很难跟上步伐,这就使得如何从数据中获得可靠的生物学发现更加困难。
而如果为这些人能够掌握必要的或者与其研究领域高度相关的生物信息学技能,就更容易在各自的领域取得研究成果。例如,在技术角度,如果生命科学专业学生熟悉Linux命令行、R等编程语言,他们就会很容易掌握新一代测序数据的分析方法。
1.1 设定学习目标
生物信息学课程的设计需要考虑教师和学生双方的目标。因此,在课程中设置明确的整体或部分知识点的学习目标是十分必要的。学习目标会告诉学生在学习后他们将会掌握何种技能或知识。在课程目标的设置时,需要考虑学生的背景及能力。在描述学习目标时,应该使用如“产生”,“应用”,“预测”或“比较”等动词,而不是仅仅用“了解”来进行阐述。这样就会让学生很容易将这些程式化的文字转化成实践和练习中应具备的能力。
2 提供合适的课程内容
2.1 选择适合的授课对象
大多数课程设计和个人培训计划是在一个特定的训练需求的前提下。如何判断学生是否适合所提供的课程本身是一个巨大的挑战。例如,部分学生可能需要了解新一代测序数据分析:他们的最终目标可以是相同的,但是,如果有一个是生物化学的学生,需要更熟悉计算生物学,而另一个是偏临床专业,需要识别基因,那么他们很可能需要采取不同的教学路线,以完成他们的目标。因此,在条件允许时,建议建立选择标准,整理课程申请人的信息,关于:(1)相关的课程主题,以及他们的科学需求;(2)他们对课程的期望(如这些是现实吗?);(3)对于他们的职业生涯阶段的适用性;(4)他们掌握了哪些前提知识及其掌握情况(如他们是否会Perl编程?)。这些信息可以通过包括在课程申请时提交的简要调查表中找到。了解这些信息后,在课程开始前,可以对课程做相应的教学调整。
2.2 恰当地选择授课教师
好的授课教师不仅要有相应的学科知识,而且要掌握教学和沟通技巧,有引人注意的个人学习风格和步伐,并必须具有确保课程参与者互动并能维护他们的利益的能力。一般而言,以方法掌握为主的短期课程与学科教学有着根本的不同,具有实践经验的青年研究员可能比大学教授更适合作为课程的授课教师。
3 授课准备
生物信息学的课程应具有灵活性,以适应不同类型的内容、时间、实践,学习的速度和技能水平。一个共同的主题是需要选择合适的内容量,选择合适的教学方法和课程准备材料也是课程准备的一部分。
3.1 确定课程形式
选择合适的课程形式,主要取决于课程的持续时间,级别和参与者的背景以及它们之间的平衡关系。在决定课程形式时,往往需要考虑:教师-学生比例、参加的人数、可用的时间、所拥有的设施和经验、学员的期望。
3.2授课方法的多样性
在进行实践训练时,有很多方法可满足授课的需求。根据我们的经验,有三个黄金规则:(1)教师应该给出一个引人入胜的内容;(2)应刺激学生积极思考和练习;(3)在进行互动和讨论时应予以鼓励。
生物信息学论文 篇4
摘 要:本文阐述了生物信息学产生的背景,生物学数据库,生物信息学的主要研究内容,与生物信息学关系密切的数学和计算机科学技术领域,生物信息学产业等内容,展望了其未来并提出了若干在我国发展生物信息学的建议。着重指出,理解大量生物学数据所包括的生物学意义已成为后基因组时代极其重要的课题。生物信息学的作用将日益重要。有理由认为,今日生物学数据的巨大积累将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段。因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。关键字:生物信息学产生背景发展现状前景
随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运 算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了 快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命 科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形 成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展,被誉为“解读生命天书的慧眼”。
一、生物信息学产生的背景
生物信息学是80年代未随着人类基因组计划(Human genome project)的启动而兴起的一门新的交叉学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。事实上,它是一门理论概念与实践应用并重的学科。
生物信息学的产生发展仅有10年左右的时间---bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。事实上,生物信息学的存在已有30多年,只不过最初常被称为基因组信息学。美国人类基因组计划中给基因组信息学的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。
自1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划终于完成了工作草图,预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的。
数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与
正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。
二、生物信息学研究的发展现状
资金和实力非常重要,生物信息的研究投入短期不算大,但是结合成果,其投入相当的大。因为目前生物信息主要在于教学和和研究,商业领域的应用不算很广。如一套LIMS加上软件就要花上数千万。加上相关项目的研究开发,不是国内相关的机构所能承受的。所以需要得到政府的支持和帮助。以及有识之士的投入。否则我们又将远远落后国外。国内的制药行业将永不得翻身!基因的流失(国外一些国家打着给国内免费治疗,分析疾病的考旗帜,暗中收集了国内不同省份,地区的遗传类疾病和特性。这些资源,我们国家忽略,应当说目前还没有这样的实力进行研究)。落后就要挨打,21世纪是生物的世纪。基因大战不可避免。基因和疾病的研究很大程度就是数据的分析。里面的领头羊就是生物信息。国内应当在基础教学,基础研究并结合应用力度。
当然国内的人才济济,如有更多计算机领域和数学(统计方面的)人才参与到生物信息,将如虎添翼。目前我国生物信息学发展面临着如下几方面的困境:
⒈政府投资不足
虽然国际上生物信息学研究在各发达国家中比较受重视,但仍有不少研究机构抱怨政府资金投入不够。最近美国许多研究院纷纷申请要求政府加大生物信息学工具与数据库方面的投入,而且欧洲、日本、澳大利亚在这些领域也存在着资金困扰问题,欧洲生物信息学研究所(EBI)和欧洲基金会生命科学中心去年都遇到了麻烦。目前虽然危机已经暂时渡过,但未来几年EBI数据库和其它基础结构仍将受到资金短缺的困扰,一致有人发出了“免费数据服务还能维持多久”的疑问。
2.来自商业机构的竞争
基因组研究潜在的巨大商业利润使得国际上一批大型制药公司和化学公司向该领域大规模的进军。世界最大制药集团之一的Giba Geigy和Sandoz合资建立的Novartis公司投资2.5亿美元建立基因组研究所;Glaxo-Wellcome在基因组研究领域投入4700万美元,将研究人员增加一倍;Smith Kline公司花125亿美元扩展人基因组的顺序,将生物信息学的研究人员从2人增加至70人,并将该公司药物开发项目中的25%建立在基因组学之上。这一方面给生物信息学发展注入了生机,另一方面对那些政府支持的不以赢利为目的的研究机构造成了巨大的压力,学术部门的资金投入远远不及工业部门,其负面冲击力不可忽视。毕竟经济利益的盲目追求会导致基因组研究的片面性,生物信息学长路漫漫,保护这些学术部门的良好发展非常有必要。
3.专业人才匮乏
目前该领域缺乏懂得如何利用计算机技术处理大量生物数据的生物学家,不少生物学家只是将计算机用来打字或作为图纸的替代品。甚至出现了这样有趣的现象:制药业、工业、农业、生物技术研究团体经常在学术机构大肆搜查那些“可疑人”,更有甚者他们彼此间互挖“墙角”。虽然对于人才的渴求与日俱增,但全世界也仅有20多个专业人才培训中心,而且这些中心本身也处在恶性循环中,那些经培训后的人才往往由于高薪诱惑而投身应用工业部门,导致培训教育人员越来越少,出现“断层”现象。
综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:“人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关”。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。
三、生物信息学的发展前景
《第三次技术革命》里有这样描述:“一场与工业革命和以计算机为基础的革命有相同影响力的变化正在开始。下一个伟大时代将是基因组革命时代,它现在处于初期阶段。”基因组学的发展已经进入后基因组研究阶段,致力于蛋白质功能研究的蛋白质组学和功能蛋白质组学正在蓬勃发展,在生物信息学发展的带动下,我们必定能够揭示各种生命现象的奥秘,并带动多个学科的跨越式发展。生物信息学的发展将对分子生物学、药物设计、工作流管理和医疗成像等领域产生巨大的影响,极有可能引发新的产业革命。此外,生物信息学所倡导的全球范围的资源共享也将对整个自然科学乃至人类社会的发展产生深远的影响。有理由相信,今日生物学数据的巨大积累将导致重大生物学规律的发现,生物信息学的发展在国内、外基本上都处在起步阶段,因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。
生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。这一点必须着重指出。预测生物信息学的未来主要就是要预测他对生物学的发展将带来什么样的根本性的突破。这种预测是十分困难的,甚至几乎不可能。但机不可失,时不再来,鉴于生物信息学在我国生物信息学和经济发展中的重要意义和其发展的紧迫性,因此,由国家出面组织全国的力量,搞个类似“两弹一星”那样的,但是,规模要小的多,花钱也少的多的生物信息学发展计划,不是不可以考虑的。要充分发挥中央与地方,生物学科研究人员等方方面面的积极性。生物信息学研究投资少,见效快,可充分发挥我国智力资源丰富的长处,是特别适合我国国情的一项研究领域。要在大学里建立生物信息学专业,设立硕士点和博士点,培养专门人才。可以组织一大批数学、物理、化学和计算机科技工作者,在自愿的基础上,学习有关的生物学知识,开展多方面的生物信息学研究。
经过十几年或更长的时间的努力,逐渐使我国成为生物信息学研究强国,是完全有可能的。信息学的商业价值十分显著。国外很多大学,研究机构,软件公司甚至政府机构纷纷成立各种生物信息机构,建立自立的生物信息集成系统,研制这方面的软件,重金招聘人才,期望从中获取更多的生物信息和数据加以研究和利用,缩短药物开发周期,抢注基因专利,获取更大利润。我国如不加大资金投入力度,将来可能会花更多的钱去购买别人的软件,使用专利基因或购买新的药物。所幸,我国也开始重视这一学科:南、北方人类基因组中心的相继建成,北大生物城的破土动工等,标志着我国对生物信息学的重视。我们有理由相信,我国的生物信息学在21世纪会有巨大的飞跃。
参考文献
1.陈润生.生物信息学.生物物理学报,1999,15(1):5
2.北京生物技术和新医药产业促进中心.世纪之交的新科学:生物信息学.生物技术通 报,1999,(8):49
3.杨福愉.展望21世纪的分子生物学.生物物理学报,1999,15(1):1
4.郑国清,张瑞玲,;生物信息学的形成与发展;河南农业科学;2002.11
5.王玉梅,王艳.国外生物信息学发展动态分析;科技情报开发与经济;2002.06
生物信息学在生物方面的应用 篇5
从生物信息学研究的具体内容上看,生物信息学可以用于序列分类、相似性搜索、DNA序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。针对蛋白质序列的分析,可以预测出蛋白质的许多物理特性,包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测,三维结构预测等。
生物信息学中的主要方法有:序列比对,结构比对,蛋白质结构的预测,构造分子进化树,聚类等。
基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。
1、确定芯片检测目标。利用生物信息学方法,查询生物分子信息数据库,取得相应的序列数据,通过序列比对,找出特征序列,作为芯片设计的参照序列。
2、芯片设计。主要包括两个方面,即探针的设计和探针在芯片上的布局,必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。
3、实验数据管理与分析。对基因芯片杂交图像处理,给出实验结果,并运用生物信息学方法对实验进行可靠性分析,得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中,将基因芯片数据与公共数据库进行链接,利用数据挖掘方法,揭示各种数据之间的关系。
生物信息学在人类基因组计划中也具有重要的作用。
大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起.拼接与组装中的难点是处理重复序列,这在含有约30%重复序列的人类基因组中显得尤其突出。
人类基因组的工作草图即将完成,因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完
整基因组(约1300万bp)所包含6千多个基因,大约60%是通过信
息分析得到的。
当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。”这就是通常所说的SNPs(单核苷酸多态性)。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps的研究。在我国开展中华民族SNPs研究也是至重要的。
总之,生物信息学不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。在未来的几年中DNA序列数据将以意想不到的速度增长,这更离不开利用生物信息学进行各类数据的分析和解释,研制有效利用和管理数据新工具。
生物信息学在功能基因组学同样具有重要的应用 目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列,是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基酸序列同源性比较。同源性比较的结果大体可以分为如下几种方式:与生化和生理功能均已知的基因具有同源性;虽与生化和生理功能均已知的基因具同源性,但对该基因功能的了解尚不深入,仍停留在表达水平~I:;与其它物种中生化和生理功能均未知的基因具同源性。同源性检索分析方法为该DNA片段的功能提供了间接的证据。
揭示序列数据所隐含的生物学意义的另一重要方法是模式识别技术。顾名思义,模式别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别相关蛋白质的性质。如果某一蛋白质序列或结构中的一部分具有保守性,种保守性或者与蛋白质的生物活性有关,或者与蛋白质的折叠方式有关;那么,这种特片模式可以用来识别该蛋白家族中的新成员。换句话说,如果将已知蛋白质的特征序列模式和特征结构模式
搜集起来,构建成数据库.则可以用来确定新测定的蛋白质序列中是否具有某种特征模式,从而确定该未知蛋白属于哪个蛋白质家族。这在治疗肾病问题上具有突破性进展。
生物信息学学术期刊评价 篇6
生物信息学学术期刊评价
学术期刊的评价包括核心期刊的`界定和新创刊的评价.以知识密度梯度的概念和期刊论文分布特征相结合确定了30种生物信息学中文核心期刊,以影响权重、声誉系数和H指数对新创刊的生物信息学中文期刊进行了评价.
作 者:顾东蕾 Gu Dong-lei 作者单位:中国药科大学图书馆,江苏,南京,210009 刊 名:中华医学图书情报杂志 英文刊名:CHINESE JOURNAL OF MEDICAL LIBRARY AND INFORMATION SCIENCE 年,卷(期):2009 18(4) 分类号:Q811.4 G255.2 关键词:生物信息学 期刊评价 知识密度梯度 核心期刊 学术期刊生物信息学课程简介 篇7
药学专业是培养从事药物分析、临床药学、药物研究与开发、药物制剂生产与管理、医药营销等方面人才的专业。该专业对于人类健康问题的解决, 是一个必须的学科专业。随着大数据时代的到来, 药学领域的药物资源、临床药学服务、新药研发等的研究也面临着海量数据的挑战, 所以把生物信息学运用到药学研究中已经是必然趋势。故本文就生物信息学设置在药学专业课程中的必要性以及教学方法进行初步的探讨, 希望能为药学专业的学生课程设置提供参考。
一、生物信息学在药学专业设置的必要性
生物信息学在生药学、药理学、药物化学等学科已经开始应用, 具体在中药材鉴别、药物机制研究、药物功能基因筛选、药物设计中已经产生了比较好的效果[2]。
(一) 生物信息学与生药学。中药材鉴定是生药学的重要内容, 中医药作为中华民族的瑰宝, 中药材的质量就是中医药发展的生命。我国国土面积广阔, 中药材资源非常丰富, 研究中药材资源的分布、中药材的质量优劣便成为中医药发展的重要研究课题。生物信息学已然成为除来源鉴定、特征鉴定、理化鉴定、显微鉴定之外的新的鉴定药材的方法。
中药材具有道地性, 即药材的质量与药材的分布和地域有相关性, 通过生物芯片技术可以具体分析道地药材的基因序列, 用特殊标记的序列作为探针, 通过生物信息学分析鉴定药材的道地性。另外, 我们可以把特殊标记的序列作为条形码, 相当于药材有了自己的身份标签, 就可以查询数据库对应的种属序列, 区别该药材的真伪[3]。
组学时代的到来和系统生物学的发展、药材的序列数据的不断积累以及研究的丰富与深入, 使得我们可以从相关的数据中发现药材的进化关系和遗传学特点, 绘制系统发育树, 寻找种群间的发育关系[4]。
(二) 生物信息学与药理学。药物的作用机制是药物效用的核心内容, 也是药物治疗作用与不良反应的关键所在。我们可以通过药物基因组学、转录组学、蛋白组学和代谢组学研究药物作用的关键基因和作用通路, 以便阐明药物在体内的作用机制和它们的代谢过程。如果我们进行系统的研究, 必须要有生物信息学的参与, 我们才能在成千上万的核苷酸中读懂药物的作用机制。为疾病治疗和药物发现寻找新的突破口。
生物信息学助力个性化的合理用药。生命个体存在差异, 疾病的发展也各不相同, 例如药物代谢酶的效应差异会使个体产生不同疗效差异。所以, 在进行疾病治疗时, 既要确保药物安全有效使用, 又要达到个体化的治疗, 这就需要生物信息学为我们提供强大的数据分析与处理能力。在人类基因组计划的完成以及大量药物作用相关基因的克隆与鉴定、单核苷酸多态性的检测与发现、大规模基因分型技术、DNA测序技术及生物信息学的发展, 为分析个体在疾病过程中的差异, 从基因水平上选择用药提供了支持。基于此, “精准医疗”已经列入我国未来五年的科研规划。所以, 在处理和解决人类有关健康问题时, 必然需要生物信息学的参与。
(三) 生物信息学与药物化学。新药的发现与设计是药物化学的主要内容之一。在新药设计中, 计算机辅助药物设计越来越得到新药设计者的青睐, 而生物信息学是辅助药物设计的重要手段。受体、酶这些可以作为药物靶点的大分子, 在药物设计中, 明确了靶标的三维结构, 借助其空间构型直接或间接设计配体的结构, 寻找新药[5]。
生物信息学通过多个数据库进行研究, 除了可以预测蛋白质的空间结构, 我们还能够了解到诸如蛋白质等大分子的三维空间结构等相关信息, 以及电子布局和动力学行为信息。通过理论模拟的方式还可研究包含蛋白质等大分子及其周围环境的复杂体系和生物分子的量子效应, 上面涉及到的内容, 给精确高效的药物设计提供保证。所以, 生物信息学可以极大地改变新药研究的思路, 加快新药研究的步伐。
二、生物信息学在药学专业中的教学
(一) 生物信息学在药学专业中的课程设置。目前大部分学校在药学专业中没有设置生物信息学课程[6], 但随着研究课题质量的不断提高, 研究领域的不断扩展, 有些高等院校在非专业学生中开设了生物信息学选修课, 但对于大多数学校, 尤其是医药类院校并未把这一领域和学科的知识内容加入到本专业的课程中[7]。
当今生命科学快速发展, 生物信息学在处理数据方面显示出巨大优势, 多数生物医学工作者主要从事本职工作, 生物信息学只是作为研究工具来使用, 因此, 医药学高等院校的生物信息学教学也应围绕应用来开展。在课程的设置上充分考虑学生的知识背景和学习需求, 制定不同的教学大纲和学习目标, 弹性安排本科阶段和研究生阶段的教学, 以选修课为宜。基于生物信息学的特点, 课时安排尽量紧凑, 注重效率, 同时安排上机实习课程。
(二) 生物信息学在药学专业中的教学内容和方法。
1.生物信息学在药学专业中的教学内容。生物信息学的研究范围大致可分二类:一是数据库的建立与优化。目前, 国际上比较著名的公共数据库有EMBL、Gen Bank、DDBJ, 另外还有一些公司有内部数据库。二是数据库的基本理论研究、对软件的研制、对序列的排列比较以及新序列的识别和预测等[8]。针对药学专业的教学, 内容主要是如何应用各种核酸、蛋白序列数据库资源, 会使用一些分析软件, 原理和算法作为辅助教学内容, 具体主要集中在以下内容:
数据库查询的教学, 对于三大核酸序列数据库的查询、蛋白质序列数据库Swiss Prot查询以及生物大分子结构数据库PDB的查询。教学这些数据库的界面、帮助功能等。具体教学内容是: (1) 生物学与生物信息学、DNA测序技术[9]、收集、存贮和管理生物信息; (2) 提取和分析基因组序列信息, 生物序列的比对、motif搜索[10]; (3) 功能基因组相关信息分析, DNA编码区检测、基因进化[11]; (4) 生物大分子结构模拟和药物设计, 蛋白质折叠方法、生物序列的重复模式; (5) 生物信息分析的常用技术与方法; (6) 数据库、生物信息学平台的发展。这些内容在不同教学对象时应保持一定的连贯性, 但也不应过多重复, 使得学生根据自身情况作出合理的选择。要突出课程的实用性, 大约36学时[8]。
2.生物信息学在药学专业中的教学方法。生物信息学的教学涉及到数据库的网页以及一些序列数据, 所以比较其他教学方法, 多媒体技术具有一定优势。多媒体技术通过图、文、音、像, 建立各种信息的逻辑连接, 使之集成一个交互式系统。在课堂中, 我们可以利用网络直接把数据库的网页展示到教室的荧幕上, 结合以往的教学经验, 该方法既直观明了又体现时效性, 可以激发学生的学习兴趣。
在课程的组织实施上需要因地制宜。根据现有条件开展教学, 组织各专业老师, 如计算机专业和生化与分子生物学专业的老师, 共同完成教学工作。同时, 可以向学校申请一定的经费, 使其能较好地开展生物信息学教学和实习工作[8]。
三、结语
我们生活在信息时代, 各学科知识交织渗透, 不断产生新的学科, 生物信息学作为一门应用型的学科, 已经在各学科领域有着广泛的应用, 并为各学科的发展提供了支持和动力。后基因组时代的到来[12], 医药领域的许多数据需要生物信息学进行分析处理, 而且这种趋势愈来愈明显。所以, 我们有必要在药学专业中设置生物信息学这门课程, 丰富专业知识, 提高处理信息能力, 培养复合型药学专业人才, 使他们在从事专业工作中具有相关的知识背景和能力。
参考文献
[1]乔纳森.佩夫斯纳著, 张之荣译.生物信息学与功能基因组学[M].北京:化学工业出版社.
[2]谭银玲, 李晓辉.在药学专业课程中设置生物信息学的重要性[J].医学理论与实践, 2002, 15 (12) :1483-1484.
[3]魏小春, 郑群.生物信息学以及植物新基因的发现研究[J].北方园艺, 2009, 5:118-121.
[4]张树波, 赖剑煌.分子系统发育分析的生物信息学方法[J].计算机科学, 2010, 37 (8) :47-511.
[5]郑虎主编.《药物化学》第7版[M].北京:人民卫生出版社, 2011:442-450.
[6]徐广宇, 杜培革, 侯志东, 等.药学专业设置生物信息学必要性初探[J].基础医学教育, 2015, 17 (8) :678-680.
[7]张振旺, 李梦茜.生物技术专业生物信息学课程教学的改革与实践研究[J].安徽农业科学, 2014, 42 (11) :3453-3454.
[8]徐广宇, 杜培革, 侯志东.药学专业设置生物信息学必要性初探[J].基础医学教育, 2015, 17 (8) :678-680.
[9]European Bioinformatics Institute.EMBL Nucleotide Sequence Database[DB/OL].http://www.ebi.ac.uk/embl, 2011-12-14.
[10]Hebert PDN, Cywinska A, Ball SL, etal.Biological identifications through DNA barcodes[J]Proc R Soc Biol Sci Ser B, 2003, 270:313-319.
[11]George D G, Barker W C, Hunt L T.Mutation data matrix and its use[J].Methods Enzymol, 1990, 183:333-351.
生物信息学课程简介 篇8
关键词:目标 教学 生物 高中 教师
中图分类号:G633 文献标识码:A 文章编号:1673-9795(2013)02(c)-0016-01
1 教学目标的简述
教学目标是教师教学中想要达到的结果,教学目标的确定指导着教师的教学工作。教育工作者应该使用哪些方法进行教学、应该使用哪些教学策略进行教学、应该怎样进行有效的备课都离不开教学目标。由此可见,制定明确的教学目标对教师教学的进行至关重要。作为一个合格的教育工作者必须使自己的教学有方向性,而教学目标是实现这一愿望的重要前提。
2 教学目标的特点
教学目标是教师进行课堂教学的指示牌,也是进行教学活动的依据。下面从三方面来简单介绍一下教师在去顶教学目标时需要注意的问题。一是要注意目标的合适性,既要体现课程标准或教学大纲的要求,又要符合学生的实际情况;二是要注意目标的全面性,尽可能达到认知、技能和情感目标相统一;三是要制定明确的教学目标。不仅总的教学目标要明确,每一节课的课堂目标也要明确,才能把每一节课都讲好目标必须要明确,这样在授课过程中才能突出授课内容的重点。而且,教师也应该让学生认识到这些课堂目标,使学生能到抓住上课的重点,从好能够对知识更好的掌握。学生和教师都对教学目标有了解,才能使学生抓住生物教学的重点,取得更好的学习成绩。显而易见,生物教学中教学目标的确定很重要。
3 教学目标的确定
3.1 教学目标的确定要细化生物教学的每节课
教师在备课时,要把生物教学的教学目标细化。既要有总的教学目标,又要有每一节课的课堂目标。课程标准中很多要求是很概括的,教师必须把这些要求理解并分解。把这些分解了的要求与生物教材中的具体内容向比较,制定出每一节课的具体教学目标。在细化教学目标时,不仅要把目标要求细化,还要把生物教材的章节内容细化。使课表中的教学目标都能够与生物教材的内容相对应。教师把一节课的目标达到了,生物教学中总的教学目标自然就达到了。
3.2 生物教学中教学目标的三部分
教学工作者在备课的时候,不仅要把学生知识的掌握程度作为目标,也要把学生探究能力的提高作为目标。教学目标一般包括三部分:知识目标、能力目标、情感态度价值观的形成三部分。以下是知识目标的具体事例。
(1)高中生物要求学生了解的内容。要求学生回忆或再认知识;识别事实或证据;举出例子;表述对象的主要特征等。例如,说出无机盐和水的作用。细化事例:生物的活动为什么与无机盐和水联系紧密并举例说明。水在生物的细胞中主要以什么形式存在并说明其作用。生物的生命现象和无机盐或水有着非常密切的关系,请举例说明。
(2)高中生物要求学生理解的内容。这些内容需要学生弄清楚各知识点之間的联系,与已有的知识建立联系;进行解释、区分、推断、扩展、整理信息等。具体事例:阐述DNA的复制。细化事例:简述DNA分子的复制过程;写出人类的主要遗传物质在复制的过程中,需要哪些原料、需要哪些模板以及需要哪些酶和能量;说出人类的主要遗传物质的复制与其分子结构的关系。
(3)高中生物要求学生应用的内容这些内容要讲求学生能够把抽象的概念融会贯通,能够在学习过程中举一反三、触类旁通。在不同情境下建立合理联系等。具体事例:总结“什么是人类的主要遗传物质”的具体探究过程。细化事例:用画图的方法总结“什么是人类的主要遗传物质”的具体探究过程,说出作为人类的主要遗传物质DNA应该有什么必须的条件,说出细菌被噬菌体侵染的实验的具体设计思路是什么,有哪些类似设计思路的实验。
3.3 生物教学中课堂目标的确定
以上两个步骤教师最好在生物教研组共同完成,剩下这个环节教师可以自己单独来完成。教师在上课之前,都要对授课内容的教学目标有所了解并将其明确。尽管已经有上两个环节作为制定教学目标的基础,但是生物教学的教学目标还有一些问题需要教学工作者注意。比如说,课程标准的某些内容与生物课本的章节内容并不是完全一一对应的。
(1)在课程标准中对学生要求比较低的一些内容。比如,说出无机盐和水的作用并举例说明、DNA和RNA有哪些区别和共同点等。这些知识点在生物课本中一般是一节内容能够涵盖的。在这种情况下,就可以把这些具体的课程目标作为某一节课的授课目标。
(2)在课程标准中对学生要求比较高的一些内容。如总结“什么是人类的主要遗传物质”的具体探究过程。问题的答案不是一节课的内容能够感概的,而是需要学生把生物课本各章节的具体知识点相联系总结出来的。这就需要教师在授课时善于将本堂课的知识与学过的相关知识联系起来。这就是将内容有联系的课堂目标联系起来,共同组成要求更高的教学目标。
(3)还有一些在生物课本中对学生有要求的一些内容,但是在课程标准中貌似没有与之相对应的教学目标。例如在某些版本的教材中有“光合作用”的概念,但是在课程标准中好像并没有相对应的要求。可是仔细看一下高中生物的课程标准,就能发现教材内容的用意,这个概念是帮助学生理解的并不需要学生牢记和掌握。教师在备课时要对高中生物课表仔细研读,认真理解,并与生物教材相对比;这样才能确定出与生物课表相符合的教学目标。
3.4 教育工作者在授课之前必须要进行备课,而教学目标的确定是备课的较为重要的一部分
教学目标是教师进行教学的依据,是教师安排教学活动的重要前提;同时,教学目标也指引着学生的学习。很明显,教学目标对教师教学教学效果的好坏、对学生学习效果的好坏有着至关重要的作用。教师在授课之前要制定出明确的教学目标。对高中生物总的要求叫做总的教学目标。把总的教学目标分解开来,叫做分段目标。教师的每节课都有一定的教学目标,叫做课堂目标。分段目标和课堂目标构成总的教学目标。只有把教学目标确定好才能有好的教学效果。
4 结语
生物的教学目标对生物教学的成果至关重要,教师工作者要在授课之前制定明确的教学目标。以上是我在教学实践中,对生物课程中教学目标确定的一些看法,希望对同行有所帮助,如有不足,敬请原谅。
参考文献
[1]胡继飞.例谈多轮教学模式在高中生物学教学中的应用[J].生物学教学,2011(10):10-12.
[2]徐业义.对新课程背景下生物学教师备课改进的思考[J].生物学教学,2010(6):20-21.