生物信息学专业(精选12篇)
生物信息学专业 篇1
1 概述
人类基因组计划 (The Human Genome Project, HGP) [1]的实施, 推动了当今医学和生命科学的发展, 其中遗传学起到越来越重要的地位。人类基因组计划的目的之一在于阐明人类蛋白质编码基因的结构、功能和相互作用, 以及与人类疾病之间的关系, 寻求各种治疗和预防的方法, 这正是生物信息学研究的方向之一。在生物信息学领域, 针对现代遗传学研究尤其是分子遗传学研究, 逐渐形成一门新兴学科《统计遗传学》, 是遗传学、统计学、信息学高度交叉的学科。哈尔滨医科大学是国内医学院校中第一个招收生物信息学专业本科生的学校, 统计遗传学是生物技术专业必修的一门专业课。作为一门新兴学科, 教学难度较大, 因此针对生物技术专业开展统计遗传学课程需要不断的探索与实践。
2 课程开设意义
人类基因组计划和人类基因组单体型计划完成后, 随着基因分型技术的发展与成熟, 统计遗传学方法将成为研究多基因复杂疾病易感性关系和基因定位的主要技术手段, 并将成为我国基因组医学自主创新的重要条件。
针对生物信息学这个新专业, 我院多次组织专家探讨教学课程设置, 将《统计遗传学》定为一门十分重要的专业课。其以《概率论与数理统计》和《遗传学》为前导课程, 运用遗传学与数学的理论和方法, 归纳整合群体遗传学、遗传流行病学、数量遗传学、生态遗传学和分子遗传学等分支学科内容, 系统深入地论述基因频率与基因型频率、遗传连锁分析与关联分析、群体遗传结构与分化分析、QTL基因定位、单体型分析等内容, 阐明遗传变异规律及方法论, 指导复杂疾病的分子分型与基因定位、人类单体型分析等研究实践。特别是随着Illumina、Affymetrix等基因分型技术的推广应用, 基于大规模SNP基因分型数据的全基因组关联分析将成为多基因复杂疾病遗传易感性关系和基因定位研究的主要方法。然而, 针对这种全基因组关联试验数据的统计分析, 统计遗传学面临着巨大挑战, 如多位点重复检验、基因与基因、基因与环境的交互作用等问题均是目前需要解决的问题。面对该机遇和挑战, 《统计遗传学》课程的开设恰如其时。
通过这门课程的理论学习可提高学生将各种统计方法应用于遗传学的能力, 相应的实验教学可提高学生动手操作能力, 熟练掌握统计遗传学软件以解决复杂疾病分析等实际问题。可为今后的科研工作或继续攻读硕士学位深造打下坚实基础。
3 课程设置与实践
我校生物信息科学与技术学院《统计遗传学》课程体系建设起步时间较早, 长时间的探索与实践使得该学科发展日趋完善, 如今已形成内容完备、特色鲜明的课程体系。
我院面向本科生与研究生两个层次开设《统计遗传学》, 在国内是首例。课程内容系统完善, 研究内容涵盖群体遗传、数量遗传、复杂疾病相关的SNP谱研究、疾病基因定位等, 并更加侧重分子遗传学研究内容。在不断的教学实践中, 逐渐形成了独特的鲜明特色:
3.1 经典统计遗传学理论与国际最新热门研究课题相结合
从开课至今, 我院对该课程非常重视, 专门成立了统计遗传学教研室, 教研室所有教师均为硕士以上学历, 并由该领域多名专家及有着多年海外留学经历的龙江学者共同商讨教学计划和教学大纲。现行的教学内容既包含传统的统计遗传学理论, 如基因频率与基因型频率、Hardy-Weinberg平衡定律、迁移、突变、选择、加性效应和显性效应及方差、亲属间相似性、遗传力、一般人类数量遗传分析等, 也包含了统计遗传学当今最新的内容, 如Lods score连锁分析、Haseman-Elston回归分析、ASP受累同胞对分析、受累亲属对分析、传递不平衡检验、QTL基因定位、单体型分析等等。传统的统计遗传学基础知识使学生对统计遗传学的理解更扎实、稳固, 而对最新科技前沿的学习使学生能够直接站到科技前沿, 可以更快的运用所学知识解决现行的实际问题。这样, 学生在学习过程中不会产生盲目性, 而更有目标, 有针对性。
3.2 教师教学与科研相结合
我院长期以来实行“教学科研一体化”, 以科研带动教学的发展模式。当今的信息时代, 生命科学是最热门的研究领域之一, 每天都会有大量最新的科研成果出现, 我们的老师只有坚持不懈地进行科学研究, 才能与时代同步, 跟上科技的发展。统计遗传学长期以来一直是我院的一个重要科研方向, 积累了大量的科研成果。我院研制的遗传学群体与家系资料分析系统 (PPAP) [2,3]已推广到中国科学院、中国医学科学院/协和医科大学、复旦大学、上海医科大学、上海第二医科大学、北京医科大学等40多个单位。我院师生参加GAW (Genetic Analysis Workshops) [4]会议等多项国际会议十余次。近几年, 我院共发表统计遗传学方向的文章近100篇, 其中SCI收录数十篇。将这些科研成绩融入教学, 大大丰富了教学内容, 顺利实现了“以科研带动教学”。例如我们将基于单体型的遗传因素挖掘最新研究成果带入课堂教学[5,6], 突出特色并激发学生兴趣。同时通过教学实践, 我院教师更加稳固的掌握了统计遗传学的各种理论和方法, 从而更好的进行科学研究。
3.3 理论与实践相结合
高等教育新的形势对传统的教学模式和方法提出了更高的要求, 培养学生的综合素质已成为当前高校教学发展的趋势。综合素质指学生应具备扎实的理论基础和熟练的实验能力。实验能力是一种综合能力, 必须在平时的教学实践中有计划、按步骤地进行。统计遗传学也是一门侧重实际应用的学科, 因此, 实验教学是统计遗传学课程教学的重要组成部分, 提高统计遗传学实验教学质量是教学成功的重要保证。我们设置了42学时理论课和12学时实验课。为此, 我们建立了一个100机位的学生机房, 主要讲授的软件有国际上最流行的统计遗传学软件SAGE[7]和haploview, 通过这些软件, 我们可以把理论课中学习到的大部分方法得以用计算机实现。除按教学计划进行的正常实验教学外, 实验室还定期对学生免费开放, 鼓励学生参与教师的科研活动, 应用所学统计遗传学知识解决实际问题。通过理论与实践相结合, 学生对所学知识有了更深刻的掌握, 并且有了更强的动手操作能力, 既不会感到枯燥无味, 也为以后独立的科研工作打下坚实的基础。
通过这样的教学实践, 训练了学生的统计思维能力, 使学生充分认识到掌握统计遗传学的重要性和必要性, 增强了学生学好用好这门课的信心, 提高了学生从复杂的生命现象中发现问题解决问题的能力。在已毕业的本科生中, 有多名同学选择了统计遗传学中的一些研究热点作为毕业设计的方向, 并获得一定的研究成果。
目前, 《统计遗传学》已作为生物技术专业本科生、生物信息学专业硕士生以及基础医学专业研究生必修课程, 并作为硕士研究生的研究方向招收统计遗传学专业研究生。并且在2008年被评为哈尔滨医科大学精品课程。
4 结论
统计遗传学是一门新兴学科, 当前我们还处于起步上升阶段, 还有很多地方需要不断完善。我们下一步的目标是编写一套体系完整、适用于生物技术专业的《统计遗传学》教材。目前, 国内教学采用的多为早期动物和植物遗传学方面的教材, 尚无一套完备的侧重于人类遗传学研究的统计遗传学教材。我们目前参考多套经典英文教材, 编写了一本内部讲义。该讲义内容体系完整, 既包含了传统统计遗传学内容, 同时也融入了我院多年科研成果的心得, 加入了许多我们之前研究过的实际问题。我们正在进一步整理中, 拟于近期正式出版。
精品课程是集科学性、先进性、教育性、整体性、有效性和示范性于一身的优秀课程。作为精品课程的载体, 应具有一流的教师队伍、一流的教学内容、一流的教学方法、一流的教材、一流的教学管理等特点[8]。相形之下, 我们在统计遗传学精品课程的建设上, 才刚刚起步, 今后还要在教材建设、师资队伍建设等方面加大力度, 将统计遗传学建设成体现现代教育教学思想、符合现代科学技术和适应社会发展进步的需要、能够促进学生的全面发展而深受学生欢迎的一门课程, 并力争在3年内申报省级精品课程。
摘要:探讨了统计遗传学课程建设的若干问题, 总结了我校生物信息学专业统计遗传学课程建设现状及特色, 并提出了下一步需要完善的工作。本文对统计遗传学学科建设具有一定的指导作用。
关键词:生物信息学,统计遗传学,课程建设
参考文献
[1]Green, P., Human Genome Project:data quality[J].Science, 1998.279 (5354) :p.1115-6.
[2]郭政, 郝翠霞, 张贵寅.人类与医学遗传学群体与家系资料分析计算机系统:连锁分析[J].中国优生与遗传学杂志, 1996 (5) .
[3]李霞, 郭政, 何颖.人类与医学遗传学群体与家系资料分析计算机系统的功能与菜单结构 (Ⅱ) [J].中国优生与遗传杂志, 1997, 5 (1) .
[4]Gong, B.S., et al., Single-nucleotide polymor-phism-gene intermixed networking reveals co-linkers connected to multiple gene expression phenotypes[J].BMC Proc, 2007.1Suppl1:p.S45.
[5]张瑞杰, 李霞等.结合已有知识体系的酒精中毒相关的SNP单体型及其相关基因挖掘[J].中国科学C辑:生命科学, 2008 (10) :938-948.
[6]zhang ruijie, et al., Novel strategies to mine al-coholism-related haplotypes and genes by com-bining existing knowledge framework[J].Science in China Series C:Life Sciences, vol.52, no.2, 163-172.
[7]宫滨生, 李霞, 郭政.SAGE遗传分析系统的功能及应用[J].中国优生与遗传杂志, 2002, 10.
[8]http://www.jingpinke.com/xpe/portal/c3facb70-11b0-1000-95bc-4db6c3cdd0ed.
生物信息学专业 篇2
四川大学考研生物信息学专业冲刺阶段复习经验
很快大学四年快要过去,我的记忆里还是当初高考失败的惨痛。还是不太愿意接受自己所读的大学。大学,像高中老师说的那样好好玩,好好放松。我天真的以为大学就是应该玩,索性每一次专业课都是及格为目的,我也从没想过要奖学金什么的。助学金申请不够资格,辅导员说要留给贫困的同学。我恰恰是属于普普通通的那种学生,高中的时代已然过去我的光芒什么的都随着高考离开了我。大学我也没想要奋斗一番。别谈奖学金别谈保研。我几乎不知道保研是可以保外校,苦想还要继续在这个学校读三年,我甩头就走。直到后来才发现同寝室的两个好友一个保研在了华南理工;另一个去了中科院。实话说我在准备考研那段时间才明白什么是保研什么是考研。
初试: 考研中除了需要斗志,还要坚持,坚持着自己的目标,坚持着每天按部就班的学习,坚持着忍受一些不可回避的痛苦或者寂寞等等,只要坚持了,相信天道酬勤。我的考研分为几个阶段,我认为虽然计划赶不上变化,但是考研复习整个的计划还是需要思考的,比如要复习几轮,每轮做些什么,达到什么样的效果这些都是需要心中有数的,即使每天的计划有时会更改,但是大的方向需要把握住。
以下主要谈谈专业课的复习,公共课各个学校都是一样,可以广泛参考经验。4到6月第一轮复习,生化我是先找了一本薄的看了一遍并简单做一些习题,主要是一些选择填空,以巩固知识;细胞大体上进行一遍,也是做王金发老师的习题集,主要是小题。同时在复习专业课的时候做了一些笔记,整理出框架加深印象。7到10进行第二轮复习,由于其中一些事情的影响,放慢了复习进度,其实我觉得暑假7和8月份就可以把第二遍进行完,第二遍是在第一遍的基础上进一步熟悉课本,并进一步做习题,将一些基础性的习题进一步做做,并开始思考一些大题,细胞是王金发老师和翟中和老师的书兼顾,生化这个时候就是简要看一下薄本的,后来就开始看王镜岩的两本厚书,因为对生化的知识有了初步的了解,所以此时看生化会看得很快,而且收获很大;11到1月第三轮复习,做真题并多研究真题整理答案,真题我是用《四川大学计算机基础考研复习精编》这本书的历年真题,对于答案有重点解析,方便理解,但是,目前这本书已经售罄了,只能等2015年才有新的,提醒即将报考这个专业的学弟学妹们,如果需要,要赶紧买。当然有人会问,你读生物怎么会看计算机呢?那是因为生物信息学的生物软件需要懂一些计算机专业知识,很麻烦的。然后在真题的基础上再看一遍书,同时完善答案,注重细节,相应的做一些笔记,第三轮的时候看了一些基础生物化学这两本,这两本书重点很突出,都有相应的标记,而且与川大的生化真题是相接轨的,可以对王镜岩的书作一定的补充,同时一部分真题的答案可以在上面找到相关知识。
考研前4个月时我们就要反复的做题和看教材,而且要对自己进行模拟考试,按照考试时间进行模考,检测自己的实力,也能更快的进入到考试的状态,四川大学计算机基础考研冲刺宝这本对于冲刺的作用很有效果,当然要适当配合一些迷你真题来做,模拟题,我推荐川大计算机基础考研模拟五套卷与答案解析这本书,虽然这些资料看起来很充足了,但是也要注重基础知识的巩固。临近考试,复习方法应当有所调整,不能再继续题海战术,要在记忆知识点的同时掌握学习方法。建议大家使用提纲记忆法,将所学知识点以提纲的形式列出,再把内容填充进去。一来列提纲的过程本身就是对知识点的整合梳理的过程,二来填充的过程是对知识点的又一次强化。同时,考生在记忆时可以记忆关键词,这样减少了记忆的量,使记忆由多变精。
生物信息学专业 篇3
关键词:生物信息学 青年教师 培训模式
青年教师是高校最重要的资源之一,师资队伍是高校最重要的基本建设。本文将以青年教师的培训模式作为研究高等医学院校青年教师规范化培训的切入点,结合国家已颁布的教师培训、教师职责等方面的相关政策、制度和法规作为研究的主要依据,立足于教师专业化发展对青年教师综合素质的要求,结合青年教师成长规律理论和生物信息学专业特点,对专业青年教师培训模式进行研究与探讨。
一、创新师资培训模式,明确培训计划及培训目标
近年来,随着生物医学教育的不断改革,新的发展趋势对高校人才发展提出了更高要求,培养应用型、创新型人才是国家教育发展的方向。《国家中长期教育改革和发展规划纲要(2010-2020年)》专门对“师资队伍建设”进行了部署,提出高校教师队伍建设的侧重点和建设思路,即“以中青年教师和创新团队为重点,建设高素质的高校教师队伍。大力提高高校教师教学水平、科研创新和社会服务能力。促进跨学科、跨单位合作,形成高水平教学和科研创新团队”。
随着终身教育理念的不断提升,教育理论、教育方法的不断变革,深入探索研究生物信息学专业青年教师的培训形式、培训内容、教师发展的新理念和新模式等方面都有了显著变化,特别是生物医药领域的人才培养理念发生了深刻的变革。其研究成果有助于探索符合我国生物医学高等教育要求的高素质创新人才培养方式,推动相关学科、专业青年人才发展水平。对于立足教师的自身发展,提高教师培训质量和效益,完善高校教师培训机制,无疑是必要的。
二、建立科学评估体系,制定青年教师培训与考核制度
1.提升自己,充分发挥指导教师的典范作用。积极引导广大教师自觉践行社会主义核心价值体系。加强自身修养,弘扬高尚师德,营造绿色人文环境,打造一支具有高尚职业道德、良好学术素质、精湛教学技能的教师队伍。
2.实施有效的岗位培训与考核,确保教学、科研能力不断提升。根据学科专业特点、人员学历结构不同以及教学、科研工作需要有计划地安排进修学习与业务能力培训。不断完善和执行青年教师岗位培训与考核制度。
3.实时追踪青年人才成长轨迹,在重要关口进行扶助引导。既要尊重青年人才的正确发展理念、发展方向和发展意愿,也要遵循人才成长规律和学科实际需要,为青年人才成长营造既舒适、自由,又富有发展内涵和吸引力的大环境。在学术方向、职称评聘的重要关口,进行科学引导,帮助每一名青年教师成才。
三、构建“三级”培训制度,建立科学的人才发展考核量化指标体系
1.重视青年教师岗前培训。为帮助青年教师尽快适应岗位需求,除常规性的教育学、教育心理学、教学法规、职业道德修养等理论学习外,教师还必须掌握教育理论知识并且了解教师行为规范,提高教师职业道德。
2.岗前培训是基础,岗位培训是关键。建立对青年教师实行“一对一”或“一对多”导师制和“公开备课”制度。教研室主任应在全面了解教师的专业特长、语言能力、性格特征等基础上,对青年教师的思想品格以及教学方法等进行指导,促使青年教师的教学工作尽快步入正轨。
(1)工作态度培训。树立热爱教育事业,学高为师、身正为范教学理念与道德情操。进行创新精神教育,奉献精神教育与团结协作精神教育。
(2)知识培训。包括普通教育学相关课程、教学情境及专业知识等三方面培训。助教要独立完成教学工作,不仅熟悉掌握医学基础知识与本学科专业知识,重点学习掌握高等教育学基本理论,专业及相关交叉学科、人文社会科学知识。
(3)技能培训:①教学基本功;②双语运用能力;③教育科研能力。
3.以学校青年教师岗位培训制度为指导,制定院级岗位培训考核制度
(1)考核内容。师德素质与工作表现,以及专业知识与技能水平、教学能力、外语水平、计算机水平、教育科研(教学研究论文的发表、教育课题或教学成果的获得)、专业科研(科研课题的获得、研究论文与成果的发表、科研成果获奖以及研究成果转化)等内容。
(2)考核方式与办法。对青年教师实行专项测试及客观评价的考核方式,在任职期间要达到培训目标要求,可具有申报上一级专业技术职务的资格。学院建立青年教师岗位培训档案,以《青年教师岗位培训手册》记载培养过程和效果。
采取学年考核与培训终期考核相结合的方式,考核结果记录在学院档案和手册中。包括:①师德素质与工作表现;②专业知识与技能;③教学能力;④外语能力;⑤计算机能力;⑥教育研究能力;⑦科学研究。
四、完善培训设施,拓宽培训渠道与激励机制,提高培训效果
通过建立教学考核制度和评价激励机制,客观评价教师教育教学能力,激励教学积极性,提高教师的综合素质和教学水平,实现培养创新研究能力、获得归纳、综合、分析、解决问题的能力以及批判性思辩和团队协作精神的目的,保证人才培养质量。
1.培养教师不断更新知识、更新课题、更新教学方法与手段的思考与探索,培养分析与运用理论知识解决实际问题的能力,提高青年教师的综合素质。创新师资培训模式与评价指标体系的建立既有利于人才发展的科学评价,也具备向其他学科人才培养的扩展潜力,深入的探讨还将有利于人才战略的高层次决策制定。
2.探讨适合青年教师个性发展的教师培养模式,不断完善和执行青年教师岗位培训与考核制度,提高培训效果。研究培养具有专业技术能力、创新能力、合作和沟通能力、多渠道获取知识能力和终身学习能力的人才的科学方法体系。为培养和造就一支由高水平学科带头人领军、德才兼备、素质优良、结构合理、精干高效、富有创新精神和实践能力,更具有影响力和竞争力的师资队伍而共同努力。
随着高通量测序的技术发展和逐步应用,生命科学领域的数据量正在极速增长,对于海量数据的分析和应用需求日益迫切。传统的实验方法和统计学方法遇到了巨大挑战,以生物医学大数据分析为目标的生物信息学逐渐成为生命科学和医学领域的研究前沿。因此,在日益完善的生物信息学人才培养的同时,应大力发展与重视生物信息学专业青年教师的教育与培训工作。提高教师自身的业务素质,储备扎实的专业知识,掌握专业前沿发展动态,充分发掘教师主观能动性,将最新研究成果融入到教学与科研中,提升教学技能,探索现代教学规律。随着教育目标的重新定位,重视人才培训模式的探索,努力培养适应当前大数据时代的创新创业型生物信息学专业人才,对促进现代生物医学发展、有效地推动健康产业与生物医药高新技术产业的深入结合有重要的意义。
参考文献:
[1]刘长旭.对新时期高校师资培训工作的思考[J].中国高校师资研究,2015,(05).
[2]吴俊端,尹富权,曹云飞,李颀,张志勇.医学院校教师教学能力培养现状的调查与分析[J].中国高等医学教育,2015,(01).
[3]曹博,钟照华,曹德品,傅松滨,张凤民.创建基础医学拔尖人才创新研究型教学模式探析[J].中华医学教育杂志,2013,(04).
生物信息学专业 篇4
在人工神经网络中, 各种待处理的对象 (数据、特征、字符、抽象的模式等等) 都可用神经元处理单元表示。这些神经元主要可以分为输入神经元、隐含神经元和输出神经元三大类。其作用各不相同, 作为输入神经元的处理单元用来与外界产生连接, 接收外界的信号输入;隐含神经元处于中间层, 为信息处理的不可见层;输出神经元主要实现结果的输出。神经元之间相互连接, 连接的权重反映了各神经元之间的连接强度, 神经元之间的连接关系中蕴含着信息的表示和处理。人工神经网络主要是在不同程度、不同层次上模拟大脑处理信息的风格, 具有非程序化、较强的适应性、自组织性、并行分布式等特点, 其实现主要是通过网络的变换和动力学行为, 涉及数学、生物学、人工智能、计算机科学、非线性动力学等多个学科[1]。作为一门活跃的边缘性交叉学科, 在处理信息方面, 相比于传统人工智能方法具有非线性适应性, 成功地应用于神经专家系统、模式识别、组合优化、预测等多个领域, 尤其在生物信息学领域得到了广泛的应用。生物信息学是20世纪末发展起来的一极具发展潜力的新型学科。人类的基因中蕴含着大量有用信息, 利用神经网络可以对这些海量的信息进行识别与分类, 进而进行相关的生物信息学分析。如利用神经网络分析疾病与基因序列的关系, 基于神经网络对蛋白质结构的预测, 基因表达谱数据的分析, 蛋白质互作位点的预测等等, 都取得了很好的效果[2]。
因此, 在生物信息相关专业的本科生中开设人工神经网络课程尤为重要。经过多年的研究发展, 已经提出上百种的人工神经网络模型, 这就需要教师针对不同的专业背景, 不同层次的学生, 讲授不同模型的核心思想、推导过程、实际应用等等。本文主要根据人工神经网络在生物信息学相关专业的教学实践, 从以下几个方面进行探讨。
一、引导式教学, 激发学生的学习积极性
神经网络作为一门偏于理论分析的学科, 传统的教学模式, 即首先讲解模型的起源, 接下来介绍模型的核心思想, 然后就是一连串的数学公式推导, 面对满黑板的公式, 学生很难提起兴趣去认真学习相应的模型。所以, 如何激发起学生的学习积极性, 让学生重视这门课程, 更好地掌握课程内容, 掌握相关的模型理论基础、核心思想, 更好地服务于本专业, 是人工神经网络教学者亟待解决的问题。
首先, 在导课的时候要生动, 以引起学生对将要学习的内容的好奇心, 让学生有兴趣投入到课堂学习内容中去。布卢姆说过:“最大的学习动机莫过于学生对所学知识有求知的兴趣。”只有在这种动机下的学习, 才会提高自身的主动性与自觉性, 达到提高教学质量的目的[3]。例如, 在讲解hopfield神经网络的时候, 通过举例对苹果、橘子的质地、形状、重量等特征的描述, 运用“0, 1”进行量化描述, 然后应用神经网络就可以进行有效地分类;对于旅行商TSP问题, 也可以通过hopfield神经网络寻找到最优路径。那么, 这些问题是如何解决的呢?就需要大家来一起揭开hopfield神经网络的神秘面纱。其次, 由于神经网络涉及大量的数学公式与数学方法, 学生往往会有畏惧的心理, 这就需要教师帮学生澄清思想误区, 现在很多用于数据分析与计算的软件, 如matlab工具箱、R软件里面都有很成熟的人工神经网络软件包, 所以, 学生只需要理解其工作原理、核心思想, 学会使用现成的人工神经网络软件包处理数据, 在熟练应用程序包的基础上, 对相应的神经网络模型进行优化, 改进, 并且与其他的人工智能算法相结合, 更好地为本专业服务。第三, 在讲授人工神经网络理论内容的时候, 要摒弃传统的呆板式的推导过程, 以往的神经网络教学方法注重理论分析, 通常是一连串的公式推导, 公式中又涉及大量的符号, 计算起来复杂又烦琐, 学生会觉得索然无趣, 厌学情绪严重。在教学过程中, 教师要精心设计, 创设出特定的问题环境, 将所学内容与本专业相结合起来, 多讲应用, 启发和诱导学生选取合适的神经网络模型来解决本专业的实验数据分析与处理等问题。
二、理论教学与实验教学相结合
除了在理论课堂上将基本的理论知识传输给学生, 教师还应该安排若干实验教学内容, 让学生以实验为主, 将理论课上所学的知识运用到解决实际问题中来, 理论联系实际, 主动操作思考, 观察, 分析, 讨论, 以培养学生解决问题的能力。一旦学生自己动手处理一些问题后, 很自然地就会对人工神经网络产生一种亲切感, 并能强烈激发起学生继续探究下去的兴趣。对于同一问题, 可以让学生选取不同的网络模型, 设置不同的参数, 甚至可以让学生自己动手编写相应的网络模型程序, 并且给予改进, 根据得出的结果来评价模型在解决实际问题时的好坏, 以及模型改进的效果。作为授课教师, 需要不断优化实验教学内容, 在生物信息学专业开设人工神经网络课程, 实验教学主要是针对生物信息专业的海量生物数据处理与分析的实际需要, 培养学生综合运用人工神经网络方法和生物信息学知识, 进行信息的分析与处理。除了在实验课堂上给学生最大的自由发挥空间外, 课后作业也尽量以开放式问题的形式给出, 比如, 可以让学生选取相应的网络模型处理本专业的一些实际问题, 例如, 数据的分类、聚类等等, 其中, 数据来源可以不同, 类型也可自由选取, 最后给出相应的模型参数设置、方法的改进、实验结果, 也可以安排学生自己查询文献进行学习, 并安排学生作报告。这样, 学生可以在世界范围内了解神经网络的在本专业的应用情况, 又能提高英语的读写能力, 还能锻炼学生做科研报告的能力。
三、加强师资队伍建设以及其他基本条件的建设
由于生物信息学是一门新兴的交叉学科[4], 这就要求人工神经网络的授课教师要熟练掌握生物信息相关专业的知识, 教师的业务水平必须得到充分保证, 才能给学生以全面透彻的指导。学院应该本着自主培养与重点引进的原则, 优化教师队伍的专业结构和学历结构, 提高教师的自身修养。授课教师要将课堂的理论知识联系实际生物问题进行讲授, 让学生感受到人工神经网络在本专业的应用, 提高学生的学习效率, 同时也需要阅读大量的专业文献, 提高编程技巧和数据库应用能力, 让自己成为一名合格的复合型教师。同时, 人工神经网络课程的实验, 高度依赖于计算机网络等设备, 因此, 相关的软硬件设施的建设也必不可少, 由于, 基因组测序技术的发展, 目前生物信息学研究所用的数据都是海量的, 神经网络训练起来所需时间太长, 不能用普通的电脑完成, 需要专门的服务器来处理, 学校有关部门应在条件允许的情况下, 配备机房, 购买服务器, 以及相关的软件, 为学生创造良好的环境, 让学生完成课程内容。
最后, 人工神经网络涉及数学、计算机、人工智能和神经学等专业知识, 因此, 需要授课教师加强与其他相关专业教师的交流与合作, 并渗透到授课过程中去, 让学生在学习人工神经网络网络时能将各专业联系起来, 更好地解决生物信息学中的问题, 要想成为一名合格的人工神经网络课程教师, 首先要成为一名复合型的教师, 不仅要具备教学和科研能力, 同时也要具备计算机、生物学、信息学等多学科的知识。
摘要:人工神经网络是在神经生理学、生物学、数学、计算机学等学科发展的基础上提出的, 模拟人类大脑的结构和思维方式处理、记忆信息的一门学科。在处理信息方面, 相比于传统人工智能方法具有非线性适应性, 目前, 在多个领域得到了成功的应用。本文主要根据人工神经网络在生物信息学相关专业的教学实践, 从教学方式、教学方法、学科建设等方面进行探讨。
关键词:人工神经网络,教学实践,教学方法,生物信息学
参考文献
[1]朱大奇, 史慧.人工神经网络及其应用[M].北京:科学出版社, 2006.
[2]朱伟, 史定华, 王翼飞.人工神经网络在蛋白质二级结构预测中的应用[J].自然杂志, 2003, (3) :167-171.
[3]赵俊, 李晓红.趣味教学法在预防医学教学中的运用[J].现代医药卫生, 2005, 21 (15) :2089-2090.
生物信息学小结 篇5
目前一般意义的生物信息学是基因层次的
它是一个包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面学科领域。
生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
他是近年来发展并完善起来的交叉学科。这门学科是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。
生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。基因组信息
蛋白质的结构模拟 药物设计
它们是生物信息学的三个重要组成部分,生物信息学目前已在理论生物学领域占有了核心地位,它广泛地应用在生物、医药、农业、环境等学科。
2.广义生物信息学主要包括哪几个方面? 广义生物信息学主要包括如下几个方面:
一、生物的遗传信息
DNA―RNA―蛋白质,遗传信息—转录—翻译,遗传信息生物信息学。
二、生命活动的调控
基因的功能、表达和调控(表观遗传学)。蛋白的结构、功能和调控;细胞活动(分化、发育、衰老、死亡)的调控,器官、系统、整体活动的调控;节律、生物钟、分蘖、生长、开花、结果、营养的吸收、传输、转化、对外界信号的反应:含羞草、抗逆性。
三、生物电磁学与电磁生物学
生物电磁学:生命活体在不同层次(电子、离子、原子、基因、细胞、组织、整体等)的活动和不同属性(包括思维、精神)活动时以及和外界环境(生命体周围直至宇宙)相互作用时反映出来的各种电磁信息。人体的电磁辐射(包括发光):频率、强度、频谱。人体信号的调制方式:调幅、调频、编码。
电磁生物学:电磁辐射对生物体的影响,电磁场导致DNA突变,体内细胞电离、极化状态变化导致疾病。
四、视觉系统与光信息处理
视网膜神经元回路与信息处理、彩色视觉及彩色图像的编码、变换机制、眼动成象机制及宽视场、消色差动态成象系统、视觉认知机制及其图像信息的智能模式识别、不同状态立体视觉机制和静态、动态立体视锐度。
五、脑和神经系统与信息
脑的感知觉信息处理原理及其应用,学习、记忆、思维,逻辑思维和形象思维,思维模型与信息处理系统新原理的研究,新的计算模型、新型计算机、如:神经计算机。
六、生物体结构与微光机电系统
DNA驱动的微细机器人,生物大分子到细胞基本结构体系的自组装、自组织,创造新物质的分子工程学研究,分子聚集体的化学。
纳米生物技术将纳米技术和生物技术相集成,在生物医学、电子学、材料学、环境科学等诸多领域具有良好的应用前景。在生物芯片、分子马达、生物探针、纳米生物材料等迅速发展。
七、基因芯片、蛋白质芯片等
目前一般意义的生物信息学是基因层次的,是近年来发展并完善起来的交叉学科。这门学科是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。
3.Internet有哪些基本功能?
Internet不仅向其用户提供了全球范围的信息交流与快速通讯手段,其本身也具有极其丰富的信息资源,包括新闻、书刊杂志、数据库、计算机软件、多媒体资料等,也包括大量的生物信息学资源。
4.什么是Entrez?Entrez主要包括哪几个数据库?
Entrez(http://www.ncbi.nim.nih.gov/entraz)是美国国立医学图书馆国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立的生物医学数据库集成检索系统。系统中的数据库包括核酸序列数据库、蛋白质序列数据库、大分子三维结构数据库、全部基因组、孟德尔人类遗传及通过PubMed检索的MEDLINE。Entrez集成系统的最大特点是通过任何一个数据库检索出的信息可直接链接到Entrez其它数据库并找到相关的检索结果。
5.PubMed的一般检索方法有几种检索途径?
通过NCBI首页(http://www.ncbi.nlm.nih.gov/)或NCBI的Entrez检索系统(http://www.ncbi.nlm.nih.gov/Entrez/)选择PubMed链接选项或直接在浏览器地址栏(URL)中输入“http://www.ncbi.nlm.nih.gov/entrez/query.fcgidb=PubMed”即可进入
PubMed检索界面。PubMed有多种检索途径,包括自由词、文献作者、规范主题词(MeSH)、期刊名称、文献出版年代、文献类型、文献语种、物质名称、记录入档日期、文献出版日期等。既可以单一字段检索,又可以利用高级布尔逻辑表达式多字段组配检索。
6.国际上三大DNA数据库是什么数据库? ,国际三大DNA数据库:NCBI的GenBank,欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)、日本DNA数据库(DNA Data Bank of Japan,DDBJ)
7.简述进行基因搜索时的基本步骤 ?
在进行基因搜索时的基本步骤:
1、寻找DNA序列中基因不可能出现的区域,并将此遮蔽起来。
2、在启动子区寻找一致的模式,找出转录因子识别DNA结合区域。
3、寻找转录的起始密码、终止密码和剪切位点。
4、找出编码区。然后将全部收集到的信息汇总整理成总体上尽可能连贯的谱图。注意进行不同的分析时使用不同的软件工具以及程序适用的物种选择和应用范围等。
8.BLAST的主要功能都包括什么 ?
1、核酸数据库搜索
组合基因组检索;分为标准的核酸与核酸数据库搜索;MEGABLAST提供大量长序列的比较;完全匹配的短序列搜索;特殊搜索。
2、蛋白数据库搜索
分为标准的蛋白与蛋白数据库搜索;PSI-and PHI-BLAST,其中PSI用于搜索证实远源进化关系的存在与否和进一步获取这个蛋白家族中的功能信息,而PHI用于搜索蛋白基序;同样包括蛋白的完全匹配的短序列搜索。
3、已翻译蛋白的BLAST搜索
包括[blastx],[tblastn],[tblastx]
4、保守区域的搜索:主要使用RPS-BLAST程序完成。
5、配对序列的两两比较:用于核酸和蛋白的两两比较分析。
6、针对特定数据库的搜索:比如人类基因组、微生物基因组等。
9.利用核酸序列进行基因结构预测的基本步骤是什么?(不确定)一个全面的基因搜索方案,无论是通过单个集成的程序实现,还是通过多个程序分步实现,基本的思路是相同的:
1、通常如果一个序列中某一区域出现重复序列,该区域不大可能处于调控区域和编码区域。
2、如果某一片段与其它基因或基因产物有序列相似性,该片段是外显子的可能性极大。
3、一段序列上存在着统计的规则性,表现为显著的“密码子偏好”,是蛋白编码区最明显的标志之一。
4、与模板模式相符可能指出DNA上功能性位点的位置。这类分析可以基于很简单的模式(例如,众所周知的“TATA box”和剪接点的保守序列)或基于相当复杂的推理(例如,在后面将提到的启动子搜寻算法中)。
10.根据蛋白质的氨基酸序列预测其空间结构主要预测方法有哪两类?
预测方法主要有两类:
一、采用分子力学、分子动力学的方法,根据物理化学的基本原理,从理论上预测蛋白质分子的空间结构。
二、通过对已知空间结构的蛋白质进行分析,找出一级结构与空间结构的关系,总结出规律,用于新的蛋白质空间结构的预测。本章介绍利用分析蛋白质氨基酸的组成来确认未知蛋白的计算工具、蛋白翻译后修饰、蛋白功能预测。
组成蛋白质的氨基酸序列为蛋白质的一级结构,蛋白质的一级结构决定了蛋白质的性质。组成蛋白质的氨基酸的物理和化学性质早已被人熟知。构成蛋白质的20种氨基酸由于化学构造不同,在结构和功能上具有多样性,任一残基对蛋白质的物理和生化性质都会产生影响,即序列决定构象。由于蛋白质空间结构的基础是一级结构,近年来根据蛋白质的氨基酸序列预测其空间结构,受到科学家的关注。
11.谈谈学习生物信息学的体会(自己发挥吧)
有点粗糙,见谅
生物信息学专业 篇6
摘 要 牛疱疹病毒Ⅰ型( bovine herpesvirus-1,BHV-1)是牛的一种重要病原,可引起牛严重的呼吸道感染、结膜炎、脑炎、产奶量下降、子宫炎、肠炎、传染性脓疱性外阴阴道炎和流产等。以GenBank中编号为U06934.1的BHV-1 gE基因为材料分析其生物信息学,以预测其蛋白主要抗原表位,有助于建立相应的实验模型。
关键词 BHV-1 gE基因;生物信息学分析;抗原表位
中图分类号:Q517 文献标志码:A 文章编号:1673-890X(2014)21--02
1 材料与方法
1.1 BHV-1 gE编码蛋白氨基酸序列
以GenBank中编号为U06934.1的Bovine Herpesvirus 1 (type 1.1) FM glycoprotein gE,complete cds基因为材料。
1.2 gE的跨膜区预测
采用DAS服务器(Cserzo M. et al,1997)(http://www.sbc.su.se/miklos/DAS/),将氨基酸序列输入工作区预测跨膜区。
1.3 gE蛋白二级结构预测
用SOPMA服务器(Geourjon,C. et al,1995)(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)预测gE蛋白的二级结构。
1.4 gE蛋白亲水性、可及性、极性及柔韧性参数预测
采用Hopp&Woods亲水性参数(Hopp TP et al,1981)、Janin可及性参数(Jaint,1979)、Zimmerman极性参数(Zimmerman JM et al,1968)及柔韧性参数预测(http://www.expasy.org/cgi-bin/protscale.pl)。
1.5 gE蛋白抗原位点的预测
采用Antigenic Propensity服务器(Kolaskar AS et al.,FEBS,276,172 1990)(http://www.imtech.res.in/raghava/bcepred/bcepred_submission.htm(l)预测其抗原位点。
2 结果
2.1 gE蛋白的跨膜区预测
采用DAS服务器gE分析,gE蛋白跨膜域位置跨膜区位于14-23、360-363、423-444残基位置之间。
2.2 gE蛋白二级结构预测
二级结构上α-螺旋 (Hh) 106 个占18.43%、伸张结构(β-片层)(Ee)119个占20.70%、β-转角(Tt) 16 个占2.78%、无规卷曲 (Cc) 334个占58.09%,β-转角趋向于突出到蛋白表面,在多肽及蛋白中易作识别位点。
2.3 gE蛋白亲水性、可及性、极性及柔韧性参数预测
采用Janin可及性参数、Zimmerman极性参数、Hopp&Woods亲水性参数对gE蛋白预测,gE蛋白 Janin可及性参数在第427-440个残基达到最大值,gE蛋白 Hopp&Woods亲水性参数422~430个残基达到最大值
2.4 gE蛋白抗原位点的预测
采用Antigenic Propensity服务器预测gE蛋白抗原位点结果如下(下划线区域都是该蛋白质的潜在抗原表位)。
1MQPTAPPRRRLLPLLLPQLLLFGLMAEAKPATETPGSASVDTVFTARAGAPVFLPGPAARPDVRAVRGWSVLAGACSPPVPEPVCLDDRECFTDVALDAACLRTARVAPLAIAELAERPDSTGDKEFVLADPHVSAQLGRNATGVLIAAAAEEDGGVYFLYDRLIGDAGDEETQLALTLQVATAGAQGAARDEEREPATGPTPGPPPHRTTTRAPPRRHGARFRVLPYHSHVYTPGDSFLLSVRLQSEFFDEAPFSASIDWYFLRTAGDCALIRIYETCIFHPEAPACLHPADAQCSFASPYRSETVYSRLYEQCRPDPAGRWPHECEGAAYAAPVAHLRPANNSVDLVFDDAPAAASGLYVFVLQYNGHVEAWDYSLVVTSDRLVRAVTDHTRPEAAAADAPEPGPPLTSEPAGAPTGPAPWLVVLVGALGLAGLVGIAALAVRVCARRASQKRTYDILNPFGPVYTSLPTNEPLDVVVPVSDDEFSLDEDSFVDDDSDDDGPASNPPADAYDLAGAPEPTSGFARAPANGTRSSRSGFKVWFRDPLEDDAAPARTPAAPDYTVVAARLKSILR575
2.5 综合分析
将各种参数和方法预测的可能有抗原表位的肽段综合分析,从表中可以发现,应用不同的预测方法,其预测的抗原表位的个数和抗原表位可能出现的肽段有所不同,其中在第427个氨基酸序列片段达到最大值,但氨基酸序列片段420至480则显示多种预测方法基本一致,具有较好的亲水性、可及性、极性及柔韧性,gE基因分子以β-转角(2.78%)出现的区域较少,α-螺旋(18.43%)较多蛋白结构比较稳定。因此,B细胞表位可能在此两片段或它们附近。
3 结语
牛传染性鼻气管炎(Infectious bovine rhinotracheitis,IBR)是由牛传染性鼻气管炎病毒( IBRV) 引起牛的一种急性、热性、接触性传染病,以高热、呼吸困难、鼻炎、鼻窦炎和上呼吸道炎症为主要特征。又称牛疱疹病毒Ⅰ型( bovine herpesvirus-1,BHV-1),IBRV属于疱疹病毒科(Herpesviridae)、疱疹病毒甲亚科(Alphaherpesvirinae),水痘病毒属(Varicellovirus),是牛的一种重要病原。
在机体内,疏水性残基一般埋在蛋白内部,而亲水性残基位于表面,因此蛋白的亲水部位与蛋白的抗原位点有密切的联系,最高亲水性区域常位于抗原决定簇内部或其附近。根据亲水性参数、可及性参数、柔韧性参数以及二级结构预测等综合考虑,BHV-1病毒的抗原表位大部分位于氨基酸残基420-480等区域内或其附近。
本实验通过对BHV-1 gE基因的氨基酸序列生物学分析,为下一步实验的开展奠定了良好的基础。
生物信息学技术研究 篇7
生物信息学是由于生物学家经过实验得到的大量数据需要工具解释这些数据的意义,导致生物与计算机的结合而产生的。目前人们普遍接受的生物信息学定义是在美国人类基因组计划(HGP)第一个五年总结报告中给出的一个较为完整的解释:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于揭示大量而复杂的生物数据所包含的生物学意义。
生物信息学与计算生物学的区别:生物信息学主要侧重于对生物学中所得信息的采集、存贮、分析处理与可视化方面,更侧重于生物学领域中计算方法的使用和发展;而计算生物学主要侧重于使用计算技术对生物学问题进行研究方面。强调应用信息学技术对生物学领域中的假说进行检验,并尝试发展新的理论。也没有必要严格讨论生物信息学与计算生物学之间的区别,目前,生物信息学比计算生物学在生物学中应用更广,同时生物信息学可以通过Internet得到大量免费的数据库和应用程序。
生物信息学与基因组信息学。生物信息学不同于基因组信息学,它包含的范围更广,不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。
总之,生物信息学作为一门新的研究领域,它把DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。
2 生物信息学主要研究内容
从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。
2.1 序列比对
在生物学中序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性。双序列比较是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程序包有BLAST、FASTA等。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一个研究方向。
2.2 序列分析
随着越来越多生物体的DNA序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA测序过程中被打散的DNA序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA有很多重复的区域,相同的片段可能属于不同的区域。由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%~5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA序列需要大胆的想象和崭新的思路。
2.3 功能基因组
功能基因组的任务是进行基因组功能注释(Genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。功能基因组学的研究主要包括以下几个方面的内容:(1)进一步识别基因,识别基因转录调控信息,分析遗传语言。(2)注释所有基因产物的功能,这是目前基因组功能注释的主要层次。1995年,Owen White设计出了第一套基因组注释软件系统。该系统能够自动识别基因、转录基因和其他生物学特征,并能够初步分析它们的功能。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段。(3)研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(4)比较基因组学研究,是识别和建立不同生物体的基因或其他基因组特征的联系。在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。(5)功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测。
2.4 基因表达数据的分析
对基因表达数据的分析可以获取基因功能和基因表达调控信息,这是生物信息学的重大挑战之一。目前对基因表达数据的处理主要是进行聚类分析,虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。最近国际上在基因调控网络分析方面出现了许多有意义的工作,建立起一些基因调控网络的数学模型,如布尔网络模型、线性关系网络模型、微分方程模型、互信息相关网络模型等,在此基础研究基因调控网络的动力学性质。
2.5 蛋白质结构预测
蛋白质结构预测是生物信息学的重要应用。蛋白质的氨基酸序列(也称为一级结构)可以容易地由它的基因编码序列获得。蛋白质的结构对于理解蛋白质的功能十分重要。目前尚没有普遍可行方案实现蛋白质结构的准确预测;大多数方案为启发式的。
蛋白质结构预测分为二级结构预测和空间结构预测。理论和实验表明,不同的氨基酸残基在不同的局域环境下具有形成特定二级结构的倾向性,因此在一定程度上二级结构的预测可以归结为模式识别问题。二级结构预测的目标就是预测某一个片段中心的残基是α螺旋,还是β折叠,或是其它。常用方法有立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法和人工神经网络方法。目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PSEDATOR、PSA。在空间结构预测方面,比较成功的理论方法是同源模型法。运用同源模型方法可以完成所有蛋白质10%~30%的空间结构预测工作。得到蛋白质结构后就可以进一步分析研究蛋白质的功能。
2.6 药物设计
基于生物大分子结构的药物设计是生物信息学中极为重要的研究领域。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用。计算机辅助药物设计主要包括活性位点分析法、数据库搜寻、全新药物设计。目前,活性位点分析软件有DRID、GREEN、HSITE等。另外还有一些基于蒙特卡罗、模拟退火技术的软件如MCSS、HINT、BUCKETS等。目前数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法中比较著名的软件有Catalyst和Unity,而以前者应用更普遍。另一类方法是基于受体的,也称为分子对接法,具代表性的分子对接软件主要有 DOCK、F1exX和GOLD。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、Leapfrog、GROW、SPROU以及北京大学来鲁华等开发的LigBuilder等,其中LUDI最为常用。
3 结束语
生物信息学是一门新兴的极具发展潜力的学科,对计算机工作者也提出极高的要求,在序列比对中目前的研究热点主要有多序列比对算法及基因组比对算法。在序列分析中重点是研究基因重组及基因识别算法,同时对非编码区的识别也是个重点。同时后基因组时代从结构转向功能的研究涉及到基因组功能的注释,基因的表达调控机制,比较基因组的研究等内容。同时蛋白质的结构预测对蛋白质的功能理解也非常重要, 然后依据特定蛋白质的功能进行必要的药物设计。
参考文献
[1]新药药物靶标开发技术[M].高等教育出版社,ISBN,2006.
[2]http://www.wikipedia.org/[Z].
[3]张春霆.生物信息学的现状与展望世界科技研究与发展[M].2000/06.
生物信息学专业 篇8
1.生物专业中开设生物制品学课程的必要性
随着现代生物技术蓬勃发展及在现代制药领域的广泛使用,我国已将生物医药产品即生物制品并入《中华人民共和国药典》(简称药典),设为药典三部(一部为中药,二部为化学药)[3]。其中药 典 (三部 )中关于生物制 品的定义 为 :生物制品是以微生物、细胞、动物或者人源组织和体液等为原料,应用传统技术或现代生物技术制成,用于人类疾病预防、治疗和诊断的药品。生物制品已成为生物药品或生物技术药品的同义词。目前,生物制品是制药业中发展最快、技术含量最高的产品,成为全球制药产业的重要组成部分。2010年生物技术药物约占全球医药市场销售总额的17%, 在世界排名前20位的畅销药物中,生物技术药物占7种[4]。因此 ,目前我国绝 大多数高校的生物专业,如生物技术、生物工程、生物制药、生物教育科学等专业均纷纷开设了生物制品学[5]。
2.教材建设和参考书选用
虽然早在19世纪末,疫苗类生物制品的开发就初见成效但生物制品学作为一门独立学科,是在近二三十年内才形成的, 因为生物制品涉及的理论与技术几乎涵盖生物医学所有学科,如微生物学、免疫学、生物化学、分子生物学、生理学、药理学、基因工程、细胞工程、蛋白质工程、发酵工程、生化分离工程等。生物制品学的教材建设明显滞后于其他生物类课程正如聂国兴等老师在其主编的《生物制品学》的第二版[2]前言所说的:“编者于2008年出版了《生物制品学》,3年间经历了次印刷,在为该书如此受市场欢迎高兴的同时,编者感到了深深的惶恐,我们深知该书之所以受欢迎,不是因为它有多么优秀,而是因为大家没有更多选择。”虽然这段话写得很谦逊,却真实地反映出生物制品学教材匮乏的现状。据笔者了解,目前全国性真正通用的生物制品学教材仅有两本[1,2]。从这个 意义上说,生物制品学教材建设任务刻不容缓。鉴于教材建设不足,教师阅读相关参考书就成为关键。令人欣慰的是,有关生物制品的著述和期刊还是较多的[6,9], 对于生物 制品学这 门日新月异的学科来说, 教师详细研读这些著述可以很好地弥补教材内容有限和滞后科技前沿的不足, 极大地开阔教师对生物制品的宏观视角和微观视野。
3.做好理论课程教学
3.1教学内容的取舍
生物制品种类繁多、庞杂无比,包括细菌类疫苗、病毒类疫苗、抗毒素及抗血清、血液制品、细胞因子、生长因子、基因药物、微生态制剂、免疫调节剂、体内体外诊断制品等[6]。在有限的课时内,全面讲述如此众多生物制品几乎是不可能的,因此,课程内容的有机取舍就显得异常重要。首先,就目前市场需求而言,生物制品主要集中在疫苗、血液制品、生物技术药物这几个方面[1,2,7,9],是讲解的主 要对象。 其次 ,对于其他内容,如免疫调节剂、微生态制剂和诊断制品等可以略讲,由于这几类生物制品发展极为迅速, 因此重点讲述该几类产品的巨大潜力和制备的基本原则和质量要求[1,6]。最后 ,对于重点讲述的生物制品,也需要适当取舍。如细菌减毒活疫苗,可以结核疫苗为代表讲清楚,其他略讲;血液制品,主要讲述白蛋白的开发与工艺流程等,其他略讲;等等。这样才能做到重难点突出,举一反三。
另外,每类生物制品的产品历史、开发过程、工艺流程、质量控制等涉及多种学科,其中课本中有关微生物学、免疫学、分子生物学、基因工程、细胞工程、发酵工程、生化分离工程等内容可以省略不讲。但是有关医学和药学等方面内容,如GMP管理、生物安全、临床试验等要适当讲述或补充[7,8]。
3.2课堂教学方法与手段
生物制品学理论知识体系庞杂,学科发展迅速,学生普遍感到难学。对于这门与应用直接相关的学科,为了达到良好的教学目的,必须在教学中改变以灌输式为主的传统教学方法,灵活采用多种教学方法与手段。
首先,提高学习兴趣是关键。生物制品虽然种类繁多,但都有一个共同点, 即本质上都是药品, 都与人的健康息息相关,只要随时把握住这条主线,就可以不自觉地激发学生学习兴趣。
其次,对比归纳可以让教学内容化繁为简。生物制品教学中有很多相似知识,如生物制品和生物药品,抗血清和多克隆抗体,血清和血浆,免疫调节剂和生物反应调节剂,等等。也有很多相反知识,如灭活疫苗和减毒活疫苗,单克隆抗体和多克隆抗体,类毒素和抗毒素,工主动免疫和人工被动免疫,等等。通过对不同事物的比较,寻求同中之异或异中之同,分别加以归纳总结,有利于学生学习和理解。最重要的是对各种不同类型生物制品的优缺点和工艺技术路线进行分析比较、总结,找出规律,有利于学生深入理解。
再次,适当运用案例式教学。自从19世纪70年代哈佛法学院在大学课程中开始使用案例式教学以来, 这一有效教学方法得到了广泛应用[10]。生物制 品学是一门实 践性极强 的学科 ,使用案例式教学具有很好的前提。虽然在有限课堂教学时间内,对所有内容进行案例式教学的可能性不大,但可以选择部分内容进行案例式教学, 如多糖疫苗的制备, 流感疫苗的生产,血浆蛋白的分离纯化,抗毒素的研制等有代表性的生物制品。
最后,充分利用多媒体教学优势。多媒体教学具有教学效率高、信息容量大、图文并茂、形象生动等优势,精美的多媒体课件可有效克服传统文字材料单调乏味的不足, 尤其是讲解生物制品的质量控制、工艺流程和产品研制等方面。同时,日常网络媒体中有很多紧密相关的专业视频和新闻线索, 适时插入这些视频有利于激发学生学习兴趣,增加学生的感性知识,短时间内获取大量知识。
3.3研究性学习和课程论文
法国数学家希尔伯特说过:“只要一门科学分支能提出大量问题,充满生命力;而问题缺乏则预示着独立发展的衰亡或中止。”西方教育家布鲁巴克说:“让学生自己提问题是最精湛的教学艺术遵循的最高准则。”指导学生进行研究性学习并采取课程论文考核的方式可有效达到这一教学目的[11]。教师可 根据学生 群体特点 ,分成几个小组,以重要生物制品,如人血白蛋白制剂、流感疫苗、诊断试剂盒等为专题,让学生自主查阅文献、归纳、总结、小组课堂答辩。同时,老师根据每个专题的小方向,给小组里每位学生单独布置不一样的课程论文,让每个学生独立查找资料,撰写小论文,教师批改,记录成绩,并选出优秀论文,让学生登台宣读。这样,既分工又合作,引导学生自主学习。
总之,作为一门年轻正蓬勃发展的学科,生物制品学缺乏其他成熟学科具有的丰富教学资源, 教师必须参阅大量有关著述与最新文献,不断丰富和更新知识,同时结合教学实际采用适当的教学方法,才能取得事半功倍的教学效果。
摘要:为了增强生物制品学理论课堂教学效果,作者在总结学科特点和教学原理的基础上,从优化教学内容、紧密结合生产实际、采用适宜的教学方法和先进的教学手段等方面入手,激发学生学习热情,增强课堂教学效果。
生物信息学中的序列比对算法 篇9
生物信息学是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白组学两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达结构与功能的生物信息。
生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析,也就是研究新的计算机方法,从大量的序列信息中获取基因结构、功能和进化等知识。在从事分子生物学研究的几乎所有实验室中,对所获得的生物序列进行生物信息学分析已经成为下一步实验之前的一个标准操作。而在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定,拼接,基因的表达分析,到RNA和蛋白质的结构功能预测,物种亲缘树的构建都需要进行生物分子序列的相似性比较。例如,有关病毒癌基因与细胞癌基因关系的研究,免疫分子相互识别与作用机制的研究,就大量采用了这类比较分析方法。这种相似性比较分析方法就称为系列比对(Sequence Alignment)。目前,国际互联网上提供了众多的序列比对分析软件。然而,不同的分析软件会得到不同的结果,同时所使用的参数在很大程度上影响到分析的结果。有时常常会由于采用了不合适的参数而丢失了弱的但却具有统计学显著性意义的主要信息,导致随后的实验研究走弯路。因此,生物信息学中的序列比对算法的研究具有非常重要的理论与实践意义。
序列比对问题根据同时进行比对的序列数目分为双序列比对和多序列比对。双序列比对有比较成熟的动态规划算法,而多序列比对目前还没有快速而又十分有效的方法。一般来说,评价生物序列比对算法的标准有两个:一为算法的运算速度,二为获得最佳比对结果的敏感性或准确性。人们虽已提出众多的多序列比对算法,但由于问题自身的计算复杂性,它还尚未得到彻底解决,是生物信息学中一个非常重要且具有挑战性的研究课题。
2 序列比对
比较是科学研究中最常见的方法,通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中,比对是最常用的研究手段。
最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比较,从而获得蛋白质折叠类型的信息。
序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点记录两个维上对应的两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是NeedlemanWunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法。
在进行序列两两比对时,有两方面问题直接影响相似性分值:取代矩阵和空位罚分。粗糙的比对方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法描述残基取代对结构和功能的不同影响效果。用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的替换矩阵,但国际上常用的替换矩阵有PAM和BLOSUM等。它们来源于不同的构建方法和不同的参数选择。对于不同的对象可以采用不同的替换矩阵以获得更多信息。
多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对多序列比对的研究还在不断前进中,现有的大多数算法都基于渐进的比对思想,在两两比对的基础上逐步得到多序列比对的结果。
多序列比对算法是生物信息学中的最基本算法,是生物体的进化分析、蛋白质的分析和预测等生物体研究的基础,具有重要的理论意义和使用价值。
3 序列同源性与序列相似性
序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。序列同源(homology)指的是序列来自相同的祖先,意味着这些序列具有相同的进化历史,而序列的相似性(similarity)指的是两序列在某参数条件下的相像,它可以用相同残基的百分比或是其他的方法来表示。序列之间的相似度是可以量化的参数,而序列是否同源需要有进化事实的验证,显著的相似性通常意味着同源。
序列比对是运用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基数,比对算法的结果在很大程度上反映了序列之间的相似性程度以及它们的生物学特征。序列比对根据同时进行比对的序列数目多少可分为双序列比对(pairwise sequence alignment)和多序列比对(multiple sequence alinment)。序列比对从比对范围考虑也可分为全局比对(global alignment)和局部比对(local alignment),全局比对考虑序列的全局相似性,局部比对考虑序列片断之间的相似性。如下所示。
全局比对:
在实际应用中,用全局比对方法企图找出只有局部相似性的两个序列之间的关系显然是徒劳的;而用局部比对得到的局部相似性结果则同样不能说明这两个序列的三维结构或折叠方式是否相同。
4 序列比对算法
在生物分子信息处理过程中,将生物分子序列抽象为字符串,其中的字符取自特定的字母表。字母表是一组符号或字符,字母表中的元素组成序列。如DNA序列由四种核苷酸组成,用“A”,“T”,“C”,“G”代表四种碱基,其复杂度为4,“CCATGCTAGAT”可代表一个简单的DNA序列。蛋白质序列由20中氨基酸组成,由{ABCDEFGHIKLMNPQRSTV WXYZ}代表不同的残基。“X”表示某个不确定的残基。“B”表示天冬胺或天冬胺酸,用三个字符表示“Asx”。“Z”表示谷氨酰胺或谷氨酸,用三个字符表示为“Glx”,其复杂度为23,“BEGSSTTNMABNNMA”可代表一个简单的蛋白质序列。因此生物序列比对可以看作字符串的比对。对字符串的编辑操作有以下三种:插入———在序列中插入一个或多个字符;删除———在序列中删除一个或多个字符;替换———用另一个字符替代某个字符。
4.1 序列比对基本定义
定义1序列是有限长度的字符串,序列中的字符由某个有限字符集合Ω确定。对于DNA,Ω={A,C,T,G}。对于蛋白质,Ω由20种代表氨基酸的字符组成。
定义2对于序列S,|S|表示S中字符个数。S[i]表示序列的第i个字符。S[1…i]表示序列的前i个字符组成的子序列。
定义3我们用“-”来表示插入和删除所产生的空位,则:
(1)(a,a)表示匹配(从序列S到序列T没有发生变化);
(2)(a,-)表示从S中删除字符a,或是在T中插入空位;
(3)(a,b)表示用T中的字符b替代S中的a,(a≠b);
(4)(-,b)表示在S中插入空位,是从T中删除字符b。
定义4对于x,y∈Ω∪{-},定义σ(x,y)为计分函数,表示x,y比较时的得分。以下是最简单的一种定义公式:
定义5 S和T的一个比对A用序列S和T中字符的一一对应表示,其中
(1)|S'|=|T'|;
(2)S',T'去掉空格就是S和T。
定义6序列比对A的得分为M,得分M越高表示序列的相似程度越高。
4.2 序列比对算法
Needleman-Wunsch算法是双序列比对的经典算法,其使用的是动态规划的基本思想。对于长度分别为m和n的两个序列S和T,构造矩阵T,矩阵T中的最后一个元素T[m][n]即对应于最优比对的得分,而最优比对本身则可以通过回溯算法得到。该算法的时间和空间复杂度均为O(mn)。
Smith-Waterman对Needleman-Wunsch算法稍加改动,使其可以计算局部最优比对,其所需的时间和空间复杂度仍是O(mn)。
Mayers和Miller使用Hirschberg提出的技巧在时间复杂度不变的前提下将空间约减到O(m+n)。
M.Crochemore等人对经典算法加以改进,提出了一个可以在O(n2/log n)时间内实现的双序列比对算法。其主要思路是对序列进行压缩编码,从而将序列分为若干段,从而将比对所构造的矩阵分为若干块来计算。后面的块的计算可以利用前面的块的结果在常数时间内计算得出。
除了利用矩阵来计算序列比对外,还有两种常用于序列分析的后缀队列Suffix Array和后缀树。
AVID是一个双序列全局比对算法,首先,用后缀树找出所有的最大匹配子序列,并在其中选择所有不重叠,不交叉的序列作为锚点。然后用锚点作为最后比对的一部分,在锚点之间的序列部分则递归的用此算法进行比对。
生物数据的信息量极大,序列比对的计算需要耗费大量的时间。由于进行算法可以大大地加快问题求解速度,近年来对该问题并行化的研究也引起研究者的注意。
在CREW-PARM模型上,Aggarwal和Apostolico等人独立地提出了一个O(log m log n)时间,使用mn/log m个处理机的并行算法;Mi Lu等人设计了两个并行算法;一个使用mn/logm台处理机,时间复杂度为O(log2m+log m);另一个使用mn/log2mlog log m台处理机,时间复杂度为O(log2m log log m)。
对于多序列比对问题,传统方法所采用的表示模型是行一列模型,即对于输入的多个序列插入空位并排列比对,使其达到相同的长度。对于N个序列S1,…,Sn,其多序列比对是一个新的序列集S'=(S1',…,SN'),S'的所有序列长度相同,并且每一个序列Si'由Si插入空位‘-’得到。如果将各序列在垂直方向排列起来,则可以根据每一列观察各序列中字符的对应关系。图1是6个蛋白质序列片断基于行-列模型的多序列比对。
多序列比对问题实际上是两条序列比对问题的一般化推广。但是由于DNA或蛋白质数据库容量的指数级增长,当比对的序列大大超过两个时,基于基本动态规划法的多序列比对算法的计算量是非常惊人的,这使得多序列比对这一NP难题变得更加复杂。因此,为了解决这一问题,许多近似算法和启发式算法被提出。以下介绍几种典型的多序列比对算法。
动态规划方法:给定k条长度均为n的序列,根据在两条序列比对中的动态规划算法的思想,需要计算一个K维的超级立方体,该立方体的尺寸为(n+1)k。在双序列比对的动态规划解决方案中,每一项(i,j)要由(i-1,j-1)、(i-1,j)和(i,j-1)这三项来决定,在这个超级立方体中的每一项要有2k-1个相邻的项来决定。这样该问题的时间复杂度是O((2n)k),空间复杂度是O(2nk)。
渐进比对算法:渐进比对算法是最常用的、简单而又有效的启发式多序列比对方法,它所需要的时间较短、所占内存较少。这个算法首先是Hogeweg和Hesper给出的,随后Feng和Doolittle对此做了进一步研究和改进。基于渐进比对算法并被广泛使用且成为多序列比对标准方法的软件有:Clustal W和T-Coffee等。渐进比对算法的基本思想是迭代地利用两序列动态规划比对算法,先由两个序列的比对开始,逐渐添加新序列,直到所有序列都加入为止。但是不同的添加顺序会产生不同的比对结果。因此,确定合适的比对顺序是渐进比对算法的一个关键问题。而两个序列越相似人们对它们的比对就越有信心。因此,整个序列的比对应该从最相似的两个序列开始,由近至远逐步完成。作为全局多序列比对的渐进比对算法有个基本的前提假设:所有要比对的序列是同源的,即由共同的祖先序列经过一系列的突变积累,并经自然选择遗传下来的。分化越晚的序列之间相似程度就越高。因此,在渐进比对过程中,应该对近期的进化事件比远期的进化事件给予更大的关注。由于同源序列是进化相关的,因此可以按着序列的进化顺序,即沿着系统发育树(指导树)的分支,由近至远将序列或已比对序列按双重比对算法逐步进行比对,重复这一过程直到所有序列都已添加到这个比对中为止。
渐进比对算法主要由三个步骤组成:计算距离矩阵;构建指导树;依据指导树进行渐进比对。
这类算法的主要优点是:简单、快速,但存在两个主要问题:比对参数选择问题和局域最小化问题。
迭代比对方法:这种方法是使用比对记分函数反复添加一附加的序列到已比对的比对序列中,首先在所有的两条序列比对中找出距离值最小的一组,组成最优比对,然后反复地找出与最优比对距离值最小的序列。与最优比对的表头文件进行匹配,并且根据所得的结果相应的修改最优比对和表头文件。
Clustal W算法:比对过程中,先对所有的序列进行两两比对并计算它们的相似性分数值,然后根据相似性分数值将他们分成若干个组,并在每组之间进行比对,计算相似性分数值。根据相似性分数值继续分组比对,直到得到最终比对结果。
当得到多序列比对后,需要对比对的质量进行评价,SP模型是评价比对优劣的最常用模型。设得分函数具有可加性,多序列比对的得分是各列得分之和,对于某一列字符的得分可用公式(3)进行计算,即某一列字符的SP得分为一列中所有字符对得分之和:
其中ci表示该列中的第i个字符,f(ci,cj)表示字符ci和字符cj比较所得分值。具体计算时,可以先对多序列比对的每一列进行计算,然后将各列得分相加,也可以先计算所有两两序列比对的得分,然后再将得分相加。这两种计算在f('-','-')=0这一条件成立下等价。
多序列比对的目标是:在计分机制确定的情况下,寻找使得比对得分最高的多序列之间的最优比对。可以证明,利用SP模型寻找最优多重序列比对是一个NP完全问题。
要获得给定的多个基因或蛋白质序列之间的一个正确的比对是一个困难的计算问题,其困难在于两个方面:一是如何根据包括结构信息在内的生物学意义对给定比对打分,即如何获得一个完美的目标函数(Obj ective Function简称OF);二是在目标函数确定的情况下,如何求得分值最高的最优比对。前者要依据生物学的知识和实际问题的需要来决定。假设已经求得的目标函数相当完美且简单,后者也将是一个非常困难的计算问题。
5 结束语
随着生物学数据的大量积累,对序列比对算法的敏感性和运算速度提出了更高的要求,对计算的挑战就令人生畏,序列比对中的主要困难就是如何研究和设计同时具备高敏感性和高速度的算法,序列比对算法研究仍然是生物信息学中一个非常重要且具有挑战性的研究课题,对序列比对算法研究具有非常重要的意义。
参考文献
[1]Katoh.K,Kuma.K,Toh.H.,and Miyata.T.MAFFT version5:improvement in accuracy of multiple sequence alignment[J].Nucleic Acids Research.2005,33(2):511-518.
[2]Morgenstern,B.Werner,N.,Prohaska,S.J.,Steinkamp,R.,Schneider,I.,Subramanian,A.R.,Stadler,P.F.,and Weyer-Menkhoff,J.Multiple sequence alignment with user_defined constraints[J].Bioinformatics.2004.
[3]Simossis.V.A,Kleinjung.J and Heringa.J.Hommology-extended sequence alignment[J].Nucleic Acids Research,2005,33(3):816-824.
[4]Zhang,M.,Fang,W.W.,Zhang,J,H.,and Chi,Z.X.MSAID:Multiple Sequence Alignment Based on a Measure of Information Discrepancy[J].Computational Biology and Chemistry,2005,29(2):175-181.
[5]Edgar,R.C.MUSCLE:multiple sequence alignment with high accuracy and high throughput[J].Nucleic Acids Research,2004,32(5):1792-1797.
[6]Edbert,R.C.,and Sjolander,K.COACH:profile-profile alignment of protein families using hidden Markov models[J].Bioinformatics,2004,20(8):1309-1318.
[7]T K Attwood,D J Parry-Smith著.罗静初,等译.生物信息学概论[M].北京:北京大学出版社,2001:141-145.
[8]张敏.生物序列比对算法研究现状与展望[J].大连大学学报,2004,25(4):75-78.
[9]张永,李其申,江泽涛,蔡虹.基于序列结构信息的多序列比对算法[J].微计算机信息,2007,23(21):240-242.
生物信息学数据库及运用分析 篇10
1 生物信息学数据库
生物信息学是建立在应用数学、计算机科学以及生命科学等多学科基础之上的交叉学科, 这门学科的主要任务就是探究如何高效地获取生物学信息, 对信息进行处理与分析, 存储信息以及应用生物学信息。数据库技术主要解决了将世界海量的生物学数据、已有的研究成果以及技术信息等收纳并存储在数据库中, 这样可以大大方便人们的生物研究与信息的查询与借鉴。
2 数据库的分类与特点
生物信息学数据库中的数据种类极为多样, 其数据库中的信息覆盖面也极为广泛, 数据信息很全面;数据库的信息更新速度快, 信息的内容更新的也很丰富;数据库的规模在不断地扩大, 数据库的复杂性也在不断增加;在使用上更加地网络化、便捷化。
2.1 一级数据库 (一次数据库)
在生物信息学数据库中的一级数据库主要包括了核酸和蛋白质一级结构序列数据库, 基因组数据库以及生物大分子 (主要为蛋白质) 的三维空间结构数据库, 通常称为基本数据库。一级数据库的明显优势就是在这个数据库中数据的信息量很大, 海量信息存储在数据库中并且数据每天都在增加, 数据的信息也会及时更新并且更新速度很快, 一级数据库的用户量也很多并且用户面也很广泛。因此以及数据库的建立是需要性能高的、磁盘的容量很大的并且拥有专门的数据库信息管理系统的计算机作为载体来支撑这些功能的完成。另外, 数据信息还需要一些大型的商业软件作为数据管理的支撑。例如, 在我国的生物信息学研究所中使用的是Oracle数据库系统, 这种软件管理系统可以较好地将数据进行管理与分类。研究所中针对基因组的数据库进行管理以及运行则主要是基于Sybase数据库系统来完成的。
2.2 二级数据库
所谓的二级数据库主要是以一级数据库以及文献资料为基础建立起来的数据库, 也称专业数据库。二级数据库相较于一级数据库, 其数据信息的容量也小得多, 数据信息的更新速度也相对要慢一些。二级数据库不需要大型的商业软件来支撑数据库的管理, 可以直接使用一些基本的浏览器, 如web浏览器。二级数据库有很多种类, 例如, 基于核酸数据库建立的二级数据库中有真核基因顺式调控元件和反式作用因子数据库的Trans Fac数据库, 以及真核基因启动子数据库EPD, 密码子使用表数据库CUTG等。基于三维空间结构为基础构建的数据库有蛋白质二级结构构象参数数据库DSSP, 已知空间结构的蛋白质家族数据库FSSP等。
3 生物信息学数据库的应用
3.1 序列的比较
所谓的序列的比较主要是指将两个序列中的各个元素放在一起然后按照对应等同的关系对元素进行有关的排列。对于两个序列中共有的那些排列顺序表示的是这两个序列的相似程度是较高的, 是对序列的一种较为定性的描述。对于最优的排列主要是反应在这两个序列中的最大相似程度以及最少相异处, 现在较为普遍寻找最优排列的方法是通过动态的规划算法来寻找最优序列。一般来说, 对于一个新的序列以及数据库中的某个序列的比较是可以在非常短的时间内就可以比较出来的, 但是由于基因数据库中的数据极为繁多, 因此在这个序列中的比较会相对花费较长的时间才可以比较出来, 尤其是逐个对比的时候, 所需要的时间更长。所以, 现在对于基因数据库中的序列的比较主要是使用搜索计较算法来进行序列的比较。另外, 关于序列的搜索主要是有两种使用较为普遍的使用程序, 一个是BLASR程序, 另外一个是FASTA程序, 这两个程序在实践应用中是比较成功的, 其可以根据给定的序列, 然后在基因数据库中快速地找出一些同源的序列, 进而提高搜素与比较的速度。例如, 在BLASR这个程序中主要使用的是一种对于序列的数据进行局部的对比与分析, 这可以较快找出一些同源的序列, 然后进行比较找出较优的序列, 因为这种程序可以较快提高比较速度, 软件的使用性能也不错, 因而在实践中应用度较广。
3.2 数据挖掘技术
随着生物信息学的数据库的数据在飞速增长, 怎样在海量的信息中提取出用户需要的信息成为一个问题的关键, 也是在生物技术信息数据库的应用中需要解决的一个问题。另外, 如何在已有的数据信息中以及从基因数据库中识别出编码的蛋白质的基因, 如何对识别的基因进行多种信息的表达与控制, 如何解读出生物的遗传密码, 分析出蛋白质的相关结构以及功能等都是需要面对以及解决的问题, 也在当下生物信息学数据库中面临着的比较棘手的困难。针对上述问题, 在实践应用中比较常用的是一种数据的挖掘技术。这种信息挖掘技术可以高效地从数据库的海量信息中挖掘出有效的信息或者生物知识。这种数据挖掘的技术主要就是从数据库中这些海量的信息、随机的信息数据中提取出一些人们以前不知道的但确实是有用的信息来提供给用户使用。用户通过这种技术可以高效地找出自己需要的信息与知识, 因此这种技术具有很强的应用性, 值得推广与应用。
4 结束语
关于生物信息学数据库以及应用方面还有很多需要探究的方面, 本文主要是对其进行了一些简单的介绍, 并没有很详细的延展开来, 需要在今后继续分析与研究。但可以肯定的是很多的生物技术的研究都是需要数据库的支撑来促进世界生物技术的发展与进步。
参考文献
[1]赵屹, 谷瑞升, 杜生明.生物信息学研究现状及发展趋势[J].医学信息学杂志.2012, 33 (5) :2-6.
生物信息专业英语教学浅思 篇11
托尔斯泰说过:“成功的教学所需要的不是强制而是激发学生兴趣。”众所周知,在学习过程中,“兴趣就是最好的老师”。好之者不如乐之者。许多学生不愿学英语,关键是他们对英语没有兴趣。只有提高学生的学习兴趣,学生学习的积极性才能越高,学习效果也就就越好。那么现今大学英语课堂存在着哪些通病呢?
以教师为中心的“讲座式”课堂教学 :现在我国大学英语主要教学形式是以教师为中心的讲座式教学。教师按照教学大纲的要求执行教学计划,在规定的 时间内完成教学任务。由于内容多,学时有限,有时几乎近似于“填鸭式”,在这种情况下,大学英语课堂就不可避免地表现出:课堂气氛沉闷,学生参与的意识非 常淡薄。经常是老师在前面讲的津津有味,学生在底下却心不在焉,不知所云。有很多同学甚至课外作业和预复习工作都不能完成。 学生课外接触英语的机会少 : 首先,英语被大部分学生看成一门课程,而没有把它看作一种交际方式。根据第二语言学校理论,当学习者完全置身于语言 环境之中才会出现最有效的语言学习。现在的大学生学习英语,通常发生于课堂或在家的自学,英语老师是本国人,他们是唯一与学生用英语交流的人,学生缺乏与 外国人交流,真正把英语作为一门语言来看待。 其次,由于学校资金问题,没有足够的西文书籍、杂志、音像资料供学生借阅查看,如果学生自己不购买一些英语报刊的话,那他们每天面对的就只有一本大学英语教科书。基于以上原因,导致了学生缺乏学习英语的兴趣,换言之,大学英语课堂对学生来说没有吸引力,缺乏趣味性。
面对现今的大学英语教学现状,为了激发学生的求知欲望,尤其是对于生物信息专业英语的求知欲望,达到专业英语教学的大纲目的,应该从听、说、读、写几个方面分别去找出原因所在,并且认真的思考解决的办法。这样才能真真切切地贯彻专业英语学习的方法,到达为以后生物信息专业学习夯实基础的目的。
一、听力教学
目前大学英语教学中四六级的考试已经成为一个重要的核心,四六级考试也同样是检测大学英语教学的一个极为重要的手段。大学英语教学主要是培养学生听说读写的运用能力。然而在现实的听力教学中却没有取到令人满意的效果,尤其是生物信息专业英语教学的听力材料理解。主要原因有以下几点:
1、大学英语听力教学,两周一节的听力课,基本上对学生的听力提高起不到什么作用。生物信息专业词汇日常积累不够,使得学生很难完全理解听力的内容。
2、学生入学时的英语基础不一样,教师在教学过程中对基础层次不同的学生不能兼顾,最终可能导致基础稍差的学生生更差;而使基础好的同学,能力也难以得到提升。
针对以上问题我的解决方法是,在日常的教学中除了必须的科研论文讲解以外,会穿插着给学生们播放一些英文电影和世界顶尖级科学家的访谈,鼓励引导学生多了解科研领域内发生的大事件。这样把英语的听力教学融入到一个真实有声的环境中,会吸引提高学生的注意力,激发他们运用英语来听说读写的欲望。
二、语法教学
在语言学家们看来,语法被称为语言作用的条框与支架。没有语法,世界上就不会有这么多优美的句子。同时,语法也是一个通用规则,让不同的人群可以阅读其他人的思想。掌握语法的熟练程度决定着一个人运用语言的能力,可见语法的重要之处。然而,在学习中许多学生对语法掌握的并不盡如人意。究其原因主要是:在中学里,学习的语法内容浅显而且比较少,很多比较难的语法又不作要求,或者不划为考试重点,使得老师讲课时粗略带过。
针对该问题我的解决方法是:
1、教师本身要强化语法意识,很多教师自身的语法意识都被淡薄了。同时,教师要尽可能多地与学生进行互动,提高学生学习语法的积极性。将课堂学习的课文换成国外著名期刊已经发表的论文,更有助于同学深刻理解专业英语的内涵和语法习惯。
2、让学生多了解一些外国文化背景。对于语言习惯和文化背景的深刻理解,使得学生在翻译时自然会如鱼得水般的顺畅。
三、语音教学
语言是由语音、词汇、语法构成的,而语音是其重要组成之一。对于一门语言来说,语音的学习是至关重要的,不能掌握好语音,就不能说一口流利好听的英语。然而,现实中许多大学生的口语水平普遍不高。造成这一现象的原因有:语音教学比较枯燥,很多学生提不起学习语音的兴趣;很多大学教师并不注重语音教学,学生日常很少进行口语交际,造成哑巴英语现象日益严重等等。
针对以上问题我的解决方法是:
1、每节课开始的时候提出一个主题,教师同学生一同探讨,联系标准的发音和边聊表说的思考模式。有些学生会因为口语太差,上课不敢开口,老师应带动学生一起给予鼓励支持,争取让每一个学生都有发言的机会。
2、课下多组织一些趣味聊天活动,增加学生锻练口语的机会,同时也提高学生的竞争意识。
3、多组织一些英语口语公益讲座,让学生明白口语的重要性,同时鼓励学生去参加专业知识性的英文讲座,调动起学生学习英语的积极性。
四、写作教学
在大学的英语教学中,写作是一种很重要的媒介使人们相互间用英语进行交流和沟通。尤其是科研写作,他们全世界科学家共享,分享科研成果,并且进行学习和交流的一个重要工具。写作水平的高低可以检测一个学生的英语综合能力的高低。然而在实际教学中,学生的写作水平并没有相应提高,反而处于一种停滞和徘徊不前的状态。究其原因主要是:没有系统的写作方面的教材;对写作水平要求重视不够;没有充分的写作训练。
因为这些不良因素,提出以下几点解决方法:
1、在日常教学中,把写作教学融入进去,有规律地进行科研命题写作,让其成为英语教学计划的有机组成。在实践中有机的把它们结合起来训练。
2、打造一个详细的写作教学方案,帮助学生进行系统的写作训练。
生物信息学专业 篇12
生命科学的迅猛发展使人们从基因组学、蛋白质组学等研究领域中获得了大量的数据[1]。但数据并不等同于信息和知识,而是信息和知识的源泉。如何收集、存储和分析这些数据,尤其是如何从不连贯的数据中获取有用的生物学信息,仅仅依靠传统的数理统计手段是难以解决这些问题的。
伴随着蛋白质组学和基因组学研究的发展,生物信息学(bioinformatics)应运而生[2]。生物信息学以数学理论和计算机技术为主要手段,应用软件和计算机网络为主要工具,通过对海量的原始数据进行收集、存储、管理、分析、注释、加工和处理,从而获得新的知识。通过将数据挖掘和信息处理技术应用于临床医学数据,生物信息学在医学基础研究和临床实践领域都发挥了巨大的辅助和推动作用。将生物信息学的方法应用到质谱数据的挖掘,可以很大程度上提高疾病预测的准确度,并提高分类效率。
本文在查阅大量文献的基础上,综述了质谱分析的生物信息学方法,并分析、对比了几种代表性研究方法的优劣。
1 质谱分析的主要方法
数据挖掘[3]是从大量、不完整、有噪声、模糊、随机的数据中,提取隐含在其中人们事先不知道的、但又是潜在有用的信息和知识的过程。而质谱分析的目的在于从原始质谱数据中提取有用信息,为临床疾病诊断和个体化治疗方案的确定提供决策性建议。从信息学角度讲,属于数据挖掘范畴。
质谱分析的方法有很多,每种方法都有自己的优点和不足之处,到目前为止还没有一种普适的方法。比选择分类方法更重要的是熟悉选定的方法,以保证其正确和合理使用。通常需要根据主观标准来进行选择,如研究人员的经验和科学背景等。
目前,质谱分析主要有决策树模型(Decision Tree Analysis,DTA)[5]、偏最小二乘法(Partial Least Squares,PLS)、人工神经网络(Artificial Neural Networks,ANN)[6]和支持向量机(Support Vector Machines,SVM)[7]等几种方法。根据是否具有记忆和学习功能,可分为非智能算法(DTA、PLS)与智能算法(ANN、SVM)两类。
在进行质谱数据分析前,首先需要对数据进行预处理,为高质量的挖掘结果打好基础。
1.1 质谱数据的预处理
“预处理”一词给人的印象是处理一系列主要分析的次要前期阶段。然而,预处理阶段有其特殊的重要性,因为它影响到数据处理后期阶段的特定编码格式的选择。选择正确的编码格式,可以大大降低后续处理的计算量,提高分析的能力和效率。
迄今,还没有一种通用、公认的方法读出谱线。目前常用的读出谱峰的方法有:幅值法、一阶导数法和二阶导数法。信噪比大的明显的谱峰,由平均质量和强度最高值检测和表征(图1A)[4]。这里所说的“质量”,实际上是“质荷比”[8]。
如果不同谱线的峰值对应相近的质量,谱线的峰值就会互相配合并集群,这就是所谓的谱峰聚类(图1B)。峰值完全依靠谱结构分组。每个高峰聚类对应于一个质量区间,由一个特征性的质量来描述,如某一集群中众多谱峰的平均位置所对应的质量。按照谱峰的最大强度值读出所有的谱线。
峰值的自动检测和聚类往往同步进行。在峰值检测的第一步,峰值都是独立地由单一质谱决定的。谱峰聚类后,单一质谱依据较严格的标准被再次分析,从而最初遗漏的信噪比较小的峰值将被发现,也就是说一个峰值如果存在于许多谱中,那么它也很有可能存在于一个谱中。在图1中,右侧标记“×”的极大值被其他谱证明,而左边极大值的则得不到证明。峰值检测和聚类通常分两个步骤进行:第一,峰值自动检测和集群;第二,根据检查结果,由有经验的工作人员手动调整。
1.2 决策树模型
1.2.1 模型原理
决策树模型是一种阶梯式划分数据(图2)的算法。从给定的样本数目基本一致的两个数据集开始(图2A,顶部)(例如两组分别来自健康人和病人的血清质谱的峰丛强度),通过从不同类别中将病例分离,检查所有可能的特征截断值的用途。两个数据点之间的每个特定功能的截断,对应于两个分类器:一个分类器将数值小(大)于截断值的样本分配到“白(黑)”类中,另一个功能相反的分类器将数值低(高)于截断值的样本分配到“黑(白)”类中(图2A,中)。判断截断是否有效的依据是正确归类病例的数目。用所有测得的功能检查所有不同的截断后,选择最有用的截断/特征对。在图2A(下)中,最有用的切断标记为“*”,该截断生成的分类器只有3个错误分类的病例。从而,可获得优化的同质类中的子数据集,例如图2B中的子数据集I和II。数据分区的过程反复进行,直到获得的同质类(Class homogenous)的子数据集的大小可以接受。图2B显示了一个连续应用两个截断的例子,最后产生三个子数据集,记为“终端节点”I-III。
决策树生成中的核心问题是“过拟合”现象。决策树过于拟合实际数据集,因而对于未曾发现的数据很可能是不适合的。
研究只对非过度拟合的决策树感兴趣。非过拟合决策树的分类标准并不代表实际数据集的特性,而是潜在患者群的典型特征。如图3 A,在单一的决策树中使用许多分裂标准,生成树所使用的数据集的错误分类的数量可以减少到零。然而,只有最初的几个准则可以推广到无形的数据。
可以通过停止准则防止过度拟合。停止准则,即决策树生成过程中当遇到某一标准时,则停止生成,例如,当所有终端节点少于5例病人时。交叉验证是估计最佳分裂标准数量的一种很好的方式(图3B)。通过选择各自的测试集上整体分类错误最少的树的结构,可以获得决策树的最佳截断个数。
1.2.2 模型举例
(1)研究[15]表明,发明蛋白质芯片飞行时间质谱系统,根据各蛋白质峰的质荷比(m/z),采用决策树算法,建立一个决策树的蛋白质指纹图谱模型;将检测人血清中相应的蛋白质的质荷比与本发明的模型进行分析,就可以初步用于肺癌诊断,其预测准确率为71%。
(2)研究[16]表明,分类决策树模型的交叉验证(测试组)总准确率为81.8%,ALN有转移的乳腺癌患者检出率为83.3%,ALN无转移的检出率为80%,构建的分类决策树模型能达到区分ALN是否有转移的最佳效果。
1.3 偏最小二乘法(PLS)
偏最小二乘法(Partial Least Squares,PLS)是一种适合处理变量数很大的建模方法,具有较强的提供信息能力,在分析化学中得到了广泛的应用[11,12]。PLS变量筛选法是在PLS回归法基础上作变量筛选的[9]。
1.3.1 PLS回归法原理
PLS法是一种研究两个数据块或矩阵和相关关系的方法。在该方法中对数据矩阵实施序列的正交变换:
其中h为隐变量的个数。在变换过程中,使得到的矢量ti与对数据矩阵变换得到的矢量ui=Yqi的协方差为最大值。具体PLS正交变换算法见文献[10]
式(1)可写为矩阵的形式:
PLS回归模型为:
将(2)带入(3),可得:
因此,PLS回归法的模型系数由(4)得:
其中,隐变量的个数或矩阵中变量的个数小于矩阵中变量的个数。
2.3.2 PLS变量筛选法原理
PLS变量筛选法是在PLS方法技术上发展起来的一种变量筛选法,能提取成分复杂的图谱信息,且可以避免谱图数据共线的问题。预测能力强且模型相对简单。
在PLS变量筛选法中,首先用PLS法对含有全部变量的数据处理,建立一个预报稳定性较高的模型。在此基础上,利用其中回归系数等有关信息进行变量筛选。主要采用以下判据删除影响不大的变量:
△Ei表示当删除第个变量时,PLS回归模型的拟合误差增加值;T为PLS法得到的正交矩阵,矩阵(TTT)-1为对角矩阵,较容易计算;R是PLS正交分解得到的矩阵,而矢量1i为第1i个分量为1、其余分量为0的一种特殊矢量;bi为第i个变量对应的回归系数。在PLS变量筛选法中,主要是删除那些△Ei值很小对应的变量。
1.3.3 模型举例
⑴研究[17]中,Goncalves等应用SELDI-TOF-MS研究了81例早期乳腺癌患者的血清蛋白质组图谱,其中40个蛋白质在有转移组和无转移组中有显著性差异表达。采用偏最小二乘法,最终得到了一个由40个蛋白组成的蛋白质组预后预测图谱,其预测的敏感度和特异度分别是87%和76%。血清蛋白质组学在乳腺癌预后预测中得到应用。
⑵研究[9]表明:肝癌病人和健康人的血清蛋白质指纹图谱数据,经过数据预处理、PLS变量筛选法建立分类模型,模型CR值达到0.9611,100个样本完全判断正确。
1.4 人工神经网络模型
人工神经网络(Artificial Neural Networks,ANN)模型的研究目标,是通过研究人脑的组成机理和思维方式,探索人类智能的奥秘,进而通过模拟人脑的结构和工作模式,使机器具有类似人类的智能。应用到医学数据处理上,就是通过建立模型,找出血清蛋白质谱中表征健康或疾病的信息。
感知器(perceptron)模型是一种最基础的神经网络模型。在感知器模型的基础上,发展出了反向传播(Back Propagation,BP)神经网络、自组织映射(Self-Organized Mapping,SOM)神经网络等模型[12]。
BP神经网络可以处理共线性效应和变量间交互作用,善于处理非线性的、模糊的、含有噪声的数据情况,且理论基础牢固,物理概念清晰,通用性好。SOM神经网络是无监督竞争式学习网络,通过学习能够提取待处理数据中的某种内在规律,并按离散时间方式进行分类,大大减弱了一致性准则中的人为因素。神经网络的局限性在于,建立在渐进理论的基础上,需要无穷多的样本才能较真实的模拟样本的分布函数,而实际上所得的样本都是有限的。
1.4.1 反向传播模型原理
反向传播模型也称B-P模型,是一种用于前向多层的反向传播学习算法。所以将其称作反向学习算法,是因为在修改各人工神经元的连接权值时,所依据的是该网络的实际输出与其期望的输出之差,将这一差值反向一层一层的向回传播,来决定连接权值的修改(图4)。
B-P算法的学习过程如下:
(1)选择一组训练样例,每一个样例由输入信息和期望的输出结果两部分组成;
(2)从训练样例集中取一样例,把输入信息输入到网络中;
(3)分别计算经神经元处理后的各层节点的输出;
(4)计算网络的实际输出和期望输出的误差;
(5)从输出层反向计算到第一个隐层,并按照某种能使误差向减小方向发展的原则,调整网络中各神经元的连接权值;
(6)对训练样例集中的每一个样例重复(3)~(5)的步骤,直到对整个训练样例集的误差达到要求时为止。
1.4.2 自组织映射模型原理
自组织映射神经网络是聚类分析中广泛使用的一种高维可视化的无监督学习算法,是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。SOM网络由输入层和竞争层(输出层)组成,且两层之间是全连接的(图5)。目前,SOM算法已被广泛应用于众多信息处理领域,在血清蛋白质谱分析中也发挥着很大作用[13]。
SOM算法的学习过程如下:
将网络中各输入神经元与竞争层神经元的连接情况抽出,设网络输入模式为:
竞争层神经元矢量为:
其中式(7)的Pk为连续值,式(8)的Aj为数字量。竞争层神经元j与输入层神经元之间的连接权矢量为
1.4.3 模型举例
⑴研究[18]采用BP-ANN算法,建立并存储诊断模型、预后模型。诊断模型对大肠癌的诊断灵敏度和特异度分别为82.22%和80.45%,阴性预测值94.74%,阳性预测值51.39%,准确度为80.80%。预后模型通过回验,证明该模型的检验符合率为62.96%。
⑵在研究[14]中,对所有质谱数据用SOM-ANN进行特征选择(网络为6*6,迭代次数为1 000次),按权值大小挑出权值大的那些特征,对权值相同的特征挑出其中一个。在卵巢癌质谱数据的实验结果中,当特征维数选择为5左右时,SOM的识别率达到了87.2%,是一种有效的特征选择方法。
1.5 支持向量机
支持向量机(Support vector machine,SVM)是一种新型模式识别方法,它能根据有限的样本信息,在研究对象模型的复杂性与分类器的学习能力之间寻求最佳的折中方案。理论上,支持向量机算法得到的是全局最优点,解决了局部极值问题。该算法将实际问题通过非线性变换转换到高维的特征空间,巧妙地解决了维数问题,使算法复杂度与样本维数无关。但是支持向量机算法的核函数选择困难,且算法的复杂性导致训练速度较慢,不宜解决大规模的分类问题。
支持向量机刚主要用于解决数据分类问题,分类问题中最常见的是线性可分问题(图6左)、大约线性可分(图6右)、线性不可分情况(图7)[14]。
1.5.1 模型原理
SVM的基本思想是根据结构风险最小原理,寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即构造一个分类函数,将两类样本尽可能地区分开来,使得分类平面两侧的余裕(margin)尽可能最大(图8)。
图8中十字和圆圈分别代表两类训练样本点,分类线H能把两类正确的分开,H1、H2平行于H,且分别通过两类样本中离分类线H最近的点。H1、H2之间的距离叫两类的分类空隙或分类间隔。
1.5.2 模型举例
⑴本研究[19]中应用非线性的SVM分类器(nonlinear SVM classifier),在此基础上分别应用1 000次5倍交叉验证和“留一法”交叉验证两种方法,并建立评价模型。经过计算筛选出最佳组合是:3 932m/z+5635 m/z,即由这两个蛋白质峰构建的模型可达到对乳腺癌患者的最佳检测效果。
⑵研究[14]表明,脑良性肿瘤样本较少,用SVM模型可以使这样的小样本具有较好的推广性。在研究生物信息学方面,选择了“留一法”SMV分类器简历评价模型,可以筛选出在胶质瘤和脑良性肿瘤及健康对照中表达有差异的新的潜在生物标记,并且可以建立检测胶质瘤敏感性和特异性都很高的判别模型,为胶质瘤的诊断提供了新的方法。
2 质谱分析的发展趋势及前景展望
高通量检测技术的进步,使原始蛋白质表达谱的采集得以实现,但随之而来的是后续分析、处理技术和方法的新挑战。使用得当的话,质谱分析的结果可应用于疾病预警或者检测,为个体化治疗方案的制定提供支持。
本文综述了质谱分析的几种主要方法:决策树模型、偏最小二乘法、神经网络模型和支持向量机。对分析方法的基本原理、适用范围、优势和不足之处做了具体论述,并分别给出疾病诊断的实例加以说明,展现了质谱分析方法对疾病判别和预测的重要作用。
综上所述,通过对临床血清蛋白质谱数据库的原始数据开展分析,可以发现与疾病诊断或健康状况预警相关联的特征信息,提示或协助临床诊断和个体化治疗方案的确定,对人群健康分析和疾病预警的实现具有重要的指导意义。研究人员将在改进现存方法的基础上,创新质谱处理方法,寻找生物信息学和临床诊断间的契合点。
摘要:蛋白质谱具有复杂、数据量大等特点,采用一般的统计学方法难以得到满意的疾病预测或分类结果。文从生物信息学的角度出发,综述了质谱数据挖掘的决策树模型、偏最小二乘法、神经网络模型和支持向量机几种主要方法,并对不同的方法给出了疾病诊断的实例说明,体现了质谱分析方法对疾病判别和预测的重要作用。