医学数据

2024-05-17

医学数据(精选10篇)

医学数据 篇1

1. 前言

随着医学信息化的飞速发展, 在医疗卫生领域中有大量关于病人的病史、诊断、检验和治疗的临床信息, 以及药品管理信息、医院管理信息等医疗信息可以被精确地记录下来, 从而导致医疗数据资料呈爆炸性增长, 促进了医学信息的数字化、自动化和智能化应用和研究的快速发展。在这些激增的数据背后隐藏着许多重要的信息, 如何从这些海量的医疗数据中, 挖掘出有用的信息, 为了解各种疾病之间的相互关系和各种疾病的发展规律、为疾病的防控、为诊治方案的总结优化等各方面提供科学依据, 这将对疾病的防控、诊断、治疗和医学研究的发展具有重大意义。

2. 医学数据挖掘概述

2.1 医学信息的特点

2.1.1 数据类型的多样性

医学中的数据类型多种多样, 如电子病案中关于人口学特征的数据为纯文本型, 检验科中有关病人生理、生化指标为数字型。影像科中如B超、CT、MR、X光片等图像资料, 如肌电、脑电等信号数据。医学数据的复杂性要求与之适应的数据挖掘方法学的研究。

2.1.2 动态性

很多医学数据如脑电图、心电图的检测数据呈非规则的波形、血压、心率等数据与时间呈函数关系;某些疾病病人的门诊、急诊、住院就诊与季节、地域有时间序列关系。

2.1.3 冗余性

医学数据呈指数增长并不意味着与信息呈正比, 有大量与诊疗及管理无关的数据, 需要与之相适应的数据整合、特征提取等方法。总之医院数据的多样性及特殊性, 需要该领域方法学的研究。

2.2 医学数据挖掘的关键技术

医学数据的特点使得医学数据挖掘与常规的数据挖掘之间存在较大的差异, 医学数据挖掘的关键技术如下:

2.2.1 数据预处理

医学数据库中含有海量的、不同来源的原始信息, 其中包括大量模糊的、不完整的、带有噪声和冗余的信息。在数据挖掘之前, 必须对这些信息进行清理和过滤, 以确保数据的一致性和确定性, 将其变成适合挖掘的形式。

2.2.2 信息融合技术

医学信息是由文字、数据、波形信号、图像、以及少量的语音和视频信号组成。对这些不同物理属性的医学数据, 应采用不同的技术和措施进行处理, 使其在属性上趋同或一致, 再对处理的结果进行综合。医学信息的多源性、时序性和非时序性数据共存、数字型数据和非数字型数据共存的特点, 加大了信息融合的难度。

2.2.3 快速的、鲁棒的挖掘算法

医学数据库是一个涉及面广、信息量大的信息库。要在这样庞大的数据库中提取知识, 需要花费比其它数据库更多的时间, 因此必须考虑医学数据挖掘的效率问题。研究快速挖掘算法对于远程医疗和社区医疗具有更深远的意义, 将直接影响其响应速度和医疗成本。同时, 医学数据库的类型较多, 并且又是动态变化的, 要求挖掘算法具有一定的容错性和鲁棒性。

2.2.4 提供知识的准确性和可靠性

医学数据挖掘的主要目的是为医疗活动和管理提供科学的决策, 因此必须保证挖掘算法所提供的知识具有较高的准确率和可靠性。如何降低医学数据挖掘过程中的风险, 提高挖掘结果的准确性和科学性, 是医学数据挖掘能否得到实际应用的关键所在。

3. 医学数据挖掘国内研究现状

用数据挖掘方法抽取医学数据中的趋势及规律性, 可以辅助医务人员快速准确地诊断、预测、监控和确定最优的治疗方案。目前, 数据挖掘已经运用在很多医学应用领域中。

3.1 医院信息系统中的应用

目前医院信息系统大多停留在医学数据库的低层次应用上缺乏对数据的集成和深层分析更谈不上对医学知识的自动获取。在激烈竞争的医疗市场中管理人员需要分析各类病人的行为模式、需求与偏好、忠诚度与满意度;基于病种病例分型模式构造、门急诊量的预测、成本效益分析等。总之, 对于医院科研水平和服务质量的提高, 数据挖掘技术的研究与应用有很旺盛的生命力[7]。

3.2 疾病诊断、预测

数据挖掘可以通过对患者大量的数据资料的处理, 挖掘出有价值的诊断规则, 建立预测模型, 再对这个模型进行测试训练得到合适的算法模型, 利用这种模型可以辅助临床医学诊断。挖掘技术已应用于胸痛发展结果的预测诊断、ICU应急诊断、类风湿类型的辨别诊断、乳腺疾病的诊断、胎儿早产的诊断、肝病分类诊断、急性阑尾炎分类等诊断。

利用数据挖掘确定某些疾病的发展模式, 根据病人的病史预测病情的发展趋势, 从而可以有针对性的预防疾病的发生。如借助数据挖掘技术中的贝叶斯 (Bayes) 网络技术, 结合中医理论、专家经验及其它各种统计方法来研究抑郁症的中医证候规律[1];

3.3 医学图像挖掘

医学图像 (如CT、MRI、PET等) 是利用人体内不同器官和组织对X射线、超声波、光线等的散射、透射、反射和吸收的不同特性而形成的, 它为对人体骨骼、内脏器官疾病和损伤进行诊断、定位提供了有效的手段。医学领域中越来越多地使用图像作为疾病诊断的工具。理论上图像数据挖掘是数据挖掘的分支, 但是由于挖掘对象的复杂性, 自2000年召开第一届多媒体数据挖掘年会至今, 这方面研究尚未形成完整的理论框架和技术方法, 仍处于探索阶段。孙蕾等人利用数据挖掘技术, 针对乳腺影像数据库开发了相应的计算机辅助诊断系统[4].

3.4 生物信息学---DNA分析

人类基因组计划的开展随之产生了巨量的基因组信息, 区分DNA序列上的外显子和内含子成为基因工程中对基因进行识别和鉴定关键环节之一。如何建立良好的系统模型将基因组数据进行有效地存储、分析和挖掘, 仍是难题。使用有效的数据挖掘方法从大量的生物数据中挖掘有价值的知识, 提供决策支持。目前已有大量研究者努力对DNA数据分析进行定量的研究, 从已经存在的基因数据库中得到导致各种疾病的特定基因序列模式。一些DNA分析研究的成果已经导致了许多疾病和残疾基因的发现, 以及对疾病的诊断、预防和治疗的新药物、新方法的发现[6]。

3.5 在中医药领域中的应用

当前在中医领域, 数据挖掘应用最广泛的是在中药 (复方) 的研究中, 并已经取得了一定的进展。对中医药来说, 大量治疗同一病症的复方里面必定蕴含着对疾病认识和治疗的科学规律, 有些规律已经被掌握了, 如一些治法和治则等, 也有些更深层次的规律需要从中挖掘出来, 而数据挖掘作为一种高级的信息处理技术, 可以在一定程度上帮助人们发现和认识那些隐藏的模式和规律, 如搜寻临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。国内秦中广等将粗糙集理论应用于中医类风湿的诊断, 大大提高了诊断准确率[5]。北京中医药大学利用数据挖掘技术开发的中医处方智能分析系统[8].

4、结束语

医学数据库的信息量非常庞大, 且其数据和其他类型的数据相比, 又具有自身的独特性。要想充分利用丰富而宝贵的医学资源, 服务于医学、受惠于患者, 必须选择适合医学数据类型的数据挖掘工具及挖掘技术, 尽可能大的发挥数据挖掘技术在医学信息获取中的价值, 为医学的发展开辟了一条新的途径。

参考文献

[1]包祖晓.基于贝叶斯 (Bayes) 网络技术的抑郁症中医症候规律研究, 北京中医药大学博士学位论文.

[2]JHan, MKamber.范明, 孟小峰译.数据挖掘概念与技术.第二版.北京.机械工业出版社.2007.146一176

[3]张万水, 陈利国, 黄运坤, 陈咏梅, 王凤珍.数据挖掘技术及其在中医遣方用药规律中的应用[J].辽宁中医药大学学报.2006.8 (04) :62一63.

[4]孙蕾.医学图像智能挖掘关键技术研究.西北工业大学博士论文.

[5]秦中广.粗糙集在中医类风湿症候诊断中的应用[J].中国生物医学工程学报.2001.20 (4) :357~363.

[6]程建国.神经网络在基因序列预测中的应用研究[J].微计算机信息.2008.24 (11) :264~265.

[7]徐元熙.数据挖掘在医院信息系统中的应用研究[J].微计算机信息.2008.24 (11) :188~190.

[8]汤尔群.基于数据挖掘方法的《伤寒论》非衡量器药物剂量研究[J].中国中医药报2009.16 (10) :90~93

医学数据 篇2

来源: diyipaper.com

1.引言

云计算的出现,使建立医学云成为可能,以云计算为基础的医学数据中心应成为主要的模型趋势,即本文所称的云式模型.当然,随云而来的问题也很多,包括云计算实现技术问题,云价值及计费问题云计算的安全性问题,数据和交换标准问题,以及相关的法律法规建设问题等等.这些问题既于云计算技术相关,也存在着特定于医学数据中心的性质.所以,医学数据中心的发展与云计算的发展息息相关,相互促进.云式医学数据中心将随着云计算技术的发展而逐渐成为主流的医学数据中心模型。

2.云计算从2007年至今,人们开始逐步认识云计算,IT界对云计算给信息产业乃至整个世界将带来的变革性影响拥有共识,但对云计算本身的定义却存在不同的意见,归纳起来有下面几种:

云计算是一种新出现的计算模式,它能高效部署应用程序,并以低价敏捷响应业务需求.云计算是一种计算风格,其基础是用公共或私有网络实现服务、软件及处理能力的交付。

云计算的重点是用户体验,而核心是将计算服务的交互与底层技术相分离。

云计算是通过互联网交付的服务,是指通过数据中心提供这些服务的硬件和软件系统.云计算是以大规模数据中心为代表的物理门户,这些物理门户是IT业务基础架构的主干。

抽取关键因素,云计算的实质是建立数据中心,实现数据的存储和计算,以互联网为基础提供基础架构、平台或软件的有偿服务.云计算就像是信息公用电厂,接人云的需求者,不必购买硬件设备,不必购置、安装软件,不必建立或维护私有数据中心,可以付费方式获得云提供的各种计算服务。这种服务是多层次的,包括基础架构的服务、平台的服务和软件的服务等多个层次.云集中体现了IaaS(Infrastructure as a Service),PaaS(Platform as a Service)和SaaS(Software as a Service).应该说,对云计算而言,一切是服务,服务是一切。

3.医学数据中心现代文明国家,必须具备完善的国家健康信息系统,依赖之为国民提供医疗、健康保障.建设国家健康信息系统的首要问题是创建国家医学数据中心,而国家医学数据中.ZIS域医学数据中心为基础和初级阶段.就我国的现实情况而言,首先需要创建区域医学数据中心。

当前医疗信息化建设的主要问题是各个区域内不同医疗机构中患者的基础信息和各种临床信息资源分散、重复、孤立,导致有效信息闲置、信息重复不一致、单一局部的信息造成片面的诊断印象等等.断裂的信息链致使难以实现数据一知识.行为的信息利用机制,难以落实用数据说话的科学工作模式.同时,医学信息中缺失健康人群的基础数据的存储,难以为突发重大灾情或疫情时实施有效、有力的措施提供数据基础.缺乏信息整合致使整个医疗信息的使用消耗高、效率低、效果差。

问题的核心在于医院信息化建设的实施主体或者覆盖范围具有很大的局限性,多数以医院本身为边界,没有真正地突破医疗单位所形成的自然边界,形成区域医学数据中心.因此,当前医疗信息化建设的主要工作应当是针对目前缺乏的社会医药系统之间、医疗保障系统之间、居民健康档案之间的互联互通进行建设和数据整合,使当前相互割裂的、以收费为中心的医院信息系统,转换为以患者为中心的区域医学数据中心。

区域医学数据中心的建设,意在整合区域内不同医疗机构中患者或健康人群的各种临床诊疗信息资源,在相对集中的逻辑与物理环境中,构建一个以存储和处理患者或健康人群临床诊疗信息为核心的,覆盖多学科多专业的,面向区域内主要临床医疗机构、卫生行政主管部门和社会公众的医学数据资源共享平台.区域性医学数据中心的建设以医疗、预防、保健、康复为服务主线,以健康人群和患者的医疗活动需求为基础。

建设区域医学数据中心是解决当前医疗信息化建设存在问题的唯一途径,也是实现2009年3月17日中共中央国务院发布((关于深化医药卫生体制改革的意见 的新医改方案指定目标的唯一方法,实施并完善公共卫生服务体系、医疗服务体系、医疗保障体系和药品供应保障体系等四大医药卫生体系,建立并形成四位一体、覆盖城乡居民的立体的医疗体系结构,以保障新服务、新医辽、新医保和新供应的国家政策的贯彻执行,这一切必须建立在整合的医学数据中心之上。

数据中心是云计算的核心,因此,一切是服务,服务是一一切应该成为建立数据中心的宗旨。

4.各类模型的分析对医学数据中心模型及其发展趋势进行分析,本文将医学数据中心模型划分为分体式(局部集中),大集中式,B/S、C/S混合分布式和云式,在进一步阐述各种模型的基本特征的基础上,主要对目前大量存在的分体式模型进行分析,从而指出云式医学数据中心将成为主流模型。

4.1分体式我国经过20年的医院信息化建设,HIS(Hospital Information System)在大中城市的覆盖率基本达到100%,这种信息系统建立在以医院为核心的私有数据中心基础上,局限在各医疗单位所形成的自然边界内,致使各医疗单位之间、医疗单位与卫生行政管理机构之间、各机构与社会公众之间缺乏医学数据资源共享平台,距离新医改四位一体的、立体的医疗体系结构距离甚远,距离区域医学数据中心、国家医学数据中心的距离还很远.基于本文的分类方式,这种私有数据中心为分体式模型。

它建立在以医院为基本单位的自有硬件资源上,多数采用C/S体系结构,覆盖范围为医院内部.其意义主要在于代替了大量人力劳动,提高了效率.如,电子处方在医院内部的流通,为配药中心的药品发放、护士的处方实施提供了便捷、准确的依据,使处方流转速度加快,改善了医疗服务的流程.再如,护士以PDA等设备连接医院局域网,上传每日查房记录的病人的相关数据,医生就可随时查阅系统自动完成的体温变化曲线等信息.使用个人电脑或各种手持设备,通过局域网享用服务器程序提供的计算,这使得C/S结构成为当前的主导模式。

分体式私有数据中心的困境在于①系统复杂:各医院HIS运行在特定的硬件资源和软件平台上,依赖特定的数据库,业务流程的变更都必须最终体现在对HIS的维护甚至重构上.②单一用途:对于任何业务变更或新的需求,都必须提供相应的硬件配置,并购买或自编制软件以实现.硬件配置的底线是满足最大的理论需求值,即使最大负荷从来或很少达到也同样无法缩减配置开销.③利用率低:无论是病患信息、还是基础设施普遍存在重复建设和空置现象,如多数服务器的处理能力只用了不到1/4.④能耗巨大:全国复制出多于几十万个私有数据中心,都有类似的硬件、运行类似的软件、由类似的技术人员进行日常维护和研发.⑤风险:各医疗单位必须承担技术过时和系统故障的风险,这对他们而言不是长项。

分体式私有数据中心的重要特征是数据与服务的紧密依赖,这使得流程变更越来越困难,开销和技术支持都是沉重的难以为继的负担.结果是,IT对各医疗单位而言不只非常重要、不可缺少,也成为直接影响其竞争力的主要因素,这是不科学的,同时对以医疗为专业的企业不够公平。

4.2大集中式大集中式数据中心是一种理想方式.金融业的某些业务采用大集中式数据中心的运作方式,其运行效果也令人基本满意.金融业有着良好的大集中式的基础,这应该与其组织结构有着较为密切的关系,如各银行均由总行、分行、支行和营业部等组成分层架构,它们之间容易形成统一的数据标准和交换规则,有资源和管理权限的保障.如,各行汇兑可以采用固定时间于清算中心集中清算的方法;各行对储户卡的分级管理也由总行直接控制。

对于医学数据中心而言,大集中式不只存在实现困难,也并不适用.集中模型虽最大限度地维护了数据的安全和一致性,同时却带来了不可克服的问题.各医疗机构对中心数据的超强依赖,导致权限受约束,应变能力降低.基于集中模型的数据中心,其安全事故、灾难的影响面和破化程度都可能大大增加。

4.3 B/S、C/S混合分布式B/SL5儿圳、C/S混合分布式模型实质上是区域医学数据中心的雏形,基于各医疗机构的相对独立性,以及和各医疗机构间数据交换的弱频繁性和弱实时性,合理配置集中与分布数据,形成基于B/S、C/S结构、集中和分布相结合的混合模型。

医学数据 篇3

关键词医学检验;质量分析;控制方法

中图分类号R446.61文献标识码A文章编号2075-2156(2009)04-0065-01

当前,随着医学检验科学的发展,检测技术的不断提高,客观上要求检验人员不断掌握新技术、新知识,临床医护人员也需了解检验技术的新动向,充分掌握检验新技术,提高诊断与治疗的准确性和有效性。而检验报告是医生进行诊断治疗疾病的依据,也是记录医疗过程和效果的重要资料,因此检验人员的技术水平直接决定了最终的治疗效果。

1 影响检验质量的原因分析

在临床医学中,检验结果对于疾病的诊断起着举足轻重的作用,但是随着现代医学模式的转变和检验医学的不断发展,以及检验实验室的现代化水平的不断提高,检验结果的正确性也有了很大的提高,但在临床工作中依然经常听到临床医生的抱怨,他们主要抱怨的核心内容就是有些检验结果有出入。那么,是什么导致了这种结果的发生呢?下面我们对以下几个原因进行具体的分析。

1.1 对标本质量的分析影响标本质量的因素分为内在因素和外在因素。主要包括以下因素:(1)一般要求在晨起空腹时采集标本。空腹标本是指进食8h后所采集的标本,空腹时间过长,其标本同样不能准确反映机体的真实情况。

1.2对放置时间的分析血标本采集后应立即送检,实验室接到标本后应尽快进行检查。若不能及时检查,应将血清或血浆分离出来,放置于冰箱中低温保存,尽可能减小对结果的影响。

1.3 如何进行实验操作实验操作要注重科学性。要对检验人员进行严格的岗前培训。上岗前要系统学习检验理论知识,并熟练掌握各项检验技能,熟悉常用检验仪器、设备试剂的工作原理及使用方法,包括精确度,确度质量控制和抗干扰性等。同时还应掌握检验仪器、设备的日常维护及故障维修技术,保证检验工作的质量和效率。对于检验标准,每个检验工作人员都要心中有数,做到判定标准统一,尽可能减小误差,使化验结果成为“真值”。另外,如果要想得到一个有价值的“真值”检验数据,还要进行医学检验结果分析前和分析后的质量控制保证,以便去除以上可能影响临床检验结果的若干因素。

2 采用循证技术,使临床检验更优化

循证检验医学的思想是:“慎重,准确和明智地应用现有临床研究中的道德最新,最有力的科学研究证据来对患者作出的医疗决策”。因此从这一点上来说,循证检验强调的是对证据的重视和遵循。循证检验是通过大量文献复习和临床总结,不断对实验项目进行方法学、临床价值及经济学评估,把最直接、最准确、最合理地组合实验项目用于临床诊断和治疗。这些依据是通过严格筛选和评价方法从大量医学文献中概括出来的,因此它被认为是评价临床治疗的“金标准”。循证检验技术根据以患者为中心,为临床提供正确可靠的检验信息这一前提,临床实验高质量管理主要应考虑整个检验系统的严格控制,保证检验结果的正确,及开展了实验的合理性、有效性。

2.1 研究内容循证检验技术主要包括以下几方面内容:(1)用循证医学模式评价和重新评价一些实验项目的临床应用价值。(2)开展新业务、新技术并评估应用价值,进一步加强对临床诊断与治疗发挥作用。(3)对检验项目进行合理及方法选择,筛选可靠指标用于临床,废除不合理并对临床无诊断治疗和预后无价值指标、达到检验项目标准化、规范化。(3)结合临床不断修订实验室指标的诊断标准来指导临床应用。

2.2 操作方法与步骤经过多年的临床检验实践体验,以及查阅大量的相关文献,并通过随机对照实验和荟萃分析对实验指标进行评价,对以前发表的文献报道进行统计学分析,对这些指标和方法进行有效评估。可以把循证医学检验步骤归纳为以下几步:(1)明确要分析的问题。(2)对问题进行综合评估,查询文献资料,寻找出最佳证据。(3)批判性地评价有关证据,对可靠性、有价性等关键参数进行分析寻出最佳证据。(4)将结论用于临床。(5)最终对临床应用情况进行性能评价。对应用的检验项目及技术的评价:(1)技术性能:虽然检验人员对技术性能与满足临床需求的了解有限,但实验方法性能对临床应用具有重要作用。如特异性、稳定性等一些有效参数。(2)诊断性能:某个实验项目检测方法具有较高的敏感性和特异性是被临床采用的先决条件,核心问题是能否回答问题。(3)临床效应:某项实验项目是否能提高临床诊断、治疗和预后观察得到最佳的健康服务结果。(4)经济效益:某项实验检查虽技术、方法及诊断性能很好,但费用昂贵,令患者难以接受,也就降低了其临床应用性。循证检验技术提高了临床医学检验结果的准确性和合理性,检验结果的质量水平直接影响到临床医生的诊断、治疗和预后观察,也关系到医院的社会效益。

医学数据库的选择和利用 篇4

随着信息社会的发展, 计算机技术、多媒体技术与网络通讯技术的涌入, 我们所处的时代走进了“知识爆炸”时代, 世界知识总量十年翻一番, 在生化、电子、宇航等科学领域内, 二到三年就翻一番[1]

知识的急剧增长和知识废旧率加快, 使得知识生产周期缩短, 知识生产的前期, 即课题的检索、调研时间已大为缩短, 目前最先进的图书情报系统, 平均每10分钟就可以完成一个课题的检索。知识生产的后期, 即知识鉴别和出版的速度也在随着科技的发展在缩短, 国际上论文发表平均为周期为6~8个月, 我国科技期刊论文的发表周期平均为14.1个月。[2]

知识生产周期的缩短, 使得文献发表速度急剧增加。其中期刊以时效性强, 信息量大而在各种信息源中具有较大的优势。全世界共有医学期刊2万种。据统计65%~75%的医学信息来源于医学期刊。

期刊种类的不断增加以及读者对文献信息资源需求的不断增加, 形成了图书馆与读者之间的供需矛盾, 手工检索工具应运而生, 但仅仅靠手工检索已经满足不了科研工作者的需求, 电子资源的出现和发展, 知识的获取变得相当的便捷。尤其为医学学术研究的现代化提供了种种便利, 可随时了解国际国内最新的医学信息, 有效的利用医学数据库资源为学习、教学、科研等服务, 加快密切的区域和国际合作、开展广泛的信息交流。如何更好的选择和利用好医学数据库, 越发的显得重要。

1 数据库的选择和利用

1.1 国外数据库的选择和利用

国际重要外文数据库包括MEDLINE数据库、PUBMED网络数据库、OVID、EBSCO等.其中MEDLINE为题录数据库, OVID、EBSCO、Springerlink为全文数据库。

MEDLINE作为美国国立医学图书馆 (NLM) 生产的国际性综合生物医学信息书目数据库, 是当前国际上最权威的生物医学文献数据库。在外文的数据库中, MEDLINE数据库已经逐渐成为必检的数据库。建议牙科和护理专业的科研工作者选择使用该数据库, 因库中除了美国《医学索引》的全部内容, 还包括有《牙科文献索引》、《国际护理索引》的部分内容, 涉及临床医学、基础医学、环境医学、营养卫生、药理和药剂学、卫生管理、医学保健和情报科学等领域。创刊于1879年是世界最最具权威性的医学文献检索数据库, 其报道的文献量大、质量高;检索功能很齐全, 标引的质量也高, 响应速度快兼容性较强, 可以随机使用[3]。因涉及的语种达到43个语种, 并且覆盖了70多个国家和地区, 且是以英文刊物为主体, 故在国内外都具有极高的使用率。

没有购买MEDLINE数据库的医学院校, 通常会链接一个PubMed网络数据库, 它是由美国国立医学图书馆 (NLM) 所属的美国生物技术信息中心 (NCBI) 开发研制的网络文献检索系统。在网上以www方式向用户提供的一项免费检索数据库服务。由于PubMed数据库中, 每天都收录新文献, 所以它的报道速度比MEDLINE更快, 更新。且Pubmed题录文摘完全开放。[4]Pubmed数据来源有三个方面, MEDLINE数据库, PREMEDLINE数据库和由出版商提供的电子文献。因其内容涵盖范围的广泛, 检索界面的方便实用, 以及题录完全免费, 并可以下载部分全文。受到广大医学爱好者的好评。医学科研工作者可定期在该平台使用主题检索的方法, 了解当今世界上最新的医学信息。

1.2 国内数据库的选择和利用

国内重要的数据库主要包括维普数据库、万方系列数据库、中文生物医学文献光盘数据库、中国期刊网全文数据库, 超星medalink等。

对需要中华类核心期刊文章的读者, 可把万方数据库作为首选数据库, 因其对中华类期刊有独家版权。中华类的期刊在别的数据库中无法查询到。

中文生物医学文献数据库 (简称CBMdisc) , 是国内应用最为广泛的文摘数据库, 其检索界面模拟Medline, 使用非常便捷, 现在改版为网络版本, 题录的检索和下载功能较好, 收录了1978年以来1600多种中国生物医学期刊, 以及汇编、会议论文的文献题录, 是我国最早成功开发的医学文献数据库之一, 学科覆盖范围与medline相似, 信息容量大传递速度快, 对于医护工作者掌握本学科动态、进行查新前检索和医学信息专业人员进行科技查新检索具有重要的参考价值。

中国期刊网全文数据库 (CJFD) , 是目前世界上最大的连续动态更新的中国期刊全文数据库, 内容覆盖自然科学、工程技术、等各个领域, 因学科范围比较广泛, 也叫做“同方全库”。对研究交叉学科的读者, 建议选择并使用该库。并且由于该库的检索界面非常的人性化, 可根据自己的需求查找所需资源, 比如期刊检索、基金检索等, 对科研工作者提供了很多的有效工具。

超星medalink作为一个非常实用的平台, 重点向所有科研工作者推荐, 他的一站式检索, 解决了读者一个一个数据库去查找资料的困扰, 如果本地有资源, 可直接下载, 本地没有购买的资源, 可以通过自助式的远程传递的方式实用该资源, 非常的快捷方便。

参考文献

[1]埃德加·富尔.学会生存[M].

[2]张惠民.中国科技期刊:亟需打造国际品牌[N].光明日报.

[3]孙思琴, 韩丰谈.四个国内外医学数据库检索功能的比较研[J].现代情报, 2003 (11) :58, 62.

医学数据 篇5

郧阳医学院图书馆麻醉学特色数据库建设设想

从建设麻醉学特色数据库的.目的和意义出发,论述了数据库的建设原则以及数据库资源的收集与整理.

作 者:陈茜 关锐 CHEN Qian GUAN Rui 作者单位:郧阳医学院图书馆,湖北十堰,442000刊 名:科技情报开发与经济英文刊名:SCI-TECH INFORMATION DEVELOPMENT & ECONOMY年,卷(期):19(7)分类号:G258.6关键词:麻醉学信息资源 特色数据库 图书馆 郧阳医学院

医学数据挖掘的探究与应用 篇6

1 医学数据的特殊性

1.1 异质性

医学数据容量大且复杂, 包括各种不同的图像、与病人交谈、医生的注释和解释等, 很难标准化。医学数据的低数学特性使得它很难用公式等式以及模式来描述。

1.2 多样性

医学数据具有多种形式, 包括影像、信号、纯数据、文字以及用于科普、咨询的动画、语音和视频信息等, 医学数据的多样性是它区别于其他领域数据的最显著特征。

1.3 不完整性

疾病信息所体现出的客观不完整和描述疾病的主观不确切, 形成了医学信息的不完整性, 许多医学数据的表达、记录本身也具有不确定和模糊性。

1.4 时效性

医学检测的信号、影像都是时间函数, 具有较强的时效性。还有一部分医学信息, 比如病人的身份记录等静态数据, 虽然不带有时序性, 但都是对病人在某一时刻医疗活动的记录。

1.5 隐私性

医学数据是关于人的资料, 不可避免地会及患者的隐私问题, 包括病情、个人信息等, 一旦泄露, 可能会使患者的日常生活遭到不可预料的侵扰。

1.6 冗余性

医学数据库是一个庞大的数据资源, 每天都会有大量的记录存储到数据库中, 其中可能会包含重复的、无关紧要的、甚至是相互矛盾的记录。

2 医学数据挖掘的关键问题和步骤

在进行医学数据挖掘时要注意以下关键问题:医学数据库中含大量模糊的、不完整的、带有噪声和冗余的信息, 在数据挖掘之前, 必须对这些信息进行清理和过滤, 以确保数据的一致性和确定性[3];医学信息是由文字、数据、波形信号、图像、以及少量的语音和视频信号组成, 对这些不同物理属性的医学数据, 应采用不同的技术和措施进行处理, 再对处理的结果进行综合;医学数据库涉及面广、信息量大, 要在这样庞大的数据库中提取知识, 必须考虑医学数据挖掘的效率问题;同时, 医学数据库的类型较多, 并且又是动态变化的, 要求挖掘算法具有一定的容错性和鲁棒性。

医学数据的特点使得医学数据挖掘与常规的数据挖掘之间存在较大的差异, 但医学数据挖掘仍遵循一般的知识发现过程, 可按以下几个步骤进行。

2.1 问题理解和提出

这一阶段主要包括确定医学研究的问题和目标, 熟悉当解决此类问题的主流方法, 理解相应的医学领域知识, 确定医学数据挖掘的目标和结论的评估标准。

2.2 数据准备

获取原始的数据, 并从中抽取一定数量的子集, 建立数据挖掘库。

2.3 数据预处理

在挖掘之前必须针对各种类型的数据采取相应的数据预处理方法, 数据预处理主要包括数据清洗、数据集成、数据转换和数据消减。通过预处理, 将原始数据转换为特定数据挖掘方法所需要的数据形式。

2.4 数据挖掘

这是医学知识发现过程中的一个关键性步骤。这一步骤包括建模技术的选择, 训练与检验程序的确定, 模型的建立与评估, 数据挖掘的精确度在很大程度上取决于挖掘方法与研究目标的匹配程度。

2.5 结果分析

对挖掘的结论进行评价和解释, 并与最初的研究目标相比较。追溯整个数据挖掘过程中可能存在错误的步骤, 并寻找其解决的方法。

2.6 知识应用

在实际的医务工作中去应用所得知识, 发现和解决实施过程中出现的问题, 并对应用情况进行阶段性总结, 指导今后的实际应用。

以上的步骤不是一次完成的, 可能其中某些步骤或者全部要反复进行, 以求得挖掘结果的准确性和实用性。

3 医学数据挖掘的方法

3.1 关联分析

关联知识反映一个事件和其它事件之间的依赖或关联。关联规则挖掘是关联知识发现的最常用方法, 最为著名的是Agrawal等提出的Apriori及其改进算法, 为了发现出有意义的关联规则, 需要给定两个阈值:最小支持度和最小可信度, 数据挖掘系统的目的就是从源数据库中挖掘出满足最小支持度和最小可信度的关联规则。在Apriori算法基础上, 又提出了许多算法, 如Brin等人提出的动态项目集计数DIC算法、Savasere等人提出的发现频繁项目集的划分算法等。在关联规则中除了评价支持度、信任度以外, 还不断引入兴趣度、相关性等参数, 使得所挖掘的规则更符合需求。在实际情况下, 关联规则还需进一步泛化, 以发现更有用的规则。

3.2 聚类分析

聚类分析针对对象的某些特征, 根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组, 使得每个组内的对象具有很高的相似性, 而与其它组中的对象差别很大, 通过聚类技术可以对源数据库中的记录划分为一系列有意义的子集。常见的聚类算法有K—Means、Expectation Maxi—mization (EM) 、DBscAN算法等。

3.3 分类分析

分类分析是一种有指导的学习, 即每个训练样本的数据对象已经有类标识, 通过学习可以形成表达数据对象与类标识间对应的知识。决策树是分类知识挖掘中的代表性技术, 决策树基本思想是以最能区分不同类别样本的属性作为树根, 把训练样本集分为相应的节点, 然后依次在每一块样本集中选出区别度的属性, 作为树的第二层节点, 依此类推, 直到所有的叶节点都只包含某一类样本时终止。ID3算法是最典型的决策树分类算法, 之后的改进算法包括ID4、ID5、C4.5、C5.0等。

3.4 其他数据挖掘方法

近年来, 粗糙集理论和人工神经网络等数据挖掘技术得到迅速的发展和完善。粗糙集理论是一种新的处理模糊和不确定性知识的数学工具, 其主要思想就是在保持分类能力不变的前提下, 通过知识约简, 导出问题的决策或分类规则。人工神经网络方法模拟人脑神经元结构, 是通过训练来学习的非线性预测模型, 可以完成分类、聚类、关联规则挖掘等多种数据挖掘任务, 人工神经网络具有很强的自组织性、鲁棒性和容错性, 在医学数据挖掘中得到广泛的应用。

4 医学数据挖掘的应用

4.1 在医院和卫生事业管理方面的应用

医院信息系统 (HIS) 的建立为医院科学管理提供了大量的信息资源, 运用数据仓库和数据挖掘技术, 对医院医疗活动过程中产生的海量数据进行加工, 可从中得到长期的、系统的、综合的数据[4];同时还可以通过决策树、神经网络、聚类等技术, 对数据进行深层次的挖掘和有效利用, 得到丰富的辅助决策信息, 比如医疗需求预测、医疗市场分析、目标人群健康管理、预测未来某段时间内常发生的疾病种类、未来某段时间内的药品使用频率等。数据挖掘技术的综合应用, 能为医院的科学管理提供支持和依据, 并满足更大范围、更深层次的管理分析需求。

4.2 在生物医学中的应用

近年来, 生物医学研究有了迅猛的发展, 从新药物的开发和癌症治疗的突破, 到通过大规模序列模式和基因功能的发现, 进行人类基因的识别与研究。基因研究中的一个重要关注点是DNA序列的研究, 因为这种序列构成了所有活的生物体的基因代码的基础。如何找出导致各种疾病的特定基因序列模式就成为挑战性的问题, 由于在数据挖掘中已经有许多有意思的序列模式分析和相似检索技术, 因此数据挖掘成为DNA分析中的强有力工具[5]。

4.3 在病理学和药理学中的应用

在病理学研究中, 通过数据挖掘对病理切片标本的大量数据进行分析, 总结出其中的关键性指标, 建立正常和病理的虚拟细胞模型。这样可以虚拟细胞的发生、活动和调节的生理机制, 还可以了解和揭示疾病发病过程, 寻找到有效致病分子和标记分子, 进行疾病的预警诊断, 提出防治和干预措施。在药学研究中, 数据挖掘可以有效地存储、管理、分析及整合大量的不同类型的生物和化学数据, 已成为国际上新药研制过程中的关键技术支撑平台, 对于加速新药研发具有十分重要的意义。

4.4 医学图像处理

医学领域中越来越多地应用图像作为疾病诊断的工具, 如CT、MRI、PET等, 数据挖掘应用于医学图像的分析是数据挖掘技术在医学应用中很重要的一个方面。医学图像的数据挖掘旨在从海量的图像数据中挖掘出有效的模型、关联、规则、变化、不规则以及普遍的规律, 以加速医生决策诊断的过程和提高其决策诊断的准确度。

4.5 辅助医疗诊断

医学诊断问题是基于知识的序贯诊断问题, 诊断是基于规则的推理过程, 医生通过各种途径获取知识, 形成推理网络, 而病例数据存储在数据库中, 因此如何从病例数据库提取诊断规则成了研究主题, 即知识获取。临床医生为病人做出医疗诊断可以看作是一个分类的过程:医生根据他的知识和经验将病人分类到一个特定的疾病群中, 决策树在临床医学中应用范围较广, 除了可以对疾病分类以外, 还可以对疾病程度分级, 筛选危险因素, 决定开药处方大小以及选择治疗方法等。另外, 基于粗糙集理论的数据挖掘技术, 通过数据训练集所训练得到的算法模型能够有效用于疾病诊断。

4.6 在中医上的应用

将数据挖掘和知识发现应用于中医药学领域的研究, 是中医现代化研究的重要组成部分。中医药领域利用数据挖掘求解的问题多种多样, 比如挖掘辩症与药味或药味组合之间的关联关系、方剂有效性研究、辩症规范性研究、症候信息分类、关键药味研究等。

5 结语

由于医学信息自身的特殊性和复杂性, 医学数据挖掘在挖掘对象的广泛性、挖掘算法的高效性、提供知识或决策的准确性方面有着更高的要求[6], 需要从事信息专业的科研人员与广大医务工作者抓住机遇, 做好技术上的准备, 进行通力合作, 尽可能大的发挥数据挖掘技术在医学信息获取中的价值, 从而更好的服务于医学、受惠于患者。

参考文献

[1]邵峰晶, 于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社, 2003.

[2]周鸾杰, 宋传军, 周宝林.数据挖掘可视化技术与医院管理[J].医疗设备信息, 2006 (3) :23-24.

[3]屈景辉, 廖琪梅, 许卫中.医学信息数据库的建立与数据挖掘[J].第四军医大学学报, 2001, 22 (1) :88-89.

[4]杨海清.数据挖掘技术在医院管理中的应用[J].中华医院管理杂志, 2005, 21 (7) :497-499.

[5]龚著琳, 陈瑛, 苏懿, 等.数据挖掘在生物医学数据分析中的应用[J].上海交通大学学报, 2010, 30 (11) :1420-1423.

常用国外网络医学电子数据库资源 篇7

Wiley Inter Science是John Wiely&Sons公司创建的动态在线内容服务,1997年开始在网上开通。通过InterScience,Wiley公司以许可协议形式向用户提供在线访问全文内容的服务。Wiley Inter Science收录了360多种科学、工程技术、医疗领域及相关专业期刊、30多种大型专业参考书、13种实验室手册的全文和500多个题目的Wiley学术图书的全文。其中被SCI收录的核心期刊近200种。期刊具体学科划分为:Business,Finance&Management(商业、金融和管理)、Chemistry(化学)、Computer Science(计算机科学)、Earth Science(地球科学)、Education(教育学)、Engineering(工程学)、Law(法律)、Life and Medical Sciences(生命科学与医学)、Mathematics and Statistics(数学统计学)、Physics(物理)、Psychology(心理学)。

2 EBSCO(英文文献期刊)

http://ejournals.ebsco.com

EBSCO公司从1986年开始出版电子出版物,共收集了4000多种索引和文摘型期刊和2000多种全文电子期刊。该公司含有Business Source Premier(商业资源电子文献库)、Academic Search Elite(学术期刊全文数据库)等多个数据库。

EBSCO内含有两个免费数据库:

ERIC为(Educational Resource Information Center)(教育资源信息中心)是美国教育部的教育资源信息中心数据库,收录980多种教育及和教育相关的期刊文献的题录和文摘,包括250多种EBSCO收录的全文杂志教育文献数据库,数据为1967至今。医学、生物医学MEDLINE医学文摘Biomedical Reference Coll.:Comp.Ed.生物医学全文Health Business Elite医疗管理全文Psychology&Behavioral Sci.Coll.:Comp.Ed.心理学和行为科学全文CINAHL医学-护理学文摘Nursing&Allied Health Coll.:Comp.Ed.医学-护理学全文Cochrane Collection医学-护理学全文(IPA)药学文摘SPORTDiscus医学-运动医学文摘Psyc INFO心理学文摘

3 美国(umi)Pro Quest博士论文全文:

http://proquest.umi.com/pqdweb

是UMI公司的一个分库(我分析之后得来的。)UMI公司简介:

该公司的全称是UMI,The answser Company(UMI有问必答公司),成立于1938年,是全球最大的信息存储和发行商之一,也是美国学术界著名的出版商,它向全球160多个国家提供信息服务,内容涉及商业管理、社会科学、人文科学、新闻、科学与技术、医药、金融与税务等。其出版物包括18,000多种外文缩微期刊、7000多种缩微报纸、150多万篇博士/硕士论文、20多万种绝版书及研究专集:从1980年起该公司开始电子出版物的制作与发行:如光盘数据库、磁带数据库、联机数据库等。UMI提供以下三种数据库:学术研究图书馆(Academic Research Library,简称ARL)

综合参考及人文社会科学期刊论文数据库,涉及社会科学、人文科学、商业与经济、教育、历史、传播学、法律、军事、文化、科学、医学、艺术、心理学、宗教与神学、社会学等学科,收录2,300多种期刊和报纸,其中全文刊占三分之二,有图像。可检索1971年来的文摘和1986年来的全文。商业信息数据库(ABI/INFORM)

医学电子期刊全文数据库(Pro Quest Medical Library)该数据库收录有220种全文期刊,文献全文以PDF格式或文本加图像格式存储;收录范围包括所有保健专业的期刊,有护理学、儿科学、神经学、药理学、心脏病学、物理治疗及其它方面。Pro Quest博士论文全文检索系统,PQDD的全称是ProQuest Digital Dissertations,是世界著名的学位论文数据库,收录有欧美1,000余所大学文、理、工、农、医等领域的博士、硕士学位论文,是学术研究中十分重要的信息资源。

4 Sciencedirect荷兰

http://www.sciencedirect.com/

Elsevier Science公司出版的期刊是世界上公认的高品位学术期刊,它拥有1263种电子全文期刊数据库,并已在清华大学图书馆设立镜像站点:Science Direct On Site(SDOS)。国内11所学术图书馆于2000年首批联合订购SDOS数据库中1998年以来的全文期刊。

国内镜像:

http://elsevier.lib.tsinghua.edu.cn/

http://www.sciencedirect.com/sci

http://www.sciencedirect.com/sci

http://www.sciencedirect.com/sci

5 OVID(英文文献期刊)荷兰:

Ovid Technologies是世界最大的医学数据库公司,是全球著名的数据库提供商。2001年6月与银盘公司(SilverPlatter Information)合并,组成全球最大的电子数据库出版公司。

Ovid医学信息平台是由Ovid Technologies公司采用先进的信息Dn I技术研制而成的全球著名的数据库。其网址是:http://www.ovid,tom。该平台将资源集中在单一平台上,并透过资源间的链接(Linking)为用户提供一个综合信息方案,数据库、电子期刊、参考书及其它资源均可在同一平台上检索及浏览。

Ovid拥有最全的核心医学期刊。Databases@Ovid,提供300多种数据库,链接全文期刊和馆藏。Journal@Ovid,收录60多个出版商出版1000多种科学、科技和医学期刊,其中超过350种属于核心期刊,被ISI收录的超过300种。Books@Ovid,提供将近40个由不同出版商发行的医学参考书籍Ovid信息平台将电子数据库、电子期刊以及电子图书做了全面的整合与链接一读者可从数据库检索结果直接链接到全文期刊和电子书。

6 英国Blackwell(英文文献期刊):www.blackwell-synergy.com

Blackwell出版公司是世界上最大的期刊出版商之一(总部设在英国伦敦的牛津),以出版国际性期刊为主,包含很多非英美地区出版的英文期刊。它所出版的学术期刊在科学技术、医学、社会科学以及人文科学等学科领域享有盛誉。

近年来,Blackwell出版的期刊不断发展。目前,Blackwell出版期刊总数已超过700种,其中理科类期刊占54%左右,其余为人文社会科学类。涉及学科包括:农业、动物学、医学、工程、数学统计、计算机技术、商业经济、生命科学、物理学、人文科学、艺术、社会及行为科学等。

Blackwell出版期刊的学术质量很高,很多是各学科领域内的核心刊物,据最新统计,其中被SCI收录的核心期刊有239种,被SSCI收录的有118种。

7 springer德国(Springer-Verlag):

是世界上著名的科技出版集团,通过Springer LINK系统提供学术期刊及电子图书的在线服务。

Springer公司和EBSCO/Metapress公司现已开通Springer LINK电子期刊服务。目前Springer LINK所提供的全文电子期刊共包含439种学术期刊(其中近400种为英文期刊),按学科分为以下11个"在线图书馆":生命科学、医学、数学、化学、计算机科学、经济、法律、工程学、环境科学、地球科学、物理学与天文学,是科研人员的重要信息源。

目前大部分期刊可以阅读全文,但也有一些期刊尚不能阅读全文,一般规律是:显示pdf字样的,可以打开全文,显示remote pdf字样的,则不能打开全文,目前代理公司正在解决此事。Springer Link涵盖的学科范围及种数:Law(法律):5种Environmental(环境科学):37种Medicine(医学):179种Geoscience(地球科学):53种Mathematics(数学):73种Life Science(生命科学):105种Economics(经济学):30种Chemical Sciences(化学):36种Engineering(工程):58种Computer Science(计算机科学):45种Physics and Astronomy(物理与天文学):61种

8 Karger

http://www.karger.com/

卡尔格公司S.Karger AG是瑞士一家著名医学和科技家族出版公司,以医学图书为主,另外也出版一些科技图书。卡尔格公司在巴塞尔的总部现有职员200多名,在全球有许多分公司和配书中心。年出版期刊76种,新书60多种,主要是英文版,并有电子版。Karger的出版物被收录在著名的二次文献中,这些二次文献包括:MEDILINE、Current Contents、Reference Update、EMBASE/Excerpta Medica、Crossref等。所有的文章都拥有在线DOI号码。

Karger期刊大多数期刊被CA、BA、SCI、Current Contents、Med Line收录。

学科专业及期刊分数共计71种

分析化学Analytical Chemistry:2

抗感染/感染性疾病Anti-Ifective/Infectious Diseases:6

生物信息学Bioinformatics:1

生物技术Biotechnology:5

心脏病学与心血管科学Cardiology and Cardiovascular Science:1

临床试验Clinical Trials:6

组合化学Combinatorial Chemistry:1

药物传输Drug Delivery:2

药物设计和开发Drug Design and Discovery:48

药物代谢Drug Metabolism:2

药物治疗Drug Therapy:7

基因组学Genomics:3

免疫学和内分泌学Immunology&Endocrinology:6

炎症和变态反应Inflammation and Allergy:4

医学Medicine:30

分子医学Molecular Medicine:1

纳米科学Nanoscience:1

神经科学Neuroscience:11

肿瘤学及癌症研究Oncology and Cancer Research:10

有机化学Organic Chemistry:9

药物开发专利Patents on Drug Discovery:4

药物学Pharmacology:3

蛋白质与多肽科学protein and Peptide Science:4

9 Lippincott Williams&Wilkins(LWW)

http://www.mdconsult.com

LWW是世界享有盛誉的医学文献出版商,该公司出版的期刊大多为医学核心期刊,大部分期刊被著名的MED-LINE数据库和SCI数据库所收录,且影响因子Impact factor必较高,以临床医学及护理学方面的期刊尤为突出。

1 0 MD Consult美国医学书刊数据库:http://www.mdconsult.com

MD Consult由世界著名出版社Elsevier Science出版发行,目前已被北美90%以上的医学院,近1700家美国医院和全球46个国家的健康中心采用,拥有超过28万的用户,是为医务工作者提供网上临床医学信息服务的最佳选择。

MD Consult提供个性化的服务,用户可以选择自己感兴趣的领域,对个人资料进行管理,同时可以省去垃圾信息的烦恼。最近,MD Consult又推出了MDC移动服务系统,通过PDA您可以获得最新论文文摘、医学新闻和药物信息,并可以通过无线网络进行MD Consult的搜索、方便地和PC进行连机数据交换。

最新医学、药物信息:每日更新,每月提供100万条信息,700万页临床资料。

Clinics&Medical Journal(临床医学期刊):包含35本北美临床医学学会的全文文献及53种最具代表性的专业医学期刊。

Reference Book(著名的医学用书):包含51本医学宝典

Year Books(医学年鉴):包含54本医学年鉴。

Practice Guidelines(实证指南):搜集了来自50多个医学会和政府机关提供的1000多种临床实证指南。

Drug Information(药物信息):权威的黄金标准药物指南,提供3万余种药物资讯,包括最新处方,并可经由商品名称或俗名、种类和症状找到所需的药物信息,并提及美国药典中未列出的用途及治疗费用等资料。

Today in Medicine(今日医学):每天检阅100种重要的医学文献;提供个人查询简洁摘要,并选定个人的检索范围;同时也可连结到相关的全文医学临床资源中做进一步的查询。In This Week's Journal(当周期刊):将每周重要的期刊内容以一个易于查询的方式呈现,并利用简洁的文献大纲来帮助您快速了解当前前沿研究动态。

Patient Education(病患须知手册):近10000种病患须知手册。

What Patients are reading(病患新知):MD Consult每周会检阅民间出版品,如此可让您知晓患者所获得的医学新知,并提供各种主题的全文临床内容以供参考。

CME Center(医学进修中心):拥有200余种在15个不同领域的在线进修课程及测验模式,以及在线CME学分认定,病例讨论活动由阿尔伯特·爱因斯坦医学院支持和管理。

包含5万多个医药学图片,可以进行图片检索。

检索广泛,资讯丰富,一次点击完成MEDLINE检索,其中包含AIDSLINE、Health STAR、CANCERLIT在内的检索。

1 1 德国医学《Thieme_journals》全文电子期刊库

http://www.thieme.de/connect/en/

Thieme是一家具有百年历史的国际性科学和医学出版社。从1886年开始,hieme致力于为科研人员、临床医师、和学生等专业人士提供高品质的图书、期刊产品。

作为德国最大的医学出版社之一,Thieme在德国斯图加特和美国纽约均设有机构。到目前为止,Thieme出版了130多种以纸本形式和电子版本的医学和科学期刊,其中60多种是代表各专业学会出版的。

Thieme出版社通过Thieme-connect期刊服务平台提供电子资源服务。通过登陆Thieme-connect站点,用户可以浏览Thieme出版的医学、化学和生命科学的全部期刊,并且部分期刊在先行纸本出版之前,通过网络可获得最新文章(eFirst--1-2天前出版的)。Thieme-connect为中国用户提供两种电子期刊数据包:(1)Medical E-package医学库(包括33种英文医学期刊)Thieme出版高品质医学期刊,涵盖外科学、内科学、神经科学,运动医学、内分泌学和药理学等各个学科,医学库共包含33种英文医学期刊,其中包含大家深受喜欢的12种Thieme专题研讨会(Seminar)期刊,读者从中可以获得相关医学领域诊断与治疗的最新专题会议内容及各科最新发展动向;(2)Pharmaceutical E-package化学与药学期刊(6种化学药学类期刊)Thieme出版了学术界备受认可的权威化学与药学期刊。《Synthesis》和《Synlett》是Thieme最为引以为豪的两种化学期刊,在化学合成领域有重大影响力并且已经得到广泛的使用,是从事相关领域工作的科研人员的必备期刊。

1 2 BMJ Journal Collection

http://www.clinicalevidence.com

(BMJ期刊专辑)不仅包括著名的《英国医学期刊》(British Medical Journal),而且还收录有从医疗保健管理到神经学等领域的其他22种期刊。出版的许多期刊都在其各自领域处于世界领先地位。所有期刊均可以在线获得。详细书目见附件A。

BMJ Journal Collection(BMJ期刊专辑)不仅包括著名的《英国医学期刊》(British Medical Journal),而且还收录有从医疗保健管理到神经学等领域的其他22种期刊。出版的许多期刊都在其各自领域处于世界领先地位,如Gut(《内脏》)、Thorax(《胸腔》)、Archives of Disease in Child(《儿童期疾病档案》)以及Annals of the Rheumatic Disease(《风湿病年鉴》)。所有的期刊均可以在线获得。

*期刊涵盖专业领域、大众健康和循证医学领域;主要为临床期刊,旨在帮助医务工作者提高日常工作经验;

*编者来自世界各地,如美国、澳大利亚、加拿大、香港、欧洲、东南亚地区;

*改进了Education Sections,Case-based learning,Patient Columns;

*多数期刊都是处于该专业领先位置;

*On-line first,在线交流,搜索,E-mail等功能。

如需了解更多内容请登陆网站http://journals.bmj.com/。

Clinical Evidence Online(临床实证在线):

现涵盖500个主题以及超过2000种的治疗方法;

每月都在不断的在线扩充更新资料和新主题;

包括链接至Pub Med,Embase和Cochrane精华内容的参考资料;l

包括一些不在印刷期刊中出版而仅有网络版的主题;还提供其它服务,如:

电子邮件提醒服务

诸如常见缩写、术语和药物名称指南之类的有关网站工具

讲座用的下载版EBM(循证医学培训)模块

借助PDA方式快捷的获得全部的临床实证内容BMJ期刊专辑列表:

British Medical Journal(《英国医学期刊》)

Annals of the Rheumatic Disease(《风湿病年鉴》)

Archives of Disease in Childhood(《儿童期疾病档案》)

British Journal of Ophthalmology(《英国眼科学期刊》)

British Journal of Sports Medicine(《英国运动医学期刊》)

Emergency Medicine Journal(《急诊医学期刊》)

Gut(《内脏》)

Heart(《心脏》)

Journal of Clinical Pathology(《临床病理学期刊》)

Journal of Medicine Ethics(《医学伦理学期刊》)

Journal of Medical Genetics(《医学遗传学期刊》)

Journal of Neurology,Neurosurgery and Psychiatry(《神经病学、神经外科学及精神病学期刊》)

Postgraduate Medical Journal(《研究生医学期刊》)

Quality and Safety in Health Care(《医疗保健的品质与安全》)

Sexually Transmitted Infections(《性传播感染疾病》)

Thorax(《胸腔》)

循证医学类期刊

Evidence-Based Medicine(《循证医学》)

Evidence-Based Mental Health(《循证精神健康》)

Evidence-Based Nursing(《循证护理学》)

公共卫生类期刊

Injury Prevention(《伤害预防》)

Journal of Epidemiology and Community Health(《流行病学与社区健康期刊》)

Occupational and Environmental Medicine(《职业与环境医学》)

Tobacco Control(《烟草控制》)

1 3 oxfordjournals牛津期刊网站www.oxfordjournals.org

牛津大学出版社是世界上最大的大学出版社而且拥有无与伦比的500年的出版历史。牛津大学出版社是牛津大学的一个部门。1906年,牛津大学出版社开始了她的期刊出版项目,并且在随后的一年印刷出版了《医学季刊》。作为世界上主要的学术和研究性期刊的出版商,牛津期刊现在出版超过180种期刊,许多期刊都是与世界领先的学协会合作出版的。期刊涵盖了生命科学,数学和物理学,医学,社会科学,人文科学和法律学方面的内容,有许多期刊在各自领域中拥有最权威的地位。根据最新公布的2005年ISI期刊引用报告,牛津期刊有60%的期刊被SCI和SSCI收录。

牛津期刊(Oxford Journals)覆盖非常广泛的学术领域,包括生物、医学、化学、心理学、数学、物理、工程、政治、经济、法律、语言、文学、艺术、哲学、社会科学等学科。据2006年JCR报告统计,在牛津出版的全部180余种期刊中,被SCI/SSCI收录的期刊有119种。其中SCI收录123种,去重后为80种,SSCI收录52种,去重后为39种。收录总数超过出版期刊总数的66%。

医学数据 篇8

医学研究数据指的是在医学研究中观测个体的某种特征或属性的观测值。更准确地讲,是医学研究中所有观测个体的观测值的集合。医学研究数据作为医学研究的核心对象,和整个研究的目的、设计和收集整理都密切相关,是医学研究最重要的组成部分之一,医学研究数据的质量也在很大程度上决定了医学研究的质量。在实际研究中,搜集到的数据质量往往和预期目标存在较大差距,这些问题来源于医学数据的整个产生过程。

2 常见质量问题

医学测量过程包含三个核心要素:测量对象、测量规则和测量值。医学研究数据质量问题多来源于两个方面:一是测量错误,产生的原因一般是医学测量过程中测量规则不当或是测量人员失误。测量规则不当导致的误差的大小和方向往往恒定不变或遵循着一定的规律变化,即通常属于系统误差。

二是输入错误,是由数据录入人员疏忽而造成的。在录入流程不健全的情况下,尤其容易产生输入错误。输入错误导致的常见医学数据质量问题有以下几点。

(1)不完整数据:一些应该有的信息缺失,如:机构名称、区域信息缺失等。

(2)错误数据:即录入数据与原始测量数据存在不一致。

(3)重复数据:即“相似重复记录”,指同一个研究对象在原始数据集中用多条不完全相同的记录来表示,由于它们在格式、拼写上的差异,导致数据库管理系统不能正确识别。

可以看出,医学数据质量问题来源于整个医学研究过程,而随着医学研究的规模日益扩大,研究设计和实施的复杂性逐渐提高,医学数据的质量也往往难以保证。而对于医学数据中一些常见的质量问题,可以通过医学数据清理对重复数据进行探测和判定;对缺失数据进行填补;采用分箱、聚类、回归等多种手段对异常记录处理,消除异常值,最终提高医学数据质量,满足研究分析需求,更好地达到研究目的。(如表1)

3 数据清洗的基本内容

数据清洗的对象主要有重复的数据、不完整的数据和错误的数据,在卫生领域中,这三类“脏数据”的处理是数据清洗的重要组成部分:相似重复记录清洗是保证数据可用性的重要内容,在卫生领域,经常出现同一个病人有多个检查表或病历信息,对于冗余信息剔除及可用信息的合并是重复记录数据清洗的核心;缺失数据清洗则有助于医务工作者了解数据收集的完整性,及时对必填信息和关键信息的收集过程加以控制,提高数据可用性;而异常数据的探测和清理则是判别和控制数据逻辑错误的重要手段。

4 数据清洗的基本流程

(1)数据分析:数据分析是数据清洗的前提与基础,通过详尽的数据分析确定数据检测算法、清洗策略等,还可以使用分析程序来获得关于数据属性的元数据,从而发现数据集中存在的质量问题。

(2)定义数据清洗规则与工作流:根据上一步数据分析得到的结果来定义数据清洗规则和工作流等,其中包据确定数据源的个数,存在质量问题的医学研究数据的多少程度,选择合适的检测算法、清洗策略、评估方法,需要执行的数据转换和清洗步骤。

(3)数据检测:根据确定的检测算法检测数据库中的重复记录和异常记录。

(4)数据清洗:执行预先定义好的并且己经得到验证的清洗策略、转换规则和工作流等。数据清洗一般的类型转换主要包括以下几点。

①对自由格式的属性字段进行属性分解,自由格式的属性字段一般包含着很多的信息,而这些信息有时候需要进一步分解成多个属性字段。

②处理输入和拼写错误,并尽可能地使其自动化,基于字典查询的拼写检查对于发现拼写错误有很大帮助。

③标准化:为了使实例匹配和合并变得更方便,应该把属性值转换成一致的和统一的格式。

(5)数据清理流程评估:对定义的检测算法、清洗转换规则和工作流的正确性和效率进行验证和评估。可以在数据源的数据样本上进行清洗验证,当不满足清洗要求时,要对检测算法、转换规则、工作流或系统参数进行调整和改进。

(6)干净数据回流:当数据被清洗后,干净的数据应该替换数据源中原来存在质量问题的医学数据,这样不仅可以提高数据库的数据质量,还可避免将来再次抽取数据后进行重复的清洗工作。

5 结语

该文简要的就医学研究中数据常见质量问题、数据清洗内容及基本流程等几个方面介绍了医学数据常见质量问题的处理方式,揭示了数据质量问题的本质和标准化的清理流程,可操作性强。医学领域数据事关人民的生命健康安全,其统计分析结果往往作为制定医疗措施的重要依据,因此,确保数据的真实可信十分必要。

摘要:随着社会经济的发展和大数据时代的到来,各行业的数据量越来越大,医疗卫生领域尤为明显。数据数量的增长同时,数据质量的控制也给广大研究人员带来一定的困扰。该文在充分文献分析的基础上,探讨了常见的数据质量问题及其清洗方法,总结了数据清洗六个步骤,旨在为卫生研究人员提供参考。

关键词:医学数据,数据质量,数据清洗

参考文献

[1]周奕辛.数据清洗算法的研究与应用[D].青岛大学硕士毕业论文,2005.

[2]李镒冲,姜勇,张梅,等.SAS软件在中国慢性病及其危险因素监测数据清理中的应用[J].现代预防医学,2010(2):3835-3842.

医学数据 篇9

2012年12月, 《中国安全生产科学技术》杂志被中国生物医学文献服务系统 (SinoMed) 中的《中国生物医学文献数据库》收录。

SinoMed是由中国医学科学院医学信息研究所/图书馆开发研制。其涵盖资源丰富, 能全面、快速反映国内外生物医学领域研究的新进展, 功能强大, 是集检索、免费获取、个性化定题服务、全文传递服务于一体的生物医学中外文整合文献服务系统。

中国生物医学文献数据库 (China Biology Medicine disc, CBMdisc) 是由中国医学科学院医学信息研究所于1994年研制开发的综合性中文医学文献数据库, 他收录1978年以来1600余种中国生物医学期刊, 以及汇编、会议论文的文献记录, 总计超过400万条记录, 年增长量约35万条。学科涉及基础医学、临床医学、性化定题服务、全文传递服务于一体的生物医学中外文整合文献服务系统。

医学数据 篇10

1 数据挖掘技术

数据挖掘(Data mining)是指从大型数据中通过算法发现或提取有意义、有潜在价值、新颖的信息与规律等知识。Shapiro在1989年8月举行的第11届国际联合人工智能学术会议上,首次提出数据库中知识发现一词——数据挖掘技术。随后,很快吸引了大量数据库工作者转向数据挖掘的研究。

经历了20余年的发展,数据挖掘的算法日趋成熟,融合了模式识别、数字图像处理、数据库技术、信息检索、数理统计等众多技术。数据挖掘是一个复杂的过程,它是由多个流程组成的,随不同领域的应用这些流程会有所变化,一般的流程为问题定义、数据准备、数据转换、数据挖掘、结果评估、知识的发现和应用。这些流程的顺序并不是线性的,而且为了取得好的数据挖掘结果常常需要反复。数据挖掘的方法主要有概念描述、关联分析、分类、聚类分析、异常检测等。

2 数据挖掘在医学信息领域的重要意义

医学信息的形式多样,包括文字、图像、声音、视频等形式,它涵盖了生物信息学、药物信息学、医学图形信息学等学科,同时,具有隐私性、冗余性、不完整性、模糊性且带有噪声等特点。数据挖掘作为一种数据处理技术,从医学数据信息中寻找潜在的关系或规律,从而获得有效的对病人进行诊断、治疗,增加对疾病的预测准确性,实现疾病的早期发现,提高治愈率,为医学信息领域提供了新的方法[1]。

1)医学数据挖掘技术有助于提高数据分析效率,增加产生新知识的速度。医学数据库是一个庞大的信息库,有海量的数据,而且数据的形式多样,要在这样的数据信息中找到有价值的信息,采用传统的方法需要花费更多的时间。利用数据挖掘技术,可以分析数据的趋势变化和规律,减少数据冗余和重复性的影响,减少数据量,选择合适的算法制定规则还可以实现自动化分析。如数据挖掘技术分析电子病历中分散、非结构化数据,进行自动化的数据采集[2]。

2)医学数据挖掘技术可以提供知识的准确性和可靠性,提高疾病的治愈率。日常医疗中通常采用抽样的方法获取样本,结果导致往往只有一部分符合特定要求,存在样本的局部性并影响真实性。数据挖掘技术从数据的整体性出发,通过概率抽样、评估、假设验证等过程提取信息中的共性特征和个性差异,弥补了随机对照实验的不足。理论上还能够根据病人的个体差异,给出个性化治疗方案。如通过整合系统生物学与电子病历数据,医学数据挖掘技术为个性化医疗计划转变为临床实践提供机会。

3)医学数据挖掘技术可以用于预测建模,辅助临床诊断和推荐治疗措施。大量的研究和大数据的到来,使得大部分临床医生的知识转化变得非常困难,难以跟上最新的知识来指导临床诊断。数据挖掘预测建模,根据特定信息对离散数据进行预测。谷歌公司利用人们在网上检索的与流感相关的记录建立了数学模型,成功的预测流感传播和发生的地点。又如癌症早期诊断中,利用数据挖掘技术对癌症患者做出诊断和提出治疗方案。

3 数据挖掘在医学信息领域的应用

医学信息与数据挖掘都是快速发展的前沿研究,复杂多变的需求分析及医学信息数据的特点,使医学信息的数据分析迫切需要数据挖掘技术的支持。医学信息中的很多内容,如在医疗管理、疾病诊断和医学科研方面,都在数据库技术中找到了支持。

1)医疗管理。目前,随着数字化的普及,很多医院都建立了庞大的数据库,目前主要有医院信息系统(hospital information system,HIS),它分为管理信息系统和临床信息系统,管理信息系统主要处理诸如人事、财务和设备管理等医院内部管理方面的信息,临床信息系统主要处理患者相关信息。从数据库中运用数据挖掘技术,来分析和发现数据的各种信息,可以帮助医院决策者更好的制定管理策略[3]。按照数据挖掘的需求,进行关联分析、分类分析、聚类分析等挖掘算法,可进行医院费用分析、医疗质量管理、医用耗材管理、住院患者人群分类等。

2)疾病诊断。面对日益庞大的病案数据,仅依靠临床经验,容易出现诊断错误,针对临床数据库、医学图像等,数据库挖掘技术也发挥着重要的作用。

决策树算法帮助医生从大量数据中寻找规律,提高准确率。应用聚类算法、关联规则等还可以进行疾病诊断因素和疾病关联等方面的分析,如实现癌症的早期诊断和预防等。

医学图像随着医疗设备的发展,种类都越来越多,医学图像中蕴含这丰富的图像特征和规则信息,使用决策树、神经网络和关联规则等数据挖掘算法,可以辅助医生对病变区域进行分析,提高医学诊断的准确性和正确性。

3)医学科研。基因研究:数据挖掘技术与传统的统计分析,在数据分析的效率上有明显的优势。利用关联规则、聚类分析等有助于发现一组序列的差异及相似性,阐明多个序列间的关系,确定基因种类。

蛋白质结构预测:许多国家组建了蛋白质结构和功能数据库,为科研工作这提供丰富信息的同时,由于数据分散、存储媒介多、数据冗余等复杂性,使用数据库技术进行数据清理,追踪蛋白质数据序列,为蛋白质结构预测提供便利。

药物发现及设计:数据挖掘技术有助于增加新药发现和设计中的主动性并避免盲目性。利用数据挖掘技术对从庞大的化合物数据库中发现药物靶分子,对药物进行筛选、药物毒理学、药物副作用分析,从而降低药物开发的时间和成本[4]。

4 结论

医疗信息的数字化发展和医学研究工作者对高校处理和分析大数据的渴望为数据挖掘提供了广阔的研究空间,也显示了数据挖掘在医学信息领域的发展潜力。利用数据挖掘技术,将帮助医疗管理、临床疾病诊断和医学科研等。相信在不久的将来,数据挖掘在医学信息领域将取得突破性进展。

参考文献

[1]石晓敬.数据挖掘及其在医学信息中的应用[J].医学信息学杂志,2013(34):2-6.

[2]秦文哲,陈进,董力.大数据背景下医学数据挖掘的研究进展及应用[J].中国胸心血管外科临床杂志,2016(1):55-60.

[3]陈郁韩.数据挖掘技术在医院管理中的应用.中国医学装备,2014(1):62-65.

上一篇:产业集群研究下一篇:英语电影教学的功能