医学检验数据

2024-07-27

医学检验数据(共11篇)

医学检验数据 篇1

摘要:当试验数据出现两种或者多种不同的结果时, 应该采用统计学的方法进行数据分析。本文介绍了什么是显著性检验, 几种常用的显著性检验的方法, 通过显著性检验判断试验数据之间的差异是否显著, 鉴别出两者差异是抽样误差引起的, 还是由特定的实验处理引起的。

关键词:农机检测,统计分析,显著性检验

0 引言

在试验、检测的数据处理过程中, 时常会出现两种或者多种不同的试验结果。对数据进行比较分析时, 不能仅凭两个结果的不同就作出结论, 而是要进行统计学分析, 对数据进行差异显著性检验。显著性检验就是事先对总体 (随机变量) 的参数或总体分布形式作出一个假设, 然后利用样本信息来判断这个假设 (原假设) 是否合理, 即判断总体的真实情况与原假设是否存在显著差异。这时我们要做两种检验, 一种是检验数据是否是属于母体内抽取的样本, 即检验总体参数与样本统计量之间是否存在着显著的差异;另一种是检验数据的统计量是否存在着显著的差异。差异显著性检验就是要判定造成差异的原因, 即差异是由于误差或偶然因素引起的或两者确实本身存在着差异。

显著性检验是针对我们对总体所作的假设做检验, 其原理就是“小概率事件实际不可能性原理”来接受或否定假设。所谓“显著”, 就是指两种或多种处理试验结果之间, 本身确实存在差异。如果是“不显著”, 就说明它们之间的差异是由抽样或偶然的因素引起的, 不是真正有实际差异存在。

在数理统计中一般以概率 (P) 5%作为显著评定标准, 即在100次试验中, 由于偶然因素造成差异的可能性在5次以上, 其差异被认为是不显著。如果两者差异在概率为5%的范围内, 出现这样概率的机会非常小而出现了, 那么我们就认为此差数具有显著差异程度。有时我们认为5%太低, 则可提高到1%作为显著评定标准, 若两者的差异在概率为1%的范围内, 那么我们就认为这个差数具有极显著的差异程度。

1 两组样本平均数的比较

当比较两种或多种处理的试验结果的平均数时, 通常先假定它们是从同一总体内抽取的多个样本, 它们之间没什么差异 (即平均数之差等于零) 。如果检验后所得的差数是由于抽样误差所引起的概率 (p) 少于或等于5%时, 则称这差数与假设不符合, 即它们之间存在的差异是显著的。

1.1 成组比较检验

当两个样本平均数undefined和undefined作比较时, 看undefined差数是否有显著的差异。随机变量X1和X2都是正态分布, 则undefined也必然是正态分布。采用t检验法对两组样本的差异显著性进行检验。在计算出t值后, 根据自由度查t表而决定差异是否显著。若计算所得t值在t表中所得概率小于P=0.05, 就表示差异显著, 反之则认为不显著。t检验法的计算公式如下:

undefined

式中undefined、undefined— 两样本算术平均数;

undefined— 两样本平均数差数的标准差。

两样本平均数差数的标准差undefined的计算方法为:

①如果两个样本的个数相同时, 计算公式为:

undefined

②如果第一个样本个数为n1, 第二个样本个数为n2, 则计算公式为:

undefined

式中undefined、undefined— 两个样本的标准差;

n1、n2—两个样本的个数。

例如:有甲、乙两台圆盘耙进行耙深的稳定性检测。甲耙为4片耙, 测定20次, 平均耙深为66 mm, 标准差为2.1 mm;乙耙为36片悬挂耙, 测定20次, 平均耙深为65.2 mm, 标准差为1.9 mm。试问甲、乙两台圆盘耙的耙深稳定性之间的差异是否显著。

两样本平均数差数:

undefined

两样本平均数的差数标准差:

undefined

undefined

自由度V= (n1-1) + (n2-1) =38, 从t分布表查t0.05, 20=2.086, t0.1, 20=1.725, 现计算t=1.26, 即表示两个样本的平均数差异不显著, 说明这两种圆盘耙的耙深稳定性差异不显著。

1.2 成对比较检验

成对法是指两个样本的各个变量, 有合理的联系, 彼此之间各有关系存在。成对比较进行差异显著性检验时, 只要计算出各对的差数d, 求平均差数undefined和差数的标准误差undefined, 用t检验法检验, 见公式:

undefined, 其中undefined

式中undefined—平均差数;

undefined—差数的标准差;

S—标准差。

例如:在实验室人员比对试验中, 两组比对人员分别对IT245型旋耕机弯刀刀身硬度进行检测, 每组测试5点, 检验两组测试结果差异是否显著, 见下表。

计算差值的平均值为0.14, 标准差为0.167, 差数的标准差为0.075, 计算出t=1.87。查t分布表得t0.05, 4=2.776, 故认为两组人员检测数据差异性不显著。

2 方差分析

方差分析是平均数差异显著性检验的另一种方法, 用来检验比较两组以上的几组平均数的差异和比较变量的差异的方法。方差分析应用F检验法, 两个方差的比值就是F值。

undefined

Sundefined与Sundefined各有它的自由度V1与V2, 根据两个自由度查F检验表, 从表中得到F0.05, V1, V2与F0.01, V1, V2值, 如计算得F>F0.05, V1, V2则为差异显著, 如计算得F>F0.01, V1, V2则为差异极显著。在计算F值时一般比较大的方差为分子, 较小的方差为分母。

例如:甲、乙两种犁进行耕深稳定性试验。甲犁测定20次, 平均耕深20.5 cm, 标准差2.45 cm;乙犁测定15次, 平均耕深20 cm, 标准差2.7 cm。试问甲、乙两犁的耕深稳定性是否有显著的差异。

undefined

查F检验表, 自由度V1=14, V2=19, F0.05, 14, 19=2.26, F0.01, 14, 19=3.19。现计算出的F=1.2, 故认为两种犁的耕深稳定性无显著的差异。

F值的显著性是表示各级间差异是否显著的总体情况, 并不能说明某几组之间的差异是否显著。所以在求得F值为显著后, 应进一步用t检验来检验各组间的差异是否显著。

3 小结

在试验、检测中常会出现不同的试验数据, 即使在同一总体中得到的几个试验数据, 它们之间也会存在着差异。那么它们之间的差异是否显著, 能否代表真实的检测结果, 就有必要通过差异显著性检验进行验证。正确地运用显著性检验, 可使实验或调查的结论建立在更科学、稳妥的基础上, 避免简单化和绝对化。

医学检验数据 篇2

来源: diyipaper.com

1.引言

云计算的出现,使建立医学云成为可能,以云计算为基础的医学数据中心应成为主要的模型趋势,即本文所称的云式模型.当然,随云而来的问题也很多,包括云计算实现技术问题,云价值及计费问题云计算的安全性问题,数据和交换标准问题,以及相关的法律法规建设问题等等.这些问题既于云计算技术相关,也存在着特定于医学数据中心的性质.所以,医学数据中心的发展与云计算的发展息息相关,相互促进.云式医学数据中心将随着云计算技术的发展而逐渐成为主流的医学数据中心模型。

2.云计算从2007年至今,人们开始逐步认识云计算,IT界对云计算给信息产业乃至整个世界将带来的变革性影响拥有共识,但对云计算本身的定义却存在不同的意见,归纳起来有下面几种:

云计算是一种新出现的计算模式,它能高效部署应用程序,并以低价敏捷响应业务需求.云计算是一种计算风格,其基础是用公共或私有网络实现服务、软件及处理能力的交付。

云计算的重点是用户体验,而核心是将计算服务的交互与底层技术相分离。

云计算是通过互联网交付的服务,是指通过数据中心提供这些服务的硬件和软件系统.云计算是以大规模数据中心为代表的物理门户,这些物理门户是IT业务基础架构的主干。

抽取关键因素,云计算的实质是建立数据中心,实现数据的存储和计算,以互联网为基础提供基础架构、平台或软件的有偿服务.云计算就像是信息公用电厂,接人云的需求者,不必购买硬件设备,不必购置、安装软件,不必建立或维护私有数据中心,可以付费方式获得云提供的各种计算服务。这种服务是多层次的,包括基础架构的服务、平台的服务和软件的服务等多个层次.云集中体现了IaaS(Infrastructure as a Service),PaaS(Platform as a Service)和SaaS(Software as a Service).应该说,对云计算而言,一切是服务,服务是一切。

3.医学数据中心现代文明国家,必须具备完善的国家健康信息系统,依赖之为国民提供医疗、健康保障.建设国家健康信息系统的首要问题是创建国家医学数据中心,而国家医学数据中.ZIS域医学数据中心为基础和初级阶段.就我国的现实情况而言,首先需要创建区域医学数据中心。

当前医疗信息化建设的主要问题是各个区域内不同医疗机构中患者的基础信息和各种临床信息资源分散、重复、孤立,导致有效信息闲置、信息重复不一致、单一局部的信息造成片面的诊断印象等等.断裂的信息链致使难以实现数据一知识.行为的信息利用机制,难以落实用数据说话的科学工作模式.同时,医学信息中缺失健康人群的基础数据的存储,难以为突发重大灾情或疫情时实施有效、有力的措施提供数据基础.缺乏信息整合致使整个医疗信息的使用消耗高、效率低、效果差。

问题的核心在于医院信息化建设的实施主体或者覆盖范围具有很大的局限性,多数以医院本身为边界,没有真正地突破医疗单位所形成的自然边界,形成区域医学数据中心.因此,当前医疗信息化建设的主要工作应当是针对目前缺乏的社会医药系统之间、医疗保障系统之间、居民健康档案之间的互联互通进行建设和数据整合,使当前相互割裂的、以收费为中心的医院信息系统,转换为以患者为中心的区域医学数据中心。

区域医学数据中心的建设,意在整合区域内不同医疗机构中患者或健康人群的各种临床诊疗信息资源,在相对集中的逻辑与物理环境中,构建一个以存储和处理患者或健康人群临床诊疗信息为核心的,覆盖多学科多专业的,面向区域内主要临床医疗机构、卫生行政主管部门和社会公众的医学数据资源共享平台.区域性医学数据中心的建设以医疗、预防、保健、康复为服务主线,以健康人群和患者的医疗活动需求为基础。

建设区域医学数据中心是解决当前医疗信息化建设存在问题的唯一途径,也是实现2009年3月17日中共中央国务院发布((关于深化医药卫生体制改革的意见 的新医改方案指定目标的唯一方法,实施并完善公共卫生服务体系、医疗服务体系、医疗保障体系和药品供应保障体系等四大医药卫生体系,建立并形成四位一体、覆盖城乡居民的立体的医疗体系结构,以保障新服务、新医辽、新医保和新供应的国家政策的贯彻执行,这一切必须建立在整合的医学数据中心之上。

数据中心是云计算的核心,因此,一切是服务,服务是一一切应该成为建立数据中心的宗旨。

4.各类模型的分析对医学数据中心模型及其发展趋势进行分析,本文将医学数据中心模型划分为分体式(局部集中),大集中式,B/S、C/S混合分布式和云式,在进一步阐述各种模型的基本特征的基础上,主要对目前大量存在的分体式模型进行分析,从而指出云式医学数据中心将成为主流模型。

4.1分体式我国经过20年的医院信息化建设,HIS(Hospital Information System)在大中城市的覆盖率基本达到100%,这种信息系统建立在以医院为核心的私有数据中心基础上,局限在各医疗单位所形成的自然边界内,致使各医疗单位之间、医疗单位与卫生行政管理机构之间、各机构与社会公众之间缺乏医学数据资源共享平台,距离新医改四位一体的、立体的医疗体系结构距离甚远,距离区域医学数据中心、国家医学数据中心的距离还很远.基于本文的分类方式,这种私有数据中心为分体式模型。

它建立在以医院为基本单位的自有硬件资源上,多数采用C/S体系结构,覆盖范围为医院内部.其意义主要在于代替了大量人力劳动,提高了效率.如,电子处方在医院内部的流通,为配药中心的药品发放、护士的处方实施提供了便捷、准确的依据,使处方流转速度加快,改善了医疗服务的流程.再如,护士以PDA等设备连接医院局域网,上传每日查房记录的病人的相关数据,医生就可随时查阅系统自动完成的体温变化曲线等信息.使用个人电脑或各种手持设备,通过局域网享用服务器程序提供的计算,这使得C/S结构成为当前的主导模式。

分体式私有数据中心的困境在于①系统复杂:各医院HIS运行在特定的硬件资源和软件平台上,依赖特定的数据库,业务流程的变更都必须最终体现在对HIS的维护甚至重构上.②单一用途:对于任何业务变更或新的需求,都必须提供相应的硬件配置,并购买或自编制软件以实现.硬件配置的底线是满足最大的理论需求值,即使最大负荷从来或很少达到也同样无法缩减配置开销.③利用率低:无论是病患信息、还是基础设施普遍存在重复建设和空置现象,如多数服务器的处理能力只用了不到1/4.④能耗巨大:全国复制出多于几十万个私有数据中心,都有类似的硬件、运行类似的软件、由类似的技术人员进行日常维护和研发.⑤风险:各医疗单位必须承担技术过时和系统故障的风险,这对他们而言不是长项。

分体式私有数据中心的重要特征是数据与服务的紧密依赖,这使得流程变更越来越困难,开销和技术支持都是沉重的难以为继的负担.结果是,IT对各医疗单位而言不只非常重要、不可缺少,也成为直接影响其竞争力的主要因素,这是不科学的,同时对以医疗为专业的企业不够公平。

4.2大集中式大集中式数据中心是一种理想方式.金融业的某些业务采用大集中式数据中心的运作方式,其运行效果也令人基本满意.金融业有着良好的大集中式的基础,这应该与其组织结构有着较为密切的关系,如各银行均由总行、分行、支行和营业部等组成分层架构,它们之间容易形成统一的数据标准和交换规则,有资源和管理权限的保障.如,各行汇兑可以采用固定时间于清算中心集中清算的方法;各行对储户卡的分级管理也由总行直接控制。

对于医学数据中心而言,大集中式不只存在实现困难,也并不适用.集中模型虽最大限度地维护了数据的安全和一致性,同时却带来了不可克服的问题.各医疗机构对中心数据的超强依赖,导致权限受约束,应变能力降低.基于集中模型的数据中心,其安全事故、灾难的影响面和破化程度都可能大大增加。

4.3 B/S、C/S混合分布式B/SL5儿圳、C/S混合分布式模型实质上是区域医学数据中心的雏形,基于各医疗机构的相对独立性,以及和各医疗机构间数据交换的弱频繁性和弱实时性,合理配置集中与分布数据,形成基于B/S、C/S结构、集中和分布相结合的混合模型。

医学检验数据 篇3

关键词:大数据;医学研究;数据挖掘

中图分类号:R-05

随着信息技术的快速发展,海量数据的产生推出了“大数据”的新名词。“大数据”指通过对收集和存储的海量信息数据进行分析、处理和可视化,从而挖掘出对我们有价值的信息的过程。大数据时代已经到来,并且渗透到了人类社会各个方面,不仅影响着人们的生活,而且触动社会经济发展的各个行业。在上述大的环境背景下,医学研究也已经进入数据时代,移动通信技术,传感器,基因组测试以及分析软件的进步,现在有可能捕捉到关于人类个体组成和周围环境的信息。此信息数据的总和可以改变医学研究,从对一般患者的治疗转向对个体患者的治疗,从而打破医学研究传统的实验科学。

1 大数据对医学研究的影响

大数据为医学研究和分析提供了一种全新的技术手段。大数据的到来标志着医学研究从传统的实验科学向以数据驱动为主,实验为辅的理论科学转变。传统的医学研究将研究员或医生圈定的实验室或手术室中,通过亲自做大量实验以获取经验。采用大数据技术,可以借助互联网通过共享大数据资源进行分析,以获取经验值。例如:我们可以将病例数据和信用卡消费数据结合,发现日常的生活习惯与健康的相关关系,直到人们养成良好的生活习惯。假若再加上手机和GPS数据,还能随时检测对人们进行体检,用以指导健身以减少疾病的发生,帮助医生诊断疾病。应用大数据可以设想的应用不计其数。

大数据有利于培养和发展医学研究,大数据技术的应用将形成自然和人文社会的历史长河,它不但能用于探索当代科学问题,还可以将数据转换为知识的使命,为医学研究留下现实的历史资源。

大数据技术的应用不仅为医学研究带来了新的技术手段,还具有大规模降低医疗费用的潜在效益。例如在医疗保健方面,根据麦肯锡全球研究院报告表明,如果美国医疗保健行业对大数据进行有效利用,就能将成本降低8%左右,从而每年创造出超过3000亿美元的产值。现在采用大数据的应用,可以从医生办公室、到药房、再到化验室收集数据,用以提醒医生潜在的药物不良反应和其他处方问题的状况。采用相应措施避免这一问题,不但可以改善患者的健康状况,并且可节省不必要的急诊和其他治疗费用。

2 国内外医学大数据发展现状

2.1 国外医学大数据大战现状

从国际情况来看,美国、日本、欧洲、英国大数据发展方面很快,这些发达国家采用大数据在医学研究方面已经走在了世界的前列。大数据科学与产业具有较强的领域相关性,医学大数据已经成为欧美等国家重要的发展战略,也是美国大数据计划的重要组成部分。

在临床诊断方面,临床数据采集、存储、管理信息技术的快速发展,不少医疗机构正逐步适应这一潮流。美国德州大学安德森肿瘤中心目前所支持的数据以TB级以上计算,它包括了肿瘤的病理学研究、流行病学研究,对于病因的经准确预测和模型研究等。

医学研究信息传播渠道便捷。医学研究大数据时代的到来,还源于健康管理、移动医疗应用的日益广泛。例如,微软公司早在2007年发布的HealthVault目标用于实现个人和家庭的健康管理,其数据则可以从便捷设备、第三方机构等倒入,通过提供开放的接口等技术支持应用集成。

医学研究大数据技术先进,大数据应用在医学研究带来了商业机会,过去几年在这个领域的投资出现急剧增加。这些商业机会已经驱使欧美的很多知名大公司投资数亿美元到手机应用程序数据采集系统分析软件,如苹果、高通和国际商用机器公司。

2.2 国内医学研究大数据发展现状

大数据时代的来临,加上转型医学的兴起,在我国形成了历史性的契机,可望使中国医学研究实现历史性的跨越。

首都医科大学附属北京安贞医院心脏内科中心主任马长生正承担“北京市心血管疾病防控大数据平台建设”工作,在他的研究中,包括采用大数据手段研究环境和心血管疾病之间的关系。“用大数据的手段,每日收集不同站点PM2.5浓度与心血管疾病的关系,甚至股票波动与心血管疾病的关系,都可以得到预测。”

近幾年,大数据在医学研究方面的应用也受到了国家的高度重视,在国家“863”计划2015年度项目申报指南中,在医学研究技术领域已经部署了医学大数据开发与利用关键技术研究。涉及的内容包括了医学大数据标准化和集成、融合技术、医学大数据表述搜索与存储访问技术,组成大数据中心和知识库构建及服务技术等。

然而,就目前来看,大数据对于医学研究而言,仍然是处于机遇与挑战并存阶段,只有做到医学研究与信息技术紧密结合,才能更充分的利用好大数据,从而解决复杂疾病等人类所面临的共同挑战。

3 医学大数据发展存在的问题及对策

3.1 加强医学研究大数据的整合与共享

目前由于医院对患者的信息具有保密性,各医院间也没有建立起紧密的合作关系,这从而阻碍了数据的共享,在我国医疗数据几乎不能共享,转化利用率低下。要想实现大数据在医学研究的发展,必须实现社区、医院、区域的医疗数据共享系统。

3.2 加强信息技术与医学研究的融合

从理论上来看,大数据在医学上的应用至少需要云计算技术实现数据的传输

分析、共享及关联等,需要异构源数据整合和互操作技术,需要可视化工具才能便于人们理解复杂的数据。只有这样才能真正实现基础数据、研发数据、诊疗数据的无缝连接。目前也迫切需要研究机构能开展这方面的研究,开发出更好的大数据分析平台。

3.3 加强医学研究大数据的标准

除了技术的挑战外,另一个挑战就是数据标准的缺乏,这往往使得研究者无从切入。例如,不同类型生物样本库的存在,以及搜集样本的类型和保存方式的不同,其所承担的功能和架构、工作流程、基础设施建设和设备配备等情况也会不同,使得数据标准很难建立。

即使在信息技术及医学研究都极为发达的国家,不同系统、机构之间的数据共享和分析也面临着障碍。美国劳伦斯薄利国家实验室科学部主人鲁宾曾指出“理想状态的目标是建立统一的电子病例系统,系统中的这些信息应有同意的标准,但实现这一标准并非简单,各个医院存储的数据标准不同而且不同系统存储信息也不一样”。为此,在“奥巴马医改(Obamacare)”的政策中,就包括把问诊、处方以及治疗电子化,使所有的医院全部实现电子录入——即便如此,对于标准化而言,也仍然只是刚刚开始。

3.4 营造良好的医学大数据发展环境

研究制定促进医学研究大数据发展的政策措施,理顺医学数据资源的管理体制。积极争取国家财政资金支持,引导国家设立专项资金向医学研究大数据项目倾斜。加强专业人才培养,应在医学领域加强计算机科学、数据库专业人员的培养。

参考文献:

[1]涂子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012.

[2]孙志伟.大数据时代中小企业的应对策略[J].未来与发展,2013(10):46-49.

[3]吴忠,丁绪武.大数据时代下的管理模式创新[J].企业管理,2013(10):35-37.

[4]艾伯特.拉斯洛.巴拉巴西著,马慧译.爆发:大数据时代遇见未来的新思维[M].北京:中国人民大学出版社,2012:13.

作者简介:李惠先(1983-),女,河北保定人,教师,硕士研究生,研究方向:虚拟现实。

医学数据挖掘的现状分析 篇4

随着医学信息化的飞速发展, 在医疗卫生领域中有大量关于病人的病史、诊断、检验和治疗的临床信息, 以及药品管理信息、医院管理信息等医疗信息可以被精确地记录下来, 从而导致医疗数据资料呈爆炸性增长, 促进了医学信息的数字化、自动化和智能化应用和研究的快速发展。在这些激增的数据背后隐藏着许多重要的信息, 如何从这些海量的医疗数据中, 挖掘出有用的信息, 为了解各种疾病之间的相互关系和各种疾病的发展规律、为疾病的防控、为诊治方案的总结优化等各方面提供科学依据, 这将对疾病的防控、诊断、治疗和医学研究的发展具有重大意义。

2. 医学数据挖掘概述

2.1 医学信息的特点

2.1.1 数据类型的多样性

医学中的数据类型多种多样, 如电子病案中关于人口学特征的数据为纯文本型, 检验科中有关病人生理、生化指标为数字型。影像科中如B超、CT、MR、X光片等图像资料, 如肌电、脑电等信号数据。医学数据的复杂性要求与之适应的数据挖掘方法学的研究。

2.1.2 动态性

很多医学数据如脑电图、心电图的检测数据呈非规则的波形、血压、心率等数据与时间呈函数关系;某些疾病病人的门诊、急诊、住院就诊与季节、地域有时间序列关系。

2.1.3 冗余性

医学数据呈指数增长并不意味着与信息呈正比, 有大量与诊疗及管理无关的数据, 需要与之相适应的数据整合、特征提取等方法。总之医院数据的多样性及特殊性, 需要该领域方法学的研究。

2.2 医学数据挖掘的关键技术

医学数据的特点使得医学数据挖掘与常规的数据挖掘之间存在较大的差异, 医学数据挖掘的关键技术如下:

2.2.1 数据预处理

医学数据库中含有海量的、不同来源的原始信息, 其中包括大量模糊的、不完整的、带有噪声和冗余的信息。在数据挖掘之前, 必须对这些信息进行清理和过滤, 以确保数据的一致性和确定性, 将其变成适合挖掘的形式。

2.2.2 信息融合技术

医学信息是由文字、数据、波形信号、图像、以及少量的语音和视频信号组成。对这些不同物理属性的医学数据, 应采用不同的技术和措施进行处理, 使其在属性上趋同或一致, 再对处理的结果进行综合。医学信息的多源性、时序性和非时序性数据共存、数字型数据和非数字型数据共存的特点, 加大了信息融合的难度。

2.2.3 快速的、鲁棒的挖掘算法

医学数据库是一个涉及面广、信息量大的信息库。要在这样庞大的数据库中提取知识, 需要花费比其它数据库更多的时间, 因此必须考虑医学数据挖掘的效率问题。研究快速挖掘算法对于远程医疗和社区医疗具有更深远的意义, 将直接影响其响应速度和医疗成本。同时, 医学数据库的类型较多, 并且又是动态变化的, 要求挖掘算法具有一定的容错性和鲁棒性。

2.2.4 提供知识的准确性和可靠性

医学数据挖掘的主要目的是为医疗活动和管理提供科学的决策, 因此必须保证挖掘算法所提供的知识具有较高的准确率和可靠性。如何降低医学数据挖掘过程中的风险, 提高挖掘结果的准确性和科学性, 是医学数据挖掘能否得到实际应用的关键所在。

3. 医学数据挖掘国内研究现状

用数据挖掘方法抽取医学数据中的趋势及规律性, 可以辅助医务人员快速准确地诊断、预测、监控和确定最优的治疗方案。目前, 数据挖掘已经运用在很多医学应用领域中。

3.1 医院信息系统中的应用

目前医院信息系统大多停留在医学数据库的低层次应用上缺乏对数据的集成和深层分析更谈不上对医学知识的自动获取。在激烈竞争的医疗市场中管理人员需要分析各类病人的行为模式、需求与偏好、忠诚度与满意度;基于病种病例分型模式构造、门急诊量的预测、成本效益分析等。总之, 对于医院科研水平和服务质量的提高, 数据挖掘技术的研究与应用有很旺盛的生命力[7]。

3.2 疾病诊断、预测

数据挖掘可以通过对患者大量的数据资料的处理, 挖掘出有价值的诊断规则, 建立预测模型, 再对这个模型进行测试训练得到合适的算法模型, 利用这种模型可以辅助临床医学诊断。挖掘技术已应用于胸痛发展结果的预测诊断、ICU应急诊断、类风湿类型的辨别诊断、乳腺疾病的诊断、胎儿早产的诊断、肝病分类诊断、急性阑尾炎分类等诊断。

利用数据挖掘确定某些疾病的发展模式, 根据病人的病史预测病情的发展趋势, 从而可以有针对性的预防疾病的发生。如借助数据挖掘技术中的贝叶斯 (Bayes) 网络技术, 结合中医理论、专家经验及其它各种统计方法来研究抑郁症的中医证候规律[1];

3.3 医学图像挖掘

医学图像 (如CT、MRI、PET等) 是利用人体内不同器官和组织对X射线、超声波、光线等的散射、透射、反射和吸收的不同特性而形成的, 它为对人体骨骼、内脏器官疾病和损伤进行诊断、定位提供了有效的手段。医学领域中越来越多地使用图像作为疾病诊断的工具。理论上图像数据挖掘是数据挖掘的分支, 但是由于挖掘对象的复杂性, 自2000年召开第一届多媒体数据挖掘年会至今, 这方面研究尚未形成完整的理论框架和技术方法, 仍处于探索阶段。孙蕾等人利用数据挖掘技术, 针对乳腺影像数据库开发了相应的计算机辅助诊断系统[4].

3.4 生物信息学---DNA分析

人类基因组计划的开展随之产生了巨量的基因组信息, 区分DNA序列上的外显子和内含子成为基因工程中对基因进行识别和鉴定关键环节之一。如何建立良好的系统模型将基因组数据进行有效地存储、分析和挖掘, 仍是难题。使用有效的数据挖掘方法从大量的生物数据中挖掘有价值的知识, 提供决策支持。目前已有大量研究者努力对DNA数据分析进行定量的研究, 从已经存在的基因数据库中得到导致各种疾病的特定基因序列模式。一些DNA分析研究的成果已经导致了许多疾病和残疾基因的发现, 以及对疾病的诊断、预防和治疗的新药物、新方法的发现[6]。

3.5 在中医药领域中的应用

当前在中医领域, 数据挖掘应用最广泛的是在中药 (复方) 的研究中, 并已经取得了一定的进展。对中医药来说, 大量治疗同一病症的复方里面必定蕴含着对疾病认识和治疗的科学规律, 有些规律已经被掌握了, 如一些治法和治则等, 也有些更深层次的规律需要从中挖掘出来, 而数据挖掘作为一种高级的信息处理技术, 可以在一定程度上帮助人们发现和认识那些隐藏的模式和规律, 如搜寻临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。国内秦中广等将粗糙集理论应用于中医类风湿的诊断, 大大提高了诊断准确率[5]。北京中医药大学利用数据挖掘技术开发的中医处方智能分析系统[8].

4、结束语

医学数据库的信息量非常庞大, 且其数据和其他类型的数据相比, 又具有自身的独特性。要想充分利用丰富而宝贵的医学资源, 服务于医学、受惠于患者, 必须选择适合医学数据类型的数据挖掘工具及挖掘技术, 尽可能大的发挥数据挖掘技术在医学信息获取中的价值, 为医学的发展开辟了一条新的途径。

参考文献

[1]包祖晓.基于贝叶斯 (Bayes) 网络技术的抑郁症中医症候规律研究, 北京中医药大学博士学位论文.

[2]JHan, MKamber.范明, 孟小峰译.数据挖掘概念与技术.第二版.北京.机械工业出版社.2007.146一176

[3]张万水, 陈利国, 黄运坤, 陈咏梅, 王凤珍.数据挖掘技术及其在中医遣方用药规律中的应用[J].辽宁中医药大学学报.2006.8 (04) :62一63.

[4]孙蕾.医学图像智能挖掘关键技术研究.西北工业大学博士论文.

[5]秦中广.粗糙集在中医类风湿症候诊断中的应用[J].中国生物医学工程学报.2001.20 (4) :357~363.

[6]程建国.神经网络在基因序列预测中的应用研究[J].微计算机信息.2008.24 (11) :264~265.

[7]徐元熙.数据挖掘在医院信息系统中的应用研究[J].微计算机信息.2008.24 (11) :188~190.

医学检验数据 篇5

随着新的业务和管理系统不断投入运行,数据量成倍增长,系统间的关系也更加紧密,迫切需要建立数据中心系统以满足检验检疫业务发展对数据分析和决策支持的要求。为此,北京检验检疫局于5月开始开发数据中心系统,并于9月顺利通过验收。数据中心系统将分布于各业务系统中的数据和分散在业务处室、分支机构的电子表格数据提取到数据中心,并将这些数据重新加以汇总,形成便于查询和辅助决策的统计数据,为用户提供查询、分析、预警等功能。目前,该系统包括的数据主要有业务数据、财务数据、仪器设备数据、人事数据和办公数据。

1.业务数据包括出入境检验检疫统计数据和海关经济环境数据等,主要来自ciq系统、集中审单系统等。其中,检验检疫业务统计数据是对日常检验检疫业务所产生的数据的汇总与统计,从整体上反映一定时期检验检疫业务的运行状况,并支持从不同角度对检验检疫各项业务进行分析;海关经济环境数据是由海关提供的与检验检疫业务相关的常用经济数据,与检验检疫业务统计数据形成参照,从而使工作人员对检验检疫业务数据的分析更全面、完整。

2.财务数据包括财务状况数据、国有资产数据、下属企事业单位收支情况数据等。财务状况数据包括北京检验检疫局整体及各部门预决算相关数据、收支费用相关数据,用以反映北京检验检疫局的整体财务状况;国有资产数据包括购房补贴、政府采购和车辆编制相关数据,用以反映北京检验检疫局国有资产购置及支出情况;下属企事业单位收支情况数据主要用于对这些企事业单位的运营情况进行监督。

3.仪器设备数据根据设备用途不同,具体分为车辆数据和办公设备及仪器数据。车辆数据主要是车辆及其使用情况和驾驶员情况的相关数据,数据提取自车辆管理信息系统。其中,明细数据用以反映每辆车的具体情况,统计指标根据明细数据进行汇总,用以反映全局车辆的整体状况;办公设备及仪器数据主要是与办公常用设备(如打印机)和检验检疫业务及其实验中使用仪器的相关数量、价值、使用情况数据,数据提取自仪器设备管理信息系统。

4.人事数据包括人事基本信息、人事简历信息和人事培训信息等方面的数据,用于支持对局内人事情况进行统计和分析。其中,明细数据以具体个人为单位,描述个人的相关特征;指标数据以人数为单位,按统计周期对明细数据进行汇总,用于反映全局整体人员构成状况。

5.办公信息主要用于体现全局办公的整体情况,数据提取自办公自动化系统。

由于以上5类数据主要来自各个业务信息系统,因此北京检验检疫局构建了数据标准化指标体系,为各业务系统数据的整合、组织和应用提供了标准和规范,解决了各业务处理系统间存在的数据同名异意和同意异名等问题,为实现各业务处理系统数据整合提供了基础和依据。在数据标准的规范下,北京检验检疫局建设了数据中心项目的数据仓库,数据仓库在相关工具软件的支持下,实现了对ciq系统数据、预算管理系统数据、仪器设备管理系统数据、车辆管理系统数据和办公自动化系统数据的抽取、转化、整合和加载,不仅能将这5类数据分别统计和展现,还能将这些数据结合起来进行综合分析和统计,实现全局数据的增值和转化。

建成后的北京检验检疫局数据中心系统具有数据采集、数据应用和管理维护三大类功能:数据采集功能负责从业务数据源中抽取、清理和转换数据,实现数据从各业务数据源向数据中心的移动;数据应用功能用于以多种形式展示统计数据,具体包括数据查询、统计月报、预警分析和业务报表;管理维护功能是保证系统正常运行的基石,由数据中心系统中管理维护模块的管理子系统和维护子系统实现。其中,管理子系统主要进行系统信息的管理,如用户管理、权限管理,同时还可以进行系统审计;维护子系统主要面向数据和应用系统进行维护,保证应用系统的正常运行,并保持应用系统的丰富多样。

医学检验数据 篇6

关键词 柞蚕丝 质量 统计 分析

中图分类号:TP311.12 文献标识码:A

1 柞蚕丝介绍

蚕丝历来就有“软黄金”的美誉,是我们国家传统的出口创汇产品之一,出口量占世界总出口量的90%以上,是加入WTO后我国能够主导国际市场的极少数优势产业之一。除了利用桑蚕以外,中国自古以来就根据自然界的资源,利用多种野蚕的茧丝,并一直延续到现在。传统的野蚕丝主要有柞蚕丝、天蚕丝、樟蚕丝等。其中以柞蚕所吐之丝为原料缫制的长丝,称为柞蚕丝。按煮漂茧和所使化学药剂的不同,可分为药水丝和灰丝两种。药水丝用过氧化物漂茧,丝色淡黄;灰丝则以碱性物质漂茧,茧色灰褐。按缫丝方法的不同,又可分为水缫丝和干缫丝。水缫丝在立缫机温汤中进行缫丝,丝色为淡黄色;干缫丝在干缫机台面上进行缫丝。机制和手工制的各种柞丝,多用于织制绸面粗犷、富丽、挺括、具有自然疙瘩花纹的柞丝绸。

2 柞蚕丝检验现状

现在的柞蚕丝的检验标准使用的是FZ/T42001-1993的修订版本,其中规定了柞蚕丝中的不同种类的丝定级方法,包括:水缫丝、药水丝、药土丝的分级。并对检验方法也作了详细的规定,比如使用的设备标准,检验的规程,品质的检验等。对主要的指标(如:实际回潮率、公量、平均纤度、纤度编差、纤度开差、平均断裂强度、平均断裂伸长率等)也制定了详细的计算方式。

3 柞蚕丝检验的质量统计与数据分析

柞蚕丝检验管理系统的开发过程中,质量统计与数据分析功能是二个重要的组成部分。对检验人员来说,可以随时查看各地区、各厂家不同时段蚕丝的质量对比及蚕丝各重要指标的平均值和大小值分析。

3.1 质量统计

系统的质量统计功能,可以实现按开始与结束时间、蚕丝种类、蚕丝的规格、生产厂家和统计范围进行质量数据的统计。在统计的表格中可以了解每个厂家的各等级蚕丝的数量、相应的平均等级和主要存在瑕疵点的指标。这样可以了解不同厂家的生产水平,不但让厂家自己掌握自己的不足,也同时让检验单位对各年的质量有个对比,为更好的指导蚕丝生产打下基础。

3.2 数据分析

数据分析功能与前面的质量统计功能操作上有些类似,但是它们的所统计的内容确是截然不同的。统计的表中是数据分析对比表中主要关心各厂家的蚕丝各主要指标的最大、最小、平均,通过这些数据的分析对比,可以看出不同厂家所在地区的蚕丝的区别及技术和人员操作问题所带来的蚕丝指标的变化。

以上这二个功能在实现上,主要的设计难点在于数据统计的正确性。以质量统计为例,在质量统计功能的设计中平均级,按用户要求需要按等级排序。最高是2A级,最低是级外品,每个等级后还有一个0到99之间的整数,对于这样的排序,在Winform中可以使用临时表来实现。创建代码如下:

showData = new DataTable();

DataColumn dj = new DataColumn("dj", typeof(string));//平均等级

DataColumn dj1 = new DataColumn("dj1", typeof(string));//平均等级1

DataColumn dj2 = new DataColumn("dj2", typeof(string));//平均等级2

DataColumn dj3 = new DataColumn("dj3", typeof(string));//平均等级3

showData.Columns.Add(dj);

showData.Columns.Add(dj1);

showData.Columns.Add(dj2);

showData.Columns.Add(dj3);

以上的代码只是针对等级排序来定义的,其它的字段由于篇幅有限就不列出来了。其中dj字段用于存放显示的最终等级信息,如“2A+88”,dj1用于存放等级“2A+88”中字母

A前面的数字,dj2用于存放字母,dj3用于存放加号后的整数,如“88”。最后数据在排序时就是对dj1,dj2,dj3的综合排序,代码如下:

shData.DefaultView.Sort = "dj3 desc,dj2,dj1 desc";

DataTable ttDt = shData.DefaultView.ToTable();

而数据分析功能中在实现时主要使用Select语句中的一些函数,包括:COUNT(),MAX(),MIN(),STR(),AVG(),ABS()。具体的语句如下所示:

string sql = "select COUNT(cb) as ps,MAX(xdpc) as max_xdpc,MIN(xdpc) as min_xdpc,str(avg(xdpc),5,2) as avg_xdpc," +

"MAX(abs(avgglxd-type)) as max_gg,Min(abs(avgglxd-type)) as min_gg,str(avg(abs(avgglxd-type)),5,2) as avg_gg," +

"MAX(ql) as max_ql,MIN(ql) as min_ql,str(avg(ql),5,2) as avg_ql," +

"MAX(sd) as max_sd,MIN(sd) as min_sd,str(avg(sd),5,2) as avg_sd," +

"MAX(yd) as max_yd,MIN(yd) as min_yd,str(avg(yd),5,2) as avg_yd," +

"MAX(qj) as max_qj,MIN(qj) as min_qj,str(avg(qj),5,2) as avg_qj," +

"MAX(bh) as max_bh,MIN(bh) as min_bh,str(avg(bh),5,2) as avg_bh," +

"abs(MAX(avghcl)) as max_hcl,abs(MIN(avghcl)) as min_hcl,abs(str(avg(avghcl),5,2)) as avg_hcl,MAX(qd) as max_qd from checks" +

" where cdate>='" + s.Trim() + "' and cdate<='" + end.Trim() + "' and type=" + gg;

参考文献

[1] 赵春玲..NET平台下开发三层架构WinForm应用程序简介.信息技术与信息化,2010(8):15.

[2] 曲壮.辽宁柞蚕丝绸科学研究院十年来科技成果及推广应用回顾.辽宁丝绸,1998(01).

医学数据库的选择和利用 篇7

随着信息社会的发展, 计算机技术、多媒体技术与网络通讯技术的涌入, 我们所处的时代走进了“知识爆炸”时代, 世界知识总量十年翻一番, 在生化、电子、宇航等科学领域内, 二到三年就翻一番[1]

知识的急剧增长和知识废旧率加快, 使得知识生产周期缩短, 知识生产的前期, 即课题的检索、调研时间已大为缩短, 目前最先进的图书情报系统, 平均每10分钟就可以完成一个课题的检索。知识生产的后期, 即知识鉴别和出版的速度也在随着科技的发展在缩短, 国际上论文发表平均为周期为6~8个月, 我国科技期刊论文的发表周期平均为14.1个月。[2]

知识生产周期的缩短, 使得文献发表速度急剧增加。其中期刊以时效性强, 信息量大而在各种信息源中具有较大的优势。全世界共有医学期刊2万种。据统计65%~75%的医学信息来源于医学期刊。

期刊种类的不断增加以及读者对文献信息资源需求的不断增加, 形成了图书馆与读者之间的供需矛盾, 手工检索工具应运而生, 但仅仅靠手工检索已经满足不了科研工作者的需求, 电子资源的出现和发展, 知识的获取变得相当的便捷。尤其为医学学术研究的现代化提供了种种便利, 可随时了解国际国内最新的医学信息, 有效的利用医学数据库资源为学习、教学、科研等服务, 加快密切的区域和国际合作、开展广泛的信息交流。如何更好的选择和利用好医学数据库, 越发的显得重要。

1 数据库的选择和利用

1.1 国外数据库的选择和利用

国际重要外文数据库包括MEDLINE数据库、PUBMED网络数据库、OVID、EBSCO等.其中MEDLINE为题录数据库, OVID、EBSCO、Springerlink为全文数据库。

MEDLINE作为美国国立医学图书馆 (NLM) 生产的国际性综合生物医学信息书目数据库, 是当前国际上最权威的生物医学文献数据库。在外文的数据库中, MEDLINE数据库已经逐渐成为必检的数据库。建议牙科和护理专业的科研工作者选择使用该数据库, 因库中除了美国《医学索引》的全部内容, 还包括有《牙科文献索引》、《国际护理索引》的部分内容, 涉及临床医学、基础医学、环境医学、营养卫生、药理和药剂学、卫生管理、医学保健和情报科学等领域。创刊于1879年是世界最最具权威性的医学文献检索数据库, 其报道的文献量大、质量高;检索功能很齐全, 标引的质量也高, 响应速度快兼容性较强, 可以随机使用[3]。因涉及的语种达到43个语种, 并且覆盖了70多个国家和地区, 且是以英文刊物为主体, 故在国内外都具有极高的使用率。

没有购买MEDLINE数据库的医学院校, 通常会链接一个PubMed网络数据库, 它是由美国国立医学图书馆 (NLM) 所属的美国生物技术信息中心 (NCBI) 开发研制的网络文献检索系统。在网上以www方式向用户提供的一项免费检索数据库服务。由于PubMed数据库中, 每天都收录新文献, 所以它的报道速度比MEDLINE更快, 更新。且Pubmed题录文摘完全开放。[4]Pubmed数据来源有三个方面, MEDLINE数据库, PREMEDLINE数据库和由出版商提供的电子文献。因其内容涵盖范围的广泛, 检索界面的方便实用, 以及题录完全免费, 并可以下载部分全文。受到广大医学爱好者的好评。医学科研工作者可定期在该平台使用主题检索的方法, 了解当今世界上最新的医学信息。

1.2 国内数据库的选择和利用

国内重要的数据库主要包括维普数据库、万方系列数据库、中文生物医学文献光盘数据库、中国期刊网全文数据库, 超星medalink等。

对需要中华类核心期刊文章的读者, 可把万方数据库作为首选数据库, 因其对中华类期刊有独家版权。中华类的期刊在别的数据库中无法查询到。

中文生物医学文献数据库 (简称CBMdisc) , 是国内应用最为广泛的文摘数据库, 其检索界面模拟Medline, 使用非常便捷, 现在改版为网络版本, 题录的检索和下载功能较好, 收录了1978年以来1600多种中国生物医学期刊, 以及汇编、会议论文的文献题录, 是我国最早成功开发的医学文献数据库之一, 学科覆盖范围与medline相似, 信息容量大传递速度快, 对于医护工作者掌握本学科动态、进行查新前检索和医学信息专业人员进行科技查新检索具有重要的参考价值。

中国期刊网全文数据库 (CJFD) , 是目前世界上最大的连续动态更新的中国期刊全文数据库, 内容覆盖自然科学、工程技术、等各个领域, 因学科范围比较广泛, 也叫做“同方全库”。对研究交叉学科的读者, 建议选择并使用该库。并且由于该库的检索界面非常的人性化, 可根据自己的需求查找所需资源, 比如期刊检索、基金检索等, 对科研工作者提供了很多的有效工具。

超星medalink作为一个非常实用的平台, 重点向所有科研工作者推荐, 他的一站式检索, 解决了读者一个一个数据库去查找资料的困扰, 如果本地有资源, 可直接下载, 本地没有购买的资源, 可以通过自助式的远程传递的方式实用该资源, 非常的快捷方便。

参考文献

[1]埃德加·富尔.学会生存[M].

[2]张惠民.中国科技期刊:亟需打造国际品牌[N].光明日报.

[3]孙思琴, 韩丰谈.四个国内外医学数据库检索功能的比较研[J].现代情报, 2003 (11) :58, 62.

基于Java的医学图像数据接口 篇8

医学原始数据的进入是进行图像分析的第一步。但是专用医学图像(如CT, MRI)不采用BMP, JPEG等一般格式,而是以DICOM格式存放的。因此需要通过一个通用数据接口提供双向服务:(1)实现DICOM数据的解码,得到图像及相关病历信息。(2)提供DICOM图像数据向BMP ,JPEG等普通格式转化的功能。(3)经计算机处理后的图像数据及其他一些非DICOM图像数据编码为DICOM格式,亦即形成新的 CT/MRI文件,从而可以进入DICOM专用网络。

1 DICOM标准与Java实现接口的优势

DICOM协议主要是针对PACS系统中的图像格式的定义和图像通信的规范。其作为目前通用的医学图像标准,最重要的特性之一在于其面向对象性。这就决定了在该标准的软件实现中,Java具有独特的优越性。DICOM标准的面向对象性是基于一组显式的、细节化的实体关系模型(Entity-Relation模型)。模型具有以下三要素:(1)各种实体如患者(patient)、图像(image)、研究(studies)等代表对象。(2)属性,描述了对象的特性。属性赋值以后,抽象的实体成为实例(Instance)。(3)服务,处理信息对象的方法,如文件的存储和传输操作。E-R模型关系如图1所示。

例如:源实体为患者,目标实体为CT图像,关系为所属,这两个实体之间是1对n的关系。

Java具有以下几个特点:(1)面向对象性。(2)与平台无关性。(3)方便的网络移植性。用Java来实现DICOM接口,可以体现良好的数据抽象和数据封装,这与DICOM标准的基本设计思想完全吻合。最终目标是建立起一个与平台无关,同时基于网络运行的医学图像分析系统。因此基于Java开发的DICOM数据接口以Java包的形式向整个系统提供无缝连接,同时对其它Java的医学软件提供通用服务。

2 软件设计与实现

已有的同类型软件存在的主要问题在于:(1)通用性不够,只适用于特定范围。(2)功能的实用性没有很好的贴近医院的使用习惯。(3)无法保证效率。具体而言,就是指运算时间和内存占用这两方面的性能指标。由于一般情况下,对软件性能的要求不是基于单个文件,医院通常对每个患者的一次病理分析会产生几十兆的DICOM文件序列,软件的算法结构和内存分配是否合理,会对软件的性能有非常明显的影响。

2.1 通用性设计分析

目前很多DICOM软件之所以通用性不是很好,是由于设计时没有能够充分考虑到DICOM数据编码的灵活性,因而没有在程序中作相应处理。DICOM文件是标准的二进制流文件,它实际上是对各种对象的属性信息进行编码,其结构层次为:数据元素(Data Element)一数据集( Data Set) — 消息(Message)。作为最小单位的每一个数据元素在DICOM的数据字典中都有明确定义:惟一性标志(TAG) ,名称(NAME)和类型表示(VR)。数据字典以静态属性的形式封装进独立的Java类。从局部看按照TAG值升序排列,DICOM文件顺次存放如图2所示。

整体来讲,文件分为信息头和图像两大部分。前者存放患者信息和图像的总体指标,后者存放图像的象素信息。DICOM标准规定:信息头中一些关键属性值的设置非常灵活,而且对其它相关方而有直接影响。在一些文献中试图对这种灵活性进行归纳,本研究认为这些归纳并不全面。而一个全面的总结正是通用型程序结构的设计基础,具体如下:

(1)传输语法对信息头和图像部分编码的影响。

传输语法(Transfer Syntax)属性的值控制整个文件的编码结构。程序必须据此判断。

①类型表示(VR)在编码时显式(explicit)还是隐式(implicit)列出,相应“长度”项的位置(距“标志”项的偏移量)会有所不同。而“值”的读取一般依赖于正确的“长度”。

②字节顺序(byte ordering)是低位地址低位字节顺序(Little Ending)还是低位地址高位字节顺序(Big Ending)。从根本上影响到Java I/O中对二进制字节流的组合方式。

③图像数据是否经过压缩。大部分DICOM图像是没有经过压缩的原始数据,对于压缩图像,可以有JPEG压缩和游程编码压缩( RLE)两大类,并下分有损和无损情况。Sun公司提供了处理JPEG压缩/解压缩包。com.sun.image.codec.jpeg。RLE的压缩/解压缩算法包也是外挂的,可以很方便实现。如图3可以看出文件预处理过程。

(2)信息头对图像部分编码的影响。

①图像类别。

图像类别(Modality)属性直接影响后面象素值的读取,对于MRI灰度图像,没有CT灰度图像所具有的斜率,截距概念,也就没有相关的预处理过程。同时MRI灰度图像没有预定义窗宽、窗位,因此根据窗宽、窗位调整象素值的过程有别于CT灰度图像。

②光度表示。

光度表示(photometric Interpretation)属性定义如下几种:MONOCHROME灰度图像,RGB彩色图像,ARGB彩色图像,HSV彩色图像等。彩色图像的存储方式有别于灰度图像,同时也不存在调节窗宽、窗位的处理过程。

③位数分配和最高位。

位数分配(bits allocated)属性规定灰度图像中单一象素所占用的位数。最简单是8位的情况,16位时必须按照传输语法中低位在前还是高位在前进行两两字节的组合。12位(非8的倍数)是较为复杂的情况,需要结合最高位(high bits),每二个字节组合,再进行分拆。

④窗宽和窗位。

对于CT图像,经过组合分拆等方式解码后的象素值仍然不能直接用于成像,还需要从CT图像的信息头中提取缺省窗宽(Window Width)和窗位(Window Center)的信息,将范围内的象素值映射为成像的灰度值范围0~255。而MRI图像没有提供上述值,DICOM标准中没有明确规定如何获得缺省图像。这里给出遍历的方法,以整个象素范围作为窗宽,范围的中心值作为窗位。这样,MRI缺省图像将表现全部的象素信息。

由以上分析,对DICOM文件进行解码(读取)处理的程序流程图如图4,图5所示。

2.2 对性能的考虑

当DICOM文件的解码/编码是以序列为单位进行时,内存分配和时间两个性能指标是否得到优化显得尤其重要。

(1) 内存分配上的优化考虑

200幅512×512×16Bit的CT图像,驻留内存的象素值就需要100M左右的空间,另外再考虑到读取文件所开的缓冲区和其他棍种临时空间,因此必须尽最大可能提高内存利用率。实际操作中,采取以下方法:①Java对内存的垃圾回收机制无法满足要求,由于临时空间巨大,一旦不再需要即显示清除。②采用合理的数据类型,如灰度范围是0~256,通常是考虑用short类型。而本研究以byte型(-128-127)加偏移量代替,可以成倍缩小所需空间。

(2)操作时间上的优化考虑

JAVA在文件I/O的处理速度上落后于C/C++,只有在软件的算法结构上加以优化弥补。由程序控制流程可见,操作时间分为三部分:①遍历文件,直到找到象素标志(TAG),该位置为象素部分在整个文件中的偏移量。②对该位置之前的文件信息头部分,遍历各种属性值。③对该位置之后的文件图像部分,进行组合、拆分、映射等处理。其中,第一部分对于单个文件是必不可少的。Java读二进制流文件,要给出接收缓冲区的大小,而仅为文件信息头部分就开大缓冲区是不符合内存分配的原则。本研究采取的是“探测法”,例如先接收4096字节数据,如果找不到象素标志(TAG),再开4096字节。然而这在序列读取图像时带来时间上的消耗是令人难以接受的。幸而序列文件在象素偏移量上保持一致,因此只要对第一个文件进行“探测法”操作,其他文件可以直接以此偏移量为界,进入后两部分处理。此外,对于信息头的处理,序列文件在患者的某些属性上也具有一致性。因此,只需一个文件操作,就可以给出整个序列这些属性的值。后续文件可以跳过对它们的判断。经过以上优化整个操作时间大大减少。

3 结束语

为了匹配已使用面向对象分析方法的DICOM标准,采用了同样基于面向对象的Java语言进行接口设计,以包的形式进行封装,为基于Java的医学软件提供了通用服务,从而实现DICOM医学图像数据接口。同时在功能上对接口进一步有所扩展,实现了DICOM格式和其他普通格式,如BMP,JPEG的双向转换。同时考虑到运行性能,在数据载入的方式上采用序列化方式,从而使内存占用和运算时间达到最大限度的优化成为可能。

摘要:Dicom3.0标准作为目前通用的医学图像标准,最重要的特性之一在于其面向对象性,本研究依据这一重要特性,描述了如何使用面向对象的Java语言实现该标准的接口软件,从而解决了Dicom硬件设备与后继PACS处理软件的接口问题。同时,为了克服现有PACS系统的硬件瓶颈,对数据读入方式采取了优化,大大降低了CPU运行时间和内存占用空间,提高了系统的运行质量和性能。

关键词:医学数字成像和通讯标准,医学图像存储和传输系统,接口,面向对象

参考文献

[1]David M Geary.Java2图形设计(卷II:SWING)[M].立建森,译.北京:机械工业出版社,1999.

[2]Bruce Eckel.Thinking in Java[M].北京:机械工业出版社,1999.

[3]章毓晋.图像处理和分析[M].北京:清华大学出版社,1999.

[4]Bas Revet.DICOM Cook Book for implementations in Modalities,Chapter 1&2[M].Philips Medical Systems Nederland,1997.

谈谈检验数据失真的原因及对策 篇9

关键词:检验,数据失真,对策

产品质量检验目的是通过检测、化验方法去提示产品质量的各项质量特性, 取得科学的数据, 出具可靠的技术报告和结论, 为提高产品质量, 加强质量管理提供质量保证, 也为各级质量技术监督部门对生产、流通领域中产 (商) 品质量实施监督提供依据。为保证科学地对产品质量进行检验和评价、保证产品质量检验准确, 对于质量技术检验机构来说, 向社会出具科学的检验数据是其主要的工作职能之一。作为质量信息的载体, 检验数据要求必须具有准确性、真实性、严肃性和权威性。检验数据对于生产经营者而言, 它体现着指导和监督的作用;对于质量纠纷而言, 它具有评判、公正的作用;同时它还是政府制定经济工作计划的有效参考依据。所有这些决定着检验数据有着非同寻常的意义。

然而我们发现, 在实际工作中有许多检验数据缺乏应有的准确性和真实性, 归纳起来问题主要存在于如下三个方面:一是国家质检总局抽检结果同地方呈报的数据不符, 如企业产品合格率, 许多省区的数据误差要超过二三十个百分点;二是同级质量检验机构之间出具的检验数据误差较大, 这在质检机构内部组织的许多验证比对实验工作中体现得最为明显不过;三是质量检验机构出具的检验数据同生产企业自己的检验数据有误差。对于这些数据我们又将其分为两种情况:一方面是非主观性造成的误差性数据, 我们称之为不准确数据;另一方面是主观性形成的虚假数据, 我们称之为不真实数据。不要小看这些数据, 它会给我们带来极为不利的影响。从小的方面讲, 它损害了质检机构科学、公正、权威、高效的形象;从大的方面讲, 它不利于政府进行经济工作决策, 不利于企业进行生产经营活动。

除去正常的工作误差之外, 我们认为很多不准确、不真实的数据有以下三方而的原因。首先, 是地方保护主义, 虽然《中华人民共和国产品质量法》第九条已经明确的规定了各级人民政府不得滥用职权、玩忽职守或者徇私舞弊, 包庇、放纵本地区发生的产品生产、销售中有违反产品质量法的行为。但是地方保护这一现象还普遍存在, 用一些地方政府官员的话说“你既然在这块土地上生存, 你就得为这个地方着想。”而产品质量检验部门由于行政隶属关系等方面的因素, 往往会屈从于这种干涉。其次, 不合理经济任务指标的存在, 是导致不真实数据产生的另一个主要原因, 我们必须看到某些地方质检机构为了解决机构的生存和发展, 在机构内部实行创收制度, 一些质检机构和质检工作者就容易偏离工作职能的正确方向, 成了为完成 (下转210页) 的引导质检人员增强事业心与责任感, 应采取多种形式, 全方位地提高检验人员的业务素质。质量检验机构应该在机构工作质量上多下功夫。坚决杜绝那些业务素质差、不能正确理解标准, 使用超检定周期、不合格的检验仪器, 违反检验规程随意性操作的现象。只有严格的依照检验规程与标准进行检验, 才能更好地提高检验工作, 减少检测误差, 提高产品检验的准确度, 有效地控制检验数据的失真。

常用国外网络医学电子数据库资源 篇10

Wiley Inter Science是John Wiely&Sons公司创建的动态在线内容服务,1997年开始在网上开通。通过InterScience,Wiley公司以许可协议形式向用户提供在线访问全文内容的服务。Wiley Inter Science收录了360多种科学、工程技术、医疗领域及相关专业期刊、30多种大型专业参考书、13种实验室手册的全文和500多个题目的Wiley学术图书的全文。其中被SCI收录的核心期刊近200种。期刊具体学科划分为:Business,Finance&Management(商业、金融和管理)、Chemistry(化学)、Computer Science(计算机科学)、Earth Science(地球科学)、Education(教育学)、Engineering(工程学)、Law(法律)、Life and Medical Sciences(生命科学与医学)、Mathematics and Statistics(数学统计学)、Physics(物理)、Psychology(心理学)。

2 EBSCO(英文文献期刊)

http://ejournals.ebsco.com

EBSCO公司从1986年开始出版电子出版物,共收集了4000多种索引和文摘型期刊和2000多种全文电子期刊。该公司含有Business Source Premier(商业资源电子文献库)、Academic Search Elite(学术期刊全文数据库)等多个数据库。

EBSCO内含有两个免费数据库:

ERIC为(Educational Resource Information Center)(教育资源信息中心)是美国教育部的教育资源信息中心数据库,收录980多种教育及和教育相关的期刊文献的题录和文摘,包括250多种EBSCO收录的全文杂志教育文献数据库,数据为1967至今。医学、生物医学MEDLINE医学文摘Biomedical Reference Coll.:Comp.Ed.生物医学全文Health Business Elite医疗管理全文Psychology&Behavioral Sci.Coll.:Comp.Ed.心理学和行为科学全文CINAHL医学-护理学文摘Nursing&Allied Health Coll.:Comp.Ed.医学-护理学全文Cochrane Collection医学-护理学全文(IPA)药学文摘SPORTDiscus医学-运动医学文摘Psyc INFO心理学文摘

3 美国(umi)Pro Quest博士论文全文:

http://proquest.umi.com/pqdweb

是UMI公司的一个分库(我分析之后得来的。)UMI公司简介:

该公司的全称是UMI,The answser Company(UMI有问必答公司),成立于1938年,是全球最大的信息存储和发行商之一,也是美国学术界著名的出版商,它向全球160多个国家提供信息服务,内容涉及商业管理、社会科学、人文科学、新闻、科学与技术、医药、金融与税务等。其出版物包括18,000多种外文缩微期刊、7000多种缩微报纸、150多万篇博士/硕士论文、20多万种绝版书及研究专集:从1980年起该公司开始电子出版物的制作与发行:如光盘数据库、磁带数据库、联机数据库等。UMI提供以下三种数据库:学术研究图书馆(Academic Research Library,简称ARL)

综合参考及人文社会科学期刊论文数据库,涉及社会科学、人文科学、商业与经济、教育、历史、传播学、法律、军事、文化、科学、医学、艺术、心理学、宗教与神学、社会学等学科,收录2,300多种期刊和报纸,其中全文刊占三分之二,有图像。可检索1971年来的文摘和1986年来的全文。商业信息数据库(ABI/INFORM)

医学电子期刊全文数据库(Pro Quest Medical Library)该数据库收录有220种全文期刊,文献全文以PDF格式或文本加图像格式存储;收录范围包括所有保健专业的期刊,有护理学、儿科学、神经学、药理学、心脏病学、物理治疗及其它方面。Pro Quest博士论文全文检索系统,PQDD的全称是ProQuest Digital Dissertations,是世界著名的学位论文数据库,收录有欧美1,000余所大学文、理、工、农、医等领域的博士、硕士学位论文,是学术研究中十分重要的信息资源。

4 Sciencedirect荷兰

http://www.sciencedirect.com/

Elsevier Science公司出版的期刊是世界上公认的高品位学术期刊,它拥有1263种电子全文期刊数据库,并已在清华大学图书馆设立镜像站点:Science Direct On Site(SDOS)。国内11所学术图书馆于2000年首批联合订购SDOS数据库中1998年以来的全文期刊。

国内镜像:

http://elsevier.lib.tsinghua.edu.cn/

http://www.sciencedirect.com/sci

http://www.sciencedirect.com/sci

http://www.sciencedirect.com/sci

5 OVID(英文文献期刊)荷兰:

Ovid Technologies是世界最大的医学数据库公司,是全球著名的数据库提供商。2001年6月与银盘公司(SilverPlatter Information)合并,组成全球最大的电子数据库出版公司。

Ovid医学信息平台是由Ovid Technologies公司采用先进的信息Dn I技术研制而成的全球著名的数据库。其网址是:http://www.ovid,tom。该平台将资源集中在单一平台上,并透过资源间的链接(Linking)为用户提供一个综合信息方案,数据库、电子期刊、参考书及其它资源均可在同一平台上检索及浏览。

Ovid拥有最全的核心医学期刊。Databases@Ovid,提供300多种数据库,链接全文期刊和馆藏。Journal@Ovid,收录60多个出版商出版1000多种科学、科技和医学期刊,其中超过350种属于核心期刊,被ISI收录的超过300种。Books@Ovid,提供将近40个由不同出版商发行的医学参考书籍Ovid信息平台将电子数据库、电子期刊以及电子图书做了全面的整合与链接一读者可从数据库检索结果直接链接到全文期刊和电子书。

6 英国Blackwell(英文文献期刊):www.blackwell-synergy.com

Blackwell出版公司是世界上最大的期刊出版商之一(总部设在英国伦敦的牛津),以出版国际性期刊为主,包含很多非英美地区出版的英文期刊。它所出版的学术期刊在科学技术、医学、社会科学以及人文科学等学科领域享有盛誉。

近年来,Blackwell出版的期刊不断发展。目前,Blackwell出版期刊总数已超过700种,其中理科类期刊占54%左右,其余为人文社会科学类。涉及学科包括:农业、动物学、医学、工程、数学统计、计算机技术、商业经济、生命科学、物理学、人文科学、艺术、社会及行为科学等。

Blackwell出版期刊的学术质量很高,很多是各学科领域内的核心刊物,据最新统计,其中被SCI收录的核心期刊有239种,被SSCI收录的有118种。

7 springer德国(Springer-Verlag):

是世界上著名的科技出版集团,通过Springer LINK系统提供学术期刊及电子图书的在线服务。

Springer公司和EBSCO/Metapress公司现已开通Springer LINK电子期刊服务。目前Springer LINK所提供的全文电子期刊共包含439种学术期刊(其中近400种为英文期刊),按学科分为以下11个"在线图书馆":生命科学、医学、数学、化学、计算机科学、经济、法律、工程学、环境科学、地球科学、物理学与天文学,是科研人员的重要信息源。

目前大部分期刊可以阅读全文,但也有一些期刊尚不能阅读全文,一般规律是:显示pdf字样的,可以打开全文,显示remote pdf字样的,则不能打开全文,目前代理公司正在解决此事。Springer Link涵盖的学科范围及种数:Law(法律):5种Environmental(环境科学):37种Medicine(医学):179种Geoscience(地球科学):53种Mathematics(数学):73种Life Science(生命科学):105种Economics(经济学):30种Chemical Sciences(化学):36种Engineering(工程):58种Computer Science(计算机科学):45种Physics and Astronomy(物理与天文学):61种

8 Karger

http://www.karger.com/

卡尔格公司S.Karger AG是瑞士一家著名医学和科技家族出版公司,以医学图书为主,另外也出版一些科技图书。卡尔格公司在巴塞尔的总部现有职员200多名,在全球有许多分公司和配书中心。年出版期刊76种,新书60多种,主要是英文版,并有电子版。Karger的出版物被收录在著名的二次文献中,这些二次文献包括:MEDILINE、Current Contents、Reference Update、EMBASE/Excerpta Medica、Crossref等。所有的文章都拥有在线DOI号码。

Karger期刊大多数期刊被CA、BA、SCI、Current Contents、Med Line收录。

学科专业及期刊分数共计71种

分析化学Analytical Chemistry:2

抗感染/感染性疾病Anti-Ifective/Infectious Diseases:6

生物信息学Bioinformatics:1

生物技术Biotechnology:5

心脏病学与心血管科学Cardiology and Cardiovascular Science:1

临床试验Clinical Trials:6

组合化学Combinatorial Chemistry:1

药物传输Drug Delivery:2

药物设计和开发Drug Design and Discovery:48

药物代谢Drug Metabolism:2

药物治疗Drug Therapy:7

基因组学Genomics:3

免疫学和内分泌学Immunology&Endocrinology:6

炎症和变态反应Inflammation and Allergy:4

医学Medicine:30

分子医学Molecular Medicine:1

纳米科学Nanoscience:1

神经科学Neuroscience:11

肿瘤学及癌症研究Oncology and Cancer Research:10

有机化学Organic Chemistry:9

药物开发专利Patents on Drug Discovery:4

药物学Pharmacology:3

蛋白质与多肽科学protein and Peptide Science:4

9 Lippincott Williams&Wilkins(LWW)

http://www.mdconsult.com

LWW是世界享有盛誉的医学文献出版商,该公司出版的期刊大多为医学核心期刊,大部分期刊被著名的MED-LINE数据库和SCI数据库所收录,且影响因子Impact factor必较高,以临床医学及护理学方面的期刊尤为突出。

1 0 MD Consult美国医学书刊数据库:http://www.mdconsult.com

MD Consult由世界著名出版社Elsevier Science出版发行,目前已被北美90%以上的医学院,近1700家美国医院和全球46个国家的健康中心采用,拥有超过28万的用户,是为医务工作者提供网上临床医学信息服务的最佳选择。

MD Consult提供个性化的服务,用户可以选择自己感兴趣的领域,对个人资料进行管理,同时可以省去垃圾信息的烦恼。最近,MD Consult又推出了MDC移动服务系统,通过PDA您可以获得最新论文文摘、医学新闻和药物信息,并可以通过无线网络进行MD Consult的搜索、方便地和PC进行连机数据交换。

最新医学、药物信息:每日更新,每月提供100万条信息,700万页临床资料。

Clinics&Medical Journal(临床医学期刊):包含35本北美临床医学学会的全文文献及53种最具代表性的专业医学期刊。

Reference Book(著名的医学用书):包含51本医学宝典

Year Books(医学年鉴):包含54本医学年鉴。

Practice Guidelines(实证指南):搜集了来自50多个医学会和政府机关提供的1000多种临床实证指南。

Drug Information(药物信息):权威的黄金标准药物指南,提供3万余种药物资讯,包括最新处方,并可经由商品名称或俗名、种类和症状找到所需的药物信息,并提及美国药典中未列出的用途及治疗费用等资料。

Today in Medicine(今日医学):每天检阅100种重要的医学文献;提供个人查询简洁摘要,并选定个人的检索范围;同时也可连结到相关的全文医学临床资源中做进一步的查询。In This Week&apos;s Journal(当周期刊):将每周重要的期刊内容以一个易于查询的方式呈现,并利用简洁的文献大纲来帮助您快速了解当前前沿研究动态。

Patient Education(病患须知手册):近10000种病患须知手册。

What Patients are reading(病患新知):MD Consult每周会检阅民间出版品,如此可让您知晓患者所获得的医学新知,并提供各种主题的全文临床内容以供参考。

CME Center(医学进修中心):拥有200余种在15个不同领域的在线进修课程及测验模式,以及在线CME学分认定,病例讨论活动由阿尔伯特·爱因斯坦医学院支持和管理。

包含5万多个医药学图片,可以进行图片检索。

检索广泛,资讯丰富,一次点击完成MEDLINE检索,其中包含AIDSLINE、Health STAR、CANCERLIT在内的检索。

1 1 德国医学《Thieme_journals》全文电子期刊库

http://www.thieme.de/connect/en/

Thieme是一家具有百年历史的国际性科学和医学出版社。从1886年开始,hieme致力于为科研人员、临床医师、和学生等专业人士提供高品质的图书、期刊产品。

作为德国最大的医学出版社之一,Thieme在德国斯图加特和美国纽约均设有机构。到目前为止,Thieme出版了130多种以纸本形式和电子版本的医学和科学期刊,其中60多种是代表各专业学会出版的。

Thieme出版社通过Thieme-connect期刊服务平台提供电子资源服务。通过登陆Thieme-connect站点,用户可以浏览Thieme出版的医学、化学和生命科学的全部期刊,并且部分期刊在先行纸本出版之前,通过网络可获得最新文章(eFirst--1-2天前出版的)。Thieme-connect为中国用户提供两种电子期刊数据包:(1)Medical E-package医学库(包括33种英文医学期刊)Thieme出版高品质医学期刊,涵盖外科学、内科学、神经科学,运动医学、内分泌学和药理学等各个学科,医学库共包含33种英文医学期刊,其中包含大家深受喜欢的12种Thieme专题研讨会(Seminar)期刊,读者从中可以获得相关医学领域诊断与治疗的最新专题会议内容及各科最新发展动向;(2)Pharmaceutical E-package化学与药学期刊(6种化学药学类期刊)Thieme出版了学术界备受认可的权威化学与药学期刊。《Synthesis》和《Synlett》是Thieme最为引以为豪的两种化学期刊,在化学合成领域有重大影响力并且已经得到广泛的使用,是从事相关领域工作的科研人员的必备期刊。

1 2 BMJ Journal Collection

http://www.clinicalevidence.com

(BMJ期刊专辑)不仅包括著名的《英国医学期刊》(British Medical Journal),而且还收录有从医疗保健管理到神经学等领域的其他22种期刊。出版的许多期刊都在其各自领域处于世界领先地位。所有期刊均可以在线获得。详细书目见附件A。

BMJ Journal Collection(BMJ期刊专辑)不仅包括著名的《英国医学期刊》(British Medical Journal),而且还收录有从医疗保健管理到神经学等领域的其他22种期刊。出版的许多期刊都在其各自领域处于世界领先地位,如Gut(《内脏》)、Thorax(《胸腔》)、Archives of Disease in Child(《儿童期疾病档案》)以及Annals of the Rheumatic Disease(《风湿病年鉴》)。所有的期刊均可以在线获得。

*期刊涵盖专业领域、大众健康和循证医学领域;主要为临床期刊,旨在帮助医务工作者提高日常工作经验;

*编者来自世界各地,如美国、澳大利亚、加拿大、香港、欧洲、东南亚地区;

*改进了Education Sections,Case-based learning,Patient Columns;

*多数期刊都是处于该专业领先位置;

*On-line first,在线交流,搜索,E-mail等功能。

如需了解更多内容请登陆网站http://journals.bmj.com/。

Clinical Evidence Online(临床实证在线):

现涵盖500个主题以及超过2000种的治疗方法;

每月都在不断的在线扩充更新资料和新主题;

包括链接至Pub Med,Embase和Cochrane精华内容的参考资料;l

包括一些不在印刷期刊中出版而仅有网络版的主题;还提供其它服务,如:

电子邮件提醒服务

诸如常见缩写、术语和药物名称指南之类的有关网站工具

讲座用的下载版EBM(循证医学培训)模块

借助PDA方式快捷的获得全部的临床实证内容BMJ期刊专辑列表:

British Medical Journal(《英国医学期刊》)

Annals of the Rheumatic Disease(《风湿病年鉴》)

Archives of Disease in Childhood(《儿童期疾病档案》)

British Journal of Ophthalmology(《英国眼科学期刊》)

British Journal of Sports Medicine(《英国运动医学期刊》)

Emergency Medicine Journal(《急诊医学期刊》)

Gut(《内脏》)

Heart(《心脏》)

Journal of Clinical Pathology(《临床病理学期刊》)

Journal of Medicine Ethics(《医学伦理学期刊》)

Journal of Medical Genetics(《医学遗传学期刊》)

Journal of Neurology,Neurosurgery and Psychiatry(《神经病学、神经外科学及精神病学期刊》)

Postgraduate Medical Journal(《研究生医学期刊》)

Quality and Safety in Health Care(《医疗保健的品质与安全》)

Sexually Transmitted Infections(《性传播感染疾病》)

Thorax(《胸腔》)

循证医学类期刊

Evidence-Based Medicine(《循证医学》)

Evidence-Based Mental Health(《循证精神健康》)

Evidence-Based Nursing(《循证护理学》)

公共卫生类期刊

Injury Prevention(《伤害预防》)

Journal of Epidemiology and Community Health(《流行病学与社区健康期刊》)

Occupational and Environmental Medicine(《职业与环境医学》)

Tobacco Control(《烟草控制》)

1 3 oxfordjournals牛津期刊网站www.oxfordjournals.org

牛津大学出版社是世界上最大的大学出版社而且拥有无与伦比的500年的出版历史。牛津大学出版社是牛津大学的一个部门。1906年,牛津大学出版社开始了她的期刊出版项目,并且在随后的一年印刷出版了《医学季刊》。作为世界上主要的学术和研究性期刊的出版商,牛津期刊现在出版超过180种期刊,许多期刊都是与世界领先的学协会合作出版的。期刊涵盖了生命科学,数学和物理学,医学,社会科学,人文科学和法律学方面的内容,有许多期刊在各自领域中拥有最权威的地位。根据最新公布的2005年ISI期刊引用报告,牛津期刊有60%的期刊被SCI和SSCI收录。

牛津期刊(Oxford Journals)覆盖非常广泛的学术领域,包括生物、医学、化学、心理学、数学、物理、工程、政治、经济、法律、语言、文学、艺术、哲学、社会科学等学科。据2006年JCR报告统计,在牛津出版的全部180余种期刊中,被SCI/SSCI收录的期刊有119种。其中SCI收录123种,去重后为80种,SSCI收录52种,去重后为39种。收录总数超过出版期刊总数的66%。

医学检验数据 篇11

1 系统构架

案例挖掘系统的架构(图1)包含两个主要模块,特征提取和案例挖掘该系。特征提取器使用模糊测量的方法来选择数据的重要特征,通过评价其相关系数、重叠率和信息增益来发现特征之间的关联,计算案例的相关性。将具有较高相关性的案例选定为重要特征用来挖掘案例,为数据挖掘产生每一个权重。案例挖掘则是利用聚类分析的遗传算法来选择具有代表性的个案。

2 案例特征提取算法设计

特征分析的目的在于确认有意义的特征。R.Caruana和P.Langley发现为特征选择有关的特征都非常重要[3,4],有些系统还可以使用数据挖掘的特征选择。X.Zhu利用特征和作为权重类的相关特征之间的关联来处理错过值[5]。C.Lee和G.G.Lee使用信息增益和不同的特征选择方法来查找相关的特征[6]。G.Qu引入了一个新特征的相关性和子集优点措施来计算特征的相关性和相互关系,提高预测和数据挖掘算法的准确性[7]。本文采用模糊特征提取成分分析(FCA)来评价特征的相关性。

CC、OR和IG分别代表相关系数、重叠率、信息增益。

CC表示计算两个变量的值的变化:

式中,Ai、Ci、分别表示特征值、类值、特征值的平均值和类值的平均值。

OR表示特征值在不同的类之间的重叠度:

式中,Ci和Cj是指i类和j类的特征值的范围。

IG表示根据增益率计算一个特定特征的存在频率[6]:

式中,P、S和Sv分别是概率,特定特征的案例数量,以及类的值是v的个案数量。

特征提取运用模糊理论来计算FCA的隶属度(图2)。

特征提取器利用作为模糊理论的矩阵计算方法来算出每个所选特征的权重。

式中,μ(x)是特征x的隶属度。

新的模糊关联矩阵,见表1;新的模糊集隶属函数,见图3。

3 针对案例的挖掘算法设计

案例挖掘运用遗传算法来选择有代表性的案例,即从原始数据集中选出代表性案例。选择该基因的长度等于案例数目,图4显示了基因的代表性,基因数字用1和0表示案例被选中或没被选中。

在具有代表性案例的范围内,用合适的函数通过计算最接近的案例数量,来评估案例的覆盖范围。

式中,h、Ci、n、cov(Ci)、d(x,y)和Wi分别代表假设,假设的侯选案例,侯选案例的数量,包含侯选案例Ci的案例,权重距离量度和第i个特征的权重。当代表性案例覆盖90%以上的案例时,评估结束。值得注意的是,交叉和变异概率是100%和1%。

最后,通过不断增加具有重要意义特征值的案例,可以在丰富的案例库中进行案例挖掘。显著特征的值不包含在代表性案例的范围内。

4 结论

通过对案例挖掘系统的算法设计,可以构建一个为数据挖掘服务的医学案例库系统。然后在医疗案例库构建中采用了3个标准医疗数据集,包括有大肠直肠癌数据库、甲状腺癌数据库以及乳癌数据库,用这3种医疗数据集作为测试数据来进行数据挖掘。然后以典型案例的涵盖程度以及其使用率作为检视案例库完整性的依据(实验数据量大,就不在本文中描述)。最后对案例库的建设也使用决策规则和神经网络的分类规则进行了评估,研究表明,该系统可以找到正确的典型案例。

参考文献

[1]Y.Li,S.C.K.Shiu and S.K.Pal,Combining Feature Reduction andCase Selection in Building CBR classifiers[J].IEEE Transactionson Knowledge and Data Engineering,2006,18(3):415-429.

[2]N.Arshadi and I.Jurisica.Data Mining for Case-Based Reasoningin High-Dimensional Biological Domains[J].IEEE Transactionson Knowledge and Data Engineering,2005,17(8):1127-1137.

[3]R.Caruana,D.Freitag.Greedy Attribute Selection[A].In Proceedings of International Conference on MachineLearning[C].Morgan Kanfman,1994:28-36.

[4]P.Langley.Selection of Relevant Features in Machine Learning[J].AAAI Fall Symposium on Relevance,1994:97(1-2):1-5.

[5]X.Zhu,X.Wu.Data Acquisition with Active and Impact-SensitiveInstance Selection[A].Proceedings of 16th IEEE InternationalConference on Tools with Artificial Intelligence[C].BocaRaton:IEEE computer Society,2004,721-726.

[6]C.Lee,G.G.Lee.Information Gain and Divergence-Based FeatureSelection for Machine Learning-Based Test Categorization[J].Information Processing and Management,2006,42(1):115-165.

[7]G.Qu,G.Hariri,M.Yousif.A New Dependency and CorrelationAnalysis for Features[J].IEEE Transactions on Knowledge andData Engineering,2005,17(9):1199-1207.

上一篇:小学六年级数学教学下一篇:中国职教