中医数据

2024-08-29

中医数据(精选8篇)

中医数据 篇1

本研究中所谓中医古籍图像,是指中医古籍文献中所刊载的各类插图而言。数量众多、内容丰富的中医古籍图像是中医学知识除文字外表述的重要补充,也是中医学知识最为直观、形象的表达。然而当前鲜见有关于中医图像的成规模、系统性研究,在中医古籍数字化建设中,也未曾将图像作为单独的研究课题。2011年,中国中医科学院基本科研业务费第三批自主选题团队项目———“中医古籍图像分类整理研究”课题(ZZ03076),首次对中医古籍图像资源进行了系统的调研,并搜集到大量的图片资料[1],由此中医医史文献研究者第一次全面而系统的掌握了如此海量的图像资源,这确为一件幸事。

然而如果继续沿用传统的文献学和史学的方法对数量如此众多的图像进行整理研究,单凭人工的方法就已显得力不从心。因此借助于现代信息技术的数据库技术,实现对古籍图像的管理,并利用知识管理的理论方法,对图像资源进行标引,将大大提高古籍图像研究的深度,并对从整体上把握图像的分类具有很好的规范作用。本研究拟探讨一个集中医古籍图像管理与应用功能为一体的数据平台的构建方案。

1 系统设计

中医古籍图像数据平台拟采用多层化、模块化和组件化的理念进行架构设计,构建一个分布式应用、集中式管理的WEB应用系统平台。该系统分为:数据资源层、加工管理层、查询应用层(图1)。

1.1 数据资源层

包括中医古籍图像、索引和系统3个数据库。中医古籍图像数据库:存储中医古籍图像文件及其标引信息。索引数据库:存储中医古籍图像数据库中的索引信息,为高速查询检索提供数据层支持。系统数据库:存储用户信息和用户产生的各类数据等。

1.2 加工管理层

包括图像信息著录、图像主题标引和用户管理、内容管理4个功能模块。图像信息著录:为数据加工人员提供对古籍图像的外部信息进行著录、修改、审核的平台;图像主题标引:为图像研究人员提供对图像内容进行主题以及关系标引的平台;用户管理:为管理员提供管理用户和用户权限的工具;内容管理:为管理员提供审核、删除各类用户在评注、交流、通讯过程中所产生相关内容的工具。

1.3 查询应用层

包括检索查询、评注交流、统计报表、图像网络4个功能模块。检索查询:向用户提供图像查询和输出功能;评注交流:为用户提供学习、交流的平台;统计报表:为研究人员提供查询结果统计报表及多种统计图示生成的功能。图像网络:为研究人员提供动态图像关系网络展示功能。

2 系统功能

2.1 加工管理功能

2.1.1 图像信息著录

数据加工人员首先将经过裁切、正畸、除污等技术处理过的图像文件上传进本系统,然后以张为单位,分别对图像的各项外部信息进行著录。

2.1.2 图像主题标引

图像研究人员可对图像的分类、关系、主题等内容信息进行标引。(1)分类标引:按照多种分类体系,对每张图像进行多重标引;(2)关联标引:根据构建图像网络的需要,对图像间的等同、版本、组图、衍化等关系进行标引;(3)主题标引:以《中国中医药学主题词表》[2]作为工具,对图像所反映的内容主题进行标引。

2.1.3 用户管理

管理员可对在系统中工作或使用者,赋予不同的角色类型,并对用户的权限进行管理。

2.1.4 内容管理

管理员可对系统中各类用户在使用过程中产生的诸如留言、评注、笔记、通讯等各类信息进行审核管理。

2.2 查询应用功能

2.2.1 检索查询

系统向用户提供简单查询、组合查询、关联查询3种方式。(1)简单查询:用户可以通过输入单一的图像信息或主题词作为条件,检索相应的图像;(2)组合查询:用户可以通过输入组合的图像信息或主题词作为条件,检索相应的图像;(3)关联查询:用户可以一张图像作为中心,检索与其相关的其他图像。以上查询结果,均可按照年代、作者、主题等条件进行排序。

2.2.2 评注交流

为用户提供对古籍图像进行笔记、批注的功能;为加工人员及科研人员提供一个问题交流、讨论、反馈的机制;提供加工管理层与查询应用层之间用户间点对点的通讯功能。目的是为用户搭建一个科研学习的虚拟平台。

2.2.3 统计报表

按照年代、作者、类型、刊刻单位、版本、流传等条件统计分析图像数目,生成报表或其他图示形式。

2.2.4 图像网络

按照图像间的关联,生成图像网络。以展示图像的主题关系以及流传谱系。

3 系统实现

系统功能实现的基础为中医古籍图像数据库,以下简要介绍一下数据库主要表的结构(图2)。

3.1 图像表

(1)图像编码(主键):识别图像的标识。(2)图名:图像的名称,原有图名的沿用原图名;原没有图名的可自拟图名,也可为空。(3)出处(外键):古籍图像所出自的古籍及其版本。(4)特征:图像诸如彩图、墨图、雕版、手绘等形态特征。(5)分类:图像的分类号。(6)关联:图像相关的其他图像的编码。(7)主题词:描述图像内容的主题词,域值为《中国中医药学主题词表》。(8)有无图像:布尔值。(9)图像文件:链接图像的文件。(10)备注:关于图像其他信息的备注说明。

3.2 书目表

(1)古籍编码(主键):识别古籍的标识。(2)书名:古籍的正题名,以《中国中医古籍总目》[3]的题名著录作为主要参考。(3)版本:古籍的版本,以《中国中医古籍总目》的版本著录作为主要参考。(4)总目号:古籍在《中国中医古籍总目》中的编号。(5)主要责任者:古籍的编者、著者等。(6)次要责任者:古籍的校注者、增补者等。(7)成书时间:古籍成书的时间。(8)刊刻时间:版本刊刻的时间。(9)内容提要:对古籍作者、成书、版本、主要内容等的概括性介绍。(10)载图数:古籍所刊载的图像数量。11馆藏单位(外键):古籍的馆藏单位。12借阅号:一般为馆藏单位为古籍编制的财产号。

3.3 馆藏单位表

(1)馆藏单位编码(主键):识别馆藏单位的标识,以《中国中医古籍总目》的馆藏地代码为参照。(2)馆藏单位名称:馆藏单位的名称。(3)地址:馆藏单位的地址。(4)联系人:古籍借阅联系人的姓名。(5)联系方式:古籍借阅联系人的联系方式。

4 相关基础研究

中医古籍图像数据平台的构建,技术实现仅是其中一方面的工作,关于中医古籍图像的分类研究,分类体系的建立以及主题标引的规范,才是研究的难点和重点之所在。系统功能研究成果的水平,主要取决于以上基础性研究工作的进展情况。

“中医古籍图像分类整理研究”课题先期取得的成果,为图像系统性研究提供了很好的示范和指导作用,希望以此平台的构建为契机,整合起分散于全国的人力、智力和古籍图像资源,为中医古籍图像的进一步深入、系统、可持续的研究奠定良好的基础。

摘要:本文拟探讨一个集中医古籍图像管理与应用功能为一体的数据平台构建方案。从而应用数据库技术,实现对海量古籍图像的高效管理;并且利用该平台对图像资源进行标引,从而为古籍图像的分类、关联等相关研究的开展奠定基础。

关键词:中医,古籍,图像,数据库,系统平台

参考文献

[1]秦秋.我国首次开展中医古籍图像研究[N].中国中医药报,2011-12-16(001).

[2]吴兰成.中国中医药学主题词表[M].3版.北京:中医古籍出版社,2008.

[3]薛清录.中国中医古籍总目[M].上海:上海辞书出版社,2007.

中医数据 篇2

山西中医学院图书馆 2007年4月2日

2007我中心承担了“中医临床疾病数据库、中药药理实验数据库、文献标引”等3个数据库共计7000条的任务。在中医药信息虚拟研究中心2007年第一次工作会议之后,我中心根据承接的任务对下一阶段的工作进行了研究,制订了详细的计划,初步计划于2007年10月之前提前完成所有的任务。

目前,所有的工作都处于准备阶段,3月下旬收到总中心分配的2000条关于“中医临床疾病数据库”加工题录,现在已经检索并下载了近500篇文章,一切工作进展顺利。“中药药理实验数据库及文献标引库”还没有收到总中心分配的具体任务。

3月份的工作进展基本顺利,今后我们要严格要求,提高工作效率及质量。

中医古籍数据库的建设与应用 篇3

中医古籍数据库建设研究的发展趋势

中医古籍是浩瀚的中华古代文明史上的一颗璀璨明珠, 她承担着传承延续中华传统医学的精髓的任务, 是我国珍贵的文化遗产, 如何更好地保护在这些经历了悠久年代而保存下来的中医古籍, 免于损毁, 并更好地加以利用, 使它在我国中医药事业的创新发展事业中起到更大的作用, 是我们当前面临的刻不容缓的任务。2010年, 我国中医药部门公共卫生专项资金启动了“中医药古籍保护与利用能力建设”项目, 为中医古籍的整理和保护工作提供了发展机会, 而且随着网络和数字化技术手段的兴起, 为保护中医古籍、充分挖掘和利用中医古籍所承载的中医药文化精髓提供了有力的解决方案。

数字化技术为中医古籍的保护和利用提供了新的途径

目前使用计算机以及各种数码设备对古籍进行数字化已经相当成熟, 除了各级图书文献保护机构的技术力量之外, 在商业领域还有专门的古籍数字化的技术方案, 都可以实现对古籍永久性保存和进行相关的开发利用。通过这些手段, 中医古籍可以在数字化以后通过互联网络实现数据共享, 无损地向中医药研究人员提供古籍文献服务, 最大限度地发挥中医古籍的应用价值, 同时避免了古籍珍本、善本因频繁地被翻阅而损坏的危险。因此数字化技术手段解决了中医古籍妥善保存与充分利用之间的矛盾, 同时也为中医古籍所承载的中医药理论在现代医学中继续发挥作用提供了途径, 使我国璀璨的中医药文化能够持久地传承下去。

制约中医古籍数字化工作深入进展的因素

在成熟的数字化技术手段的支持下, 越来越多的中医古籍文献都已经被在加工以后收集到了不同的古籍数据库中, 在继承发扬中医文化、挖掘中医药精髓、保护珍贵历史文献的工作中起到了良好的作用。但是中医古籍的保护和利用是一项系列工程, 在实施过程中一些全局性和操作性的问题必须解决。一是标准化的问题, 近年来建成的中医古籍数据库比较多, 但是由于不同的开发机构所使用的技术标准不同, 不同的古籍数据库所包含的字段长度、数据命名格式等不完全兼容, 形成了大小数据库林立, 但相互不兼容, 各自为营的局面。二是人才短缺的问题, 目前对中医古籍文献数据库的开发人员多数是古籍文献保护以及信息技术专业人员, 这对于建设资料型的文献数据库应该足够了, 但是要想对中医古籍进行更深入的开发和利用, 就需要有精通中医药知识的专业人才介入才行。目前这是对中医药古籍进行深入开发利用工作中的一个短板。三是古籍来源的问题。中医药古籍很大一部分是由于中医师承的原因而被收藏在民间个人手中, 这些古籍所记载的中医理论、诊疗方法和和种经方至今仍然具有很强的实用价值, 从收藏人手中获取这些珍贵古籍的数据然后再进行整理存在着一定的难度。

中医古籍的数字化应用仍然需要深化

中医古籍数据库很好地解决了纸本古籍的收藏问题, 既避免了古籍因翻阅而产生损毁的潜在危险性, 又为中医理论研究人员提供了古籍文献服务。但随着古籍文献信息服务的深化, 这种仅仅收藏古籍文献电子版本, 向读者和用户提供原始古籍数据的服务模式已经不能够满足对中医古籍更深一步的应用需求。中医药研究人员希望能够获取更加深入的古籍文献信息服务, 数据库的古籍数据首先要经过文本化, 对异体字、生僻字进行识别和勘校, 让用户得到高质量的古籍文献信息服务, 如果能够为研究提供数据挖掘和数据分析服务会更好。

中医古籍数据库建设与应用研究的意义

中医古籍数据库是实现古籍保护的有效途径

中医古籍与其他古籍文献相比, 除了文物价值以外, 更加珍贵的是它所记载的我国传统医学的理论和临床诊疗经验的汇总, 这些内容是现代中医药学的发展基础和珍贵资料, 在现代医学中仍然发挥着作用。但是出于对保护和收藏的目的, 为了避免损毁, 对中医古籍的应用反而受到了制约。因此在保证中医古籍的收藏价值的前提下, 最大限度地发挥其实用性, 是图书情报机构和古籍保护单位所面对的重要课题。目前的数字化技术已经能够实现对古籍的永久性保护, 即通过各种数字技术手段将图像数据录入计算机系统, 可以使古籍以原貌保存下来。数字化的古籍数据可以在整理和加工以后以数据库的形式通过计算机网络向用户提供文献信息服务, 用户可以远程通过数据库的检索功能来获取古籍文献数据, 而不用再去翻阅古籍原本, 从而解决了古籍的收藏保护与开发利用之间的矛盾。

加强中医古籍数据库的知识服务功能

中医古籍数据库的应用价值不仅只是起到保护古籍不受损毁以及向查阅人员展示其显性内容。更重要的是它在中医古籍数据库的基础上, 对古籍内容进行整体的数据处理分析, 向用户呈现出中医古籍的隐性信息, 例如药物配伍的规律、病症之间的关联、相关病案的诊疗特点等, 这些信息的显性化处理需要在中医古籍数据库的数据结构基础上进行数据关联和挖掘, 将潜在的知识和规律提取出来, 让用户得到有关中医古籍更加深化的知识信息, 从而也实现了中医古籍数据库的高级知识服务功能。

中医古籍特色数据库的建设研究

中医古籍特色数据库建设的思路框架

由于我国传统中医学流派众多, 在各自的传承过程中留下的文献数量繁多, 在进行整理和加工时不可能面面俱到, 因此在进行中医古籍数据库的规划和建设时首先应当避免求大求全的误区, 通过文献学方法进行调研, 为数据库选定一个切合实际并能够体现馆藏特色的主题, 对古籍文献进行整理, 应用计算机技术对古籍进行数字化加工, 使古籍的显性信息和隐性信息都作为可以利用的基础信息保存下来, 以便于通过数据挖掘向用户提供知识发掘提取、知识关联分析等知识服务。研究开发基于网络的动态数据库网站平台, 集中医古籍基础数据存储、全文检索、在线阅读、信息挖掘、知识服务为一体的中医古籍文献特色服务系统。

中医古籍特色数据库建设的具体内容和方法

中医古籍数据处理的基本原则

(1) 在进行古籍数字化处理的过程中, 要有一套完整的古籍数字化处理方案, 包括图像尺寸、分辨率、有效页面范围等参数, 最大限度地保持古籍的原貌, 使数字化的“虚拟古籍”的各种形态忠实于实体古籍。在对古籍进行文本化处理时, 也应本着忠实古籍原本的原则, 使用繁体字竖排, 对古籍中的图形和异体字、冷僻字保持原形, 让文本数据库能够与图片数据库最大程度地对照, 使用户在浏览古籍原图的同时也能够得到忠实于原本的文本数据。

(2) 中医古籍数据库的元数据录入要有统一的标准, 特别是对古籍的各种显性数据要进行全面提取和著录, 从而构成一套比较健全的元数据体系。书名、作者、年代、版本、出版形式、印刷方式、内容简介等信息是基础的元数据构成要素, 在此基础上, 对中医古籍的目录、章节名称甚至页码等标志数据也要逐一进行录入, 这些数据要通过对图像数据的索引形成双层对照关系, 为今后更深层次的数据开发和应用打好基础。

(3) 数据库程序要能够对古籍数据进行更深层次的隐性知识信息的应用。对古籍内容进行的文本化处理也相当于对古籍的深度标引的过程, 文本中常用的术语、名词、药物、方剂名称等都可以作为对中医古籍进行研究时提取知识点的数据挖掘锚点, 通过对古籍全文知识点的提取和整合, 从而形成更高层次的知识单元, 为研究和发现中医古籍各个知识点的内在关联规律提供可用性更高的数据来源。

中医古籍数据库的二次开发方案研究探讨

古籍的显性信息的展示只是中医古籍数据库的建设的初步目标, 数据库应当能够利用已经知识化的古籍内容向用户提供更加深层次的服务, 对古籍数据库所蕴含知识内容的提取和挖掘, 使用特定的分析方法提取古籍内容知识点之间潜在的关联, 从而构造出中医论据理论知识的脉络, 并通过各种直观的方式将这些内容向用户展示出来。基于这样的目标, 古籍文献数据库在进行规划时就应对相应的功能进行设计, 研究如何才能够在数据库程序平台环境中实现数据挖掘和分析, 进行合理有效的知识关联, 构成一个中医药知识网络, 通过对各种检索方式对一个知识点进行检索, 获得与其相关的知识信息, 让用户在各个相关知识单元之间的转换中获取系统的知识。因此数据库程序要针对相应的检索方式制定数据挖掘和知识呈现规则, 让用户获取检索结果的同时得到与检索词关系密切的知识单元链接。在对中医古籍进行了图像数字化、内容文本化的处理以后, 应针对古籍的显性信息数据进行更加深入的二次开发, 应用数据挖掘技术在网络环境下为用户构造知识服务环境, 为中医理论和临床治疗的深入研究提供更加系统和全面的古籍文献信息服务。

结语

中医数据 篇4

中医智能化诊断是根据中医的四诊理论,利用计算机人工智能技术进行中医证候的自动化诊断过程。在此过程中,计算机对中医知识的获取、表现方式及内部的推导机制是核心内容。中医的四诊包含望诊、闻诊、 问诊、切诊等诸方面。本研究主要探讨在四诊信息的获取中,四诊信息异构数据源的集成问题。

1异构数据源

当前数据信息源在形式上差别较大,无统一模式。 数据库类型、运行平台、数据格式、数据的加载和卸载方法等千差万别。在异构数据源环境中,有文本、Oracle, Sybase,SQL Server,DB2,Access等多种类型。

不同数据源有不同的存储结构、组织表达形式、信息描述等差异,进而造成数据的抽取困难。在异构数据源环境中,必须建立一个数据源与数据源之间的中间层,作为数据通信的中间接口。集成数据库的命令通过中间接口传送到不同的数据源;各数据源把发送的数据转换成中间接口的格式,通过中间接口发送到集成数据库中[1]。

2中医智能化诊断系统框架

按中医四诊原理,智能化诊断系统由舌诊、脉诊、面色诊、问诊及穴位诊等子系统组成,其构架如图1所示。其中,综合诊断系统与SQL数据库在服务器端,其他子系统位于不同PC的客户端。各子系统之间、子系统与综合诊断系统之间存在异构性。

3 XML数据交换技术

XML又称为可扩展标记语言(Extensible Markup Language),是一种元标识语言,提供了结构化资料的一种自我描述,是一种开放的数据结构。XML不但描述数据内容,而且描述数据的结构,使数据之间的关系得到很好的体现。XML具有结构化程度高、平台独立性强、保存格式简单、便于扩充延展及网上传输等特性, 因此XML非常适合于不同数据库间的信息交换。以XML为中介实现数据交换是当前研究的热点,正成为网络资料交换的标准。

XML数据交换,一是从数据源中抽取交换的数据, 转化为XML交换文档;二是对交换文档的格式进行转换,并映射数据源和目的库中的相关字段,进而把数据载入到目的库中。在不同的应用系统中,采用统一的XML标签和格式生成XML文档,是实现数据动态交换的基本要求。

目前常见的数据交换技术主要有[2]:EDI系统、中介层、数据仓库和中间数据等方式。XML采用中间方式,利用XML文件作为中间数据,提供数据通用格式, 达到数据交换的目的。

4基于XML的Web异构数据源之间的数据集成

数据集成是将多个数据库、数据多维立方体或一般文件中的数据,存放在一个格式统一的数据库中。

在数据集成的逻辑关系中,Web服务在客户与数据仓库之间。客户层必须经过XML接口访问数据源数据,保证了源数据的安全。标准XML编码,能很好地支持异构数据源之间的数据交换;同时,基于HTTP和SOAP协议的Web服务技术,让数据可以无障碍地越过防火墙。逻辑结构如图2所示。

元数据(Metadata)是“关于数据的数据”,是对数据源信息的描述[3],是标准的XML文件。 元数据字典(MDD)对元数据进行管理,依靠XML的XML Schema技术设计和建模,与公共数据模型保持一致性,方便与XML数据集成器合作。元数据字典必须注册所有参与的数据源。

XML数据集成器并不存储具体数据,只存储所有数据的集成模式。XML数据集成器,对客户层屏蔽数据源的差异,向客户层保证相同的数据视图,充当数据总线,把实际数据源转变成用户数据视图。对不同数据源的数据,用XML Schema技术设计一个公共数据模式(Common Data Model,CDM)进行统一处理。不同数据源有不同的模式,对他们进行集成时,数据字典(MDD) 是解决他们异构性[]的重要方法。

(1)命名异构:一是相同的对象和属性在不同的源数据中用不同的名字表示(异名同义),二是不同的对象用相同的名字表示(同名异义)。命名异构成为不同模式之间语义冲突的重要原因。在设计集成系统时,必须在元数据字典(MDD)中利用一个统一的名字表示每个数据源相应的字段。例如商品的价格,在两个数据源中, 一个用price,一个用cost,在MDD中统一用Price表示。

<Field name="Price" type="String">cost</Field>

(2)结构异构性:指元数据信息的组成方式在数据源间各不相同。用定义全局模式的方法解决。关心的数据成分在全局模式中定义,并许可在集成数据时让某些成分为空(Nul1)。

例如,在定义全局模式时,允许价格(Price)为空。

<Element Typename="Price" content="text Only" dt:type= "String" Nullable="yes">

·····

</Element Type>

(3)值的异构性:数据单位、数据精度在不同的数据源中不同。可以在元数据中定义数据单位、数据精度,进而与全局模式中定义的数据进行响应转换。

<Field name="Price" type="Float" unit="$">price</Field>

(4)数据模型的异构性:不同数据源通过各自的Wrapper/Agent解决数据模型的异构性。首先定义一个公用的统一的数据模型(CDM),再把从单个数据源中提取的局部数据转换成CDM中间模型数据。事实上,单个数据源通过自身的Wrapper/Agent结构,就能把从中提取的局部数据转变成符合CDM要求的XML文档数据。

(5)时间异构性:随着时间的推移,数据源的结构描述、属性表示和取值发生变化。可以通过MDD管理软件对数据源的元数据描述进行增添、删除或修改。

5 XML数据集成技术与中医智能诊断系统

在中医智能化诊断系统,各子系统数据库采用不同的技术标准和不同的软硬件平台,因此各数据库类型与结构之间存在很大的差异。用“虚拟集中”的方式管理数据,即通过XML数据集成器对数据请求进行存取访问。

在智能化诊断系统中,舌诊系统用SQL server数据库,面色诊、问诊、脉诊系统用access数据库,穴位诊系统用txt文本数据。服务器的数据仓库用SQL servers数据库。它们之间有异构性。

如在舌诊系统中,有关舌象的信息在Tongue表中, 有如下字段:

在服务器的数据仓库中有关舌诊的信息在t Lingua表中,有如下字段:

两个数据库系统的结构不相同,需要进行名称对应的转换和值对应的转换,部分XML文件如下:每一个末节点有两个属性,其中client是相关节点在客户端的值或字段名,server属性是服务器的数据仓库中的值或字段名。

由于各子系统提起的信息量不大,客户端浏览器以Get方式发送请求,Web服务器端解析客户端送来的字符串,参照上面的XML文档,利用XML文档对象模型(DOM),进行相关字段和值的转换工作,最后把处理好的结果用ADO技术写入服务器端的数据仓库。

6结语

中医数据 篇5

关键词:中医,数据库,古籍数字化

中医古籍是中医药学传承和发展的载体, 既具有重要的学术价值, 又具有相当的文物价值。据《中国中医古籍总目》 (上海辞书出版社) 统计, 全国151家图书馆藏有中医图书13 000多种, 其中1911年以前的历代中医古籍8 927种。[1]在中医古籍没有数字化之前, 学者在大量文献中收集、查找、考证进行着艰苦的劳动, 这种劳动强度大, 效率低。20世纪90年代以后, 中医古籍数字化的技术与实践都有了全面的进步, 用数字化手段对中医古籍进行处理, 既可以使中医古籍的原图原貌永久保存, 又可以通过数据库和网络广泛利用, 避免阅读原书对古籍造成的损伤。因此, 中医古籍数字化是中医古籍保护和利用的理想方式。开发数字化的古籍资源, 使之服务于当代临床实践, 是发展中医的必由之路。

近年来, 中医古籍数字化开发的重点由早期的书目数据库的建设转向全文数据库, 并逐渐向专题特色数据库与地方特色数据库的建设进行转变, 最终的发展方向将是能提供多种检索途径的, 非中医专业人士也能使用的中医古籍知识库的模式。当前, 中医古籍数据库主要包括以下几种形式:

1中医药书本式目录

许多藏有古籍的图书馆都会自行编制一至几套书本式目录, 有些图书馆的目录根据读者的使用情况编制索引, 如版次索引、年代索引、分类索引等。早期的书本式目录为中医药古籍的研究提供了简单、简便的检索途径, 不仅减轻了使用者查找、翻阅的劳动量, 而且减少了对古籍的损害, 是一种有效的目录形式。但是由于书本式目录未能深入地反映中医药古籍的内容, 且与导读人员水平及读者的阅历密切相关, 只能起到简单的指引作用[2]。

2中医药书目数据库

我国的古籍数字化研究工作从20世纪80年代初开始, 积累了一定的经验, 特别是书目数据化方面。国内稍有规模的藏有中医药古籍的医学院校、科研机构及图书馆, 为了更好地保护中医药古籍, 减少古籍的损毁程度, 无不进行馆藏书目数据库的建设。但是, 由于受到种种客观条件限制, 各书目数据库的揭示深度也不一样:有的相对完整;有的图书馆只是进行简单的书目录入, 既无简介也无摘要;有的甚至连基本项目也著录不完整。同时, 由于目前国内还没有制订统一的书目数据库的建库标准, 我国的许多书目数据库重复建设严重, 远远未达到共享的目的。但书目数据库的建立还是在一定程度上提高了检索的速度, 提升了中医古籍的利用效率。其中, 中国中医科学院图书馆“馆藏中医古籍目录数据”是国内的藏书比较丰富的书目数据库:中国中医科学院图书馆藏有中医古籍5千余种6万余册, 中医珍善本为1.6万余册 (1 300余种) , 历代版本8 000余个, 占存世中医古籍的60%[3], “馆藏中医古籍目录数据库”是在《中国中医研究院图书馆馆藏中医线装书目》基础上建设的机读目录库, 收录有馆藏中医古籍书目信息10 610条, 提供书名、著者等多种检索途径[4], 方面了科研工作者查找和利用古籍。

3中医全文数据库

中医药古籍的珍稀性和易污损性决定了书本式目录和书目数据库不能满足科研及古籍保护的需要, 作为再生性保护, 全文数字化是最好的选择。我国真正的古籍全文数字化工作是20世纪90年代中期开始, 现有的古籍全文数据库根据保存形式的不同, 可分为全手工录入、全图像扫描、全图文结合三种方式[5]。其中有代表性的有“中华医典”和“中医药珍善本古籍多媒体数据库”:“中华医典”为光盘版的中医古籍数据库, 目前已收录中医古籍近千种, 它的最大特点是全手工录入, 这使它能对单个字符进行操作, 从而完成任国中医科学院研制的, 该数据库内含320种中医药全文善本古籍, 对长期制约中医古籍数字化实现的一些关键性技术经过持续的研究和试验, 采用了图文结合的形式, 使读者能够方便的对古籍的内容进行检索、编辑和统计[6]。

另外, 一些综合型的中医古籍数据库里包含了中医古籍的内容, 如爱如生系列数据库也推出了医书集成产品;金图国际中医药古籍资料库、国学宝典等数据库中都含有大量的中医药书籍[7]。

4特色数据库

4.1 calis特色数据库项目

高校图书馆是我国公共图书馆系统之外, 收藏中国古籍数量最大的机构。为了实现高校图书馆馆藏古籍书目信息的数字化和网络化, 2004年初, 由北京大学图书馆牵头, 联合南京大学图书馆、北京师范大学图书馆、四川大学图书馆等, 筹划建立包容多个高校图书馆古文献资源的数字图书馆或数据库, 并以“高校古文献资源库”为项目名称, 同年6月份“高校古文献资源库”被批准列为CALIS“十五”建设项目“专题特色数据库”中的一级资助项目, 该项目已于2007年通过验收, “高校古文献资源库”项目制订统一古籍著录的元数据规范和数字加工标准, 如《calis特色库古籍著录规则》、《古籍描述元数据规范》、《CALIS特色子项目描述元数据规范及相关规定》等, 实现了古籍数据库数据著录标准化、数据标引标准化与规范控制标准化[8], 为今后高校开展古籍特色数据库建设, 实现古文献全文图像和全文文本的数字化工作, 提供了宝贵的经验。但“高校古文献资源库”属于综合型的古籍特色数据库, 并没有突出中医古籍的特点, 也没有对中医古籍的内容做更深层次的加工和提取。

4.2自建中医药特色数据库

中医古籍自建数据库工作是一项历时久、耗资多、技术密集的系统工程。[9]其建设主体主要是各中医药类高校图书馆, 据统计, 在125所医学类院校中 (含包括医学院系的综合性大学) , 有21所大学共建成了26个古籍文献数据库[10], 在古籍特色数据库的开发建设方面作出了可贵的探索与努力, 并取得了一定的成绩。如:北京中医药大学图书馆的“馆藏中医古籍数据库”;上海中医药大学的“中医古籍善本书目提要数据库”、“中医文化书目库”、“送瘟神”中医药抗非典专集;天津中医药大学的“善本浏览”数据库, 浙江中医药大学的“中医古籍数据库”, 这些中医古籍特色数据库充分反映了馆藏特色与地方特色。但这些自建特色数据库普遍存在着各自为政、重复建设等问题, 缺乏统一标准和共享途径;大多数的特色数据库仅能提供目录、题录或提要检索, 缺乏全文数据库;而且数据库结构单一, 规模小, 专业面狭窄, 检索途经单一, 缺少丰富的检索词的查找和选择功能, 如主题词、责任者、分类号、关键词等, 有的数据库根本没有检索功能, 仅能浏览[11]。

5中医古籍知识库

知识库是人工智能和数据库结合的产物, 它是以一致的形式存储知识的机构。随着计算机、人工智能的发展, 中医古籍数字化资源组织形式由基于字词检索的全文数据库开始转向深入到知识单元的基于概念检索的知识库系统建设, 目的是对中医古籍进行更深层次的挖掘与利用。中医药古代文献知识库是中国中医科学院医史文献研究所构建了我国第一个中医古籍知识库系统, 收录的中医古籍以本草文献为主, 目前已建成中医古籍本草知识库、中医 ( (转转下下页页) ) 古籍方剂知识库、以及张仲景、陈士铎、新安医学、妇科、医案、蒙医药等6个中医古籍专题知识库。该数据库在中医古籍文本化的基础上通过专家解析标注形成以知识元为关联的知识网络, 进而实现中医古籍知识库中知识的有效查询和发现知识。具有初级检索、高级检索和语义检索功能, 结果显示以“知识元”为单位的信息。

通过以上内容可以看出, 我国中医古籍数字资源经过近三十年来的发展、建设, 已经取得了一些成果, 在理论研究方面, 主要表现在:古籍数字化概念已经形成;标准程式和体系结构也已基本确立;数据库检索系统、辅助性研究支持系统的完善;技术手段正在逐步完善, 技术研究更多地转向古籍数字化的高级功能, 如数据挖掘、知识发现等, 对中医古籍的知识组织与处理变的更为细致, 中医古籍知识的计算机表达也有了创造性的突破, 中医古籍知识库的建设已成为古籍数字化未来的发展方向。但同时也存在着数据库规模过小、重复建设严重、缺乏统一标准、检索功能不完善等亟待解决的问题, 相信通过医学信息工作者的不懈努力, 中医古籍数据库必定能实现专业性、实用性与共享性的统一, 使我国传统医药学宝典更好地服务于现代临床应用。

参考文献

[1]裘俭等.中国中医科学院图书馆中医药古籍保护工作述要[EB/OL].中国古籍保护网.http:∥www.nlc.gov.cn/service/others/gujibhw/

[2]唐丹.中医药古籍数据库建设概述医学信息, 2006, 9.

[3]http://www.cintcm.ac.cn/opencms/opencms/index.html.

[4]杨继红.中医古籍数字化资源建设概述[J].现代情报, 2008, 5.

[5]龚娅君, 刘春.中文古籍数字化建设[J].浙江大学学报:人文社会科学版, 2006 (7) :175-176.

[6]朱树良, .浙江省中医药善本古籍多媒体数据库的建设[J].中国中医药信息杂志, 2010, 5, 17.

[7]李兵.常用中医古籍数据库评价与分析[J].江西中医学院学报, 2009, 4, 21 (2) .

[8]刘葵波.高校图书馆特色数据库建设实践与思考——以“水产科技数据库建设”为例[J].情报杂志, 2008:2:159-161.

[9]姚伯岳.“高校古文献资源库”的构建[J].大学图书馆学报, 2007, 6.

[10]周瑛, .我国医学高等院校特色数据库建设情况调查与分析[J].医学信息学杂志, 2010, 31 (11) .

中医数据 篇6

数据挖掘融合了众多学科的精华,其中包括数据库技术、人工智能、机器学习、统计分析、模式识别、神经网络、信息检索和数据可视化等信息学科,还包括零售业、金融业、保险业、电信业、临床医学、预防医学、生物医学和市场营销等社会学科。因此,数据挖掘被认为是信息产业中最有前途的交叉学科。

数据挖掘是一个处理过程,它利用一种或多种计算机学习技术,从大型数据库或数据仓库的数据中自动分析并提取人们感兴趣的信息和知识,这些信息或知识是隐含的,事先未知但潜在有用的,然后,将提取到的知识表示为概念、规则、规律、模式等形式。也就是说,数据挖掘是一类深层次的数据分析[1]。因此,数据挖掘应该更准确地命名为“从数据中挖掘知识”。

1 数据挖掘背景知识

由于数据库技术的飞速发展以及数据库管理系统的广泛应用,经过长年的努力,社会上的各个企业和部门都已经拥有自己的数据库管理系统,并且积累了越来越多的数据资源,也就是我们所说的“信息爆炸”。于是,人们开始渴望通过对这些庞大的数据进行分析而得到更多的有助于决策的信息。虽然目前的数据库管理系统可以高效率地实现数据的录入、查询、统计、分类、汇总等功能,但由于数据量的不断膨胀以及数据库管理系统中分析方法的严重缺乏,使得它无法发现数据与数据之间隐藏的关联性,更无法根据当前的数据去预测未来的发展趋势。因此,出现了所谓“数据资源多,而知识信息少”的现象,造成了严重的信息资源浪费。

随着建立在数据库管理系统之上的计算机决策支持系统的出现,为进行高层次的数据决策分析提供了良好的思路和方法。有一些分析工具可以用来帮助决策支持,有一些分析工具可以使分析者用不同的方式观察数据,另有一些分析工具预先对大量的数据进行汇总计算,以期能对查询做出较快反应。但由于决策支持系统在数据的采集、分析与处理方法等方面还存在着诸多的局限性,使得人们不得不寻求更有效的途径去开拓数据决策分析的思路,计算机人工智能为此做出了巨大的贡献。人工智能经历了博弈、自然语言理解、知识工程等阶段,已经进入了机器学习的热点阶段,机器学习能够模拟人类的学习方式,通过对数据对象之间关系的分析,提取出隐含在数据中的内在模式,即知识[2]。

正是由于实际工作的需要和相关技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现,而我们使用更多的是数据挖掘这一术语,数据挖掘的目的就是从大量数据中提取出可信的、新颖的、有效的,并且最终能被人们所理解的信息模式处理技术。

2 数据挖掘在中医诊疗关联研究的展望

数据挖掘技术作为一门新兴的交叉学科,其基本目标就是从大量的数据中提取隐藏的、潜在的知识和信息。该项技术自20世纪末提出以来,引起了许多专家学者的广泛关注,已经应用到零售业、金融业、政府决策和医疗保健等多个社会领域。中医学是中华民族的传统瑰宝,是我国所特有的一种古老的学科,中医辨证论治诊疗实践产生的临床诊疗信息是重要的科学基础数据。中医辨证论治是“症状-疾病-证候-药物组合-方剂”的连续过程,这一过程具有混沌、非线性的思想,并且诊断结果可以采用多种中药方剂进行辩证论治。数据挖掘技术无疑是处理这种复杂数据体系的一种利器,药物配伍是方剂的主干,但它不是任意几种药物的简单组合,而是根据病情及药物的功效有针对性的组合。

目前,数据挖掘技术在中医领域的研究还处于起步阶段,将数据挖掘技术应用到中医临床诊疗与处方间的辩证关联体系研究,可以实现中医临床诊疗数据存储、分析、利用,并支持处方数据的分析与数据挖掘平台的构建,同时针对如何有效的进行对应用问题的实际挖掘处理,探讨数据预处理、挖掘分析方法的目标问题确定和结果的阐释等几个关键环节。临床疗效是中医学赖以生存和发展的根本,根据病症可以在方剂数据库中找到相应的诊疗药物,这种经验式总结方法对中医学的发展起到了巨大的推动作用[3]。中国方剂数据库共收录了七百多种古代典籍及现代文献中的古今方剂共八万多首,数据中提供了每一方剂的处方来源、药物组成、功效、主治、用药禁忌、药性作用等方面信息。然而,随着社会的进步与科学技术的飞速发展,方剂中频繁出现的中草药与病症临床表现之间关联的问题逐渐显现出来,如何有效的挖掘出两者之间的辩证关系,这已经成为制约中医理论发展的一个瓶颈。

中医学术经验历代相传,历代方剂既具有跨时空性和个体性的双重特性,同时又具有海量的数据与数据之间关联的特性。运用现代数据挖掘技术对历代方剂中的海量数据进行深层挖掘,不但可以全面分析与总结中医辨证论治的规律,而且通过对其中复杂数据的关联分析,可以发现病证方药的内在规律及其关联性。这种基于创新思维但不排斥传统、基于传承经验但不违背科学的新的诊疗与处方之间的关联研究,不仅有利于创新中医药理论,而且对指导中医专家的临床诊疗与中药新药的研究开发等都将发挥积极的作用,具有非常广阔的运用前景。

3 总结

数据挖掘技术作为一种全新的信息处理技术,它已经在多个社会领域中得到了广泛的应用。现在,中医学领域的工作者正在对中医数据进行数据采集、编码与预处理,而如何科学有效的利用这些宝贵的中医学信息资源来为疾病的诊疗提供科学的决策,促进我国中医药学的研究与发展,已经成为这些中医学领域工作者关注的焦点问题[4]。采用数据挖掘技术对中医的临床诊疗经验进行深入探讨,可以全面探究其中的关联规律,提炼出中医临床诊疗数据中蕴藏的新理论、新知识、新方法,实现中医临床经验的有效传承与总结。

摘要:利用数据挖掘技术将海量中医诊疗数据快速转换成信息和知识,有效的对中医病案信息进行处理,对中医临床经验进行深入探讨,探究其中的关联规律,实现名老中医经验的有效传承与总结,具有重要的现实意义。

关键词:数据挖掘,中医,关联

参考文献

[1]王映辉.基于信息和数据挖掘技术的名老中医临床诊疗经验研究思路[J].世界科学技术———中医药现代化,2005,7(1):98-105.

[2]毛国君.数据挖掘原理与算法[M].第2版.北京:清华大学出版社,2007:66-69.

[3]徐刚,袁兆康.数据挖掘及其在医学领域中的应用和展望[J].实用临床医学,2006,7(11):196-198.

数据时代中医院图书馆联盟的构建 篇7

1我国图书馆联盟发展概况

图书馆联盟(library consortia)是图书馆联合的最新形式,实际上就是图书馆之间的相互合作。我国的图书馆有公共图书馆、科研院所图书馆、 军队图书馆、高等院校图书馆和中小学图书馆等多种类型,而图书馆间的合作始于20世纪50年代,到了90年代图书馆联盟有了实质性的发展,能够实现部分联合采购和馆际互借,但是尚不能实现资源共建与共享。21世纪后图书馆联盟进入了快速发展阶段。 全国性图书馆联盟有:中国高等教育文献保障系统、中国高等学校数字图书馆联盟、高校图书馆数字资源采购联盟、中国高校人文社会科学文献中心、大学数字图书馆国际合作计划、 国家科技图书文献中心等。区域性高校图书馆联盟有:上海高校网络图书馆、北京高校图书馆联合体、天津高等教育文献信息中心、吉林省图书馆联盟、河北省高等学校数字图书馆联盟、广州地区高校图书馆联盟、珠江三角洲数字图书馆联盟、长三角图书馆联盟等。全国的高校图书馆和区域性的图书馆联盟居多,而科研院所的专业图书馆联盟构建相对薄弱,特别是中医 院专业图 书馆还处 在单打独 斗、各自为政的局面。图书馆联盟的构建,为各图书馆之间搭建了交流与合作的平台,为实现馆际互借、资源共建与共享奠定了坚实的基础。

2构建中医院图书馆联盟的意义

构建中医院图书馆联盟,目的是为加强各中医院图书馆间的合作,有效实施知识管理、实现资源互补、资源共享、利益互惠。中医院图书馆联盟的构建能够对图书馆的建设与发展提供强有力的支撑,亦能够促进中医院图书馆事业的快速发展。

2.1有利于中医院图书馆知识管理的实施

中国中医 科学院图 书馆是我 国中医药图书文献资源中心,也是全国乃至全世界馆藏中医药书刊文献和收藏中医古籍珍善本最为丰富的单位之一。中国中医科学院是国家中医药管理局直属的集科研、医疗、教学为一体的综合性研究机构。下设中医药信息研究所、中药基础研究所、针灸临床研究所等13个研究所,广安门医院、西苑医院、望京医院、眼科医院等6所三甲医院及研究生院、中医古籍出版社等学术单位。院图书馆主要服务于科学院所属的各研究所及临床医院。 由于科学院所属各二级院所分布广泛, 因此各个院所又分别设有图书馆等科室,造成各个院所资源重复购置。又由于资金有限,导致资源购置不全,根本不能满足医院科研、教学及临床对信息资源的需求,因此在信息飞速发展、数据爆炸的今天,由中国中医科学院图书馆牵头,构建院属各中医院图书馆联盟,统一实施中医院图书馆知识管理,具有及其深远的重要意义。

2.2有利于中医院图书馆信息资源的共建共享

构建中医 院图书馆 联盟 , 使全院的医疗、教育和科研人员在统一的检索平台上,实现馆藏查询、文献检索、全文传递、参考咨询等一系列基础功能 , 最大限度 地满足中 医院科研、教育和临床医疗的多元化文献信息需求。在电子资源如中外文数据库资源方面可以实现联合采购;在馆藏资源建设包括特色资源建设以及知识库建设方面,在充分利用各中医院图书馆丰富资源的同时,按照统一的标准和规范,有序的进行数字化建设。 中医院图书馆联盟的建设将有效改善各中医院图书馆封闭、低效、分散、 各自为政的局面,也避免了数据库资源的重复建设、重复购置等造成的人力和资金的浪费,在中医院范围内建立起开放、高效、整体发展的新型文献资源保障格局,真正实现中医院范围内信息资源的共建共享。

2.3有利于满足中医药人员的各种信息需求

随着21世纪中医药学科的快速发展,各种新理念、新技术、新疗法的不断涌现,临床科研及医疗人员需要不断地学习,不断地搜集最新的中医药信息,掌握中医药学发展的最新动向,才能更好地为病人治疗各种疑难病症,解除病人的各种疾苦。构建中医院图书馆联盟,可以通过联合调研了解各类中医药人员的信息需求,通过联盟的力量购买各种数据库资源, 同时还要挖掘、利用网络信息资源及各种隐性的馆藏信息资源,建立各种专题知识库等,使中医药人员能够享用更多更全的中医药信息知识,以满足中医药人员的各种信息需求,同时亦提升了各种信息资源的利用价值。

3中医院图书馆联盟构建策略

3.1建立统一的管理机制

首先成立 中医院图 书馆联盟 协会。由各馆选出专人负责制定联盟章程,联盟虽然是一种非正式组织,但协会应 具有行政 的权威性 和决策的 推动力 , 其工作职 责应在联 盟章程中做出明确规定。各成员馆员要转变观念,增强合作意识,每个成员馆都要把联盟的利益放在自身利益之上。 在资源采购、资源建设上加强沟通协作。在使用标准和系统上要保持一致性,以利于信息资源的共建与共享。 联盟馆只有建立统一的管理机制,设有充足的人力资源,才能确保中医院图书馆联盟的健康发展。

3.2发挥联盟优势,合理资源配置

构建中医 院图书馆 联盟 , 可以使各图书馆馆藏资源最大化使用。在联盟协会的统一规划、统一布局、统一管理的基础上进行文献资源建设。 既要发挥各联盟成员馆自身的特色, 也要发挥整体联合的保障优势,防止资源的重复建设与重复购置。要充分发挥联盟的优势,能够使各中医院图书馆间优势互补,取长补短,弥补单个图书馆的不足。各成员馆可以根据自身馆的学科特色,建立文献资源发展的长远计划。在资源购买上,如高价图书及大型丛书、外文原版期刊、 中外文文献数据库等可以采取联合订购的形式,不需要每个成员馆一一购买 , 既节约资 金也能体 现联盟的 力量,实现资源共建共享。

3.3建设统一的技术平台,实现高效的资源整合

文献资源 按标准化 、 规范化建 设,是联盟馆实现统一建设、统一检索的前提条件,是实现资源共享的基础。作为科研院所的专业图书馆要积极利用研究课题给予的经费支持,联合各大 数字资源 生产 、 数据库提 供商,共同建设统一的技术平台,包括研发构建各种资源的数据库系统与馆藏资源目录查询系统等,建设远程支持维护为主的共享网络。通过技术联盟协作,开展各馆信息资源的整合工作, 馆藏资源数据库、专题知识数据库及各种资源数据库的建设等,逐步解决图书馆在数字化、标准化建设中出现的实际问题。以实现资源检索、查询、阅览等共建共享功能。

3.4加强对联盟馆员的业务培训

在新技术 研发与应 用快速发 展的今天,要加强对联盟馆图书馆员的业务培训,提升专业人员的各种业务技能,才能有利于开展新技术的研究与合作项目的开发应用。对联盟馆员的培训主要从以下三方面开展:一是综合素 质的培训 。 包含道德 素养的提升,良好的人际沟通能力、服务能力,图书馆学及中医药学专业知识的提高等;二是业务技能的培训。包含计算机技术的应用,数据加工过程中新技术、新方法的应用,中医药信息收集、加工、综合利用的能力等;三是创新能力的提升。包括定期开展业务培训、专题讲座,内部人员业务交流等方式,从而有效开拓图书馆员的思维,拓宽其专业知识,提升中医药信息学的创新能力。

总之,开展中医院图书馆联盟是数据时代发展的必然趋势,是实现电子资源的共享及传统资源的快速传递和交流的重要基础,是缓解各中医院图书馆经费紧张,人力资源不足,信息资源建设能力欠缺的有效措施。构建中医院图书馆联盟,必然能够满足中医药科技人员等不同用户对中医药信息资源的不同需求,同时促进中医院图书馆信息资源利用的最大化,也是促进我国中医药事业快速发展的重要保障。

摘要:数据时代构建中医院图书馆联盟是提升中医药信息资源的利用价值,促进中医院图书馆生存和长远发展的必然趋势。通过简要介绍我国图书馆联盟的发展概况,阐述了构建中医院图书馆联盟的重要意义,从建立统一的管理机制;发挥联盟优势,合理资源配置;建设统一的技术平台,实现高效的资源整合和加强对联盟馆员的业务培训等4个方面对构建中医院图书馆联盟的策略进行了初步探讨研究。

中医数据 篇8

1数据挖掘技术

1.1 数据挖掘概述

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。从广义上说, 数据挖掘是对数据库知识发现 (Knowledge Discovery in Databases, KDD) 的一个过程。作为一种通用技术, 数据挖掘可以用于任何类型的数据, 只要数据对目标应用是有意义的, 数据源可以包括数据库、数据仓库、web、其他信息存储库或动态的流入系统的数据[2]。

1.2中医药数据挖掘的意义

中医药领域的处方中通常包含大量的药物及其剂量组成, 伴随着医院信息化建设的大力推进, 这些药方多以数据库形式被保存, 运用数据挖掘技术对中药数据进行科学分析, 从而发现其中的配伍特点和规律成为很有现实意义的一项工作。

中医药数据挖掘的目的是通过对中医处方中的中药数据建立合适的模型, 从而寻找药物之间的频繁模式和关联规则, 可以实现中医用药经验的有效总结和传承。

1.3关联规则算法

数据挖掘有很多模式, 常见有关联规则[3]、聚类算法[4]、分类算法[5]等。关联规则挖掘最初仅限于事务数据库的布尔型关联规则, 近年来广泛应用于关系数据库[6]。关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系, 那么其中一个事物就能够通过其他事物预测到。

关联规则就是支持度和信任度分别满足用户给定阈值的规则。Apriori[7]是关联规则模型中的经典算法。本文主要使用基于频繁项集的Apriori算法进行数据建模, 用以发现中药配伍中的规律性。发现关联规则需要经历如下两个步骤:

步骤一:通过迭代, 检索出事务数据库中的所有频繁项集, 即支持度不低于用户设定的阈值的项集;

步骤二:利用频繁项集构造出满足用户最小信任度的规则。

2数据特征化和预处理

2.1 实验数据集

本文实验数据来自河北中医学院附属医院肾内科陈志强教授于2014年5月至2015年7月诊治的早中期慢性肾衰竭患者的病案。采集的病案内容包括患者姓名、性别、年龄、原发病、症状、体征、肾功能指标、中医证候、中药处方等。摘取其中的中药信息, 按照《中药大辞典》[8]统一药物名称。

2.2数据特征化

统计数据集的全部223条中医处方, 共出现中药194味, 根据专业经验, 我们选取频数在10%以上的中药 (视为高频药物) 进行数据挖掘。由于中药处方中的中药名称以中文形式表示, 因此需要将其进行易于数据挖掘算法识别的数据特征化处理, 方法如下:

(一) 药物表的特征化方法

根据医务工作者的经验, 将治疗该病症的常见中药分为活血化瘀通经类、清热祛湿泄浊类、行气燥湿化痰类、益气健脾温阳类、补益脾肾之阳类、滋养肝肾之阴类等六大类。将高频药物分别归于这六大类中, 针对每大类建立相应的数据表。每条数据采用布尔常量的表示形式如图1所示。

其中, 第一项表示病人编号, 每一条记录表示一位病人的用药信息, 编号之后的每一位布尔数据表示某味中药是否在该处方中出现, 1表示出现, 0表示未出现。

注:支持度表示前项药物在总处方中出现的概率, 置信度表示在前项药物出现的前提下, 后项药物也出现的概率。

(二) 类别表的特征化方法

为了进一步分析各大类之间的关联性, 建立一个数据类别表 (同一条处方中出现某一类药物中两味或两味以上, 即判定使用了该类别中药) 。每条记录表示一位病人用药的类别信息, 其中第一项表示病人编号, 编号之后的每一位表示该类别药物是否在该处方中使用, 1表示使用, 0表示未使用。

按照上述方法建成中药药物数据库, 其中包括:包含所有药物的处方数据集、统计药物频次的药物计数数据集、由专业医生按照性味、功用划分的六种不同类别的高频药物数据集以及判断处方中是否使用某类药物的类别数据集。

3中医处方经验的挖掘方法

3.1 对每一类药物中包含的各味中药进行关联规则建模

首先对数据库中的药物进行频数统计, 即在处方中出现的次数;然后将数据库中所有同类别的药物按照其在整体处方中出现的频数降序排列。如果药物排列靠前说明其在处方中出现频率较高, 为医生的常用中药, 具有较高的参考价值。同时, 参考专业医生的经验, 本文将支持度和置信度的阈值均设置为10%, 将其视为指导临床应用意义较大。对各类药物数据采用Apriori算法建模, 生成每一类别中药间的关联规则。

3.2对六类药物之间进行关联性规则建模

逐条分析223条中药处方中所包含的药物类别 (同一条处方中出现某一类药物两味或两味以上, 即认定含有该类别中药) , 统计223条中药处方中每一类别药物的应用频数, 将其在数据库中由高到低依次排列。根据专业医生的经验, 设置支持度和置信度的阈值均为10%, 将其视为指导临床应用意义较大。对类别数据采用Apriori算法建模, 生成六类中药其类别之间的关联规则。

4关联性分析

4.1 同类别中药的关联分析

将关联规则按照支持度降序排序, 体现出常用药对以及多味中药同时出现的规律。以第一大类药物为例, 通过对关联规则的统计分析发现:在此类中药处方中, 三味中药同时出现的概率高达65%;四味中药中药同时出现的概率大约在31%左右;五味中药同时出现的概率减少到14%左右;六味中药同时出现的概率骤减到1%;而七味及以上中药同时出现的概率则为0。第一类药物的部分关联规则如表1。

对同一类药物, 本文采用定向网络关系图表示药对之间的关系。连接两位中药之间的连线越粗, 表明这个药对出现在处方中的频数越高;越细就表明这个药对出现在处方中的频率越低。图2所示为输出第一类药物中频数最高的中药与其它各味中药的关联关系的定向网络图。

结论分析:

纵观全部类别的所有频繁项集, 发现在各类药物中, 往往是同类别药物多味联用, 以增强其功效;而在联用时, 又会有一定的味数限制, 数目通常为三味至五味为多。通过定向网络图可以分析出针对某一种药物与其它中药成对出现的规律:由处方中频数高的药物组成的药对, 其之间的关联关系更为密切。

4.2不同类别药物之间的关联性分析

在223条有效的类别数据记录中, 生成的规则总数为154条, 为了便于结果分析, 将其按照支持度降序排列。通过对关联规则的统计分析得出:前两类药的支持度高达95.5%;前三类药的支持度为89%;前四类药的支持度为70.9%;前五类药的支持度骤减到25.6%;而全部六类药的支持度仅为5.8%。现仅摘取前项含有前两类中药的关联规则见表2。

结论分析:

前四类中药之间的相互关系最为密切, 其次是这四类中药分别与第五、六类之间的关系, 而第五、六类中药之间关系的密切程度则大大降低。从关联规则的结果可以分析得出前四个类别的药物属于常用和联用的药物。

5结语

本文通过对中药数据集的特征化处理, 采用基于频繁项集的Apriori经典关联规则算法, 对中医处方中药物的频繁项集和药物之间的关联关系进行了有益的探索, 发现了常用药物组合及配伍特点, 获得了普通处方分析较难获得的处方经验信息。实验结果证明:使用关联规则对中药数据库建模, 可以挖掘出中医在治疗某种疾病方面的用药特点, 为研究临床用药规律提供了有效方法。

摘要:传统的中医药科学在长期的医疗实践中积累了海量的处方数据, 数据挖掘是目前最有效的数据分析手段之一, 利用数据挖掘技术从这些海量数据中发现蕴含其中的中医药知识, 是一项极有价值的研究工作。本文主要采用数据挖掘中的Apriori关联规则算法, 对中医处方数据进行挖掘和总结:首先对采集的中医药数据进行数字特征化处理;然后对中医处方中药物的频繁项集和药物之间的关联关系进行研究, 并获得了普通处方分析较难获得的用药规律及经验信息。研究成果对中医临床工作具有重要的指导意义。

关键词:数据挖掘,关联规则,数字特征化,中医

参考文献

[1]Viktor Mayer-Schonberger Kenneth Cukier盛杨燕, 周涛译大数据时代[M].浙江人民出版社.2013.1

[2]jiaweihan Micheline Kamber Jian Pei.数据挖掘概念与技术[M].范明孟晓峰译.机械工业出版社.2012:243

[3]毛宇星, 陈彤兵, 施伯乐.一种高效的多层和概化关联规则挖掘方法[J].软件学报, 2011, 22 (12) :2965-2980.

[4]陈克寒, 韩盼盼, 吴建.基于用户聚类的异构社交网络推荐算法[J]计算机学报, 2013, 36 (2) :350-359

[5]张琳, 陈燕, 李桃迎.决策树分类算法研究[J].2011, 37 (13) :66-68

[6]杨秀萍.大数据下关联规则算法的改进及应用[J].计算机与现代化, 2014, (12) :23-27

[7]AGRWAL R, SRIKAN R.Fast algorithms for mining association rules in large databases[C]/Proceedings of the 20th International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers, 1994:487—499.

上一篇:汽车测试下一篇:园艺作物