医学大数据

2024-06-18

医学大数据（共12篇）

医学大数据篇1

摘要：循证医学提倡的是最好的临床研究证据与临床实践(临床经验、临床决策)以及患者价值观(关注,期望,需求)的结合,其核心是“最佳证据”。而如何高效科学地收集处理大量数据?如何使循证医学步入大数据时代?医院信息系统为其提供了可能。本文通过介绍医院信息系统在循证医学方面的应用,阐明了循证医学大数据分析的价值及所存在的问题。

关键词：医院信息系统,循证医学,大数据时代

循证医学概念的提出是人们对现代医药的单纯根据病理生理机制指导临床治疗状况的一种反思,它提倡的是最好的临床研究证据与临床实践 ( 临床经验、临床决策)以及患者价值观 ( 关注,期望,需求) 的结合。因此,今后的医生,将不仅仅承担着诊治病人的职责,还将兼有医学科学研究的重任。而如何高效快捷地获得大量数据,科学准备地处理大量数据,使之为临床科研提供实验数据支持? 当信息技术领域迎来大数据浪潮之际,医院信息系统的发展也势必将推动循证医学步入大数据时代。

1循证医学

1. 1定义

循证医学的主要创始人、国际著名临床流行病学家David Sackett曾将循证医学定义为: “慎重、准确和明智地应用所能获得的最好研究证据来确定患者治疗措施。”根据这一定义,循证医学要求临床医师认真、明确和合理应用现有最好的证据来决定具体病人的医疗处理,作出准确的诊断,选择最佳的治疗方法,争取最好的效果和预后。循证医学的最新定义为: “慎重、准确和明智地应用目前可获取的最佳研究证据,同时结合临床医师个人的专业技能和长期临床经验,考虑患者的价值观和意愿,完美地将三者结合在一起,制定出具体的治疗方案。”显然,现代循证医学要求临床医师既要努力寻找和获取最佳的研究证据,又要结合个人的专业知识包括疾病发生和演变的病理生理学理论以及个人的临床工作经验,结合他人 ( 包括专家) 的意见和研究结果; 既要遵循医疗实践的规律和需要,又要根据“病人至上”的原则,尊重患者的个人意愿和实际可能性,而后再作出诊断和治疗上的决策。

1. 2特征

循证医学的核心思想是在医疗决策中将临床证据、个人经验与患者的实际状况和意愿三者相结合。临床证据主要来自大样本的随机对照临床试验 ( Randomized Con-trolled Trial,RCT) 和系统性评价 ( Systematic Review) 或荟萃分析 ( Meta - analysis) 。

循证医学的基本特征是:

第一,将最佳临床证据、熟练的临床经验和患者的具体情况这三大要素紧密结合在一起寻找和收集最佳临床证据旨在得到更敏感和更可靠的诊断方法,更有效和更安全的治疗方案,力争使患者获得最佳治疗结果。掌握熟练的临床经验旨在能够识别和采用那些最好的证据,能够迅速对患者状况作出准确和恰当的分析与评价。考虑到患者的具体情况,要求根据患者对疾病的担心程度、对治疗方法的期望程度,设身处地地为患者着想,并真诚地尊重患者自己的选择。只有将这三大要素密切结合,临床医师和患者才能在医疗上取得共识,相互理解,互相信任,从而达到最佳的治疗效果。

第二,重视确凿的临床证据: 这是和传统医学截然不同的。传统医学主要根据个人的临床经验,遵从上级或高年资医师的意见,参考来自教科书和医学刊物的资料等为患者制订治疗方案。显然,传统医学处理患者的最主要的依据是个人或他人的实践经验。

2大数据

2. 1 定义

大数据 ( Big Data) ,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。“大数据”这个术语最早期的引用可追溯到Apache Org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File Sys-tem ( GFS) 的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。对于“大数据”[1]研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2. 2特征

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

大数据的4V特征: Volume ( 大量) 、Velocity ( 高速) 、Variety ( 多样) 、Veracity ( 精确) 。

3医院信息系统在循证医学中的应用

医院信息系统 ( Hospital Information System,HIS) 是为了医院的效益而建立的信息管理系统。美国著名的医学信息教授Morris Collen的定义是: HIS的目标是用计算机和通信设备采集、存储、处理、访问和传输所有和医院相关的病人医疗信息和管理信息,满足所有授权用户功能上的要求。其包括临床诊疗部分、药品管理部分、费用管理部分、综合管理与统计分析部分、外部接口部分五个组成部分。药房管理系统、公共卫生信息系统均是其重要组成部分。

3. 1 药房管理系统

药房管理系统有助于药物经济学的开展。药物经济学是卫生经济学的一个重要分支,药房管理系统通过计算机实时动态数据处理,对全院药房提供动态的药品数据,运用药物经济学 ( Drug Economic) 的理论及研究方法,包括: 最小成本分析 ( CMA) 、成本效果分析 ( CEA) 、成本效用分析 ( CUA) 和成本效益分析 ( CBA) 等,通过研究,运用循证医学的思想,比较评价不同的用药计划、方案、方法的风险及效益,以求用最低的花费而获得最佳的疗效。随着职工医疗保险制度的实施,开展药物经济学研究,对于节约卫生资源、减轻病人经济负担、降低医药费用有着十分重要的意义。

3. 2 医学专家系统

医学专家系统就是运用专家系统的设计原理与方法,模拟医学专家诊断、治疗疾病的思维过程编制的计算机程序系统,它可以帮助医生解决复杂的医学问题,作为医生诊断、治疗的辅助工具,同时也有助于医学专家宝贵理论和丰富临床经验的保存、整理和传播。将众多医学专家丰富的临床经验及大量病例资料存储在计算机中,通过基于规则推理、基于案例推理、模糊数学推理、基于规则的神经网络推理等推理方法,利用人工智能技术,将大大提高诊断的准确性和快速性。

3. 3成功案例

2010年时代杂志刊载的医学界年度十大突破中,医疗科技公司Cardio DX通过对1亿个基因样本的分析,最终识别出能够预测冠心病的23个主要基因。

2009年Google的研究人员对每日超过30亿次搜索请求和网页数据的挖掘分析,在H1N1流感爆发几周就预测出流感传播。

4存在问题

随着大数据的爆炸性增长,劣质数据也随之而来,导致数据质量低劣,极大地降低了数据的可用性。国外权威机构的统计表明,美国医疗信息系统中13. 6% ~ 81% 的关键数据不完整或陈旧[2]。随着大数据的不断增长,数据可用性问题将日趋严重,也必将导致源于数据的知识和决策的严重错误。

数据可用性问题及其所导致的知识和决策错误已经在全球范围内造成了恶劣后果,严重困扰着信息社会。在美国,由于数据错误而引发的医疗事故,每年导致约98000名患者死亡, 约占全部医疗事故致死人数的50%[3]; 据有关专家推算,在数据仓库项目的开发过程中,清理不洁数据通常需要花费30% ~ 80% 的开发时间和开发预算[4]。

综上所述,医院信息系统强大的数据收集及分析处理能力为循证医学的快速发展提供了坚实的数据基础,但在运用数据时,劣质数据所造成的损失我们也应尽力避免。要想使医院系统真正步入大数据时代,仍有一段艰巨的道路要走。

医学大数据篇2

研大医学-临床医学专业实力按照一级学科排名情况如下表：全国排名 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

学校名称北京大学华中科技大学上海交通大学中山大学复旦大学首都医科大学四川大学浙江大学中南大学中国医科大学南京医科大学山东大学武汉大学哈尔滨医科大学重庆医科大学南方医科大学天津医科大学西安交通大学安徽医科大学温州医学院吉林大学

等级 5★ 5★ 5★ 5★ 5★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★ 4★

2015年度医学事件大盘点篇3

中国医学9大突破

1.中国研发出安全且长期有效的戊肝疫苗。

2015年3月5日，《新英格兰医学杂志》发表的一项研究证实，由厦门大学生命科学院教授夏宁邵带队研发的戊型肝炎疫苗能够提供至少4.5年的持久保护。该疫苗是国际上第一个完成临床试验的戊肝疫苗，是世界上第三个基因工程病毒疫苗，也是我国唯一一项原创性基因工程重组疫苗和世界首例获得批准的戊肝疫苗。

【本刊点评】戊肝一般具有自限性，但可能发展成暴发性肝炎（急性肝衰竭）。戊肝病毒一般通过粪口途径，主要是通过被污染的水传播。所以戊肝虽然在全世界都有发现，但流行率最高的地区主要包括东亚和南亚（卫生条件不良的地区）。根据世界卫生组织2014年报道，全球每年大约有2000万人感染戊型肝炎，300多万急性戊肝病例，5.66万例与戊肝有关的死亡。2011年中国生产和批准了全球第一个预防戊肝的疫苗，厦门大学研究人员从2011年疫苗批准后，便开始对接种疫苗的人员进行长期的随访，观察疫苗的效果，最终证实该疫苗安全有效。

2.葛均波院士完成世界首例深低温冷冻消融去肾动脉交感神经术。

2015年11月2日下午，中国科学院院士葛均波教授在复旦大学附属中山医院完成世界首例深低温冷冻消融去肾动脉交感神经术，这标志着国内心血管器械创新取得又一重大进步，有望为众多的顽固性高血压患者带来新的希望。

【本刊点评】深低温冷冻消融去肾动脉交感神经系统是由中国人自主研发，具有独立知识产权的，全球首个专门用于肾动脉冷冻消融的导管系统。该系统以-68℃以下低温可造成细胞不可逆损伤为理论基础，以液氮为制冷剂，通过冷冻球囊对肾交感神经进行消融，具有神经损伤完全，消融位置精确，血管内皮损伤小，不易导致血栓形成的特点。

近年来，我国心血管介入医学领域不断有新技术、新成果涌现，并逐步获得国内外同行的认可，彰显出我国心血管介入医生创新实力不断提升。比如，南京市第一医院心内科陈绍良经过长期的临床研究，发明了“双对吻挤压支架技术（简称DKCrush技术）”，解决了临床困扰分叉病变介入治疗领域的老大难问题。如今这项技术已代表中国成为心血管领域的标志性研究。2015年5月23日，陈绍良教授等人成功为两名重症冠心病患者实施手术，手术过程通过卫星向参加法国巴黎“欧洲经皮心血管介入学会年会”的12000名医生现场直播。

3.我国研究表明，叶酸补充剂可减低高血压患者脑卒中的危险性。

在2015年中国脑卒中大会上，北京大学第一医院心内科及心脏中心主任、亚太介入心脏病学会秘书长霍勇发布了中国脑卒中一级预防研究（CSPPT）重大研究成果——在无心肌梗死及卒中病史的中国成人高血压患者中，以依娜普利叶酸片为基础的降压治疗显著降低了21%的首次脑卒中风险，“即使是单纯补充叶酸，也有利于减少脑卒中乃至心脑血管疾病的发生率。”

【本刊点评】脑卒中这种病在我国非常普遍，从2005年至今一直都是我国第一位死因，而且患病人群年轻化趋势明显。借用中国工程院院士、中华预防医学会会长王陇德说的话，现在研究证明高血压患者用依那普利治疗时，增补叶酸可明显降低脑卒中的发生风险，“这将为我国更加经济、安全、有效地开展脑卒中预防提供了关键的科学证据”。可以说，这是我国科学家为脑卒中开出的“中国处方”。

4.柳叶刀首页头条刊发我国Hp（幽门螺杆菌）疫苗重要研究成果。

2015年7月，国际顶尖学术期刊《柳叶刀》刊发第三军医大学药学系邹全明教授研究团队与中国食品药品检定研究院曾明研究员、江苏省疾病预防控制中心朱凤才教授团队合作完成的口服幽门螺杆菌疫苗Ⅲ期临床研究成果。认为该疫苗的成功研制向预防幽门螺杆菌所致胃癌迈出了重要一步。

【本刊点评】胃炎、胃溃疡、胃癌是严重危害人类健康的重大疾病，幽门螺杆菌（Hp）是胃病的最主要致病菌，世界卫生组织将其确定为胃癌第1级致癌因子。邹全明研究团队成功研发出的是具有完全自主知识产权的世界首个也是目前唯一获批的Hp疫苗，该疫苗能有效降低由Hp感染引起的胃炎、胃及十二指肠溃疡及胃癌发病率，既能从源头上控制其传播与感染，又能大幅减少防治费用。

5.中国女科学家屠呦呦获得诺贝尔生理学或医学奖。

2015年10月5日，瑞典卡罗琳医学院在斯德哥尔摩宣布，中国女科学家屠呦呦，以及来自爱尔兰的科学家威廉·坎贝尔、来自日本的科学家大村敏分享2015年诺贝尔生理学或医学奖，以表彰他们在寄生虫疾病治疗研究方面取得的成就。屠呦呦也成为首位获得该奖的中国人。

【本刊点评】这是中国科学家首次在中国本土研究获得的诺贝尔科学类奖，具有重要的里程碑意义。国家卫生计生委主任李斌评价称，这一奖项不仅在于青蒿素伟大的科学价值，还在于它更加伟大的生命价值。她提出“要学习屠呦呦先生这种几十年如一日，刻苦钻研、致力于科技创新、勇攀高峰、无私奉献的精神”。

6.我国首例人子宫移植手术成功。

2015年11月20日第四军医大学西京医院召开新闻发布会宣布：该院成功完成国内首例、世界第12例人类子宫移植手术。医生将一位母亲的子宫移入女儿体内，目前患者恢复良好，新移植子宫已经成活。

【本刊点评】子宫移植在国内一直是个空白，该手术的成功实施，标志着我国在该领域取得突破性进展，为众多先天性无子宫，或后天因肿瘤、产后出血等而被迫切除子宫而无法怀孕的患者带来了希望。

nlc202309040237

7.原创抗癌药西达本胺获准全球上市。

2015年1月，微芯生物在深圳召开新闻发布会上宣布：中国自主知识产权的原创抗癌新药西达本胺获准全球上市。这意味着中国有了自己原创的抗癌新药，中国药物研发已从仿制、高仿，逐步走入与发达国家同水平甚至超前的独立创新阶段。

作为西达本胺临床试验的负责人和主要研究者，国家癌症中心副主任、中国医学科学院肿瘤医院副院长石远凯表示，西达本胺显示了良好的疗效和安全性，是我国第一个批准上市的治疗复发难治性外周T细胞淋巴瘤的新药，也是我国第一个以罕见病种批准上市的抗肿瘤新药。

【本刊点评】中国有世界上数量最多的制药企业，达7000多家。中国药企的制剂生产能力全球第一，原料药生产能力全球第二，但是盈利水平非常低。究其原因，就在于更多的是模仿，缺乏创新。如今，中国自主知识产权的原创抗癌新药西达本胺成功上市，打破了抗癌药物被外国药企一统天下的格局。而且，与另两种美国产同类药物相比，两种美国产药物每月治疗费用分别为28万元人民币和14万元人民币。而相比之下，西达本胺每月费用仅为2万多元人民币。

8.3D打印髋关节进入“量产时代”

2015年9月，据媒体报道，我国首个3D打印人体植入物——人工髋关节产品获得国家食品药品监督管理总局注册批准。该产品也是国际上首个通过临床验证后获得注册的3D打印人工髋关节假体，标志着我国3D打印植入物已迈进产品化阶段。

【本刊点评】3D打印技术已经涉及医疗科技创新，显示了越来越重要的作用。此次3D打印人工髋关节臼产品注册成功，为同类产品获批开辟了先河。

据了解，目前国家食品药品监督管理总局正在加快推进相关法律法规体系建设。而在医学应用方面，“十三五”期间，在生物医用材料与组织修复替代、增材制造与激光制造等重点专项中都包括了3D打印医用产品研发的课题，这意味着未来3D打印医用产品将会有更大发展。

9.P4实验室补上传染病防控关键一环。

2015年1月31日，国家卫生计生委、中国科学院在湖北省武汉市举行中国科学院武汉国家生物安全实验室（即武汉P4实验室）竣工仪式。这是我国首个即将运行的生物安全等级最高的实验室，标志着我国拥有了研究和利用埃博拉等烈性病原体的硬件条件，也标志着我国在新发传染病研究领域和世界发达国家站在同一起跑线上。据介绍，目前除中国外，全球公开的仅有9个国家拥有P4实验室。

【本刊点评】武汉P4实验室的建成，对中国和全球都具有重大意义，不仅填补了国内生物安全领域的空白，为开展埃博拉病毒研究提供了条件，也有助于中国在帮助非洲防控疫情的同时，建立起国内防控埃博拉的有效屏障。

美国医学9大里程碑事件

1.新型流感三价疫苗开始投放。

美国疾病预防控制中心指出，2014-2015年美国流感疫苗预防有效率大幅下降。原因在于流感病毒不断变异。2015年，美国开始投放新型流感三价疫苗，可有效预防3种常见病毒引起的流感。

【点评】中国疾病预防控制中心病毒病预防控制所副所长、国家流感中心主任舒跃龙认为，疫苗有效率降低也是我国亟需攻克的难题。目前，我们正在进行相关研究工作，希望能研发出不受病毒变化影响的通用型流感疫苗，提高有效性。

2.加强常见止痛药安全警告：会伤害心血管。

非甾体抗炎药是目前世界上应用最广泛的药物之一，它们有退热、镇痛、消炎等作用，可缓解感冒症状，以及骨关节及软组织的疼痛和炎症表现。然而，这类药通过阻断前列腺素发挥作用来止痛的，而前列腺素能促进心脑血管健康。

2015年，美国食品和药物管理局（FDA）加强了对非甾体抗炎药的警告，这些非甾体抗炎药可以提高心脏病发作或卒中的风险，主要包括布洛芬和萘普生。

【点评】卫生部北京医院药学部主任药师刘治军认为，非甾体抗炎药增加心脏病和脑卒中发作风险已是业内共识，只不过美国加强了警告。使用这类药时，医生一定要询问患者是否正在服用阿司匹林，非甾体抗炎药会削弱其药性；患者服用前最好咨询医生，切忌乱吃。

3.膳食指南不再限制胆固醇摄入量。

美国最新发布的2015膳食指南去除了胆固醇摄入限制。与2010版指南相比，新指南的重点是：多吃水果、蔬菜和粗粮；少吃饱和脂肪酸、盐和糖。

【点评】中国营养学会常务副理事长翟凤英认为：一直以来，限制膳食胆固醇和脂肪的摄入，被认为是预防心脑血管疾病的重要措施，即使人们对膳食胆固醇的吸收，以及胆固醇对血脂的影响存在个体差异，但根据我国国情，依然不能放松对膳食胆固醇摄入量的要求，即每天300～500毫克。

4.快速抢救脑卒中的新型救护车。

脑卒中分为两种，一种是血栓阻塞大脑动脉导致的缺血性卒中，另一种是出血性卒中。两者抢救方法截然不同，前者需尽快注射溶栓药，而这一方法如应用于后者，则会让病情变得更糟。因此，及时判断脑卒中类型是抢救的关键。目前，一种配备CT和传输功能的新型救护车在美国开始测试，能给患者做CT扫描，还能将扫描结果第一时间传给专科医生，以便即刻判断并确定治疗方案。

【点评】中日医院急诊科主任张国强表示，目前，我国在脑卒中抢救中，普遍存在救治滞后问题，表现为转院过程中缺乏明确诊断。如能使用这种新型救护车，就可及时了解病因，以便第一时间进行溶栓或为后续院内抢救做好准备，最大程度提高抢救成功率。

5.预防艾滋病有了新突破。

不断有证据表明，暴露前预防法利于预防艾滋病感染。暴露前预防法是指在服用“特鲁瓦达”这种美国批准的暴露前预防药物的同时，结合安全性行为，可使高危人群艾滋病感染率大大降低。2015年9月发表的一项研究指出，针对657例受试者进行超过两年半的调查发现，使用暴露前预防法，可有效预防高危人群新发艾滋病感染，这项研究第一次验证了暴露前预防法的效果。

nlc202309040237

【点评】北京地坛医院皮肤性病科主任医师刘彦春表示，目前，我国还没有预防艾滋病的药物，如有相关药物问世，将是艾滋病领域一大奇迹。

6.2型糖尿病有了特定基因标记。

美国西奈山伊坎医学院在分析超过1.1万名2型糖尿病患者的电子病历和基因数据后发现，2型糖尿病患者存在不同的特定基因标记，可分为3个不同的亚组：第一个亚组的患者更肥胖，易发肾脏、眼部并发症；第二个亚组易发某些癌症和心脑血管疾病；第三个亚组与过敏、神经系统疾病相关。研究人员认为，研究结果可能推动2型糖尿病的靶向诊断和治疗，但仍需更多研究。另外，美国爱荷华大学研究发现，葡萄球菌可能引发2型糖尿病症状。

【点评】北京协和医院内分泌科教授伍学焱表示，这些研究将给2型糖尿病临床治疗带来很大借鉴意义。

7.类风湿关节炎预防疫苗问世。

美国昆士兰大学研发出一种疫苗和免疫疗法，疫苗专为携带类风湿关节炎基因和特定抗体的人群设计，可起到预防作用；免疫疗法通过提取血液中特定类型的免疫细胞，个性化治疗每位患者。早期临床试验发现，两种方法具有一定效果，但过于昂贵和耗时，因此还不适合广泛使用。

【点评】北京协和医院风湿免疫科主任曾小峰认为，这一研究思路值得探讨，但目前并不能在临床中广泛应用，因此治疗还应“本土化”：一方面，通过药物缓解病情；一方面，依靠生物仪器辅助治疗。

8.精准医学改变癌症治疗。

乔安妮是一名战胜乳腺癌的患者，为防止癌症复发，研究人员将她的乳腺癌细胞在老鼠背上培育，老鼠作为她的“模型”接受各种治疗，以便研究人员筛选出对乔安妮最有效的药物。这种根据患者个体进行针对性治疗的做法，被称为精准医疗。

【点评】北京大学肿瘤医院院长季加孚表示，我国也正在做相关研究，目前还停留在动物研究阶段。

9.干细胞治疗延缓“渐冻人”病情。

研究发现，干细胞治疗可使健康细胞替代损伤细胞，治疗疾病。作为一种神经退行性疾病，肌萎缩性脊髓侧索硬化症（俗称“渐冻人”）损伤大脑和脊髓神经细胞，目前尚无治愈方法。美国梅奥诊所的研究发现，干细胞治疗可减缓甚至阻止渐冻人病情恶化，为该病患者第一次带来真正突破性的希望。

【点评】清华大学玉泉医院神内科主任医师耿同超表示，十几年前，国内就已将干细胞治疗应用于渐冻人的研究，但并未推广起来。干细胞治疗虽能暂时缓解病情（一般为半年左右），减少患者吞咽困难、没有力气等症状，但却无法根治，一旦复发，治疗效果等同于传统治疗，因此，不可奉为神话。

医学大数据篇4

一、疾病预防与控制的新思维——智慧医疗

在国内外医疗卫生事业信息化、智能化的大趋势下,智慧医疗这一新的思维模式应运而生。智慧医疗一般是指通过打造个人医学档案信息资源共享平台,利用最先进的物联网技术,实现患者或者是健康人与医疗和疾病预防人员、医疗服务与政策管理机构、各类医疗检查与检测的医疗设备之间的交流与互动,逐步达到医学信息资源的共享和疾病治疗与预防的智能化。它是以医学信息大数据及医疗 “云”为核心,以电子病历、电子健康档案和医疗物联网为基础,综合应用物联网、数据融合传输交换,移动计算和云计算等技术,跨越原有医疗系统的时空限制,构建医疗卫生服务和管理最优化的医疗体系,智能地满足相应医疗卫生生态圈内的需求。自2009年提出“智慧地球”概念,智慧医疗是智慧电力、智慧医疗、智慧城市、智慧交通、智慧供应链和智慧银行六大推广领域其中之一。

二、医学档案信息资源大数据是智慧医疗的基础

1.实时高速产生的数量庞大的各类医学档案信息资源是催生智慧医疗的“广阔的沃土”。在“大数据”环境下,医学诊疗相关的各类诊疗系统几乎每分每秒都在产生电子化数据,这些数据量相当之大、增长速度相当之快,所涉及的资料容量规模巨大到无法通过目前主流软件工具在合理时间内达到撷取、管理、处理,并整理成为帮助医疗机构经营决策的目的,需要处理的数据容量从MB到GB、从TB到PB,传统的分析技术和传统的影像存储与管理方法已无法应付,更远远不能满足临床实际的需求。因此,面对如此庞大的且在急剧增加的医学档案信息,如何衡量信息的价值,及时有效地筛选出对医疗工作有用的、可供研究的信息已成为我们必须面对的挑战,同时对数据处理的实时性、有效性也提出了更高要求。人们迫切需要各种时效性强、具有高价值的融合医学临床实践信息资源以及医学影像档案资源的医学信息整合,并实现医学档案信息资源共享,为智慧医疗奠定扎实的数据分析基础。

2.形式多样的多结构医学档案信息数据为智慧医疗提供“花式” 的开发空间。随着医疗行为的不断拓展,特别是先进的医疗设备仪器的应用,医学实验室档案信息、医学影像档案信息(各种医学影像如MR、CT、X光片、超声、核磁共振等诸多医学影像检查所形成的影像资料)、病理涂片信息以及病例基础信息等产生的医学档案信息数据量越来越庞大且具有形式多样的特性,使医疗档案数据结构也变得越来越复杂,产生了大量的半结构化或者非结构化的真实的医学档案信息数据。因此,在“大数据”时代下,传统的医学诊断与医疗服务系统正面临着史无前例的历史性变革。虽然目前大数据技术在医疗领域大规模应用的条件还没有完全成熟,但随着高速物联网络、云计算中心等基础设施的日趋完善和大数据技术的不断发展,医疗领域的诊疗与服务的发展趋势必将是以医学档案信息大数据整合技术驱动下的个性化、创新化、便利化,从而催生依据不同人群个体、不同需求目的、不同利益价值的更加多样、更加智能的“花式”智慧医疗。

3.医学诊疗的基础档案信息为智慧医疗提供广域的数据分析基础。在大数据环境下,医疗机构在患者入院的那一刻,医院医学档案信息便贯穿于医学行为的始终,医学档案的病例首页信息是数据源, 其所包含的基本内容有病人基本信息、住院信息、诊断信息、手术信息、过敏信息、患者费用、治疗结果等信息。医学档案病例首页信息、病房、门诊、观察室、医技等日常动态数据,通过对医疗档案信息的网络共享化管理,对各类工作报表、住院病人疾病分类报表、住院病人意外损伤和疾病控制、院内感染及医疗质量控制等统计报表进行网络共享环境下自动生成报表,进行数据收集,为智慧医疗提供广域的基础数据分析。

4.多形式、多渠道、多系统的信息资源分析是实现智慧医疗的手段。在大数据环境下的医学档案信息资源,不仅存储了大量数字化的历史档案信息和现实生成的医学信息数据,还在现有基础上对不同系统的数据通过转换、连接等技术将所需数据传输到相关软件系统中,涵盖有:住院病人情况、床位利用情况、门诊工作指标情况及费用效益辅助分析等医学档案信息。通过智慧医疗可进行疾病分析并能自动生成报表和图表,使利用者一目了然地掌握疾病发病和发展趋势,更好地进行疾病预防和治疗。同时,可实现工作业绩考核管理。此外,还可实现大数据下的不同数据库管理信息数据资源共享,最终依据利用者的需求和利用目的,采用先进检索和查询手段,提供更为具体、精准的数字化电子医学档案信息,使数字化医疗档案信息更好地融入医院管理整体信息化建设,充分发挥其在医疗、教学、科研等方面的重要辅助作用,构建领先时代潮流的智慧医疗数字化服务方式。

三、智慧医疗是医学档案信息资源利用的归宿与价值实现方式

1. 移动医疗智能服务是实现智慧医疗最广泛的综合基础服务。移动医疗就是通过使用移动通信技术提供医疗服务和信息,是基于移动终端系统的医疗健康类App应用。为发展中国家的医疗卫生服务提供了一种有效方法,在医疗人力资源短缺的情况下,可解决发展中国家的医疗问题。随着移动互联网的发展,越来越多的网络终端智能科技进入医疗应用领域,智能可穿戴设备、健康监控以及运动监控设备近年呈现多样化发展。特别是移动医疗APP的问世,为智慧医疗开辟了新的服务模式,提供了多样化的医疗服务方式。传统医疗与移动互联网结合的移动医疗受到百姓青睐与追捧。从社会发展状况看,移动医疗的综合服务方式,主要体现在五种智能行为:医药产品电商应用;满足专业人士了解专业信息和查询医学参考资料需求的应用;满足寻医问诊需求的应用;预约挂号及导医、咨询和点评服务平台。未来预测,移动医疗的智能应用将成为下一个消费爆点,一些医疗门诊经营者也开始逐步将眼光瞄准到这片新医疗服务空间。

2.智能可穿戴设备与医疗结合的智能医疗方式为智慧医疗实现最精准的医疗保健服务。在现代社会,人们缺乏必要的技术手段获知自身的相关医学数据,从治疗走向预防,是现代医学发展的一大趋势。可穿戴式智能医疗服务将进行个体的自身数据采集和分析量化, 通过移动设备直观地呈现给用户,可实现减少盲目地预防进补和过度治疗非科学性预防与治疗行为,同时具有科学性和准确性。可穿戴便携式智能设备在医疗方面可实现心电、血氧、血压、血糖以及睡眠质量、运动耗能等多重数据监测,并通过手机、平板、PC等与终端设备无线对接,轻松实现个人的健康监控以及在线专业医疗咨询。同时,智慧医疗能让抢救变得更有效率,监测中心24小时监控和分析实时发送的心电和体征数据,让病人得到最及时的救治。在预防保健方面,智慧医疗可实现老人、儿童、孕妇等人群的保健服务,甚至可完成提醒用药、保健按摩等功能。可以预知,智能医疗将成为未来的一大科技趋势,并向多样化发展。

四、智慧医疗展望

1.智能化的临床使用新产品将应运而生。随着科学的进步和信息技术的发展,在医疗疾病预防与控制方面,不久的将来将会出现能够智能监控患者生命体征的绷带,提醒患者服药的智能药瓶,可以分析患者行走步伐并将报告发送给主治医生的智能计步器等等。而智能手术室无疑也是阐释现代医疗科技进步最好的例子,现在人们不仅可以在大型医疗中心见到,也可以在社区医院寻觅到它的身影。

2.无线医学信息传输使医疗行为将更便捷。在信息化高速发展的今天,发展水平较高的医疗机构已经在使用无线技术进行远程监控病人和传输大量影像文件。今后这些设备将更快、更小、更方便,并具有更高的采样率。同时催生新兴的无线技术智能检测便携设施,医生只需将该一次性器械绑在或贴服在患者皮肤上就可以监测患者生命体征,并且将数据传送到信息处理与数据存储中心。

3.超微细的医学检查与治疗将成为可能。随着光纤技术的应用与发展,国外的研究人员正在测试利用一个直径2mm的超敏感光纤探头通过普通内窥镜看到小至1微米的结构,如单细胞或细胞核的结构。基于探针的共聚焦激光显微内镜最终可以降低结肠息肉切除的风险,数据显示,虚拟活检已经可以取代其他检查项目,包括巴雷特食管活检。该技术的应用将“非常有前途”,目前正在评估利用共聚焦显微镜切除大面积息肉的完整性,而目前的数据非常令人振奋。

4.临床治疗与临床用药的纳米医学技术将得到应用。随着纳米技术发展,纳米已经不仅被用来制造更轻的运动器械、更快的电脑芯片。现今,医疗产品也瞄准了纳米技术,纳米抗肿瘤药物已经问世,该药物的纳米粒子可以靶向作用于肿瘤细胞,减少对正常组织的影响, 目前正在试验。纳米技术还可应用于医学影像检查,使得图像更清晰,患者更安全。黄金纳米粒子可用于检测早期老年痴呆症。感染控制是纳米技术的另一个领域,现已研制出了纳米实验室防护服,这种防护服的纤维添加了纳米硅粒子,改变了布料表面张力和的活性,可以有效防护血液和呕吐物等污物;该材料还具有抗菌作用,可以在10分钟内杀死99.9%的微生物,目前正在接受实验,等待最终批准。

5.医学影像等检查将实现分子治疗。在临床检查中,医学影像学是发展最快的技术之一,发展势头十分迅猛。该学科正在朝分子水平发展,已经从疾病诊断发展到疾病治疗,介入放射治疗的应用在临床治疗中非常有效,而在几年前这种方法几乎不可思议。如今研究人员正在研究使用PET扫描发现帕金森氏症,通过视觉化检查确定癌症并确定化疗效果的智慧医疗。

医学大数据篇5

来源: diyipaper.com

1.引言

云计算的出现，使建立医学云成为可能，以云计算为基础的医学数据中心应成为主要的模型趋势，即本文所称的云式模型．当然，随云而来的问题也很多，包括云计算实现技术问题，云价值及计费问题云计算的安全性问题，数据和交换标准问题，以及相关的法律法规建设问题等等．这些问题既于云计算技术相关，也存在着特定于医学数据中心的性质．所以，医学数据中心的发展与云计算的发展息息相关，相互促进．云式医学数据中心将随着云计算技术的发展而逐渐成为主流的医学数据中心模型。

2.云计算从2007年至今，人们开始逐步认识云计算，IT界对云计算给信息产业乃至整个世界将带来的变革性影响拥有共识，但对云计算本身的定义却存在不同的意见，归纳起来有下面几种：

云计算是一种新出现的计算模式，它能高效部署应用程序，并以低价敏捷响应业务需求．云计算是一种计算风格，其基础是用公共或私有网络实现服务、软件及处理能力的交付。

云计算的重点是用户体验，而核心是将计算服务的交互与底层技术相分离。

云计算是通过互联网交付的服务，是指通过数据中心提供这些服务的硬件和软件系统．云计算是以大规模数据中心为代表的物理门户，这些物理门户是IT业务基础架构的主干。

抽取关键因素，云计算的实质是建立数据中心，实现数据的存储和计算，以互联网为基础提供基础架构、平台或软件的有偿服务．云计算就像是信息公用电厂，接人云的需求者，不必购买硬件设备，不必购置、安装软件，不必建立或维护私有数据中心，可以付费方式获得云提供的各种计算服务。这种服务是多层次的，包括基础架构的服务、平台的服务和软件的服务等多个层次．云集中体现了IaaS(Infrastructure as a Service)，PaaS(Platform as a Service)和SaaS(Software as a Service)．应该说，对云计算而言，一切是服务，服务是一切。

3.医学数据中心现代文明国家，必须具备完善的国家健康信息系统，依赖之为国民提供医疗、健康保障．建设国家健康信息系统的首要问题是创建国家医学数据中心，而国家医学数据中．ZIS域医学数据中心为基础和初级阶段．就我国的现实情况而言，首先需要创建区域医学数据中心。

当前医疗信息化建设的主要问题是各个区域内不同医疗机构中患者的基础信息和各种临床信息资源分散、重复、孤立，导致有效信息闲置、信息重复不一致、单一局部的信息造成片面的诊断印象等等．断裂的信息链致使难以实现数据一知识．行为的信息利用机制，难以落实用数据说话的科学工作模式．同时，医学信息中缺失健康人群的基础数据的存储，难以为突发重大灾情或疫情时实施有效、有力的措施提供数据基础．缺乏信息整合致使整个医疗信息的使用消耗高、效率低、效果差。

问题的核心在于医院信息化建设的实施主体或者覆盖范围具有很大的局限性，多数以医院本身为边界，没有真正地突破医疗单位所形成的自然边界，形成区域医学数据中心．因此，当前医疗信息化建设的主要工作应当是针对目前缺乏的社会医药系统之间、医疗保障系统之间、居民健康档案之间的互联互通进行建设和数据整合，使当前相互割裂的、以收费为中心的医院信息系统，转换为以患者为中心的区域医学数据中心。

区域医学数据中心的建设，意在整合区域内不同医疗机构中患者或健康人群的各种临床诊疗信息资源，在相对集中的逻辑与物理环境中，构建一个以存储和处理患者或健康人群临床诊疗信息为核心的，覆盖多学科多专业的，面向区域内主要临床医疗机构、卫生行政主管部门和社会公众的医学数据资源共享平台．区域性医学数据中心的建设以医疗、预防、保健、康复为服务主线，以健康人群和患者的医疗活动需求为基础。

建设区域医学数据中心是解决当前医疗信息化建设存在问题的唯一途径，也是实现2009年3月17日中共中央国务院发布((关于深化医药卫生体制改革的意见的新医改方案指定目标的唯一方法，实施并完善公共卫生服务体系、医疗服务体系、医疗保障体系和药品供应保障体系等四大医药卫生体系，建立并形成四位一体、覆盖城乡居民的立体的医疗体系结构，以保障新服务、新医辽、新医保和新供应的国家政策的贯彻执行，这一切必须建立在整合的医学数据中心之上。

数据中心是云计算的核心，因此，一切是服务，服务是一一切应该成为建立数据中心的宗旨。

4.各类模型的分析对医学数据中心模型及其发展趋势进行分析，本文将医学数据中心模型划分为分体式(局部集中)，大集中式，B／S、C／S混合分布式和云式，在进一步阐述各种模型的基本特征的基础上，主要对目前大量存在的分体式模型进行分析，从而指出云式医学数据中心将成为主流模型。

4．1分体式我国经过20年的医院信息化建设，HIS(Hospital Information System)在大中城市的覆盖率基本达到100％，这种信息系统建立在以医院为核心的私有数据中心基础上，局限在各医疗单位所形成的自然边界内，致使各医疗单位之间、医疗单位与卫生行政管理机构之间、各机构与社会公众之间缺乏医学数据资源共享平台，距离新医改四位一体的、立体的医疗体系结构距离甚远，距离区域医学数据中心、国家医学数据中心的距离还很远．基于本文的分类方式，这种私有数据中心为分体式模型。

它建立在以医院为基本单位的自有硬件资源上，多数采用C／S体系结构，覆盖范围为医院内部．其意义主要在于代替了大量人力劳动，提高了效率．如，电子处方在医院内部的流通，为配药中心的药品发放、护士的处方实施提供了便捷、准确的依据，使处方流转速度加快，改善了医疗服务的流程．再如，护士以PDA等设备连接医院局域网，上传每日查房记录的病人的相关数据，医生就可随时查阅系统自动完成的体温变化曲线等信息．使用个人电脑或各种手持设备，通过局域网享用服务器程序提供的计算，这使得C／S结构成为当前的主导模式。

分体式私有数据中心的困境在于①系统复杂：各医院HIS运行在特定的硬件资源和软件平台上，依赖特定的数据库，业务流程的变更都必须最终体现在对HIS的维护甚至重构上．②单一用途：对于任何业务变更或新的需求，都必须提供相应的硬件配置，并购买或自编制软件以实现．硬件配置的底线是满足最大的理论需求值，即使最大负荷从来或很少达到也同样无法缩减配置开销．③利用率低：无论是病患信息、还是基础设施普遍存在重复建设和空置现象，如多数服务器的处理能力只用了不到1／4．④能耗巨大：全国复制出多于几十万个私有数据中心，都有类似的硬件、运行类似的软件、由类似的技术人员进行日常维护和研发．⑤风险：各医疗单位必须承担技术过时和系统故障的风险，这对他们而言不是长项。

分体式私有数据中心的重要特征是数据与服务的紧密依赖，这使得流程变更越来越困难，开销和技术支持都是沉重的难以为继的负担．结果是，IT对各医疗单位而言不只非常重要、不可缺少，也成为直接影响其竞争力的主要因素，这是不科学的，同时对以医疗为专业的企业不够公平。

4．2大集中式大集中式数据中心是一种理想方式．金融业的某些业务采用大集中式数据中心的运作方式，其运行效果也令人基本满意．金融业有着良好的大集中式的基础，这应该与其组织结构有着较为密切的关系，如各银行均由总行、分行、支行和营业部等组成分层架构，它们之间容易形成统一的数据标准和交换规则，有资源和管理权限的保障．如，各行汇兑可以采用固定时间于清算中心集中清算的方法；各行对储户卡的分级管理也由总行直接控制。

对于医学数据中心而言，大集中式不只存在实现困难，也并不适用．集中模型虽最大限度地维护了数据的安全和一致性，同时却带来了不可克服的问题．各医疗机构对中心数据的超强依赖，导致权限受约束，应变能力降低．基于集中模型的数据中心，其安全事故、灾难的影响面和破化程度都可能大大增加。

4．3 B／S、C／S混合分布式B／SL5儿圳、C／S混合分布式模型实质上是区域医学数据中心的雏形，基于各医疗机构的相对独立性，以及和各医疗机构间数据交换的弱频繁性和弱实时性，合理配置集中与分布数据，形成基于B／S、C／S结构、集中和分布相结合的混合模型。

大数据：大变革、大机遇篇6

大数据时代有什么本质特征？大数据的来源是什么？大数据又将流向哪里？大数据在提升政府治理、改善经济治理、再造公共服务模式、激发商业创新方面有哪些卓越案例？中国需要怎么样的战略反应才能抓住大数据带来的宝贵机遇？一系列问题亟待研究者给出深入解析。

“数据驱动发展”成为时代主题

如今，大数据已经被赋予多重战略含义。从资源的角度，数据被视为“未来的石油”，作为战略性资产进行管理；从国家治理角度，大数据被用来提升治理效率、重构治理模式、破解治理难题，它将掀起一场国家治理革命；从经济增长角度，大数据是全球经济低迷环境下的产业亮点，是战略新兴产业的最活跃部分；从国家安全角度，全球数据空间没有国界边疆，大数据能力成为大国之间博弈和较量的利器。总之，国家竞争焦点将从资本、土地、人口、资源转向数据空间，全球竞争版图将分成新的两大阵营：数据强国与数据弱国。

宏观上看，由于大数据革命的系统性影响和深远意义，主要大国快速做出战略响应，将大数据置于非常核心的位置，推出国家级创新战略计划。美国2012年发布《大数据研究和发展计划》，并成立“大数据高级指导小组”，2013年又推出“数据一知识一行动”计划，2014年进一步发布《大数据：把握机遇，维护价值》政策报告，启动“公开数据行动”，陆续公开50个门类的政府数据，鼓励商业部门进行开发和创新。欧盟正在力推《数据价值链战略计划》，英国发布《英国数据能力发展战略规划》，日本发布《创建最尖端IT国家宣言》，韩国提出“大数据中心战略”。中国多个省市发布了大数据发展战略，国家层面的《关于促进大数据发展的行动纲要》也于2015年8月19日正式通过。

微观上看，大数据重塑了企业的发展战略和转型方向。美国的企业以GE提出的“工业互联网”为代表，提出智能机器、智能生产系统、智能决策系统，将逐渐取代原有的生产体系，构成一个“以数据为核心”的智能化产业生态系统。德国企业以“工业4.O”为代表，要通过信息物理系统（CPS-Cyber Physica] System），把一切机器、物品、人、服务、建筑统统连接起来，形成一个高度整合的生产系统。中国的企业以阿里巴巴董事局主席马云提出的“DT（Data Techn0109Y）時代”为代表，认为未来驱动发展的不再是石油、钢铁，而是数据。这三种新的发展理念可谓异曲同工、如出一辙，共同宣告了“数据驱动发展”成为时代主题。

与此同时，大数据也是促进国家治理变革的基础性力量。正如《大数据时代》作者舍恩伯格在定义中所强调的，“大数据是人们在大规模数据的基础上可以做到的事情，而这些事情在小规模数据的基础上是无法完成的”。在国家治理领域，阳光政府、责任政府、智慧政府建设，大数据为解决以往的“顽疾”和“痛点”提供了强大支撑；精准医疗、个性化教育、社会监管、舆情监测预警，大数据使以往无法实现的环节变得简单、可操作；大数据也使一些新的主题成为国家治理的重点，比如维护数据主权、开放数据资产、保持在数字空间的国家竞争力等。

从哲学意义上来看，大数据不仅仅是一场技术革命，也不仅仅是一场管理革命或者治理革命，它给人类的认知能力带来深刻变化，可谓是认识论的一次升华。具体而言，大数据可以为决策者解决4个问题，提升两种能力。一是解决“坐井观天”的问题，以往人们决策只能基于视野之内极为有限的局部信息，和井底之蛙无异，大数据则可以实现整个苍穹尽收眼底；二是解决“一叶障目”的问题，以往不具备全样本数据分析能力，只能用小样本分析近似推理，犹如从“泰山”中取来“一叶”，而真理可能存在于全样本的海量数据之中，借助大数据则可完全克服；三是解决“瞎子摸象”的问题，7个瞎子根本无法根据各自的认识加总出完整的大象，因为他们的信息是相互离散的，无法有效关联起来，而大数据的基本优点是在深入关联中还原事物的原貌；四是解决“城门失火，殃及池鱼”的问题，人们习惯于因果分析，遇到这种“稀奇古怪”的因果链则很难前瞻和推理，但大数据注重相关关系，可以准确地发掘出规律。提升两种能力，一个是“一叶知秋”的能力，体现大数据敏锐的洞察能力；另一个是“运筹帷幄，决胜千里”的能力，体现大数据对时空约束的突破。这些足以说明，大数据是人类认识世界和改造世界能力的一次升华。

中国成为数据强国的优势、挑战与路径

值得振奋的是，中国具备成为数据强国的优势条件。从2013年至2020年，全球数据规模将增长十倍，每年产生的数据量由当前的4.4万亿GB，增长至44万亿GB，每两年翻一番。从全球占比来看，中国成为数据强国的潜力极为突出，2010年中国数据占全球比例为10%，2013年占比为13%，2020年占比将达到18%，届时，中国的数据规模将超过美国的数据规模，位居世界第一。中国成为数据大国并不奇怪，因为我们是人口大国、制造业大国、互联网大国、物联网大国，这都是最活跃的数据生产主体，未来几年成为数据大国也是逻辑上必然的结果。

尽管存在成为数据强国的潜力，但在目前的政策环境之下，我国推进大数据战略仍存在以下几个清晰的挑战。第一，顶层设计方面，全球大国之间围绕大数据的竞争颇为激烈，中国作为一个后发国家，想要实现弯道超车，后来居上并非易事。如何能够紧扣创新前沿，把准未来趋势，超前战略部署，对政策设计者来说是一个非常现实的挑战。第二，数据开放方面，“数据孤岛”广泛存在，虽然政府掌握着80%的数据，但现实中却相互割裂，自成体系，“部门墙”“行业墙”“地区墙”阻碍了数据的流动共享，数据被视为部门的利益和隐私，这与大数据时代的基本理念准则相悖。第三，大数据相关的法律、法规、标准缺位，导致能够开放的数据没开放，需要保护的隐私没有得到保护，企业由于标准模糊而无法大胆创新。第四，“数据主权”容易受到侵蚀，由于数据空间是国家新的战略维度，尚没有完备的安全保障体系，再加上电脑、手机、芯片、服务器、搜索引擎、操作系统、软件等核心的数据“基础设施”大量依赖进口，数据资产极易流失，数据主权极易受到侵蚀。

医学大数据篇7

什么是大数据?多大的数据量可以称为大数据?不同的时代有着不同的答案。①21 世纪是信息时代, 由众多渠道搜集而来大数据的存在形式往往具有多元性和实时性, 可以说大数据时代就是对信息进行挖掘的时代。在医疗信息化广泛深入的背景下, 大量的医疗数据在医院无时不刻均在产生。为了应对大数据的挑战, 达到实现未来的医疗云计算模式, 区域医疗信息化追求的“信息互通、资源共享”的目标, 作为医院人才输入发源地的医学类高校, 如何认清所面临的挑战, 寻找解救方案, 突破人才培养的瓶颈, 是其面临的主要问题。

随着数学在医学研究中的广泛应用, 大量的医疗数据以及纷繁错杂的生命系统和生命现象, 均需要借助计算机在数值分析与图像处理上所具有的强大功能, 并通过数学模型的合理建立, 从而方便了研究人员对存在潜在价值的数据的挖掘, 从而探讨其内在的关系与变化规律。②因此, 医学院校中数学建模课程的开设已成为必然趋势。但由于医学院校本身所具备的面向社会输入医学类人才的特质, 使得数学建模课程的教学在实施过程中往往存在诸多挑战, 例如学生上课积极性不高等, 然而其原因主要在于数学类课程仅是医科学生的一门基础课, 并不能引起学生的重视, 并且医学院校中数学教师人数相对较少, 师资力量的短缺导致教学方式和方法的单一, 另外医学院校学生知识结构存在理工科短板的现象③也导致了学生对数学类课程的抗拒。

因此, 传统的教学模式在大数据时代背景下已然不能吸引医学院校学生学习数学的兴趣, 已经无法适应医学院校对学生数学应用能力的培养目标。

1 教学模式的改变

长期以来, 我校的教学体系中在对医学信息学人才的培养上, 缺乏一门将高等数学与医学问题有机结合在一起的课程, 使大部分医科学生普遍认为数学类课程枯燥乏味、抽象难懂、应用性较低。针对该问题, 我校在2014 年将“数学建模”课程进行了推广, 并于2015 年将此门课程设置为信息计算与科学专业学生的专业课, 以全国大学生数学建模竞赛作为实践的平台, 逐步对本校数学建模课程的教学模式和教学方法进行了系统的教学改革, 并提出了符合医学院校学生的三大教学模式。

1.1 寻源式的教学模式

在数学课程的教学过程中, 学生均会有这样的想法——数学是什么?答案不外乎“数学=逻辑”, 而老师有时也会把数学的教学演变成一种空洞的解题训练, 一堆了无生趣的符号与公式, 而忽视了数学本身的立体之美, 使学生失去用数学的观点观察现实, 构造数学模型, 学习数学的语言、图表、符号表示以及进行数学交流的能力。为此, 我们在数学建模课程的教学中提出了寻源式的教学模式, 从中探寻数学的文化背景。为此, 任课教师在备课时要注重查阅相关理论所涉及的科学家的故事以及科学家发现理论的背景, 教学中以图片或影视资料展现该理论发现的过程。这种寻源式教学模式不仅可以吸引学生的注意力, 而且可以提高学生的学习兴趣。该教学模式在教学过程中采用了局部实施的方式, 例如博弈模型④这一章内容, 我们采用了播放影片《美丽心灵》的模式, 让学生了解数学家纳什提出博弈论的整个过程, 从而达到了吸引学生兴趣、开拓学生视野的目的。

1.2 身临其境式的教学模式

数学类课程本身所具有的特点决定了教材的共性:数学的定义、定理和证明是构成教材的主要部分, 导致大部分学生对此类课程望而生畏, 从而使得在教学环节中只有教师作为参与者, 学生反而敬而远之。这就需要教师学会去引导学生, 让学生克服对数学的畏惧心理, 主动参与到教学环节中来。为解决该问题, 并能有效避免数学类课程的枯燥性, 在结合以问题为导向的教学方法的基础上, 相应提出了身临其境的教学模式。该模式中学生的“学”与教师的“教”的角色进行了互换, 让学生作为主要参与人去发现问题, 教师作为协助者与学生共同解决问题, 实现了“发现问题—思考问题—解决问题”的思维路径。教学过程中教师提前给学生布置任务, 要求学生利用网络、图书馆或现实生活等资源搜集已知模型的相关资料, 包括历史背景、相关数据、新闻报道等, 培养学生从问题背景中利用关键词法发现解决问题的思路, 并以文字、图片等形式展示。例如在交通流与道路通行能力模型的讲解中, 先让学生在十字路口观察绿灯、红灯的时长以及车流量大小, 得出决定道路通行能力的关键因素, 并陈述问题的背景, 引导学生找出背景中的关键字, 如交通流:引导学生思考什么是交通流, 从而引出交通流的概念——汽车在道路上连续行驶形成的车流, 继而思考是什么样的汽车——标准长度的小型汽车, 从而引出标准的长度应为多少等问题, 让学生以问题的决策者的角度身临其境地发现问题、思考问题、解决问题, 最终找到问题的解决方案, 从而培养学生敏锐的洞察力以及动手操作能力。

1.3 以就业为导向⑤的教学模式

医学院校学生在学习中更侧重理论知识的实用性, 因此此类学生经常会有这样的想法:医学生为什么要学数学?感觉数学类课程的开设类似于纸上谈兵, 无可施展之处。这就要求教师在讲授过程中要让学生清楚了解到数学本身的魅力所在, 其广泛的应用性和无处不在。教师要注重收集数学相关理论在医学上的实际应用案例, 让学生体会数学与医学的紧密结合, 从而提高医学院校学生的数学应用能力, 能够在今后的工作中学以致用, 并产生相应的学习兴趣。比如微分方程在传染病的传播与预防、药物在体内的扩散与排除、肿瘤的化疗上的应用, 统计回归的知识可以用来建立酶促反应模型、冠心病与年龄模型等。以就业为导向的教学模式, 将数学与就业建立联系, 教学过程中辅以实际案例, 极大地激发了学生内在的学习动力。

2 三种教学模式的实施

数学建模课程的教学过程中三种教学模式在不同时段有不同的侧重方向。

第一阶段采用44 学时的“数学建模”专业课程教学。设置的建模问题以贴近生活的案例为主, 采用常见易懂的建模方法加以讲解, 采用寻源式和身临其境式的教学模式的有机结合进行教学。

第二阶段采用10 学时的“大学数学试验”的实验课程教学。主要培养学生利用数学软件解决实际问题的能力以及巩固学生的编程能力, 侧重以就业为导向的教学模式的教学。

第三阶段采用暑期数学建模的集中培训方式。此阶段主要面向即将参加全国大学生数学建模竞赛的学生, 培训时长为15~20 天。集中培训过程中, 指导教师以不同学科的视角, 剖析部分经典案例和讲解常用的建模方法, 以3 人为一小组, 主要采用教师主持、小组汇报、课堂讨论、教师点评的方式进行, 并在教学中侧重身临其境式的教学模式的应用。

教学过程中三种模式的有效结合, 不仅提高了我校学生对数学建模课程的兴趣以及数学的应用能力, 而且在全国大学生数学建模竞赛中也取得了较为满意的结果。

3 结束语

当今世界医学水平的飞速发展以及新的科技手段的不断涌现, 使得现有及未来的医学工作者每天都将面临新的挑战、新的问题。因此, 对当代医学院校大学生的洞察力、想象力和创造力的培养, 使其在现实生活中能够运用所学的知识与数学的思维模式来分析和解决实际问题, 从而促进医学水平的提高, 是当前医学院校的教育教学改革的目的之一。以数学建模课程为依托, 进行数学的教学改革与试验、培训与竞赛, 在培养具有科研能力的应用型人才方面已获得显著的效果。⑥

摘要：为了适应大数据时代下医学院校培养学生数学应用能力的目标, 基于多种教学模式并行、分段实施的教学理论, 提出了针对医学院校学生的寻源式、身临其境式、以就业为导向的教学模式, 从而达到激发学生的学习兴趣、培养学生敏锐洞察力和提高学生动手操作能力的目标。

关键词：大数据,医学院校,数学建模,教学模式

注释

11 Adam Jacobs.The Pathologies of Big Data[J].Communications of the ACM, 2009.52 (8) .

22 全吉淑, 柳明洙, 张学武.医学本科生生物化学双语教学初探[J].延边大学医学学报, 2010.33 (4) :305-306.

33 马翠, 罗明奎, 罗万春.医学院校数学建模教学的探索与实践[J].数理医药学杂志, 2014.27 (2) :249-250.

44 姜启源, 谢金星, 叶俊.数学模型[M].北京:高等教育出版社, 2015:373-410.

55 王永宏, 张丽萍, 于辉.高校应用型人才以就业为导向培养模式论[J].佳木斯大学社会科学学报, 2013.31 (4) :138-140.

医学大数据篇8

在高等教育领域中,频繁收集学生使用、互动信息,课程信息以及其它类型的教学数据,如高校行政部门的管理信息等,利用数据监管(Data Curation)[4]来发现新知识。高等教育大数据依据数据监管技术深度解析学生的学习表现和学习方法,能够对一些关键领域如学生实际表现等产生积极影响[5]。运用定期收集的来自学习管理系统、社会网络、学习活动和教学过程等方面的教学数据,可以进行早期识别、干预可能会带来风险的学生日常行为,同时可以开展更为行之有效的教学方法,并利用网络来转变传统授课方式[6]。如: 2012年,哈佛与麻省理工宣布投资6000万美元开发类似网络教育平台,向全世界免费公开。所以,高等教育领域大数据可用于调查、改进课程内容和教学方法[7]。

医学院校必须以培养合格的医学人员为主要目的,来满足社会日益增长的医疗保健领域对人才的需求。医学的多样性决定了医学教育的复杂性[8]。Cho等人[9]认为在医学教育中,如何利用好海量的医学文献,具有关键性作用,他们建议在医学生的早期教育中要加强对医学文献的收集、分析、审查、批判等能力的培养,提高他们的信息素养。Corrin等人[10]通过一个在线临床日志系统收集并分析了主要反应临床经验记录的医学教育数据,结果显示它能够帮助医院加强医学生临床经验和教学课程之间的对接。这些研究表明,教师和学生均需具备一定的计算机素质。在大数据时代下,世界瞬息万变[11],计算机基础教育在医疗教育系统中需要找准自身位置,突出医学特色,建立一个灵活的、适应时代需求的课程体系,计算机可以作为一个工具或手段来收集、分析医学教育数据,并告知教师如何改进教学内容和方法[12],以此提高医学院校计算机基础教育质量。因此,加强医学院校计算机基础教育势在必行。

1医学院校计算机基础教学面临的问题

医学是一门对认知、理解、掌握客观数据要求极高的学科,随着计算机的普及以及大数据时代的到来,对医学生的计算机能力又有了新的更高的要求。传统的计算机教育方法,只注重讲授理论和操作要点,忽视了学生实际学习效果,也没有结合医学知识,无法激发学生的学习积极性,也很难学以致用。目前医学院校计算机基础教育主要存在以下几个问题:1学生之间的计算机能力存在较大差异,不同省市、城乡之间学生受到的计算机教育程度不尽相同。2教学课时不足,无法做到针对性教学。3学生的学习过程与效果未记录,无法做到客观数据分析。4教学没有紧密结合医学知识,附属医院以及医学相关的研究每年都会产生海量的临床数据、文献资料等各类医学数据,需要考虑如何将这些医学大数据应用在计算机基础教学中。5师资队伍医学背景薄弱。这些问题对医学生的计算机基础教育产生了不利影响。大数据时代的到来,为解决这些问题带来了新思路。

2计算机基础教学大数据

传统教学模式与学习过程无法记录下来,最好的结果就是在参与者脑海中留下印象,没有文字记录,没有具体数据说明教师授课时学生的理解程度以及学习效果[13]。然而随着互联网以及大数据技术的进一步普及与完善,数字技术可以实时记录教学过程中的所有行为轨迹。在网络教学管理系统中,每位学生都会产生大量与学习相关的数据,在进行分析处理后可以找到有助于提高教学水平的信息,来帮助教师修改教学内容,改进教学方法,以数据为驱动,变革高校教育模式。利用大数据对高等教育进行研究的主要目的就是增强教育活力和学习兴趣[14]。教育大数据可以汇总、结合政府或机构统计的数据,如学生的家庭背景, 健康情况,获奖情况等,依此确定更广泛的行为模式及其影响效果,这比单独使用教学数据分析出的结果更为精准、有效[15]。

计算机可以存储结构化、半结构化和非结构化各种教育数据,如课件、音频、视频、试卷、答疑、报表、文档等,大数据在计算机基础教育中的应用,具有以下几种方式。

(1)使用个体学习数据增强个性化学习能力。例如,学生在计算机实验室练习模拟试卷时,可以完整记录其每一步操作,记录其一开始选择或填写的答案,而后否定又填写了其他答案等这些所有过程,最后将结果以及操作过程完整反馈给学生本人,达到个性化学习的目的。

(2)纵向获取来自同一数据源的数据。例如,可以从教务处获取国家或学校招生政策改变、课程调整、教学地点或时间改变等数据,及时采取措施,消除对教学产生的不利影响。

(3)横向获取不同数据源在同一时间段的数据。例如,可以收集不同学校、不同专业的医学生在同一学期学习大学计算机基础的学习成绩,结合同一时段采用的不同教学方法等其他教学数据,进行统计分析。

(4)结合纵向和横向数据。例如,可以结合考试成绩和学习日志系统,为所有在校学生在不同时间段建立事实基准测试推断程序,为每位学生建立个人学习进步模型。

(5)结合计算机教育信息和医学信息。网络上具有海量的医学信息,如:电子病历、CT影像图片、文献资料、基因组测序报告等,通过计算机查询、数据挖掘等技术,可以得出有关公共健康的信息或预测,能够极大激发医学生学习计算机的兴趣。

大数据起源于一些技术性学科,如天文学、基因组学、气象学等,定期收集和分析海量数据的概念,这些领域的数据集往往在形式和结构上具有高度的一致性和可预测性[16]。教育类数据虽然有大量数据产生,但是这些数据具有异质性,无法使用一种软件对所有类型数据进行有效保存和组织,安全性和保密性也限制了它们的可访问性,许多机构的数据还处于非共享状态,这些都不利于大数据的应用。因此,需要提高数据共享性、可靠性以及数据标准化程度,才能更好地运用大数据技术改革高校教育模式。

3计算机基础教学分析论

分析论(Analytic)被Cooper定义为:“通过定义问题发展过程可操作的见解,以及统计模型的应用,分析现有的和/或模拟的数据”[17]。Davenport等人[18]确定分析论具有2个关键功能:一是提供信息或建议; 二是提供见解。这些功能对应着已经发生的事,正在发生的事以及将要发生的事。关键维度实践分析模型如表1所示。

依赖于不同关键技术,不同的分析论能够探究不同类型、不同领域的数据,当然也可以用于计算机基础教育中。主要包括以下几方面内容。

(1)预测分析。利用现有行为模式精准模拟未来行为,这种预测分析算法被称为“倾向性”和“可能性” 分析。例如,个别学生经常在上午第一节课有迟到或逃课行为,可能和这个学生不良的作息习惯有关,那么就可以预测该学生未来可能会存在亚健康状态。关键技术:机器学习,即系统能从数据收集过程中自主学习。

(2)聚类和异常值识别。发现有异常情况发生,必须立即采取行动。例如,大规模逃课现象发生时,应立即通知所在系部辅导员并提出警告。关键技术:聚类分析和模式识别。

(3)决策支持。动态监测实时数据,用来告知决策者现在的状态,这个决策者可以是学生本人、教师或学校管理人员等。

(4)知识发现。通过计算机算法汇总大量数据集, 寻找不可预知的关联和模式。

由此,可以得到基于域的计算机基础教学分析论模型,如图1所示。分析论运用在医学院校的计算机基础课程改革中,需要获取所有与学习本课程或与学生本人相关的数据,如电子档案、社交媒体等信息。主要包括三种分析:1学术分析。分析计算机基础课程在医学院校中所处地位,以及学校支持力度;2学习分析。使用分析技术帮助计算机基础课程改革教学大纲、教学内容、教学方法,完成培养合格医学生的教学目的;3预测分析。统计分析同一地区不同医学院校的计算机基础课程教育模式与成效,在这些大数据中, 分析挖掘有用信息,预测教学行为与教学效果之间的关联与模式。

4大数据与分析论驱动计算机基础教学新模式

大数据时代下,将分析理论运用于计算机基础课程建设中来,结合医学特色,重新规划、整合计算机基础教学,为学生提供各种自主学习资源与服务,建立大数据驱动的计算机基础教学新模式。主要有以下几方面。

(1)大型开放式网络课程 (massive open online courses,MOOC)教学平台。MOOC采用云计算架构,利用网络化特性,提供大量的视频学习资源和人机交互功能,支持开放性网络服务。MOOC促进了个性教学模式的发展和学生创新思维的培养,学生可以根据自身实际学习情况,预习、复习对应的内容,解决了学生计算机应用能力差异大的问题,也弥补了教学学时不足的问题,学生有足够时间研讨教学重点、难点。 MOOC还能够针对记录、作业、测试中出现的错误,提出下一步学习任务单。

(2)在线答疑系统。目前,在线Answer Web自动答疑系统使用最广,它是一个具有开放、共享、交互性质的问题及答案的网络数据库。学生输入关键词后可以在系统已有库中查找相关资料,若没有相关答案,则自动提交后台,解答后,立即对系统库进行添补,系统会记录所有的问题和答案以及学生提问过程中的行为。把在线答疑系统应用到大学计算机基础教育中, 能够解决辅导答疑的问题。

(3)网络医学信息查询系统。在此系统中,主要采用启发式教学,其重在引导,通过平等对话和研讨,提出一个或多个医学问题,如:II相药物代谢的葡萄糖醛酸苷化反应能帮助人体抵抗哪些不利健康的物质或毒素?要求学生分组讨论,再通过所学计算机知识快速在网上查询相关资料,并能够举例说明、简要分析、得出结论,增强学生分析问题与解决问题能力、交流能力、合作能力、语言表达能力和理论联系实际能力[19]。常见的医学信息数据库有:GenBank数据库,OMIM人类孟德尔遗传数据库,PubMed文献数据库,DrugBank数据库,ExPASy蛋白质数据库等。

如图2所示,学生和教师在使用各种网络教学系统时,输入的数据和学习行为都被系统记录下来。利用实践分析模型和大数据技术,对记录下来的数据进行分析,挖掘出与学生学习特征相关的数据。这些数据为学生的后续学习提供个性化的推荐,规划个性化的学习路线,并向教师反馈学生的学习行为和效果,为后续教学提供个性化的推荐,帮助教师修订教学大纲和内容,以改进教学方法。特别是对医学生而言,提供了医学信息查询系统,通过计算机技术查询网络上的海量医学数据,如:电子病历、CT影像图片、文献资料、基因组测序等,通过数据挖掘等技术,可以得出有关公共健康的信息或预测[20],能够极大激发医学生学习计算机的兴趣。

5讨论

大数据必将给医学类院校计算机基础教育带来巨大改变,曾经依靠经验和灵感的授课过程,将会被以客观数据分析为主的决策分析所慢慢代替,大数据已经悄然改变着教学过程,也必将深度改变计算机基础教学模式,主要体现在如下几个方面。

计算机教学内容的变化。随着大数据技术的发展和医学信息数据量的指数性增长,如何更好利用和挖掘现有医学信息成为研究人员所面临的难题[21],医学类院校教育也应与时俱进,特别是计算机教学,应当把计算机技术与医学信息结合起来,帮助学生了解医学大数据,学习医学大数据分析与挖掘技术,提高就业竞争力,同时也能帮助教师提升自身业务素质。

计算机教学思维的变化。原来的计算机基础教学基本属于灌输式教学,而随着大数据和互联网的发展, 知识的接受方式呈现多元化倾向,教师必须转变教学思维,以更多的案例和互动式教学来引导学生去寻找解决问题的办法。同时,大数据带来海量医学数据,让教师对计算机教学结合医学特色的教授方法有了更加清晰的认知,启发学生寻找最优解决方案。这是大数据时代下医学院校计算机基础教学的最突出特点。

计算机教学模式的变化。在传统计算机基础教学中,课前备课占据了教师绝大部分精力,而大数据会让教师把更多精力放在课后分析上,形成“备课-教授-上机-测试-分析-改进”的新模式,通过大数据,可以对一个班级甚至一位学生的学习行为、学习习惯、上机测试情况、学习难点等进行分析评价,从而得出教学过程中的规律,改进教学方式,提高教学质量。

个性化教学的深入开展。大数据技术的发展,使得建立覆盖学生学习全过程、全要素的信息库成为可能,学生的大量试卷、课堂表现、学习经历、成长轨迹、家庭背景等都将被包含在大数据分析中,教师可以利用数据挖掘技术,依据学生的学习特征,比如答题持续时间,具体回答步骤和内容,答题答对、答错的要素等, 研究各种行为的内在联系,找到学习弱点,据此形成针对学生个性化的教学策略,提高教学效率。

因此,本文提出建立医学计算机基础教学新模式的研究内容,具体关系如图3所示。

6结论

教师的专业知识和综合素质是影响教学质量的重要因素[22],医学院校的计算机教师应当在巩固专业知识的同时,不断学习医学基础知识,开阔眼界,这不仅有利于教师在教学科研工作中创新、发展,也有利于解决医学院校计算机基础教育所面临的问题。

本文通过教育数据实践分析和大数据技术的运用,结合医学院校教学特点,以计算机基础教育为例, 构建了实践分析模型,通过实时数据汇总分析,提升教学质量。并希望以此为契机,建立医学高等教育标准化教学模型,对医学院校其他公共基础课程及医学专业课程教学模式产生积极影响。教育工作者必须做好应对复杂大数据分析的准备[23],加快提升自身综合素质,探索研究,在严格保护信息隐私的前提下,合理运用这些新兴技术,培养出适应社会需求的具有高信息素养并具有创新思维和创新能力的新时代医学生。

摘要：随着获取、处理教育大数据能力的日益增强,以分析论为理论依据,能够在一定程度上预测教学行为和教学效果之间的关联模式。本文以医学院校的计算机基础课程为例,分析了目前教学所面临的问题,介绍了教育领域大数据的类型与获取方式,利用分析论建立教学模型,在此基础上提出教学新模式。希望依此为契机,对医学院校其他公共基础课程、医学专业课程教学模式产生积极影响。医学院校的教育工作者需要做好准备,须具备分析复杂大数据的能力,提升自身综合素质。

医学大数据篇9

现代产业与信息技术的发展使数据资源成为越来越重要的生产要素。爆炸式增长的数据量对多源、异构、高维、分布、非确定性的数据及流数据的采集、存储、处理及知识提取提出了挑战。大数据思维就是此环境中的产物,它并不局限于传统的基于因果关系的逻辑推理研究,甚至更多地通过统计型数据的搜索、分类、比较、聚类、关联等的分析和归纳,关注数据集内隐藏的相关性(支持度、可信度、关注度)。图灵奖得主吉姆·格雷将这种数据密集型的研究范式从理论科学、计算科学、实验科学中分离出来,成为“第四范式”[1]。

2008年《Nature》推出Big Data专刊[2]后不久,文献[3]将大数据计算称为商务、科学和社会领域的革命性突破。2011 年,《Science》的Dealing with Data专刊阐述了大数据对科学研究的重要性[4]。同年,麦肯锡公司发布关于大数据的竞争力、创新力和生产力的调研报告[5],分析了大数据的影响、关键技术及应用领域,进一步燃起学术界和产业界对讨论大数据的热情。美国政府于2013年3月宣布投资2亿美元启动“大数据研究和发展计划”[6],将其上升为国家战略。大数据被认为是继物联网、云计算之后,IT行业又一次颠覆性的技术变革。

云计算是利用互联网实现随时、随地、按需、便捷地访问共享资源池(如计算设施、应用程序、存储设备等)的计算模式[7],关注计算能力,并与关注知识提取的大数据技术相得益彰。

电力是社会发展的重要基础。随着全球能源形势的日益严峻,各国大力开展了智能电网的研究和实践[8,9]。其目标是建设一个覆盖整个电力生产过程,包括发电、输电、变电、配电、用电及调度等环节的实时系统,以支撑电网的安全、自愈、绿色、坚强及可靠运行[10]。而其基础则是电网广域全景实时数据的采集、传输、存储、分析及决策支持。

而愿景中的电网则是网架坚强、广泛互联、高度智能、开放互动的智能电网。文献[11]分析了智能电网大数据的产生与特点,指出已有的数据处理技术在智能电网的数据存储、处理和展示等方面所面临的挑战,已成为智能化发展的制约因素。文献[12]探索了基于云计算的智能电网信息平台的可靠存储和高效管理。文献[13]研究了用户侧电力消费的大数据,从中挖掘其用电行为,以改进需求响应系统。

以电为核心的大能源体系正在成为全球能源的发展战略[14]:一次能源的清洁替代与终端能源的电能替代都必须依靠电网的输送才能大规模地实现。文献[15]指出,电力可靠性问题的顶层设计应该以大能源观为指导,不能局限于电力系统自身,还要分析其与一次能源、外界环境、管理政策、用户需求与方式变化间的交互,研究广义阻塞对电力系统安全性与充裕度的影响。

电力、能源及广义环境的多源、多态及异构数据的数量呈指数级增长,需要有相应的广域采集、高效存储和快速处理技术予以支撑。而从这些数据中挖掘知识及价值应用则使电力大数据的话题融入大数据的研究热潮。本文及其续文是笔者关于如何将电力大数据的思维应用到电力的广义可靠性、大能源安全及环境安全方面的思考。

1 大数据概念的演绎

1.1 定义

对“大数据”还没有统一的定义,通常指量大、多源、异构、复杂、增长迅速,无法用常规的方法处理的数据集合[16]。许多数据往往只在统计学观点上具有某种相关性,而不一定像传统应用的数据那样具有严谨的因果关系。对这样的统计关系型数据,只有当反映一个真实问题的数据量达到能在一定程度的统计意义上描述其真实面貌时,才能有效地提取知识,支持决策。而对于常规的因果关系型数据来说,数量的大小往往仅影响到计算资源,而与提取知识的方法关系不大。

因此,大数据与小数据之间并无绝对的界限,而是相对于目标问题而言的。大规模的数据量只是大数据概念的特征之一,也不应该用海量的规模作为大数据的必要条件。

大数据技术涵盖了从信息产生、采集、存储、转换、集成、挖掘、分析、计算、展示、应用及维护等数据全生命周期管理过程[17],需要具备从不同类型的多源异构数据中,快速提炼出有价值信息的能力。

1.2 基本特征

数据是以编码形式对自然现象、社会现象、试验仿真结果及经验的记录,包括数字、文字、图像、声音等形式。与传统数据相比,大数据具有四大显著特征4V,即量(Volume)、类(Variety)、速(Velocity)、值(Value)[18]。“量”是指数据容量足够大;“类”是指数据种类呈现多源多态特性;“速”是指实时性要求高;“值”是指数据价值密度相对较低。在数月的监控视频中,可能仅1~2s的画面有用,但通过关联数据的挖掘、分析和提取,却可能获得很高的信息价值。

一般认为,数据规模或复杂程度超出了常用技术按照合理的成本和时限来处理的能力,就可称为大数据。笔者认为如果统计型数据量对于具体目标问题来说,已经具有统计意义,就可以用大数据思维来处理。若为大数据设立数百TB的阈值,必将大数据思维束之高阁,扼杀了其广泛应用的生命力。

除了从因果、统计及博弈等数据关系的视角来对数据类型分类外,还可以按数据结构的视角将其分为三种类型:①结构化数据,即可以用二维表结构来逻辑表达的行数据,关系型数据库是其有效处理工具;②非结构化数据,是一类不能用有限规则完全表征与刻画的异构性数据,如图像、音频和视频等信息,它们之间不存在直接的因果关系,存在不相容性及认知的不一致性;③半结构化数据,介于上述两种结构之间的数据,可以用树、图等模型表达,如Web、办公文档及电子邮件等信息。据统计,随着社交网络、传感物联及移动计算等新技术、新渠道的不断涌现,企业中的半结构化或非结构化数据占比越来越大,有的已达80%。

1.3 思维方式

大数据技术的思维方式是:将采集到的经验与现象实现数据化与规律化,在继承传统的统计学、计算数学、人工智能、数据挖掘等方法的基础上,从单一维度转向多维度统筹融合,开发知识处理的新方法,从更深刻的视角,以更高的时效发掘多源异构数据,从而发现新知识和新规律,并实际应用的方法学。

若可以用简单的表达式直接描述某问题的结果与变量之间的关系,那么即使其数据量很大,也不一定属于大数据思维。当数据之间没有或还不能严格描述其因果关系,而数据集已相对地具备统计意义,就需要并可以采用大数据思维来处理。例如:对于一个市场调查的数据集,如果仅仅求取人群对某种商品的需求分布,那么思维方法并不会因为数据集是否海量,而改变常规的数据处理思维。但如果要从人群对该商品众多技术、经济、全程服务特性等各方面要求中提炼出有助于提高企业竞争能力的决策支持,那就需要有新的思维方法,包括信息挖掘与利用的思维、模式及方法,以帮助人类获得更深刻的洞察力。

关注统计关系的思维方法,同样可以应用于有限数据集上[19],只是其结论的可信度可能受到影响。

1.4 大数据技术的挑战

1.4.1 大数据的采集与集成

利用各种传感器及终端,采集反映物理世界、市场经济与人类行为等现象的静态/动态的异构数据,成为人、机、物三元世界的信息纽带[20]。其挑战主要体现在:①从结构化数据为主,向结构化、半结构化与非结构化的三者融合的变革;②数据来源的多样化,特别是移动终端的广泛应用,使大量数据需要同时带有时间与空间的标志;③有用信息被淹没在大量无关或弱相关的数据中,或需要处理低质量及局部缺损的数据。

1.4.2 大数据的存储

大量多态异构数据的高效、可靠、低成本存储模式是大数据的关键技术之一,对多源多态数据流之间的交互索引与转换效率影响很大。

数据压缩技术可以减少数据传输量及提高存储效率,但也增加了数据处理环节及计算负担[21]。分布式存储要权衡对存储空间及实时性的影响:对实时数据采用实时数据库或内存数据库;对核心业务数据采用传统的并行数据仓库系统;对大量的历史和非结构化数据采用分布式文件系统。

算法在处理复杂结构数据时相对低效,故希望事先为复杂结构的数据建立索引结构来帮助搜索,并合理地将非结构型数据结构化。

1.4.3 大数据的分析

需要关注大数据的形态描述、基本运行规律及其可控性。其中,最复杂的是人类社会行为信息,其决策行为必须与物理系统及信息系统相结合。

目标领域的信息若能与关联领域的信息相结合,则不但知识量得以增加,而且更有可能揭示综合性、交叉学科的未知知识,甚至从统计型数据中发现其(准)因果关系。知识的涌现性反映在模式、行为和智慧上。例如:将提高风机效率的研究与气象信息、电网信息联系,其效果将大大提升。大数据与云计算为之提供了数据资产的保管、搜索的技术,但也不是数据越多越好,而信息的提炼与知识的发现一般很难通过直观方式的分析和解读来获取。

数据驱动的分析方法包括:聚类、判别、回归、识别、隐变量、主因分析、时间序列。需要处理大规模的不定解问题,及必要时信息的补充问题,利用特征的相关性来发展统计学,有效地表达高维随机变量函数的联合概率分布。

用以发现知识的技术有:遗传算法、神经网络、数据挖掘、专家识别、回归分析、聚类分析、关联分析、数据融合、机器学习、自然语言处理、情感分析、空间分析、时间序列分析及其他计量学方法。一个例子是Google采用机器学习和神经网络来分析服务器群的数据,掌握大量变量之间的交互。神经网络在无显式编程下自适应学习,大大提高服务器群的效率,发现普通人注意不到的复杂互动关系。

随着大数据的应用从离线走向在线,甚至实时,所面临的系统复杂性、数据复杂性和计算复杂性挑战更为严峻。目前虽然出现了一些较为有效的方法,如流处理模式、批处理模式,及两者的融合[22],但仍未有一个相对普适的(准)实时的分析处理框架,在合理精确性的前提下实现快速的随机优化。

1.4.4 大数据的易用性

易用性应该贯穿在大数据的集成、存储、计算、分析,乃至展现等整个业务流程[23]。从技术层面看,可视化、人机交互及数据起源技术都可有效提升易用性,但仍存在元数据的高效管理的难点。元数据是关于数据的组织、数据域及其关系的信息,是描述信息资源的重要工具。

1.4.5 大数据的安全性

数据可靠性和通信网络安全性至关重要。必须研究各种广域量测数据和仿真数据的完备性、适时性和价值的评估技术,研究在广域信息不完全条件下的分析、控制技术。

“8·14”大停电前的几个月,北美电力可靠性委员会(NERC)警告说,随着电力业务的复杂化,越来越多的电力公司不遵循2002年发布的非强制性的安全导则,致使一些数据采集与监控(SCADA)网络被蠕虫破坏。大数据安全是一项包括技术层面、管理层面、法律层面的社会系统工程,其保障体系的框架由组织管理、技术保障、基础设施、产业支撑、人才培养、环境建设组成。应该研究数据源和传输的可靠性,研究信息系统故障或受到攻击时的行为,以及信息的阻塞、淹没、丢失和出错对大能源可靠性的影响。

移动互联时代中,人们在不同场合产生各种数据足迹;大数据技术将大量行为信息聚集在一起,就很可能暴露其隐私。由于尽可能地获取信息本来就是应用大数据技术的目的,故与隐私权的保护存在着矛盾。如何协调共享与隐私,需要制度与监管的保证。

现有的数据安全保护技术主要针对静态数据集[24],包括开放与防御的平衡,防止数据被窃取或篡改。但仍需要解决动态信息的安全性问题。

1.4.6 大数据的应用

大数据学科的兴起与人类需求密切相关,其中的信息挖掘及知识提炼环节必须与待求解问题紧密结合,而应用环节则是大数据技术发展的动力与归宿。因此,大数据研究应该遵循问题导向、需求牵引及数据共享的原则。必须结合具体的目标问题,将采集到的低价值的大数据加工成高价值的思想或知识,大数据技术才有生命力。若没有应用企业的深度参与,若不能按照商品的规律运行,大数据技术就难以真正取得收效。此外,若没有各管理部门对数据共享的落实,大数据技术也只能是纸上谈兵。

知识作为资源,需要像物质资源那样分配及流通。为此,需要对知识产品定价,并从数据使用的视角揭示信息流与科学活动的内在规律。

目前对大数据应用的关注,主要集中在商业与服务业这些以统计关系为主的领域[25],较少涉及具有较强因果关系的领域,如电力系统及能源市场等领域。笔者认为,是否能成功地将统计关系、博弈关系与因果关系取长补短,是大数据技术能否扩大应用领域的一个关键。

2 电力大数据

2.1 问题的提出

从能源系统看,它包括电网和非电的能源网两部分;电力系统应该在能源的清洁替代与电能替代中有效地承上(一次能源)启下(终端能源),兼顾左右(与其他二次能源协调)。

从信息系统看,它包括专用通信网与互联网(Internet)两部分。专用网用于对信息安全性或实时性要求高处,但由于非开放式的接入,故不适合与广泛用户的互动;互联网用于开放场合,但信息安全及实时性差。显然,两者对于信息系统来说都不可或缺。

能源革命需要的是能源系统的全部组分与信息系统的全部组分的深度融合[26],即大能源系统与大信息系统组成的信息能源系统,而不是局限于它们的某个子集之间。但是,智能电网的研究范畴基本上局限于能源系统中的电力系统与通信系统中的专用网[27],因此其信息物理融合的概念也就局限于“电力生产信息+电力系统”。作为能源革命重要环节的“一次能源系统及终端能源系统”,以及作为信息革命重要环节的“网络金融及需求侧参与信息”却并没有得到应有的重视。

显然,目前的智能电网框架中的专用通信网的功能需要从电力系统扩展,不但涉及各种非电的能源环节,而且涉及相关的非能源环节,以更好地支持对电力可靠性及经济性的研究,并支撑综合能源安全、能源经济安全及环境安全。另一方面,开放的网络经济及广泛的用户参与都需要互联网的支持,互联网数据的管理与挖掘成为非常重要的任务。

整个能源行业在转型发展中面临的机遇和挑战,来自一次能源的压力、环境安全的紧迫性、电力系统内外复杂性的增加、运行环境及扰动事件的不确定性与风险的增大、经济与技术的发展、市场改革的要求。为了应对上述挑战,必须提高数据的及时性、完整性、一致性及信息安全防御能力,提高对数据的管控能力,消除数据壁垒、存储无序且不一致的现象,完善对外部环境、基础设施及人才队伍的掌控。

从传统的电力数据演变为电力大数据,跨领域的时空扩展将电力系统的界面条件从确定性变为时变性,同时也增加了多时间尺度的动态复杂性[28]。涉及各类数据的采集、集成、存储、管理、知识挖掘、决策支持、可视展现等技术,也反映了电力及综合能源数据的管理、知识的挖掘和应用等一系列推进能源生产、转换、输送、消费方式的创新思维。其中的互联网数据大多为传统数据库不支持的非结构化类型,包括图片、视频、音频、地理位置信息、网络日志、博弈行为、金融动态、政策法规。数据的在线或实时处理,往往呈现出突发及涌现等非线性状态演变现象,难以预测。

为此,信息创新必须与能源革命在更高层次上深度融合,特别是在一次能源中的清洁替代及终端能源中的电能替代上,不但将协调优化的概念提升到综合能源流的范畴,而且推动电能更主动发挥在一次能源与终端能源之间的核心纽带作用,实现能源生产模式与消费模式的革命。

但是,将大数据技术局限于互联网数据也是片面的。通过专用网或仿真网获取的数据,包括智能电网概念中已涉及者,以及有待外拓的非电能源领域与非能源领域中的数据问题,同样存在大量的挑战。既然讨论的是信息物理融合问题,那么其框架就更不应该在信息系统内部或能源系统的内部设立藩篱。

当前的研究都在一定程度上受限于物理系统中的藩篱或信息系统中的孤岛。例如:①稳定性与经济性的研究都针对给定的边界条件,不能真实反映上下游环节的变化对电力系统的影响;②充裕性问题被粗犷处理为固定比率的备用容量,无法适应大规模不确定性的可再生能源及充放电用户的入网;③决策过程基本无法考虑博弈行为的影响;④忽视了信息系统本身可靠性的影响;⑤缺乏对电力系统外部环节的自适应能力。

要突破上述藩篱与孤岛,就必须遵循以电力系统为核心环节的大能源系统在大数据时代下的发展理念,顺应管理体制及技术路线的变革。

2.2 电力大数据的特征

一方面,电力大数据具有大数据的共性,包括目标领域向其他相关领域的扩展,以及数据类型向非结构型及非因果型数据扩展,时间维度向多尺度的流数据扩展。由此形成大量的异构异质数据,包括数字、文本、图形、图像、音频、视频等静态和不同时间尺度的动态数据,以及大量统计关系与博弈关系的数据,都需要快速处理。

另一方面,电力大数据必然继承了能源行业数据的特征,包括大量的因果关系数据、高维的时空数据,广域的监测控制,快速的时间响应及实时控制数据。除了电力系统的状态外,还需要获取并分析相关领域的数据,并处理部分数据缺失时的不确定性。

运行工况或故障场景都会影响系统的稳定性和控制策略。中国的电网现在已普遍实现了在线的量化分析功能,按实测工况和典型故障来指导预防控制,并向自适应的紧急控制与系统保护发展[29]。但若要有效地应对极端自然灾害环境,则还需要采集并处理大量非结构型的视频、语音、图片,并与电力系统分析功能有机结合。大规模间歇性可再生能源(RES)与电动汽车(EV)的入网对电力充裕性与备用调度提出挑战,要求大大提高对风电、太阳能发电及EV充放电的预测精度,这就需要处理大量非结构型的地理及交通动态数据。为了应对相继故障,基于常规因果关系型数据的分析算法也应该解决多米诺效应的演化路径及实时评估的经典难题。

2.3 电力大数据的类型

除了按数据结构等大数据概念来划分电力(能源)系统大数据,还存在其他视角,列举如下。

1)按业务领域,电力大数据可分为:①规划运行类,包括电力规划、电能生产、运行监控、设备检修等数据;② 企业运营类,包括企业发策、运营、电力市场、用户信息等数据;③企业管理类,包括人财物资、资本运作、企业资源计划(ERP)管理、协同办公等数据;④非电的能源类,包括各种一次能源、非电的二次能源、终端能源使用模式等数据;⑤非能源类,包括气象、环境、碳资产、宏观经济政策等数据。

2)按时间维度可分为:①背景及法规数据;②历史数据;③调查及预测数据;④在线实测数据;⑤仿真推演数据。

3)按数据采集来源可分为:①书本及文档;②专用网数据;③互联网数据;④问卷及调查;⑤交互博弈及仿真结果。

2.4 电力系统的数据量

常规SCADA系统按采样间隔3~4s计算,10 000个遥测点每年将产生1.03 TB数据(12B/帧×0.3帧/s×86 400s/d×365d×10 000遥测点);广域相量测量系统的采样率为100次/s,10 000 个遥测点每年将产生495 TB数据。美国PGE公司每个月从900万个智能电表中收集超过3TB的数据。国家电网公司的2.4亿块智能电表,年产生数据量约为200TB,而整个国家电网公司信息系统灾备中心的数据总量,接近15 PB。以2004年山东系统(97台机、462条母线、702条支路)为例,设在线每5min对220kV以上线路的三相永久故障分析一次暂态稳定性,仿真时长10s,仿真步长0.01s,则一年内将产生1 092TB的数据量。当大规模的间歇性分布式可再生能源入网后,发电侧计及气象数据的实时监控的数据量比传统发电成倍增加。智能配电、智能电表、电动汽车和用电技术的发展也大大增加了需求侧的数据量。电力企业的精细化管理,与一次能源、环境、交通、市政等外部系统的联系日益深化,对数据量的依存度也越来越高。

2.5 电力大数据对电力可靠性的支撑

整合各种广域系统采集的静态和动态数据,包括雷电场、台风风力场、山火场等非结构型数据与常规的电力数据及仿真信息相结合,从所获的现场实测或仿真得到的时间响应曲线中提取深层知识。以支持稳定性与充裕性的量化分析及自适应控制,协调故障前的预防型博弈,故障后瞬时的故障隔离和预测型紧急控制,检测到违约症状后的校正控制,以及系统崩溃后的恢复控制。在此基础上,综合防御框架还应该实现多道防线的时空协调,通过协同各道防线和各种控制手段,最大限度地减少大停电的风险。

信息的可靠性是分析和决策的物质基础;机理分析和量化分析则通过数据挖掘来深刻掌握电网的行为特性[30];正确的决策是为了能以最小的风险代价来最大限度地满足电力需求。互为补充的相量测量单元(PMU)、远方终端设备(RTU)和仿真数据共同满足系统在空间中和时间上的可观性和可控性[31]。需要研究在不完备数据下,如何将信息论和系统论相结合,从数据中挖掘深层信息。

在电力的长期可靠性分析与控制方面,需要考虑社会、经济、科技、能源与政策等发展的不确定性,以及各种博弈行为的影响,将目前依靠主观判断的方式逐步提升为基于混合仿真推演的方式。

3 信息能源系统的大数据平台

3.1 电力(能源)系统运行数据的采集

关系数据库强调完整性及一致性,云计算强调可扩展性,但难以保证实时性。Internet的TCP/IP协议在流量控制和数据纠错时会产生10ms量级的时延,难以满足实时控制,特别是紧急控制的要求。

RTU和SCADA系统可以用低成本采集大量的广域数据,并满足静态可观性,但没有统一时标,采样周期长、时延大,只能抽取慢速动态特征。故障录波和保护信息系统就地记录大量暂态信息,可支持故障的事后分析,但上传的滞后时间长,难以实时应用。

PMU数据不依赖于系统模型和参数,可在统一时标下快速采样,提供系统实际的时间响应曲线,用来校核仿真模型和参数,并提供仿真的初值。但受价格限制较难满足高可观性。

20年来的研究热点之一是将PMU用于实时稳定性分析及开环控制,根据受扰后短期实测数据预估稳定性,并在失稳前选择并执行控制措施,但至今未能用于稳定分析和开环控制。文献[32]明确指出,在非自治因素下单纯依靠轨迹的外推来预测并不可靠,并且即使在没有时间约束的离线环境下,要对有数学模型的仿真曲线进行稳定性量化分析也非易事。若在计算已有轨迹的稳定裕度时没有模型参数可用,其量化分析就更难。更重要的是,只有通过仿真才能在措施实施前确认其效果。不与仿真工具结合,就难以按合理的保守性来确保控制的充分性。其根本原因是:在事前,PMU无法观察到控制措施的效果,也无法在不依靠系统模型及参数的前提下求取实测轨迹(特别是稳定轨迹)的稳定裕度。PMU在应用上的这个瓶颈是本质性的,不可能真正突破。

现场伪量测是对广域数据加工中挖掘出来的数据;仿真伪量测是在仿真中产生的数据。它们的正确性受到模型、参数、初值和算法等的限制。

3.2 电力(能源)系统的大数据平台

随着数据采集环节的质量提高、成本降低,以及各种广域数据采集系统的数据共享,可以通过更多数据来全面掌控电力与能源。为此,需要将各种广域监测系统和数值仿真系统置于统一的平台中,有助于数据挖掘,识别相继故障的先兆特征、临界条件和传播模式,从而提高预警水平,增强防御停电灾难和事后分析的能力。

由硬件资源、基础软件、网络通信、数据集成、计算支撑、应用支撑、安全管控等环节构成的大数据平台支持多源多渠道异构数据的即插即用、融合与管理,支撑各种开发、应用及信息展示功能的即插即用。通过基于数学模型的因果型数据、无因果关系的统计型数据以及参与者博弈行为的融合,管理各类能量的生产、转换、输送及使用,调度与仿真数据的集成与管理。

4 结语

虽然当前关于大数据的应用案例大多发生在互联网企业中,但传统的电力及能源企业也在思考如何从关于大数据的空泛介绍走向实际应用。特别是除了直接依赖互联网的电力金融业务及面向消费的个性化服务以外,在基于传统数据的系统分析与控制领域中,如何融合电力及能源的统计关系数据、因果关系数据及博弈行为数据,发挥大数据的价值。例如:间歇性能源及负荷预测,引导需求响应及节能减排,降低停电风险,反窃电,堵塞经营漏洞,优化资产全寿命周期管理等方面。特别是:如何使企业决策从当前基于常规数据及主观经验的模式,发展为基于数学模型、参与者及多代理模型的混合仿真的沙盘推演模式。其中的多代理模型就需要大数据技术的支撑。这关系到电力大数据技术是否能进入到通常由因果关系数据一统天下的物理系统分析领域。为此,思维方式需要重大变革。

摘要：大能源思维将电力视为能源生产与消费全流程中的枢纽环节,藉此推动上游一次能源的清洁替代与下游终端能源的电能替代,支撑能源的可持续发展。大数据思维将各种数据资源从简单的处理对象转变为生产的基础要素。这两种思维的融合,使电力大数据成为大能源系统广泛互联、开放互动及高度智能的支撑,包括:广域多时间尺度的能源数据及相关领域数据的采集、传输和存储,以及从这些大量多源异构数据中快速提炼出深层知识并发挥其应用价值。作为两篇论文中的开篇,在演绎大数据基本概念、结构类型及本质特征的基础上,归纳电力大数据的特点。针对综合能源,通过基于数学模型的因果型数据、无因果关系的统计型数据以及参与者博弈型数据的融合,构建信息能源系统的知识挖掘平台。其续篇将讨论信息能源系统,并通过若干案例,反映大数据思维对提高大能源经济性与可靠性的贡献。

医学数据挖掘的现状分析篇10

随着医学信息化的飞速发展, 在医疗卫生领域中有大量关于病人的病史、诊断、检验和治疗的临床信息, 以及药品管理信息、医院管理信息等医疗信息可以被精确地记录下来, 从而导致医疗数据资料呈爆炸性增长, 促进了医学信息的数字化、自动化和智能化应用和研究的快速发展。在这些激增的数据背后隐藏着许多重要的信息, 如何从这些海量的医疗数据中, 挖掘出有用的信息, 为了解各种疾病之间的相互关系和各种疾病的发展规律、为疾病的防控、为诊治方案的总结优化等各方面提供科学依据, 这将对疾病的防控、诊断、治疗和医学研究的发展具有重大意义。

2. 医学数据挖掘概述

2.1 医学信息的特点

2.1.1 数据类型的多样性

医学中的数据类型多种多样, 如电子病案中关于人口学特征的数据为纯文本型, 检验科中有关病人生理、生化指标为数字型。影像科中如B超、CT、MR、X光片等图像资料, 如肌电、脑电等信号数据。医学数据的复杂性要求与之适应的数据挖掘方法学的研究。

2.1.2 动态性

很多医学数据如脑电图、心电图的检测数据呈非规则的波形、血压、心率等数据与时间呈函数关系;某些疾病病人的门诊、急诊、住院就诊与季节、地域有时间序列关系。

2.1.3 冗余性

医学数据呈指数增长并不意味着与信息呈正比, 有大量与诊疗及管理无关的数据, 需要与之相适应的数据整合、特征提取等方法。总之医院数据的多样性及特殊性, 需要该领域方法学的研究。

2.2 医学数据挖掘的关键技术

医学数据的特点使得医学数据挖掘与常规的数据挖掘之间存在较大的差异, 医学数据挖掘的关键技术如下:

2.2.1 数据预处理

医学数据库中含有海量的、不同来源的原始信息, 其中包括大量模糊的、不完整的、带有噪声和冗余的信息。在数据挖掘之前, 必须对这些信息进行清理和过滤, 以确保数据的一致性和确定性, 将其变成适合挖掘的形式。

2.2.2 信息融合技术

医学信息是由文字、数据、波形信号、图像、以及少量的语音和视频信号组成。对这些不同物理属性的医学数据, 应采用不同的技术和措施进行处理, 使其在属性上趋同或一致, 再对处理的结果进行综合。医学信息的多源性、时序性和非时序性数据共存、数字型数据和非数字型数据共存的特点, 加大了信息融合的难度。

2.2.3 快速的、鲁棒的挖掘算法

医学数据库是一个涉及面广、信息量大的信息库。要在这样庞大的数据库中提取知识, 需要花费比其它数据库更多的时间, 因此必须考虑医学数据挖掘的效率问题。研究快速挖掘算法对于远程医疗和社区医疗具有更深远的意义, 将直接影响其响应速度和医疗成本。同时, 医学数据库的类型较多, 并且又是动态变化的, 要求挖掘算法具有一定的容错性和鲁棒性。

2.2.4 提供知识的准确性和可靠性

医学数据挖掘的主要目的是为医疗活动和管理提供科学的决策, 因此必须保证挖掘算法所提供的知识具有较高的准确率和可靠性。如何降低医学数据挖掘过程中的风险, 提高挖掘结果的准确性和科学性, 是医学数据挖掘能否得到实际应用的关键所在。

3. 医学数据挖掘国内研究现状

用数据挖掘方法抽取医学数据中的趋势及规律性, 可以辅助医务人员快速准确地诊断、预测、监控和确定最优的治疗方案。目前, 数据挖掘已经运用在很多医学应用领域中。

3.1 医院信息系统中的应用

目前医院信息系统大多停留在医学数据库的低层次应用上缺乏对数据的集成和深层分析更谈不上对医学知识的自动获取。在激烈竞争的医疗市场中管理人员需要分析各类病人的行为模式、需求与偏好、忠诚度与满意度;基于病种病例分型模式构造、门急诊量的预测、成本效益分析等。总之, 对于医院科研水平和服务质量的提高, 数据挖掘技术的研究与应用有很旺盛的生命力[7]。

3.2 疾病诊断、预测

数据挖掘可以通过对患者大量的数据资料的处理, 挖掘出有价值的诊断规则, 建立预测模型, 再对这个模型进行测试训练得到合适的算法模型, 利用这种模型可以辅助临床医学诊断。挖掘技术已应用于胸痛发展结果的预测诊断、ICU应急诊断、类风湿类型的辨别诊断、乳腺疾病的诊断、胎儿早产的诊断、肝病分类诊断、急性阑尾炎分类等诊断。

利用数据挖掘确定某些疾病的发展模式, 根据病人的病史预测病情的发展趋势, 从而可以有针对性的预防疾病的发生。如借助数据挖掘技术中的贝叶斯 (Bayes) 网络技术, 结合中医理论、专家经验及其它各种统计方法来研究抑郁症的中医证候规律[1];

3.3 医学图像挖掘

医学图像 (如CT、MRI、PET等) 是利用人体内不同器官和组织对X射线、超声波、光线等的散射、透射、反射和吸收的不同特性而形成的, 它为对人体骨骼、内脏器官疾病和损伤进行诊断、定位提供了有效的手段。医学领域中越来越多地使用图像作为疾病诊断的工具。理论上图像数据挖掘是数据挖掘的分支, 但是由于挖掘对象的复杂性, 自2000年召开第一届多媒体数据挖掘年会至今, 这方面研究尚未形成完整的理论框架和技术方法, 仍处于探索阶段。孙蕾等人利用数据挖掘技术, 针对乳腺影像数据库开发了相应的计算机辅助诊断系统[4].

3.4 生物信息学---DNA分析

人类基因组计划的开展随之产生了巨量的基因组信息, 区分DNA序列上的外显子和内含子成为基因工程中对基因进行识别和鉴定关键环节之一。如何建立良好的系统模型将基因组数据进行有效地存储、分析和挖掘, 仍是难题。使用有效的数据挖掘方法从大量的生物数据中挖掘有价值的知识, 提供决策支持。目前已有大量研究者努力对DNA数据分析进行定量的研究, 从已经存在的基因数据库中得到导致各种疾病的特定基因序列模式。一些DNA分析研究的成果已经导致了许多疾病和残疾基因的发现, 以及对疾病的诊断、预防和治疗的新药物、新方法的发现[6]。

3.5 在中医药领域中的应用

当前在中医领域, 数据挖掘应用最广泛的是在中药 (复方) 的研究中, 并已经取得了一定的进展。对中医药来说, 大量治疗同一病症的复方里面必定蕴含着对疾病认识和治疗的科学规律, 有些规律已经被掌握了, 如一些治法和治则等, 也有些更深层次的规律需要从中挖掘出来, 而数据挖掘作为一种高级的信息处理技术, 可以在一定程度上帮助人们发现和认识那些隐藏的模式和规律, 如搜寻临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。国内秦中广等将粗糙集理论应用于中医类风湿的诊断, 大大提高了诊断准确率[5]。北京中医药大学利用数据挖掘技术开发的中医处方智能分析系统[8].

4、结束语

医学数据库的信息量非常庞大, 且其数据和其他类型的数据相比, 又具有自身的独特性。要想充分利用丰富而宝贵的医学资源, 服务于医学、受惠于患者, 必须选择适合医学数据类型的数据挖掘工具及挖掘技术, 尽可能大的发挥数据挖掘技术在医学信息获取中的价值, 为医学的发展开辟了一条新的途径。

参考文献

[1]包祖晓.基于贝叶斯 (Bayes) 网络技术的抑郁症中医症候规律研究, 北京中医药大学博士学位论文.

[2]JHan, MKamber.范明, 孟小峰译.数据挖掘概念与技术.第二版.北京.机械工业出版社.2007.146一176

[3]张万水, 陈利国, 黄运坤, 陈咏梅, 王凤珍.数据挖掘技术及其在中医遣方用药规律中的应用[J].辽宁中医药大学学报.2006.8 (04) :62一63.

[4]孙蕾.医学图像智能挖掘关键技术研究.西北工业大学博士论文.

[5]秦中广.粗糙集在中医类风湿症候诊断中的应用[J].中国生物医学工程学报.2001.20 (4) :357～363.

[6]程建国.神经网络在基因序列预测中的应用研究[J].微计算机信息.2008.24 (11) :264～265.

[7]徐元熙.数据挖掘在医院信息系统中的应用研究[J].微计算机信息.2008.24 (11) :188~190.

医学专家盘点8大美容陷阱篇11

正因为如此，与美容有关的产业兴盛不衰：美容品、保健品、装饰品及各种美容院几乎无处不在，就连餐饮也打起了美容牌。然而，大家可曾知道，这里面有很多都是为美女们设立的“温柔陷阱”。

陷阱一：美容院的“托儿”。

现象：不少美容院为了宣传，通常会让一些资质不错、皮肤较好的女性作为他们的“形象广告”。当有顾客上门时，先指出顾客的皮肤有这样那样的缺点，然后让“形象广告”出场。“形象广告”会说，自己的皮肤在做美容之前也很差，但做了几次以后就大有改观。于是，顾客开始“心痒”了，既然效果那么好，试试何妨？

点评：不可否认，不少人在刚开始做美容时，确实能看到一定的效果。但是，每个人的皮肤情况是不一样的，有些人做美容不会过敏，有些人却很容易过敏或对美容品产生依赖。特别是长期做美容，依赖性更强，一旦不做，皮肤就像吃了鸦片一样难受，会变得干燥、脱屑、没有光彩，甚至还会形成色斑。

女性朋友在去美容院之前，不妨先搞清楚自己是不是非做美容不可。可以到医院听听医生的建议，了解一下自己是否需要做美容、什么样的美容适合自己？已经在做美容的女性朋友，若发现自己的皮肤有过敏或“上瘾”迹象，应立即停止，以免让皮肤“上更大的当”。

陷阱二：速效美容产品，让你瞬间“焕然一新”。

现象：一种美容品要受大众欢迎，必须要具备“效果快而明显”这一条件。于是，不少生产厂家在美容品内添加了类固醇激素和一些重金属物质，以获得快速增白、嫩肤的效果。爱美女性们发现该产品美容效果那么好，自然会继续用下去，根本不会考虑后果。如果她们再将自己的“美容妙方”在朋友和同事中广为传播，一张坑害更多女性的“网”就这样撒开了。

点评：在美容品中添加激素等成分已不是什么秘密。但我国《化妆品卫生规范》中明文规定，化妆品中禁用的物质包括孕激素、雌激素、雄激素效应物和糖皮质激素等。若将某些含孕激素、雌激素的特殊用途化妆品或是含有糖皮质激素的药膏（如肤轻松霜、地塞米松霜等）作为护肤品使用，短期内效果非常好。但长期应用，可引起皮肤毛细血管扩张、色素沉着、多毛、痤疮加重、皮肤变薄、月经不调等不良反应。一旦发现自己或看到别人在使用某种美容品以后，有很快、很明显的效果时，一定要多长一个心眼，切莫被爱美之心蒙蔽了。

陷阱三：进口产品，美容效果一定好。

现象：这年头，国产货都不“吃香”，进口货哪怕再贵，也有广阔的市场。

似乎用什么牌子的美容产品已成了身份、品位的另一种象征。如今，不少爱美女性吃的蛋白粉、维生素、深海鱼油，用的面霜、眼霜、面膜，几乎都是“洋货”。

点评：人种不同，年龄不同，环境不同，饮食习惯不同，护肤品的作用和代谢都有差异，适合外国人护肤品并不见得完全适合中国人。更值得一提的是，有些进口化妆品中还添加了胎盘素、动物羊水、胶原蛋白等动物源性成分。这些成分有些是变应原，会导致皮肤过敏；有些对皮肤有直接刺激作用；有些则会在人体内蓄积，形成慢性危害；还有些会带来传染病和激素类反应。

大家在购买化妆品时，应看是否有监督标注内容，注意识别假冒伪劣产品。根据有关化妆品基本法规规定，化妆品标签必须标注的内容及要求有：产品名称、制造者名称和地址、净含量、生产日期或保质期、生产许可证号、卫生许可证号和产品标准号、进口化妆品应标注进口化妆品卫生许可证批准文号、特殊用途化妆品还须标注其批准文号、进口化妆品应同时使用规范汉字标注各项内容等。如果没有标注以上内容，最好不要购买。

陷阱四：高科技产品，让你永葆青春。

现象：在科学发展日新月异的今天，似乎没有什么是不可能的。美容和高科技沾上边，留我青春还不容易？基因疗法、纳米技术、太空水……只要戴上高科技的帽子，都敢跑去为女人们“锦上添花”。

点评：真希望这些东西能让天下女人青春永驻，美丽花儿永不凋谢。可事实真的是这样吗？纳米技术虽然在某些工业产品上有所应用，但也是很初步的，还远远没有到多领域广泛应用的程度。基因疗法属于概念炒作，实验室阶段的难题尚未攻克，治疗从何谈起？

陷阱五：专家、名人现身说法，教授美容秘诀。

现象：一些商家聘请所谓的医学专家或名人为其产品做广告，现身说法，肆意夸大美容品的祛斑、增白疗效。不明就理的观众看到别人有那么好的美容效果，哪能不动心？再说还有“医学专家”的认可，能不信吗？

点评：其实，黄褐斑等色素性疾病在很大程度上与内在因素有关，仅通过外在美容，难以取得持久疗效。在常用的去斑产品中，有些是氧化还原剂，近期祛斑效果很好，可过不了多久就复原了，有的甚至比原来更明显；有些含有汞，因为汞有增白作用，短期疗效很好，但长期使用会引起皮炎、脱发，甚至坏死性骨病、手足震颤等中毒表现。

陷阱六：古老的传说，现代版的美容梦。

现象：大力宣传古代美女如何驻颜有术，推出埃及艳后的金丝美容，皇宫内的美容秘方，颇具神秘感和高贵感。

点评：金丝美容的骗局已被揭穿。将来，类似的骗局会不会再次上演？爱美的女性们会不会再次受骗？其实，骗子的骗术并不高明，“长生不老、青春永驻”只是神话，不是现实。

陷阱七：流行效应，势不可挡。

现象：在美容界，流行风盛行。十年前的文眉，五年前的换肤，三年前的注射美容，近两年的光子嫩肤，一阵风过去，另一阵风又来。

点评：外面流行什么，就跟风照搬什么，对自身的情况不了解，却喜欢听别人的意见，随意地把自己的身体当作“试验田”，很多爱美女性都犯过这样的错吴。其实，“跟风美容”是非常危险的。选择了不适合自己的美容方法，浪费钱财事小，美容不成反毁容事大。前些年异常火爆、去年被禁的注射隆胸美容就是一则很典型的例子。

陷阱八：免费美容，温柔一刀。

现象：走在大街上，突然被人拉住，说是可以让你免费做一次美容，还能免费检测皮肤。然而，当你躺在美容床上做完免费的廉价美容以后，他们便开始游说你，说你的皮肤有多不好，必须接受哪些美容治疗，当然，那些是需要付费的。当你不接受时，威胁、恐吓就会随之而来。

点评：这世界永远都没有免费的午餐，当自己根本不需要这类服务时，千万不要贪这种小便宜。白花冤枉钱不算，弄不好皮肤还遭罪，心理也不平衡，何苦？

专家寄语

基于Java的医学图像数据接口篇12

医学原始数据的进入是进行图像分析的第一步。但是专用医学图像(如CT, MRI)不采用BMP, JPEG等一般格式,而是以DICOM格式存放的。因此需要通过一个通用数据接口提供双向服务:(1)实现DICOM数据的解码,得到图像及相关病历信息。(2)提供DICOM图像数据向BMP ,JPEG等普通格式转化的功能。(3)经计算机处理后的图像数据及其他一些非DICOM图像数据编码为DICOM格式,亦即形成新的 CT/MRI文件,从而可以进入DICOM专用网络。

1 DICOM标准与Java实现接口的优势

DICOM协议主要是针对PACS系统中的图像格式的定义和图像通信的规范。其作为目前通用的医学图像标准,最重要的特性之一在于其面向对象性。这就决定了在该标准的软件实现中,Java具有独特的优越性。DICOM标准的面向对象性是基于一组显式的、细节化的实体关系模型(Entity-Relation模型)。模型具有以下三要素:(1)各种实体如患者(patient)、图像(image)、研究(studies)等代表对象。(2)属性,描述了对象的特性。属性赋值以后,抽象的实体成为实例(Instance)。(3)服务,处理信息对象的方法,如文件的存储和传输操作。E-R模型关系如图1所示。

例如:源实体为患者,目标实体为CT图像,关系为所属,这两个实体之间是1对n的关系。

Java具有以下几个特点:(1)面向对象性。(2)与平台无关性。(3)方便的网络移植性。用Java来实现DICOM接口,可以体现良好的数据抽象和数据封装,这与DICOM标准的基本设计思想完全吻合。最终目标是建立起一个与平台无关,同时基于网络运行的医学图像分析系统。因此基于Java开发的DICOM数据接口以Java包的形式向整个系统提供无缝连接,同时对其它Java的医学软件提供通用服务。

2 软件设计与实现

已有的同类型软件存在的主要问题在于:(1)通用性不够,只适用于特定范围。(2)功能的实用性没有很好的贴近医院的使用习惯。(3)无法保证效率。具体而言,就是指运算时间和内存占用这两方面的性能指标。由于一般情况下,对软件性能的要求不是基于单个文件,医院通常对每个患者的一次病理分析会产生几十兆的DICOM文件序列,软件的算法结构和内存分配是否合理,会对软件的性能有非常明显的影响。

2.1 通用性设计分析

目前很多DICOM软件之所以通用性不是很好,是由于设计时没有能够充分考虑到DICOM数据编码的灵活性,因而没有在程序中作相应处理。DICOM文件是标准的二进制流文件,它实际上是对各种对象的属性信息进行编码,其结构层次为:数据元素(Data Element)一数据集( Data Set) — 消息(Message)。作为最小单位的每一个数据元素在DICOM的数据字典中都有明确定义:惟一性标志(TAG) ,名称(NAME)和类型表示(VR)。数据字典以静态属性的形式封装进独立的Java类。从局部看按照TAG值升序排列,DICOM文件顺次存放如图2所示。

整体来讲,文件分为信息头和图像两大部分。前者存放患者信息和图像的总体指标,后者存放图像的象素信息。DICOM标准规定:信息头中一些关键属性值的设置非常灵活,而且对其它相关方而有直接影响。在一些文献中试图对这种灵活性进行归纳,本研究认为这些归纳并不全面。而一个全面的总结正是通用型程序结构的设计基础,具体如下:

(1)传输语法对信息头和图像部分编码的影响。

传输语法(Transfer Syntax)属性的值控制整个文件的编码结构。程序必须据此判断。

①类型表示(VR)在编码时显式(explicit)还是隐式(implicit)列出,相应“长度”项的位置(距“标志”项的偏移量)会有所不同。而“值”的读取一般依赖于正确的“长度”。

②字节顺序(byte ordering)是低位地址低位字节顺序(Little Ending)还是低位地址高位字节顺序(Big Ending)。从根本上影响到Java I/O中对二进制字节流的组合方式。

③图像数据是否经过压缩。大部分DICOM图像是没有经过压缩的原始数据,对于压缩图像,可以有JPEG压缩和游程编码压缩( RLE)两大类,并下分有损和无损情况。Sun公司提供了处理JPEG压缩/解压缩包。com.sun.image.codec.jpeg。RLE的压缩/解压缩算法包也是外挂的,可以很方便实现。如图3可以看出文件预处理过程。

(2)信息头对图像部分编码的影响。

①图像类别。

图像类别(Modality)属性直接影响后面象素值的读取,对于MRI灰度图像,没有CT灰度图像所具有的斜率,截距概念,也就没有相关的预处理过程。同时MRI灰度图像没有预定义窗宽、窗位,因此根据窗宽、窗位调整象素值的过程有别于CT灰度图像。

②光度表示。

光度表示(photometric Interpretation)属性定义如下几种:MONOCHROME灰度图像,RGB彩色图像,ARGB彩色图像,HSV彩色图像等。彩色图像的存储方式有别于灰度图像,同时也不存在调节窗宽、窗位的处理过程。

③位数分配和最高位。

位数分配(bits allocated)属性规定灰度图像中单一象素所占用的位数。最简单是8位的情况,16位时必须按照传输语法中低位在前还是高位在前进行两两字节的组合。12位(非8的倍数)是较为复杂的情况,需要结合最高位(high bits),每二个字节组合,再进行分拆。

④窗宽和窗位。

对于CT图像,经过组合分拆等方式解码后的象素值仍然不能直接用于成像,还需要从CT图像的信息头中提取缺省窗宽(Window Width)和窗位(Window Center)的信息,将范围内的象素值映射为成像的灰度值范围0～255。而MRI图像没有提供上述值,DICOM标准中没有明确规定如何获得缺省图像。这里给出遍历的方法,以整个象素范围作为窗宽,范围的中心值作为窗位。这样,MRI缺省图像将表现全部的象素信息。

由以上分析,对DICOM文件进行解码(读取)处理的程序流程图如图4,图5所示。

2.2 对性能的考虑

当DICOM文件的解码/编码是以序列为单位进行时,内存分配和时间两个性能指标是否得到优化显得尤其重要。

(1) 内存分配上的优化考虑

200幅512×512×16Bit的CT图像,驻留内存的象素值就需要100M左右的空间,另外再考虑到读取文件所开的缓冲区和其他棍种临时空间,因此必须尽最大可能提高内存利用率。实际操作中,采取以下方法:①Java对内存的垃圾回收机制无法满足要求,由于临时空间巨大,一旦不再需要即显示清除。②采用合理的数据类型,如灰度范围是0～256,通常是考虑用short类型。而本研究以byte型(-128-127)加偏移量代替,可以成倍缩小所需空间。

(2)操作时间上的优化考虑

JAVA在文件I/O的处理速度上落后于C/C++,只有在软件的算法结构上加以优化弥补。由程序控制流程可见,操作时间分为三部分:①遍历文件,直到找到象素标志(TAG),该位置为象素部分在整个文件中的偏移量。②对该位置之前的文件信息头部分,遍历各种属性值。③对该位置之后的文件图像部分,进行组合、拆分、映射等处理。其中,第一部分对于单个文件是必不可少的。Java读二进制流文件,要给出接收缓冲区的大小,而仅为文件信息头部分就开大缓冲区是不符合内存分配的原则。本研究采取的是“探测法”,例如先接收4096字节数据,如果找不到象素标志(TAG),再开4096字节。然而这在序列读取图像时带来时间上的消耗是令人难以接受的。幸而序列文件在象素偏移量上保持一致,因此只要对第一个文件进行“探测法”操作,其他文件可以直接以此偏移量为界,进入后两部分处理。此外,对于信息头的处理,序列文件在患者的某些属性上也具有一致性。因此,只需一个文件操作,就可以给出整个序列这些属性的值。后续文件可以跳过对它们的判断。经过以上优化整个操作时间大大减少。

3 结束语

为了匹配已使用面向对象分析方法的DICOM标准,采用了同样基于面向对象的Java语言进行接口设计,以包的形式进行封装,为基于Java的医学软件提供了通用服务,从而实现DICOM医学图像数据接口。同时在功能上对接口进一步有所扩展,实现了DICOM格式和其他普通格式,如BMP,JPEG的双向转换。同时考虑到运行性能,在数据载入的方式上采用序列化方式,从而使内存占用和运算时间达到最大限度的优化成为可能。

摘要：Dicom3.0标准作为目前通用的医学图像标准,最重要的特性之一在于其面向对象性,本研究依据这一重要特性,描述了如何使用面向对象的Java语言实现该标准的接口软件,从而解决了Dicom硬件设备与后继PACS处理软件的接口问题。同时,为了克服现有PACS系统的硬件瓶颈,对数据读入方式采取了优化,大大降低了CPU运行时间和内存占用空间,提高了系统的运行质量和性能。

关键词：医学数字成像和通讯标准,医学图像存储和传输系统,接口,面向对象

参考文献

[1]David M Geary.Java2图形设计(卷II:SWING)[M].立建森,译.北京:机械工业出版社,1999.

[2]Bruce Eckel.Thinking in Java[M].北京:机械工业出版社,1999.

[3]章毓晋.图像处理和分析[M].北京:清华大学出版社,1999.

[4]Bas Revet.DICOM Cook Book for implementations in Modalities,Chapter 1&2[M].Philips Medical Systems Nederland,1997.

【医学大数据】推荐阅读：

医学数据05-17

医学检验数据07-27

医学数据采集11-11

医学影像数据库07-09

研大医学-临床医学各大学排名05-30