科学数据服务

2024-06-21

科学数据服务(共12篇)

科学数据服务 篇1

科学数据是指在科技活动(实验、观测、探测、调查等)中或通过其他方式所获取的反映客观世界的本质、特征、变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集[1]61。大数据时代,越来越多的研究者重视并利用科学数据,科学研究方式也朝着数据密集型研究转变[2]。

科学数据具有重要的科学、经济和社会价值,国外许多基金会认识到组织和保存科学数据的重要性,要求研究者在项目方案里必须包括一份两页的数据管理计划[3]。国外学术研究图书馆瞄准时机,为研究者提供科学数据服务(ResearchDataService,RDS)或者数据监管(Data Curation)服务,服务的内容主要包括数据情报服务和数据技术服务[4]。美国大学与研究图书馆协会(ACRL)认为,科学数据服务是学术图书馆的十大趋势之一[5]。

许多学者认为图书馆是开展科学数据服务最合适的部门,那么图书馆员对此持何种观点,他们有没有做好准备呢?本文通过介绍美国研究图书馆协会(Association of Research Libraries,ARL)成员图书馆馆员对科学数据服务的认识,分析ARL成员图书馆馆员在学科背景、态度和服务动机等方面的情况,探讨一些对我国高校图书馆开展科学数据服务具有借鉴作用的方法。

一、ARL成员图书馆馆员科学数据服务认知现状

北美部分高校目前已经开展科学数据服务,本节通过田纳西大学的Carol Tenopir等研究者出版的关于学术图书馆员对于科学数据服务认知情况的报告[6]70,分析ARL成员图书馆馆员对科学数据服务的认识情况。该报告从ARL成员图书馆网站选取可能从事科学数据服务的馆员为样本,通过问卷调查的方式调研其对科学数据服务的态度。该报告共发放问卷948份,回收问卷223份,回收率达23.5%。其中,经常提供科学数据服务的馆员占27.9%,偶尔提供科学数据服务的馆员占40.5%,从未提供科学数据服务的馆员占31.5%。

1.有关提供科学数据服务自我能力的基本认知。报告通过技能、知识、时间、培训等方面的四个问题,调查图书馆员对于提供科学数据服务的自我能力的基本认知。

(1)自我教育及专业背景认知。调查显示,一半左右的被调研馆员认为自己具备足够的教育和专业背景为用户提供科学数据服务。相较于技能、知识和教育方面,被调研馆员对于自己的学科专业知识更为自信,认知度更高(见图1)。此外,调查还发现是否参与科学数据服务直接影响图书馆员对于提供科学数据服务的信心。对于经常提供科学数据服务的45位图书馆员来说,有77.8%的馆员认为自身具备提供科学数据服务所需的技能、知识和教育背景;而对偶然或者从未提供过该服务的馆员来说,此比例分别仅有46.3%和22.2%。因而,从事科学数据服务的馆员要比偶尔或从未从事该服务的馆员对自身的教育和专业背景更有信心。

(2)自我时间及能力提升机会认知。调查显示,一半以上的被调研馆员同意图书馆支持自己参加科学数据服务相关培训及会议,提供机会发展科学数据服务相关技能。但是,由于调查中偶尔和从未提供科学数据服务的馆员较多,因而近一半的图书馆员认为自己没有足够的时间提供该服务(见图1)。此外,调查还发现参与科学数据服务的程度对于图书馆员时间及能力提升认知有显著影响。大多数经常提供科学数据服务的馆员,认同自己有足够的时间提供该服务,且也有机会提升相关技能;而偶尔和从未提供科学数据服务的馆员却认为自己没有足够的时间提供此服务。

2.有关科学数据服务重要性的态度认知。报告通过科学数据服务重要性、与图书馆核心价值一致性、图书馆提供科学数据服务必要性等问题,了解图书馆员对于科学数据服务重要性的态度认知。

(1)科学数据服务重要性认知。调查显示,绝大多数被调研馆员认同科学数据服务非常重要,有利于提高机构的影响力,而参与科学数据服务的程度对于重要性认知的影响不明显。在经常提供科学数据服务的馆员中,有92.8%认为科学数据服务是重要的;偶尔提供和从未提供过科学数据服务的馆员对此的认同度也分别高达92.6%和76.8%。

(2)科学数据服务对于图书馆重要性的认知。在科学数据服务对于图书馆重要性方面,绝大多数被调研馆员认为科学数据服务与图书馆核心价值一致,且图书馆有必要提供该服务;一半以上的馆员认为科学数据服务与图书馆其他服务工作一样重要,且图书馆是提供科学数据服务最合适的部门(见图2)。通过进一步分析发现,图书馆员参与科学数据服务的程度对于对图书馆重要性的认同度影响不明显。无论提供过科学数据服务与否,馆员都高度认同图书馆有必要提供科学数据服务,其与图书馆核心价值相符。但在调查图书馆是否为提供科学数据服务最适合的部门方面,参与科学数据服务的程度对其认同度略有影响,参与程度越高的馆员越认同图书馆是提供科学数据服务最合适的部门。

3.有关参与科学数据服务动机认知。该报告通过工作职责、专业兴趣、用户需求等方面,分别对提供过和未提供科学数据服务的馆员进行调研,了解图书馆员参与科学数据服务的动机,分析未提供科学数据服务的影响因素。

(1)工作职责。工作职责是图书馆员参与科学数据服务的重要动机之一。在经常提供科学数据服务的馆员中,工作职责是提供该服务最重要的因素;在从未提供过科学数据服务的馆员中,工作职责是第二影响因素。虽然,在偶尔提供科学数据服务的馆员中,工作职责对其动机影响不明显,但是他们认为科学数据服务对其从事的学科服务很重要,这是影响他们参与科学数据服务的重要原因之一。

(2)专业兴趣。对于经常和偶尔提供科学数据服务的馆员来说,专业兴趣是其参与科学数据服务的重要内部因素。特别是对于偶尔提供该服务的馆员来说,专业兴趣是其参与科学数据服务最重要的动机。

(3)用户需求和机构参与度。对于从未提供过科学数据服务的馆员来说,缺少用户需求是影响其参与科学数据服务的首要因素,其次是科学数据服务不是他们的工作职责,而所在机构没有积极参与科学数据服务也是影响其未从事科学数据服务的重要因素之一。此外,对于经常或偶尔提供科学数据服务的馆员来说,所在机构积极参与科学数据服务也是影响他们参与科学数据服务的重要动机之一。例如,在他们的工作职责中包含科学数据服务,这足以证明其所在的图书馆非常重视科学数据服务,并专门设立了数据馆员的岗位。

二、对我国高校图书馆科学数据服务的启示

1.科学数据服务为高校图书馆发展提供重要机遇。近30年来,科学技术的迅猛发展,使得科研工作者所产生的科学数据量已远超从前;而随着互联网及其他新技术引起的科研方式的改变,科技创新也越来越依赖于对这些海量数据的再利用。因此,在当前环境下,对科学数据的采集、存储、处理和传播工作显得尤其紧迫和艰巨。ARL成员图书馆馆员问卷调查显示,多数馆员认为图书馆有必要提供科学数据服务,且与图书馆核心价值相一致。图书馆作为“知识宝库”,其核心价值在于对科学文化知识信息予以组织,并向需要这些知识信息的人们予以传播,并满足他们的需求[7]7。科学数据作为科学文化知识信息的一种,由图书馆为用户提供相应的服务与图书馆核心价值吻合。另一方面,绝大多被调研的ARL成员图书馆馆员认为,科学数据的存储与共享有利于展示高校学术水平,提升高校可见度与声望。科学数据服务为提高图书馆服务提供重要机会,图书馆应抓住机遇,加大服务的深度和广度,进一步与高校科研融合,提升自身价值。

2.激发用户需求是高校图书馆开展科学数据服务的立足之本。从ARL成员图书馆馆员问卷调研中可看出,图书馆员没有提供科学数据服务的主要因素是缺乏用户需求。科学数据服务的提供,首先要考虑高校研究人员是否有强烈的需求,如果高校研究人员对于科学数据服务无需求,对图书馆的数据服务不予支持,就不会积极主动地向图书馆提供本人的科学数据,图书馆所收集的数据也将缺乏全面性和连续性,其作用将难以得到发挥。因此,用户需求永远是推动高校图书馆发展不变的动力,是开展科学数据服务的立足之本。

目前,我国许多学校还没有科学数据管理意识或者意识不强,图书馆应当通过各种方法提高研究者的数据素养,激发其潜在需求。首先,图书馆可以与学校管理层面沟通,制定科学数据相关政策。例如,建议学校制定相关政策,要求高校研究人员将科学数据提交给图书馆,以此作为科研项目申请结题的重要依据。其次,图书馆要加强科学数据内容及管理的宣传推广,让更多的研究者了解数据管理相关知识和内容,了解其重要性和迫切性。

3.高校图书馆积极深入参与科学数据服务是促进其持续发展的重要内因。ARL成员图书馆馆员的问卷调查从许多方面都显示,图书馆是否参与科学数据服务,直接影响图书馆员对该服务的认知度及参与的积极性,从而间接影响科学数据服务的发展。调查显示,世界综合排名前50名的高校图书馆中,仅50%提供了科学数据服务[8]19。开展科学数据服务的高校图书馆不仅数量不多,且服务内容参差不齐,有待提高,这影响了科学数据管理与共享的可持续发展。

高校图书馆作为多个利益相关者比较认可的科学数据监管机构,应从战略及战术上加大科学数据服务的力度。首先,图书馆管理者应提高对科学数据管理相关内容的认知,从政策上给予相应的优先权;其次,图书馆应提高图书馆员的科学数据服务素养,并将科学数据服务纳入其工作职责;第三,图书馆应扩大和加深科学数据服务的内容及层次,应在大力开展数据监管介绍、管理指南制定、数据素养培训的基础上,更加深入地嵌入到科研过程的各个阶段。

摘要:介绍了ARL成员图书馆馆员对科学数据服务的认识,探讨一些对我国高校开展科学数据服务具有借鉴作用的方法。建议高校图书馆抓住机遇,通过各种方法激发用户需求,加大科学数据服务的参与力度,进一步与高校科研融合,提升自身价值。

关键词:科学数据服务,学术图书馆,认知

参考文献

[1]司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013(1).

[2]Hey T,Tansley S and Tolle K.第四范式:数据密集型科学发现[M].潘教峰,张晓林,等译.北京:科学出版社,2012.

[3]National Science Foundation.NSF Data Management Plan Requirements[EB/OL].[2014-01-07],http://www.nsf.gov/eng/general/dmp.jsp.

[4]Tenopir C,Birch B&Allard S.Academic Libraries and Research Data Services:Current Practices and Plans for the Future[EB/OL].[2013-11-29],http://www.acrl.ala.org/acrlinsider/archives/6297.

[5]ACRL Research Planning and Review Committee.2012 Top Ten Trends in Academic Libraries[EB/OL].[2014-01-07],http://crln.acrl.org/content/73/6/311.full.pdf+html.

[6]Tenopir C,Sandusky RJ,Allard S,Birch B.Academic librarians and research data services:reparation and attitudes.IFLA J,2013,39(1).

[7]汤利光.论图书馆核心价值的确立[J].图书馆,2009(1).

[8]邢文明,吴方枝,司莉.高校图书馆开展科研数据管理与共享服务调查分析[J].图书馆论坛,2013,33(6).

科学数据服务 篇2

国家财政性资金资助的科技活动产生的科学数据是我国科学数据的主体, 为了了解我国科学数据共享的.现状, 规范科学数据汇交、共享、管理, 科技部以项目任务的形式下达了科学数据共享研究.本文以基础调查为依据, 展示科学数据共享现状、立法现状、管理模式, 并提出了几点认识.

作 者:路鹏 苗良田 莫纪宏 李志雄 李学良 孙士f 王松 Lu Peng Miao Liangtian Mo Jihong Li Zhixiong Li Xueliang Sun Shihong Wang Song 作者单位:路鹏,苗良田,Lu Peng,Miao Liangtian(防灾科技学院,河北燕郊,065201)

莫纪宏,Mo Jihong(中国社会科学院法学研究所,北京100720)

李志雄,Li Zhixiong(中国地震局地震预测研究所,北京100036)

李学良,孙士f,王松,Li Xueliang,Sun Shihong,Wang Song(中国地震台网中心,北京100036)

科学数据服务 篇3

关键词:数据密集型科学环境 第四范式 情报服务 科学数据

中图分类号: G250 文献标识码: A 文章编号: 1003-6938(2013)06-0105-04

大数据时代的到来,使得学术活动的信息数据来源、组成、价值以及处理技术都发生了巨大变化,数据就如传统价值认识中的“黄金”一样,变得无比重要和价值巨大[1],这些变化也影响到了学术信息的交流环境,使得科学研究向数据密集型科研转变,越来越多的科研工作是基于现有数据的重新分析、组织、认识、解析和利用,数据成为了科学研究的基础。虽然说从目前来看将数据比作“金矿”有夸大之嫌,但也充分的说明了数据的重要作用与价值。同时,我们也看到,在这种数据密集型科学环境下,变化的不只是科学研究,一些服务机构特别是信息服务机构的服务内容、服务方式也在悄然发生着变化,对能为用户创造价值与创新的科学数据日益重视,基于数据的服务也成为了它们的服务增长点,对新型科学环境下的服务发展学术研究也正在如火如荼的进行之中。基于此,本文从数据密集型科学环境出发,对科学研究的第四范式、数据密集型科学环境的形成与推动因素进行了概述,重点对数据密集型科学环境下的情报服务内容进行了陈述,同时也对情报服务的发展途径如数据建设、人才建设、协作机制建设进行了分析。

1 数据密集型科学研究兴起的社会环境

2007 年,Jim Grey在美国国家研究理事会计算机科学和远程通讯委员会( NRC- CSTB) 的演讲报告中首次提出了以数据密集型计算为基础的科学研究“第四范式”概念[2],并将其作为与实验科学、理论推演、计算机仿真三种科研范式平行的科学研究[3],但在对科学研究范式的发展及划分简单论述后,并未对第四研究范式的内涵、科学研究现状等进行深入论述。直到2009 年, 微软公司的TonyHey、Stewart Tansley和Kristin Tolle主编的《The Fourth Paradigm:Data- intensive Scientific Discovery》(第四范式——数据密集型科学发现)一书,才较为详细的登载了第四范式的内涵和意义等内容,并从地球与环境、健康与幸福、科学基础设施、科学交流四个方面展示了69 位学者从不同的视角观察、理解、分析和探讨[4]。

对数据密集型科学研究来说,科学研究第四范式强调传统的假设驱动将向基于科学数据探索的科学方法方向转变,并在这种数据的转变与方法实现中,数据依靠工具获取、分析与处理,依靠计算机存储。笔者认为,大数据时代的来临,数据的来源、类型、存在形态将异常丰富,可以是实验观察数据、实验数据、仿真数据、互联网数据,也可以是产生于智能终端如智能手机、社交活动如微博、虚拟社区中的信息行为数据等;类型和存在形态可以是已经可以灵活保存于数据库、机构库中的结构化数据,也可能是目前只能通过路径记录、现场拍摄才能记录的半结构化数据、非结构化数据。

从数据密集型科学研究的兴起与形成来看,数量庞大、类型丰富、价值巨大的数据产生即大数据时代的到来以及一方面产生数据、一方面又能实现对数据管理与应用的现代信息技术更新、发展是数据密集型科学环境兴起与发展的根本推动因素,而信息爆炸、关联数据运动、数据开放运动等直接推动数据密集型科学环境成熟的运动也都功不可没。

2 数据密集型科学环境下的情报服务

2.1 科学数据服务

2012年6月,美国大学与研究图书馆协会出版了《学术图书馆与科学数据服务》白皮书报告[5],该报告调查了美国和加拿大的大学与研究图书馆协会的351所成员馆的科学数据服务情况,结果显示尽管目前只有少数美国、加拿大的大学与研究图书馆协会成员馆开展科学数据服务,但也显示许多高校图书馆准备在未来一到两年内开展科学数据服务。这说明在当前的数据密集型环境下,开展科学数据服务将成为情报服务的主要组成部分。数据密集型环境下的科学数据服务,既可以借鉴普渡大学图书馆的D2C2分布式数据保存项目[6],开展诸如情报咨询、科学数据管理、科学数据查找服务,也可以借鉴澳洲国立大学依靠超级计算机设备进行的存储服务[7],提供大量范围内的数据存储、数据标注服务。且相信随着技术的发展与用户的需求变化,在未来的情报服务中,诸如科学数据的开发、发现、引用、标识、分析及技术支持等更大范围的数据服务都将会实现。

2.2 数据发现服务

产生于大量智能终端、社交网站、活动场所的海量、复杂的半结构化数据、非结构化数据的出现,使得传统的情报服务中的数据处理与数据服务变得困难,如何在数据密集型的科研环境下为用户提供数据的发现服务,成为了数据密集型科研环境下的主要情报服务内容之一。Web、本体、XML、RDF、标签等技术的出现,使得数据资源的共享、检索、标注与利用更加便捷,实现系统化、语义化、网络化、自动化的数据发现服务成为了可能,在以谷歌为代表的IT数据发现服务带领下,业界掀起了基于数据发现服务的数据发现服务系统开发热潮,国内外研发了一批基于语义扩展搜索的数据发现系统,如ExLibris公司的Primo、EBSCO公司的EBSCO Discovery Service(EDS)、Innovative Interfaces公司的Encore等,OCLC的一站式知识资源发现与服务系统Worldcat Local,提供了全世界近2万个图书馆的馆藏纸质资源和部分数字资源的信息共17亿条[8]。在数据密集型科学环境下,数据发现服务不仅能为用户发现和关联可能存储于社会各个行业、多个领域、多个学科的数据知识,也能为用户发现数据表面、少量数据不易于发现的价值,进而为用户的市场预测、信息行为等做出态势分析、前景判断提供知识与数据支撑。

nlc202309040707

2.3 知识咨询服务

一直以来,信息咨询服务都是情报服务的主要组成部分,也为企业信息分析、情报收集等工作提供巨大的参考与帮助作用,得到了情报服务用户的高度认可。但在数据密集型环境下,由于提供咨询服务的数据来源、类型、处理平台、服务方式都将发生巨大变化,传统的咨询工作并不会满足用户的需求,因而依赖于海量知识、依靠数据分析系统、为用户提供解决问题知识的知识咨询服务将应运而生。与传统的信息咨询、参考咨询相比,知识咨询服务更具专业化、知识化以及实现多样化等特点,即需专业的服务人员借助专业的服务平台实现对专业学科资源的专业分析,用知识服务平台实现对知识资源的知识处理并提供用户知识产品,用多样化的技术手段来处理多样化的数据进而通过多样化的途径提供多样化的服务。由于知识咨询以用户的知识需求为出发点,以复杂的海量数据为知识来源,以面向大数据的分析、挖掘软件为工具,以向用户提供最终可以解决问题的知识产品为目标,因此,知识咨询将在数据密集型科学环境下广泛的用于企业情报收集、政府决策分析、个人科研创新等领域。

2.4 学科服务

数据密集型科学环境的兴起与发展,使得存在于社会每一个角落的各类数据以及产生于每一个实验、调查等科研活动的相关数据都可能成为知识创新与科学研究的主要知识来源,但对这些数据、知识的组织与利用并不一定因为科研人员信息素养的水平差异而能成功实现,于是,一些科研院所、大型科研团队日益重视科研队伍建设时的图书馆员等能灵活检索和运用数据资源的团队组成比例,国外兴起的数据监管教育就是顺应这种科研人才队伍的需求而产生的,这类人员的主要职能是利用专业的学科背景知识,运用掌握的信息素养知识,为科研团队提供专业的学科服务。在未来日益发展的数据密集型科学环境下,这类学科服务将突破目前的第一代、第二代学科服务形式,即图书馆领域的设置学科馆员形式与嵌入式学科服务形式,出现情报服务机构与科研团队合作形式,进而为科研活动提供更为专业、有团队协作保障的学科服务。

2.5 数据云服务

云计算的发展以及Google、亚马逊等云计算服务提供商多种云服务平台的推出,为情报服务的云服务实现提供了便捷条件。由于云服务是将分布式计算、网格计算、并行计算以及Internet结合起来的一种新兴的IT资源提供模式,实现了将动态、可伸缩的IT资源以服务方式通过互联网提供给用户[9],因此,情报服务对于云计算的应用并不需要昂贵的硬件设备、专业的技术人员以及种类繁多的软件操作平台,只需要根据自己的用户需求特征来租用合适的云平台及服务,以通过云计算虚拟技术而实现在云计算的技术支撑环境下提供数据的上传、下载、运算等服务。云服务的模式主要有IaaS(Infrastructure as a Service,基础设施即服务)、PaaS(Platform as a Service,平台即服务)、SaaS(Software as a Service,软件即服务)等三种模式[10]。从目前的云计算服务提供商来看,情报服务的云平台既可以选择Google和Amazon等云服务提供商提供的云平台,大型服务机构也可以借鉴OCLC与美国国会图书馆通过自建云服务平台来实现对用户的云服务。

2.6 数据分析服务

在数据密集型科学环境下,不管是对用户提供诸如上述的科学数据、知识咨询、数据发现等服务,还是可能出现的如用户定制的数据关联、数据发布等服务,数据分析都将是其实现的主要组成部分,只不过常态的科学数据、知识咨询等服务,情报服务机构的依赖资源是云数据、机构存储数据与购买数据等,即主要以社会或机构公有数据为主,但用户的个性化定制如数据关联等服务可能主要以用户个体私有数据为主。同时,需要注意的是,数据密集型科学环境下的数据分析,需以一些系统平台和技术为支撑,如当前运用较多的可视化技术、数据挖掘与语义处理等。

3 数据密集型科研环境下的情报服务发展

3.1 重视对数据资源建设与价值挖掘

IBM的《分析:大数据在现实世界中的应用》白皮书认为数据是大数据时代业务发展的主要驱动因素之一[11],一些IT业发达的国家如美国、印度等近来出现了一批以数据的获取、聚合、加工为盈利手段的企业,由此可以看出数据在业务发展中的价值,对于提供以数据为知识来源与主要业务实现基础的情报服务来说更是价值巨大。情报服务机构如图书馆、情报研究所等应认清数据在未来情报服务中的重要性,提高数据收集意识,一方面,对现存结构化数据进行关联、标注、索引等分析与重组处理,实现数据的关联化、语义化,以为数据的发现与关联打下基础;另一方面,注重隐藏着巨大价值但目前收集几乎空白的非结构化数据、半结构化数据的建设,为将来的情报服务提供丰富的数据保障。

3.2 重视对人才队伍的建设与培养

《中国大数据技术与服务市场2012-2016年预测与分析》报告认为“大数据相关人才的欠缺将成为影响大数据市场发展的一个重要因素”[12]。IDC认为中国大数据技术与服务市场将会从2011年的7760万美元快速增长到2016年的6.16亿美元,同时麦肯锡 (McKinsey)也认为到2018年,美国需要14~19万名具有“深度分析”经验的工作者,以及150万名更加精通数据的经理人。而多种数据显示这类工作人员非常稀缺,如著名的国际研究暨顾问机构Gartner就认为只有1/3的新的工作岗位能雇佣到熟悉大数据技能的IT专业人员[13]。人才问题同样也会影响到未来数据密集型科学环境下基于大数据的情报服务,因为对数据分析、数据发现等情报服务来说,其不仅要有传统情报服务的信息检索、组织等信息素养,还需掌握对大数据的平台分析等技术,更要在学科服务中具备一定的专业知识。要满足这种服务业务的发展需要,情报机构进行人才引进与人才培养是唯一的两条出路,并且需相辅相成,即一方面,引进一些IT服务商的数据科学家、数据工作者以及高校数据监护、数据监管专业的毕业生,另一方面,选择与高校、IT公司合作,进行现有人才的培训培养。

nlc202309040707

3.3 重视情报服务合作机制的构建

大数据时代的数据特点决定了数据的收集、利用都需以机构间、团队间的合作为基础,因此,在数据密集型科学环境下,情报机构既需要在数据资源上实现互相的共建共享以避免出现资源重复建设,还需在人才培训、技术合作上实现互补,以通过资源共享、机构协作实现用户需求的最大满足。同时,开展校际合作、校企合作也是一个新的发展思路。这些合作机制的建立,一方面将进一步增强数据资源的互补性,拓展数据资源体系范围,充分发挥科学数据的使用价值;另一方面,合作协作也将增强人才队伍实力,为情报服务的开展拓宽了人才队伍知识领域,提高服务能力。

4 结语

大数据时代才刚刚来临,科学研究的第四范式也尚处于日益成熟阶段,数据密集型科学环境的发展还并不成熟,数据的价值也未在诸多领域得到体现,但随着数据密集型科学环境的日益成熟与数据价值的日益体现,情报服务的数据服务价值也会被社会广泛认可,适应用户与社会发展需求的服务内容创新、方向转变更将必不可少,重视数据资源、人才与合作机制建设,迎接日益社会发展步伐的需求挑战,将是情报服务机构抢占先机的关键决策。

参考文献:

[1]掘金大数据里的金矿[EB/OL].[2013-10-28].http://www.

cyzone.cn/a/20121210/236492.html.

[2]周晓英.数据密集型科学研究范式的兴起与情报学的

应对[J].情报资料工作,2012,(2):5-11.

[3]梁娜,曾燕.推进数据密集科学发现提升科技创新能力:

新模式、新方法、新挑战——《第四范式:数据密集型科

学发现》译著出版[J].中国科学院院刊,2013,(1):115-121.

[4]Tony Hey, Stewart Tansley, Kristin Tolle. The Fourth

Paradigm:Data- intensive Scientific Discovery[ M] .

Microsoft Research,Redmond, Washington, 2009.

[5]Academic Libraries and Research Data Services: Current

Practices and Plans for the Future[EB/OL].[2013-01-29].

http://www.acrl.ala.org/acrlinsider/archives/6297.

[6]D2C2[EB /OL].[2012-03-15].http: //d2c2.lib.purdue.edu /.

[7]ANU supercomputer facility[EB /OL].[2013-09-01].http://

anusf.anu. edu.au /.

[8]孙杨. OCLCWorldcat Local发展综述[J].山东图书馆学

刊,2011,(5).

[9]辉之光.分布式计算 网格计算 并行计算 云计算[EB/

OL].[2013-08-12].http://www.cnblogs.com/oldhorse/archive/

2009/11/14/1603027.html.

[10]赵立威,方国伟.让云触手可及:微软云计算实践指南

[M].北京:电子工业出版社,2010.

[11]分析:大数据在现实世界中的应用- 创新型企业如何

从不确定的数据中获取价值 [R/OL].[2013-10-09].

http://www-935.ibm.com/services/cn/bcs/iibv/function/

bao/use_of_big_data.html.

[12]潘永花等.中国大数据技术与服务市场2012-2016年

预测与分析[R/OL].[2013-02-19]. http://www.idc.com.

cn/prodserv/detail.jsp?id=NTAx.

[13]大数据热 高端人才缺 [EB/OL].[2013-02-06].http://yjs.

cena.com.cn/a/2013-02-05/136003061381607.shtml.

作者简介:刘艳红(1969-),女,大连工业大学图书馆副研究馆员;罗键(1967-),男,甘肃省科技情报研究所工程师。

科学数据服务 篇4

信息科技风险可以说是唯一能够导致银行全部业务在瞬间瘫痪的风险, 人民银行和银监会已明确要求将信息科技风险防范作为银行业全面风险管理的重要任务, 可见科技风险防控的重要性。农行新一代核心业务系统Bo Eing的上线为后续业务发展提供了技术保障, 然而新的业务系统可能带来新的风险控制挑战, 主要表现为操作风险和业务风险。

操作风险是农行广东分行需要重点防范的风险之一。由于业务模式的转变, 以及计算机技术和网络技术的普及, 柜员动辄可办理金额非常巨大的业务, 而这些业务完全可能是瞬间到账的跨行、甚至跨国的转账业务, 因此一旦无意差错或者有意为之, 则会给银行带来巨大的损失。

业务风险是指交易本身的风险, 被金融犯罪分子利用进行洗钱等犯罪。反洗钱对维护金融体系的稳健运行, 维护社会公正和市场竞争具有重大的意义。“了解客户”是反洗钱工作的基石, 因此应重点关注可疑的交易和异常交易行为。

鉴于此, 农行广东分行着手研发一套适应新的业务应用系统的实时业务监管数据分析系统, 从技术层面来对业务交易进行实时有效监测和数据分析, 以便在业务办理过程中及时发现可疑交易和违规操作, 而不必等到损失已经造成一段时间后再来追究事故责任人的责任。该实时业务监管数据分析平台及时向监管人员提示预警, 减少造成损失的可能性。

一、系统功能

实时业务监管数据分析平台是农行广东分行面向辖内各二级分行及营业机构的业务系统实时监测和数据分析系统。该系统以网络浏览器的B/S架构和操作模式为主, 分层级管理, 主要是监管业务交易数据, 具有报文智能解析/重组、业务仿真、业务统计、柜员行为监测、报表和实时报警等功能。

(一) 报文智能解析/重组、对账系统业务仿真模块功能

支持报文协议重组、合成报文协议数据包。通过报文协议解析数据包后, 可以完全了解报文数据包数据格式, 支持对账系统业务仿真。该功能的提供, 可以缓解业务人员每天花费好几个小时手工下载对账系统数据, 提高了工作效率, 具体见表1所列。

(二) 柜员违规行为监测模块功能

监测刺探客户密码、刺探柜员密码、非办公时间签到等违规操作, 如监测柜员刺探密码功能。

(三) 业务统计模块功能

能够统计交易错误次数和地市交易次数等, 如统计地市交易次数功能。

(四) 可拓展功能

监测大额资金转账、大额资金汇划、大额资金清算和大额贷款等功能。此外监测异常交易行为, 如频繁地使用同身份证进行当日开户和当日销户等。

(五) 报表和实时报警模块功能

能够通过规则过滤产生报表和实时报警, 这能够立即对可疑行为 (如可疑洗钱行为) 进行响应, 并及时采取措施减少损失。可配置的规则能够在应用级别跟踪操作行为并对异常活动实时产生警告, 能够立即关注可疑行为。

二、服务对象

依据服务对象的不同, 系统划分有5个模块, 即报文智能解析/重组和业务仿真模块, 业务统计模块, 柜员行为监测模块, 反洗钱监控模块 (现阶段没有实现, 可拓展) , 报表和实时报警模块5部分。服务对象是运营中心及业务部门, 系统依照省行中心、二级分行等2个层级管理, 各层级用户可依据操作员的角色配置来设置访问各业务板块的权限。

三、技术实现

经过调研, 目前基于网络监控的成熟产品, Intellinx符合农行广东分行要求。Intellinx基于网络旁路技术收集通信报文数据, 是较为成熟的商业产品, 其架构对正常的IT运作不产生任何的开销, 而且不出现任何风险, 提供了一个最终用户活动记录的完全再现, 它能够完全再现用户任何一个应用操作, Intellinx能够知道谁在什么时候、什么地方做了哪些事情, 所有的应用操作数据被实时监控并且解析。通过规则定义, 将Intellinx收集到的数据进一步细化, 并形成过滤规则, 具备二次开发功能。

结合农行广东分行实际需要, 以Intellinx作为基础, 建立具有交易监控、报表智能获取等功能的平台。Intellinx软件支持集中式和分布式的架构, 农行广东分行根据网络拓扑架构的实际需求, 采用了集中式网络架构:Intellinx服务器连接到农行广东分行核心交换机的Port Mirroring端口, Port Mirroring镜像端口应该被配置为单向, 只能够接收所有发送到主机的网络流量信息, 如图1所示。

此外, 还可采用分布式架构, 即在二级分行下每个支行部署一台专门的Sensor服务器, 用来捕获和记录网络数据流量。多个不同的Sensor服务器捕获和记录网络数据, 可以集中发送到数据中心的Data Analyzer服务器上, 进行统一的数据分析和后续审计处理。数据中心的Data Analyzer服务器用来接收所有Sensor服务器发送过来的捕获数据, 经过分析之后集中存储在Backlog database数据库中, 其拓扑图如2所示。

四、主要优点

科学数据服务 篇5

简单的说这个专业是以大数据为核心研究对象,用到了数学,统计学,计算机相关的知识,以他们作为支撑进行大数据的发现,采集,处理,运算,分析,运用。

这个专业可以说是不折不扣的交叉性学科,当然他的落脚点一定是利用大数据的技术来解决具体应用领域的问题,他也是一个新工科专业,可以说它是顺应着时代以及国家发展战略的这样的一个专业。

要知道大数据不等于大的数据,大数据技术的意义不在于掌握庞大的数据信息,而在于对这些数据进行专业化处理,通过加工实现数据的增值,更好地辅助决策。

科学数据服务 篇6

关键词 科学数据 数据仓储 元数据

分类号 G254.364

DOI 10.16810/j.cnki.1672-514X.2016.05.019

Metadata Practice Investigation and Enlightenment in Scientific Data Repositories Abroad

Wanyan Dengdeng

Abstract This paper selects 8 scientific data repositories abroad including DataCite, Harvard Datavers, 3TU.Datacentrum, etc.,and utilizes the methods of network investigation and case analysis mainly to research the metadata practice of foreign scientific data repositories from selecting metadata standard, setting metadata element, creating metadata and its quality control. Based on the analysis of foreign practice, it obtains some enlightenments to our country: metadata standard should be chosen according to the requirement of metadata types and function of data repositories; metadata elements be set should according to the characteristics of data resources and users’ needs; development of automatic metadata creation method; formulation of quality control measures for metadata.

Keywords Scientific data. Data repositories. Metadata.

科学数据(或研究数据)是指在科技活动(实验、观测、探测、调查等)中或通过其他方式所获取的反映客观世界的本质、特征、变化规律等原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集[1]。元数据已经成为各个领域信息资源的组织方式,利用元数据的组织功能,对资源的组织整合起到规范作用,实现对资源集合的有序化和保存,并以提供利用为目标[2]。科学数据仓储是为科学数据提供存储空间,以促进数据集开放访问和利用的平台,元数据是科学数据仓储建设的关键问题之一。本文通过调查分析国外科学数据仓储的元数据实践现状与典型案例,总结国外实践经验,以期对我国相关实践以启示。

1 调查对象与内容

根据科学数据仓储建设主体的国别、收录数据的学科类型,选择国外8个科学数据仓储,综合性和学科性数据仓储各4个,如表1所示。登录各数据仓储网站,从元数据标准选择、元数据元素设置、元数据创建方式、元数据质量控制4个方面调查各数据仓储的元数据实践。

表1 调查对象

2 调查结果

2.1 元数据标准的选择

2.1.1 根据元数据标准的类型选择

从描述对象的学科领域进行划分,现有的科学数据元数据标准可分为综合性和学科性元数据[3]103。综合性的科学数据仓储由于包含多学科数据,一般使用与学科无关、可扩展可移植的综合性元数据,形成较固定的元数据描述标准,元数据描述元素除了主题外不反映学科特征。DC是一个与学科无关的通用元数据标准,易于理解和实施,可以方便地根据需求进行扩展,应用范围广泛,因而受到综合性科学数据仓储青睐。

特定学科的数据仓储根据其数据资源的特征与需求选择使用学科元数据,满足具体学科对全面准确描述本学科数据要求。英国数据监护中心(Data Curation Center,DCC)网站列出生物学、地球科学、物理科学、社会科学与人文科学4个学科的共34个元数据标准,如社会科学与人文科学领域的DDI,地球科学领域的FGDC,生物科学领域的Darwin Core,物理科学领域的CSMD等,这些学科元数据标准已经被超过94个不同学科的数据仓储采用[4]。被调查的4个学科数据仓储中有3个采用了学科元数据标准,SND采用了DDI,NCDC采用了FGDC,ALA采用了Darwin Core。

2.1.2 根据科学数据仓储的功能需求选择

制定科学数据仓储元数据方案首先需要考虑该仓储的功能定位[5]。由于每个科学数据仓储的目标定位与功能不同,对元数据标准的需求也不同。因此,在科学数据仓储功能需求分析的基础上选择元数据标准尤为重要。特定的科学数据项目和仓储等需要在建设前期对元数据功能需求进行调查和分析,为设定合理的科学元数据方案奠定基础[3]103。

nlc202309080946

国外科学数据仓储选择元数据标准时进行功能需求分析,针对数据的属性特征,结合元数据标准的特点与优劣选择出适当的元数据标准,以此保证元数据标准的适用性。ADS在元数据标准的选择与制定前分析了元数据制订的原因和过程、考古数据对元数据的需求,认为用于描述或发现资源的元数据的主要目的是对数据进行全面的描述并易于检索。选择DC元数据作为描述标准,是其标准中集中包含了一些描述和发现资源的核心元素,而分析考古数据特征,元数据类型方面与考古项目相关的三类元数据是项目级元数据、资源级元数据和文件级元数据,因此,确立了包含项目元数据、资源元数据、文件元数据的三级元数据体系[6]。ALA的大部分数据来源于标本馆、博物馆、其他生物馆藏、国家保护机构等,每个机构采用的元数据标准不同,面临的挑战之一是整合元数据标准各异的生物多样性数据[7]。

2.2 元数据元素的设置

元数据标准确定后,要决定从元数据标准中选择哪些元数据元素。国外科学数据仓储的元数据元素是在元数据标准确定的情况下,根据数据仓储的目标定位、数据资源特征与用户需求制订元数据元素,以实用性为目的对元数据标准进行拓展与恰当的粒度划分,既具备满足数据描述需要的元素内容,使数据被准确地描述,又使用户易于理解和使用。RDA、SND分别作为综合性和学科性科学数据仓储,其元数据元素的制定在支持数据仓储目标的实现、资源特征、用户需求等方面具有典型性,本文以其为案例就其元数据元素进行分析(见表1)。

RDA是一个综合性的科学数据仓储,提供了澳大利亚100多个组织、政府机构、文化机构的科学数据,其目标是帮助研究人员发现、获取、再利用科学数据,其元数据描述元素的设置从目标定位出发,包括发现(discovery)、获取(access)、决定(decision)、再利用(re-use)四个方面的内容。RDA考虑到数据来源、类型、格式等的复杂性,其元数据方案采用了基于ISO 2146的RIF-CS schema作为元数据标准,RIF-CS schema提供了一个灵活的结构以适应不同模式、不同标准的数据描述,而且支持不同数据仓储的互操作[8]。RDA的元数据元素由21个组成,区分必备和可选,大多数元素是可重复的。

SND是瑞典的一个人文社科与健康科学的数据服务平台,其目标是组织、维护、传播社会科学、人文科学和健康科学的研究数据,帮助研究人员与研究团体发现、获取数据,为整个研究过程提供支持。因此,选择人文社科领域、支持数据生命周期管理的DDI作为元数据标准。SND根据用户需求与人文社科领域科学数据的特征设置元数据描述元素,在此基础上对DDI进行调整,针对需求增加与删减了一些描述元素,精减了元素的粒度划分,形成24个元素,旨在通过这些元数据元素使科学数据可以被用户理解、二次分析和再利用[9]。元数据元素由3部分组成:项目描述、研究说明和变量描述,分为必备元素和可选元素,仅标题、访问级别、主要调查者为必备元素,其他均为可选元素,具备缺省值。

对上述2个科学数据仓储元数据元素的对比分析,发现二者既有共同特点又有区别。2个科学数据仓储的目标定位、数据特征不同,选择了不同的元数据标准,元数据元素的设置有差异,二者的相同点是元数据元素的分类与设置均体现了自身的目标定位与用户需求,元数据元素丰富,区分必备和可选,注重设置有助于数据发现与再利用的元素。RDA的元数据元素的特色是用于“决定”“获取”和“再利用”数据的元素,如数据的质量和相关性描述、研究人员、组织和项目的声誉、联系方式、权利、许可采样方法、仪器设置等,体现出从用户需求出发,帮助用户快速判断出数据的价值,提供从数据生产者的获取途径,使科学数据得到最大程度地利用。SND的元素中有详细的对研究说明、项目描述、数据研究方法与过程的描述,用于研究说明和项目描述的元素非常丰富,便于数据发现,用户可以通过用于项目描述的元数据元素,发现该项目的其他数据;用于变量描述的元数据元素针对人文社科与健康科学的数据属性和特征,支持数据二次分析与再利用;详尽的访问级别设置帮助用户了解某一项数据的可获取性与获取方式。

表2 RDA、SND的元数据元素

2.3 元数据创建方式

元数据创建方式有手动创建和自动创建两种。调查发现目前国外科学数据仓储主要采取用户手动的方式创建元数据,由科学数据仓储提供元数据文件模版或元数据生成工具,用户按照模版或在元数据生成软件中填写。如SND、NCDC的元数据文件都采用了元数据文件模版的自行创建方式,DataCite采用了元数据生成软件,用户在软件中填写或在下拉列表中选择。随着科学数据数量的增长,为了减轻用户创建的负担,国外一些科学数据仓储开始探索自动和半自动创建的方式,使元数据的创建与提交智能化。RDA提供手动创建和自动创建两种方式,自动创建采用OAI-PMH协议自动、定期地收割元数据,用户只需在系统中输入元数据配置文件,收割机即可对元数据元素进行自动抽取和赋值,系统可以对元数据配置文件进行格式转换,支持多种收割方式,用户可自行选择[10]。Harvard Dataverse采用元数据数据模版复用的方式减轻用户的手动输入,在Dataverse 4.0中用户可自由创建、复制、修改、删除元数据模版,当用户有多个相同领域的数据集与相似的元数据标引时,可以复制元数据模版,在模版中修改必要的元数据标引,而不必重新创建[11]。

2.4 元数据质量控制

国外科学数据仓储在元数据的质量控制方面一是为用户制订元数据创建指南或最佳实践,详细说明创建流程,元数据格式、各元素的标引要求等,提供标引词表的链接,便于用户了解与选择恰当的词,从用户创建之始提高元数据质量,确保元数据的规范性;二是用户提交元数据文件后,由科学数据仓储安排专人进行检查,评估元数据质量,通过审核才能正式提交。目前,国外科学数据仓储的元数据质量控制主要是从完整性、充分性、一致性、准确性等方面提高元数据的质量,减少输入错误与不规范,还没有制定出系统的质量控制机制;主要采用人工方式进行审核评估,还没有应用自动化的评估和控制技术。

nlc202309080946

SND的元数据文件采用电子表单形式,每项元素旁有该元素的解释说明或提供DDI控制词表的链接,点击即可展开查看,鼓励数据提交者尽可能详细地提供元数据信息,元数据文件填写完成后提交到SND,工作人员进行审核,审核通过后通知提交者上传数据文件。RDA制订的元数据原则第5条指出,好的质量、准确性和及时更新的元数据有利于科学数据的长期获取和利用,应该加强元数据记录的质量控制过程[12]。RDA为用户提供元数据描述的最佳实践,解释说明每一个元数据元素并指导用户如何标引每个元素,用户完成元数据文件后,工作人员帮助评估元数据的质量。NCDC制订了元数据指南草案(DRAFT Guidelines for NCDC Metadata),指南草案中规定了元数据必须维护,必须进行审查与更新,通过两次评审保证元数据的质量,用户创建完元数据文件后应该邀请一个同行从元数据的准确性、充分性和完整性方面进行初步评审,提交到系统后再由专业人员进行最终评审,评审员将评审结果反馈给用户,用户重新修改,直到满足质量要求[13]。

3 对我国的启示

通过上述调查分析,结合我国科学数据仓储元数据实践的现状,国外在以下几方面值得我国借鉴。

3.1 根据元数据类型与仓储功能需求分析选择元数据标准

已通过评审的23个国家科技基础条件平台的科学数据仓储的元数据标准选择与元数据元素设置,主要依据科学数据共享工程技术标准《科学数据共享元数据内容》、国家质量监督检验检疫总局和国家标准化管理委员会发布的《科技平台资源核心元数据》、数据资源的特征与专家知识,对科学数据仓储的功能需求、目标定位、元数据标准类型的考虑还有欠缺。因此,我国科学数据仓储在选择元数据标准时需要进行元数据类型、数据仓储功能需求的分析,结合元数据标准的特点与优劣选择出适当元数据标准。此外,科研基础设施之间的互操作是一个发展趋势,科学数据仓储在选择元数据标准时要注意其共享性和通用性。

3.2 以数据特征和用户需求为中心设置元数据元素

我国科学数据共享工程制订了核心元数据标准,包含各学科数据涉及的共同元素,由于学科数据的差异性,核心元数据标准不能满足具体学科的需求。我国科学数据仓储在使用核心元数据、结合需求进行扩展时,应考虑数据仓储的目标定位,分析数据的学科类别、数据特征与用户需求,以数据特征和用户需求为中心,设置适用的元数据元素,促进科学数据的有效管理与共享。

3.3 发展自动元数据创建方式

国外为用户提供元数据文件模版或元数据生成工具,用户按照模版或在元数据生成软件中填写,积极探索与实践自动、半自动的元数据文件创建与提交方式。半自动、自动的元数据创建方式可以减轻数据提交者手动创建的负担,特别是对于元数据素养不高的提交者而言自动提交的方式能够保证元数据的规范性。我国科学数据仓储应该为用户提供元数据文件模版,发展自动元数据创建方式,减少用户录入,为用户提交元数据提供便利,提高用户提交与共享数据的积极性。

3.4 制订元数据质量控制措施

在元数据互操作、数据共享的环境下,如何保证元数据的质量是一个关键问题,是用户提交数据过程中必不可少的一项措施。借鉴国外,我国的科学数据仓储应从以下两方面加强元数据质量控制:一是在提交者创建元数据文件之前,着手元数据质量控制方案的制订,例如为提交者制订元数据创建指南、制订最佳实践、提供标引词表的链供提交者查看等;二是建立元数据质量评估指标,提交后由专业人员进行审核和评估,并加强专业人员对元数据质量控制素养的培训。随着科学数据量的增长,采用人工评估的效率低,自动评估技术的应用有助于减轻人力,提高评估效率,增强评估的客观性,可以预见自动评估将是未来科学数据仓储元数据质量控制的主要方式。

参考文献:

[ 1 ] 司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013(1):61-66.

[ 2 ] 凌云,徐革,李一平,等.特色数据库建设中的元数据标准选择[J].情报杂志,2006(1):131-133.

[ 3 ] 黄如花,邱春艳.国内外科学数据元数据研究进展[J].图书与情报,2014(6):102-108.

[ 4 ] Disciplinary metadata[EB/OL].[2015-08-02].http://www.dcc.ac.uk/resources/metadata-standards.

[ 5 ] 胡芳.国外典型科学数据仓储实施的元数据方案及启示[J].图书与情报,2015(1):117-121.

[ 6 ] Project metadata[EB/OL].[2015-08-03].http://guides.archaeologydataservice.ac.uk/g2gp/CreateData_1-2.

[ 7 ] The different challenges of integrating data from many sources[EB/OL].[2015-09-07].http://www.ala.org.au/blogs-news/data/the-many-and-varied-challenges-of-integrating-data-from-different-sources/.

[ 8 ] Research data australia content providers guide:RDAbest practices[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/rdabestprac.

[ 9 ] Metadata profile[EB/OL].[2015-08-06].http://snd.gu.se/en/deposit-data/documentation.

[10] Research data Australia content providers guide:Intr-oduction to metadata harvesting[EB/OL].[2015-08-05].http://guides.ands.org.au/rda-cpg/harvestintro.

[11] Dataverse management[EB/OL].[2015-08-05].http://guides.dataverse.org/en/latest/user/dataverse-manage-ment.html#dataset-templates.

[12] Metadata content requirements[EB/OL].[2015-08-05].http://ands.org.au/resource/metadata-content-require-ments.html.

[13] DRAFT guidelines for NCDC metadata National Clim-atic Data Center(NCDC)[EB/OL[20150810].http://www.ncdc.noaa.gov/oa/metadata/metadataresources.html

#ds.

科学数据共享方式研究 篇7

科学数据, 是一类特殊资源, 它是指科技活动或通过其它方式所获取到的反映客观世界的本质、特征、变化规律等的原始数据, 以及根据不同科技活动需要, 进行系统加工整理的各类数据集, 用于支撑科研活动的科学数据的集合[1]。它作为信息时代最基本、最活跃的科技资源, 对科技创新具有重要的基础支撑作用。因此, 在现代互联网技术飞速发展条件下, 实现对科学数据资源的共享管理, 可以为科技创新、政府决策、经济增长、社会发展提供强有力的基础知识支撑, 同时可以推动社会的信息产业化发展。

2 我国科学数据共享现状

我国科学数据资源十分丰富, 据统计, 目前我国科学数据库总量占到全世界的十分之一。但长期以来, 人们“重论文, 轻数据”, 使得科学数据的有效利用率很低, 造成国家投资的极大浪费。

我国的科学数据共享工程[2,3], 起步比较晚, 大概起步于上个世纪90年代, 由孙枢院士等人提出要在全社会建立科学数据共享项目开始。到2003年, 经科技部和有关部门的共同努力, 启动了“科学数据共享工程”, 使得科学数据在共享和共建方面取得了显著进展。但目前这一工程, 仍然处于初级阶段, 仍需要投入大量的人力、物力资源。同时, 由于互联网技术的飞速发展, 科学数据的存储形式各不相同, 也使得科学数据共享的难度加大。

目前, 我国科学数据共享中主要存在以下问题:

(1) 科学数据共享管理仍然缺乏行之有效的法律法规和政策保障。

(2) 对科学数据的共享管理投入不足。

(3) 科学数据存在多种多样的物理形式。有的是以数据库形式存在的结构化数据;有的是以文档、文字、图片等非结构化形式存在。

(4) 科学数据的数字化程度不够彻底。

对于前两种问题, 我国已经初步制定了科学数据共享工程的一些法律法规和相关标准来逐步完善和解决数据共享问题, 但这是个漫长的过程, 因为需要社会各个部门之间相互协作。对于后两种问题, 可以通过当前先进的互联网技术来解决。所以本文的重点正是针对后两个方面提出了一些可行的解决方法。

3 科学数据共享方式

科学数据作为科技活动中一类重要基础资源, 其面涉及资源、环境、生态、农业、人口、交通、地质、气象、海洋等多个学科, 具有来源丰富、分布广泛、数据量巨大、类型多样等特点。针对这些复杂的科学数据资源, 可以采用不同的方式来实现科学数据共享。目前, 按照数据源提供的方式, 可以将科学数据源分为完全开放数据库的科学数据源、带查询接口的科学数据源、提供元数据共享的科学数据源和基于网格的科学数据源。针对这四种科学数据源, 本文提出了四种科学数据共享方式:基于完全开放数据库的共享方式、基于查询接口的共享方式、基于元数据的共享方式和基于OGSA-DAI数据集成的共享方式。

3.1 基于完全开放数据库的共享方式

完全开放数据库的科学数据源, 主要是指可以向社会完全公开的一种科技资源数据, 如相关标准数据库、科技成果数据库等。数据源单位一般都会建立相关的数据库来管理这些资源, 通过网站或其它形式向社会完全开放这些数据, 而用户可以免费获取的科学数据信息。但长期以来, 数据源单位采集的科学数据只限于内部使用, 数据“信息重保管、轻服务”的思想存在, 使得数据没有得到有效管理和利用。同时, 不同地区的类似部门又重复的建设了许多相似的数据资源, 造成了科学数据的重复性建设, 极大的浪费了国家资源。

对于这种数据源可以采用两种共享方式:集中共享和分布共享。

(1) 集中共享

集中共享是将科学数据源单位的数据库统一移植到共享平台中, 由平台统一管理, 然后再向用户提供统一的查询接口, 从而为用户提供查询这些科学数据的功能。集中共享方式需要数据源单位, 提供相应的数据库建库脚本和数据集, 将数据存放在共享平台的数据库中进行统一管理。

集中共享方式主要适合一些长久不变的科学数据源和暂时没有建库条件但又急需共享的数据源。

(2) 分布共享

分布共享主要是通过共享平台提供数据库中间件技术, 将相关的远程科学数据库通过计算机网络连接到一起。平台通过统一的查询接口, 利用异构数据库集成的方法对这些科学数据库进行访问。

在分布共享方式中, 需要建立数据库配置信息。这些配置信息主要包括:数据库名称、数据库类别、数据库内容描述、数据库访问方法、数据库更新日期、数据库建设单位等信息。分布共享可以采用目前成熟的数据库中间件 (如ODBC和JDBC) 技术, 对科学数据中异构数据库进行统一访问。

3.2 基于查询接口的共享方式

随着国家数字化工程的建设, 越来越多的科学数据都实现了数字化。科研机构或企事业单位采用数据库的形式将数据保存到数据库中, 方便日常管理。Web技术的发展, 也使得越来越多的科学数据源单位都建立了自己的网站。同时, 网站提供查询接口, 方便人们检索这些可共享的科学数据资源。

对于提供查询接口的科学数据源, 可以通过基于领域的Deep Web[4]技术和元数据技术相结合的方法来实现。Deep Web是一种专门针对具有查询接口的Web信息搜索引擎技术。

具体步骤如下:

(1) 提供数据源元数据描述信息。描述信息主要包括数据源网站URL, 数据源内容描述, 数据源名称、类别等信息。

(2) 利用Deep Web查询数据源网站中的科学数据。

(3) 将 (2) 中查询到得数据进行统计分析。

(4) 将统计结果保存到科学数据共享平台的数据库中。

基于查询接口的共享方式如图1所示。

3.3 基于元数据的共享方式

目前, 国家科学数据共享工程已经将元数据定义为数据的数据。元数据, 主要用来描述信息资源或数据等对象, 使用的目的在于识别资源、评价资源、追踪资源在使用过程中的变化。它作为一个专门的科学术语, 已经广泛应用于社会各个学科领域, 特别是在气象科学数据中心、水利科学数据中心、国土资源科学数据中心、地球系统科学数据共享网等国家科学数据共享试点工程。通过提供对数据的描述及对数据集中数据项的解释, 实现对分散的科学数据资源的定位与访问, 从而提高科学数据的利用价值。

科学数据元数据是对科学数据外部形式和内部特征的详细描述, 为科学数据共享提供信息, 主要目的是提供科学数据资源的全面指南, 以便用户对数据进行准确、高效与充分的开发和利用。因此, 基于元数据的数据集成[5]研究成为目前解决数据共享中一重要方法。

元数据共享方式, 要求数据源单位提供数据的元数据内容。元数据内容根据国家科学数据共享工程元数据标准统一制定, 内容框架如图2所示。其内容包括三个方面:

(1) 元数据实体集信息:包括引用元数据子集和数据类型信息的根实体。

(2) 元数据子集:包括标识信息、内容信息、分发信息、数据质量信息、数据表现信息、参照系信息、图示表达目录信息、扩展信息、数据模式信息、限制信息和维护信息。

(3) 元数据类型实体:包括覆盖范围和引用信息。

科学数据共享平台集中管理这些科学数据源的元数据信息, 当用户在共享平台中查询数据资源时, 首先是对元数据进行检索, 然后通过元数据信息找到数据源的相关数据信息, 最后将结果通过统一界面形式形式返回给用户。元数据共享方式结构如图3所示。

3.4 基于OGSA-DAI数据集成的共享方式

OGSA-DAI[6] (Open Grid Service Architecture Data Access and Integration) , 即开放网格服务架构数据访问与集成。这个项目由UK Database Task Force提出构想, 致力于建造通过网格访问和集成来自不同的孤立数据源的中间件。它的目标是通过网格进行数据访问和集成提供统一的服务接口, 将不同的、异构的数据源视为逻辑上的单一资源。然后通过OGSA-DAI网格服务提供基本的操作来完成复杂的数据操作功能, 如数据联盟、分布式查询, 而这些操作将会隐藏数据库驱动、数据格式和客户端的传输机制等细节问题。

在科学数据共享中, 由于科研机构或其他数据单位的建设条件各不相同, 因此存在着很多异构的科学数据库。我们可以利用OGSA-DAI来对这些异构数据库的集成, 实现科学数据的集成与共享。OGSA-DAI数据集成的共享方式如图4所示。

OGSA-DAI数据集成共享方式框架大致分为客户层、表示层、业务逻辑层和数据层四个层次结构。四个层次功能如下:

(1) 数据层:由支持OGSA-DAI的科学数据源构成。目前支持的数据源包括XML数据库 (如eXist, Xindice等) 、关系数据库 (如Oracle, DB2, MySql等) 、特定形式的文件和目录 (如OMIM, EMBL等) 。

(2) 业务逻辑层:主要由数据服务资源和支持部件构成。它封装了OGSA-DAI的核心功能, 可以部署多个数据服务源来发布多个数据源。

(3) 表示层:主要功能是以Web Service接口的方式向外提供数据服务资源。有两种实现方式, 一种是WSRF数据服务方式;一种是WSI服务方式。

(4) 客户层:主要是利用客户端工具, 通过数据服务与相应的数据源进行交互配置。

可以通过OGSA-DAI的配置文档接口与科学数据服务源进行交互。客户端不需要直接操作数据服务源, 而通过向数据服务发送一个请求, 然后数据服务解析这个请求, 并执行请求的内容。最后数据服务源再创建请求的结果, 同时将结果返回到客户端。

4 结论

本文主要介绍了科学数据共享中的四种共享方式, 通过这四种方式可以有效地将科学数据整合在一起, 针对不同格式的科学数据源, 提供不同的共享方式。这四种方式主要是在技术和应用上解决共享问题, 但还需要政府的政策驱动和宏观指导。通过技术与政策相结合的方式, 集成政府部门、科研机构、高等院校和相关组织等多方面的公益性、基础性科学数据资源, 形成整体布局、结构合理、管理规范的科学数据共享服务体系, 从而加速科学数据共享工程的建设步伐。

参考文献

[1]SDS/T1003-2004, 科学数据共享工程技术标准[S].

[2]江洪, 钟永恒.国际科学数据共享研究[J].现代情报, 2008 (11) :56-58.

[3]黄鼎成, 尚翔, 王卷乐.浅谈科学数据共享工程建设的战略取向[J].中国基础科学, 2005, 5:29-35.

[4]刘伟, 孟小峰, 孟卫一.Deep Web数据集成研究综述[J].计算机学报, 2007, 30 (9) :1475-1489.

[5]张宇, 江东兴, 刘启新.基于元数据的异构数据集整合方案[J].清华大学学报:自然科学版, 2009, 49 (7) :1021-1024.

科学数据打包与分发技术 篇8

非常著名的安装程序制作工具, 它提供脚本编辑方式及众多应有尽有的安装选项, 堪比专业级的安装程序制作软件。Wise支持创建一个独立的可执行文件以便于在线发布程序, 也能够支持多磁盘, 并且支持网上 (HTTP和FTP方式) 分发, 支持调用外部DLL、EXE等, 灵活的脚本控制, 根据多年数据打包的经验, 较之其他类型的软件, 它具有体积小, 安装使用方便, 打包分发安全可靠。以下简称Wise902。

2 数据和软件准备

2.1 数据准备

生态数据 (ecological data) 以反映生态信息的属性为测量指标而测得的数据。生态数据是以植被数量分析为基础的各类信息, 一般包括两大类型:

一类是反映群落组成、结构关系的植物区系组成数据, 这些数据是反映群落成员特征的一些定量和定性的属性数据, 即数量数据和二元数据。

另一类是群落的环境组成数据, 包括各种环境因子的测量指标。

所以, 生态数据涉及不少类型的数据, 在本例中有遥感数据、空间地理数据、视频文件、录音文件, 调查表格和其他研究资料等。逐一将它们准备好放置在相应的计算机磁盘中备用。

2.2 工具软件

安装后的Wise902提供了Installation Expert和Script Editor两种控制打包程序的方式。推荐读者使用Installation Expert模式, 它是一种向导的模式, 以这种模式为主, 在向导模式的引领下能够更快更好完成一个复杂的数据打包任务。Script Editor模式是基于脚本, 脚本语法有点像Basic语言。可以在某些特殊的数据使用时再应用它 (例子中分发安装后执行外部程序部分有介绍) , 它左边有一个列表专门提供可以供调用的脚本语句, 需要时选择调用。

3 数据打包

数据打包即数据和应用装配过程, 这个过程在Wise902中变得相当容易。下面就来实现这类数据的打包实践。

3.1 建立工程文件和设置

启动Wise902后, 新建一个工程文件, 命名为:“科学数据.WSE.”, 并在“安装标题中”填入:“生态环境数据的打包与分发”, “默认目录”一栏填入:“生态数据”, 将“默认目录放置在‘Programming Files’的目录下”勾选。如图1所示。

3.2 添加组件和命名

Wise902提供数据打包的分组打包功能, 利用该组件功能在使用时可以将数据分不同类型进行分装, 方便将不同类型的数据源进行打包和管理。在本例中, 所有生态数据按照实际所需, 分为基础数据、专题数据、气象数据、地理空间、遥感、群落样地、群落样方、社会经济、生态计算 (外部计算程序) 以及相关的环境录像和音频数据等, 共11种数据类型。它们将通过Wise Installation的组件装配功能创建对应的数据类型名称。具体步骤如下:在方案定义部分点击“组件”按钮, 之后, 在弹出的组件对话框中再点击“添加”按钮, 在弹出的组件详情对话框中, 填入相应组件名称, 并勾选“默认安装组件 (I) ”选项即可, 如图2所示。重复此步骤, 逐一将上述11个数据类型组件添加完毕, 形成了数据包所有数据栏目, 以便稍后所有生态数据分装进来。

3.3 数据源文件加入

Wise902提供将现有磁盘中的数据文件加入到当前工程应用中来。步骤如下:在安装程序详细资料页面中选择点击“文件”, 弹出文件选择, 并加入对话框, 通过它可以按照所创建的数据分装组件一一地将已经准备好数据添加到包中来, 本例中将1号样地所涉及到11类数据文件全部按要求加到了工程里面, 如图3所示。

(需要注意的在添加目录区操作时, 新建目录和添加文件最好添加一个目录就将所要文件添加进来, 否则Wise902系统会出错, 其他版本有无问题暂不知道)

3.4 添加快捷方式

由于本例中有计算程序, 可以使用专家模式的快捷方式页来向目标电脑上的桌面和开始菜单上添加快捷方式。要在安装过程中添加快捷方式:

(1) 点击“快捷方式”, 弹出快捷方式, 填入相应的内容, 然后单击“添加”按钮, 如图4所示。

(2) 从安装对话框中选择文件, 在左边选择包含你想要与之关联的文件类型的程序文件的目录, 在右边选择要关联的快捷方式的文件。

(3) 点击“确定”, 然后在快捷方式的详细资料对话框中编辑快捷方式的详细信息。

3.5 添加注册表键和键值

作为一个专业安装包有时候需要想Windows注册表添加相应的包特征信息, 可以使用专家模式的注册表页来制定要在目标计算机上添加或编辑的注册表项。上面的两个列表框显示了本地计算机上的注册表键和键值。下面的两个列表框显示将要在目标计算机上添加的键和键值, 如图5所示。

“添加键”按钮可以复制一个完整的注册表键, “添加值”按钮可以复制键值, “新建”按钮可以通过导入一个注册表文件来创建一个新的注册表项。

要添加一个注册表项:

(1) 在下面左侧的列表框中单击选择想要添加的键值。

(2) 单击“新建”按钮然后从下拉列表中选择相应的键。

(3) 在这册表项设置对话框中配置注册表值。按F1启动帮助。

3.6 添加关联文件

生态数据中有的要用某一类程序才能打开, 在专家模式下使用关联文件页可以配置关联一个文件的应用程序用来打开这个类型的文件。要为一个文件类型配置一个关联程序:

(1) 在关联文件页, 单击“添加”按钮, 弹出文件选择对话框, 如图6所示。

(2) 从安装对话话框中选择文件, 在左侧选择包含要关联的文件类型的可执行文件的目录, 右侧为要关联的文件。

(3) 在对话框的底部, 数据3个字符的扩展名来标识关联的文件类型。

(4) 单击“确定”。

要编辑一个文件关联的设置, 双击文件关联页中的项目即可。

3.7 指定系统配置需求

通过专家模式中的“系统配置需求”页, 可以指定安装程序运行的最低软硬件需求, 同时可以设置如果目标电脑的不满足最低需求时出现的警告信息。

这里有一个例子用来制定在Windows XP下安装程序最低的操作系统需求。

(1) 在目标系统需求页, 双击“Windows NT版本”, 弹出配置对话框, 如图7所示。

(2) 在最低系统需求对话框中找到Windows版本下拉列表, 选择Windows XP。

(3) 从“类型”下拉列表中选择“建议”或者“必需”。如果选择的是“必需”, 而目标系统不满足系统, 则安装程序将终止安装。

(4) 为消息对话框输入标题和内容, 如果目标电脑低于Windows XP或更高的操作系统, 那么会弹出这个消息对话框。

(5) 单击“确定”。

3.8 选择安装对话框

通过点击在专家模式用户界面页面的“对话框”项, 选择合适的安装时出现的对话框界面, 可以指定在安装期间出现的对话框样式。要查看选择的对话框样式, 可以勾选某个对话框然后双击样式名字, 并即将打开自定义对话框编辑器。

下面是如何添加一个“自述”对话框的例子:

(1) 在对话框页, 标记“自述文件”选择框并双击。如图8所示。

(2) 在路径名称区, 输入要使用的自述文本文件的路径名称。

(3) 需要修改对话框样式可点击“编辑”按钮进行。

3.9 BDE配置

本实例中生态计算程序设计部分数据库文件的使用, 所以需要针对它们完成数据库引擎BDE的设置, 通过点击在专家模式中“BDE Runtime”页, 弹出数据库引擎配置对话框, 如图9所示。要实现BDE配置:

(1) 在BDE安装类型 (P) 处, 选择部分BDE 32安装选项。

(2) 在BDE 32子集页处, 勾选SQL, Paradox和DBASE选项。

(3) 如需要添加本机中的BDE别名, 点击“添加”按钮。

3.1 0 安装密码

从数据安全的角度, 有必要给所形成的安装包设置权限。Wise 902提供了这一功能, 在安装选项页面, 选择并点击密码弹出密码设计对话框, 如图10所示。要实现安装密码的设置:

(1) 选择在“所有安装程序使用单一密码”, 并设置所需要的密码内容。

(2) 如果需要类似专业软件安装系列号, 选择“使用个别的序列号作为密码”设置。

3.1 1 分发安装后执行外部程序

有时候当数据包安装在目标计算机后, 需要执行某个外部应用程序, 本实例中就是设计当安装包安装解压后自动执行包中的生态计算程序 (calc.exe) 。

(1) 在用户界面页面的安装对话框中, 勾选“安装选项”对话框, 使这一界面在安装过程中出现以便选择“安装完成后开始执行程序”, 一旦选择了此项, 系统将自动执行设置好的外部可执行文件, 如图11所示。

(2) 通过双击在脚本编辑器页面的“执行程序”项, 在弹出的执行程序设置的对话框界中进行程序文件浏览和选定, 可以选择任何打入包中程序文件, 同时脚本部分内容也将自行加入或更新, 即增加了新的脚本内容:

Rem在这里设定退出安装要运行的程序:

如图12所示。

至此, 数据的打包和设置已经结束, 需要将该数据包工程文件 (科学数据打包与分发.wse) 保存。

4 数据分发

数据分发与数据打包过程基本相反, 是将所装配的数据和应用程序分装到不同的介质上, 并通过安装程序将包中所有数据和程序按打包时的要求部署到目标计算机中。

4.1 分发介质

介质指存放数据包的物理设备, 在Wise 902中介质可以是多种类型的, 分发前可以进行选择。要实现安装包分发介质的选择, 通过点击在专家模式编译选项页面的“介质”项实现, 如图13所示。

(1) 单一文件安装程序:创建一个独立的磁盘文件, 该文件与工程文件同名。

(2) 基于介质的安装程序:该选项将数据包的内容分割为适合的介质类型文件, 有多个文件组成 (*.W0x, x>2) , 保证数据能够存放到相应介质中。

4.2 编译安装程序

一旦完成了创建或修改一个安装程序, 可以通过位于主窗口右下方的编译, 测试和运行按钮来进行调试。

(1) 点击“编译”, 编译所创建的安装程序, 在工程文件位置生成可执行安装包程序, 如本例的科学数据打包与分发.exe。

(2) 点击“测试”, 模拟安装过程, 但是不对系统做任何修改。

(3) 点击“运行”, 编译和实际运行所生成的安装程序。

图14是该安装包程序执行过程的两个数据分发的交互界面, 通过操作该程序文件分装过程, 可以看出Wise 902无论是数据装配, 还是分发与安装在功能和操作上都是非常专业和方便的。

5 结语

利用Wise 902和生态数据进行打包和分发全部过程已介绍完成, 读者可以体会到该工具的专业性和简便性。尤其是在应用程序数据库数据库文件, 利用它进行打包和分发, 安装部署均显得心应手, 不像其他的安装制作工具使用过程过于繁杂。经常做数据打包和分发的人会发现, 实际上有不少都是用Wise Installation System完成的, 而且数据的安全性也是有保证的。

摘要:生态的调查研究和实验过程常常会涉及到诸多数据, 这些数据往往类型多样, 数据量极大, 数据获取相当不易, 对数据管理和使用提出了更高的要求。利用Wise Install System9.02作为这类数据管理和分发的工具, 面对纷扰繁杂的各种各样数据, 能够对科学数据进行组织和管理, 打包与分发, 实现更为有效管理和安全使用。

科学数据服务 篇9

大数据硕士项目将依托信息学院、经管学院、公管学院、社科学院、交叉信息研究院、五道口金融学院6个院系协同共建, 以数据科学与工程、商务分析、大数据与国家治理、社会数据、互联网金融等硕士项目为先导, 积极开拓与国际著名高校的大数据双授硕士学位项目建设。

清华大学大数据战略人才培养工程包括大数据职业素养课程建设、大数据硕士项目、大数据博士项目等。学校将通过5门大数据职业素养课程建设, 推动全校研究生的大数据思维模式转变。第一批大数据硕士学位研究生将于今年9月正式开始培养。大数据硕士项目将采用理论学习、实践教学、大数据专题研究或学位论文研究相结合的方 式, 培养高层次应用型人才。未来还将探索大数据专业博士项目。

清华大学校长陈吉宁表示, 作为一种新型战略资源, 大数据引起了业界、学界、政界的高度重视, 各发达国家先后推出发展大数据计划, 一批世界名校纷纷成立研究机构, 开设相关课程和学位项目。清华大学与山东青岛市合作成立数据科学研究院, 对大数据这一跨领域问题开展深入研究, 不仅将引发学科建设、科学研究等方面的变革, 而且还将有力推动人才培养和教师队伍建设。

用数据说话靠科学育牛 篇10

随着全国人民生活水平的逐年提高, 老百姓对牛肉的需求量也逐年增加。由于受土地、饲料等资源短缺因素的制约, 我国肉牛业发展不可能采取扩大饲养量的发展方式。依靠科技进步, 提高肉牛单产, 将成为今后我国增加牛肉供给、满足市场需求的重要手段。开展肉牛生产性能测定工作, 就是要通过度量肉牛的生产能力, 选择、推广生长速度快且产肉能力强的肉用种公牛, 用来繁育生产群体, 从而带动肉牛整体生产能力的提升。

农业部高度重视肉牛产业发展。为推动肉牛改良工作, 近3 a来, 连续出台了3个文件。2010年, 印发了《肉用种公牛生产性能测定实施方案 (试行) 》 (简称《测定方案》) , 对肉用种公牛生产性能测定工作提出了明确要求, 并对具体测定技术和方法进行了规范。2011年, 农业部印发了《全国肉牛遗传改良计划 (2011-2025年) 》 (简称《改良计划》) , 对肉牛遗传改良工作进行了整体布局, 明确了工作目标、要求和职责分工。2012年, 又印发了《〈全国肉牛遗传改良计划 (2011-2025年) 〉实施方案》 (简称《实施方案》) , 进一步细化了改良计划, 明确了改良计划工作领导机构、办事机构和技术支撑队伍;同时, 规范了国家肉牛核心育种场遴选标准和肉牛品种登记办法等。

各地认真贯彻农业部的工作部署和要求, 紧密结合本地实际, 把开展肉牛生产性能测定工作、提高肉牛单产作为发展肉牛生产的重要举措, 扎扎实实地开展工作, 取得了一系列显著成效。

一是生产性能测定逐步规范。针对以往种公牛站、种牛场生产性能测定工作存在的人员不固定、方法不一致、设备不配套、衔接不紧密等问题, 全国畜牧总站组织有关专家编写了《肉牛生产性能测定技术手册》, 从2009年起, 每年通过举办全国技术培训班、开展现场技术指导和技术咨询等形式, 逐步统一了全国肉用种公牛的测定时间、方法和标准, 同时还增加了超声波测定等现代育种技术手段, 初步形成了我国自己的肉用公牛育种数据测定、收集和上报制度, 使测定数据更加科学、规范。

二是生产性能数据库初步建立。截至2012年8月底, 全国38个种公牛站报送的2 114头种公牛数据, 涉及肉用种公牛品种23个, 其中西门塔尔牛1 137头、夏洛莱牛312头、利木赞牛118头、安格斯牛109头。收集种公牛系谱资料、生长发育等主要经济性状记录3万余条, 全国种公牛站在群肉用种公牛全部纳入数据库管理。数据库中还包括2万多头母牛和近10万头育肥牛生产性能测定记录, 为今后开展肉牛育种工作打下良好基础。

三是制定了肉牛综合指数。在规范生产性能测定和建立记录数据库的基础上, 2011年, 中国农业科学院北京畜牧兽医研究所应用最佳线性无偏预测法 (BLUP) 估计种公牛育种值, 并根据数据质量较好的2个性状的估计育种值, 制定了中国肉牛指数 (Chinese Beef Cattle Index, CBI) , 作为当年肉牛良种补贴项目选择种公牛的主要依据, 替代了以往单纯使用体型评分作为肉用种公牛评价依据的做法。2012年又将评估性状增加到了3个, 使肉用种公牛评价更加科学、准确。

只有测定才能有数据, 有数据才能科学地选育, 有科学地选育才能有提高、有发展。我国科学规范的测定工作开始时间不长, 虽取得了一定的成绩, 但目前存在的测定数据填写不认真或不规范、生长记录不全、系谱不完整、数据报送不及时等问题, 不可忽视, 需要及时加以改进。

今后各地将以《改良计划》、《实施方案》和《测定方案》3个文件为全国肉牛改良行动指南, 在改良计划领导小组的指导下, 依靠专家组技术支撑, 围绕组建国家肉牛育种核心群, 建立肉牛生产性能测定体系, 组织开展种牛登记, 实施后裔测定, 开展遗传评估, 加强种公牛站建设, 完善人工授精体系和本品种选育提高等工作重点, 全面深入地推进肉牛遗传改良工作, 到2025年, 力争实现对肉种公牛全部进行生产性能测定和遗传评估及肉牛屠宰胴体重提高15%~20%的总体目标。

没有数据和清单,这不科学 篇11

作为一名信息管理专家,涂子沛在他的《大数据》一书中试图阐述一个“数目字”管理的新社会。在这个社会之中,一切数据信息精确、畅通、透明,任何组织和个人都可以根据这些“数目字”,管理自己的工作或者生活,参与公共事务。

“数目字管理”的难题

为了描述这个理想的模型,涂子沛在书中回顾了美国半个多世纪信息开放、技术创新的历史,详细诠释了数据技术变革,与权力合法性、执政正义以及公民社会之间的关系。

涂子沛曾在中国的地方政府中工作,也做过程序员,甚至担任过公安边防巡逻艇的指挥官。这种经历,以及后来身处海外的文化冲突,毫无疑问让他更加深刻真实地体会一个国家,尤其是管理机构与现代技术的脱节:一边呼喊着信息社会的口号,一边在统计数据上讳莫如深。

《大数据》中有一个案例。上世纪70年代,为了减少和预防抢劫犯罪,地铁巡警Jack Maple统计了大量地铁劫案发生的时间和地点,分析其中的原因和规律,并在后来依据分析数据调配警力。这种管理办法在1990年被纽约警察局局长推广在第二年,地铁抢劫案减少了27%。

这种有效的数据管理和分析应用,基于信息的透明和准确。但是在中国的习惯中,却充斥暗礁:“我们习惯半透明,习惯与事实存在差距的虚构式数据,习惯表面上认可一套数据,而实际上信靠另一套数据。回顾我们的历史,通过虚构数据来服务意识形态的事情,发生得不算少。”

这种对待数据的随意,似乎是中国人的思维习惯。用胡适的话说:“取道中庸”、“甘于糊涂”。

17世纪初,中国的军事家还在捧着戚继光的名句:“用兵之妙,存乎一心”。而在北欧的瑞典,国王古斯塔夫二世已经开始了欧洲历史上影响最深远的军事改革——通过集中火炮摧毁敌人的阵线,以火枪手之间的有序配合达到最大的火力投射能力,以及精确地在关键时刻和地点投入骑兵。

在某种意义上,戚继光兵法中的“存乎一心”,跟中国菜谱上的“盐少许”一样,含混、模糊,意义不明。中国人认为这是一种微妙与从容,可意会不可言传,但足以让西方人面对中国菜谱时不知所措。两百年后,这两种思维方式塑造的国家迎头相撞,胜负分明。

避免“无能之错”的清单

哈佛公共健康学院教授阿图·葛文德则用另一种方式展示了精确与效率。在他的新作《清单革命》中,葛文德认为,随着时代的发展和科学技术的进步,知识已使我们不堪重负,要在复杂的世界中拯救生活,我们必须依靠清单。

在他看来使用清单,就是为大脑搭建起一张“认知防护网”,它能够弥补人类与生俱来的认知缺陷,如记忆不完整或注意力不集中。

作为一名医生,葛文德熟知的是发生在诊疗室的故事。在一场欢乐的聚会之后,一名急救伤员被送来。看起来只是不大的刀伤,所以医生没有采用紧急措施。然而情况急转直下,因为居然没有人去询问伤者的刀伤从何而来——一柄插在步枪上、长达30厘米的刺刀。

在急救室,一场手术需要数十位医护人员正确实施数千个治疗步骤,任何一个步骤的疏忽都可能置人于死地;在城市,建造一栋大楼需要联合16个领域的专家,不同的专家可能做出相互冲突的决定,一旦做出错误决策,建筑早晚会倒塌。

与“大数据”相比,清单并非一项高科技。它们之间有某种共通之处——清单的目的也就是为了精确有序地分配资源和精力。明确的流程和制度,无疑会带来准确和效率,杜绝因为无法正确使用知识而导致的“无能之错”。

但是,同一切明确而清晰的规则一样,“清单”在中国也同样是一个稀缺的存在。为什么精确和效率的追求始终不能深入人心?

一切都因为“伪科学”

这是李约瑟难题的一部分:“为什么近代科学和科学革命只产生在欧洲呢?”

在20世纪之初,中国的进步知识分子不遗余力地宣传科学与民主。1923年和1924年间,一场论战在知识分子间展开。北大教授张君劢在清华大学演讲,认为科学是客观的,受因果律支配,而人生观是自由意志,科学不能支配人生观。最先出来反对他的是地质学家丁文江,他将张君劢的观点称为“玄学”,宣称“今日最大的责任与需要,是把科学方法应用到人生问题上去。”此后,梁启超、胡适、吴稚晖等著名学者纷纷加入这一场论战,成思想界之风潮。最终,“玄学”败退,“科学”取胜。

耶鲁大学博士郭颖颐的《中国现代思想中的唯科学主义》记录了这场论证。这本书在1989年被译介到中国,但是似乎并未引起很大反响。

在郭看来,20世纪的中国,已经有了对科学的崇拜。这种唯科学主义认为,宇宙万物的所有方面都可通过科学方法来认识,科学能够而且应当成为新的宗教。这种科学崇拜导致了现代中国思想界的大论战,也为“科学的”马克思主义在中国的全面胜利铺平了道路。

但事实上。这种唯科学主义只不过是对科学的迷信,迷信科学能够一劳永逸地解决困境,尤其在当时,科学与玄学的争论,归根结底是导向两种不同的社会改造方案。

所以,这种极端功利的“科学”信仰,只不过引进了新的名词和意识形态,而非深入人心的价值观。而无论“数目字管理”还是“清单管理”,它们的精确与效率都有赖于数据的准确和透明,有赖于对科学的尊重,而这又必然需要一个自由而开放的环境。否则,一切技术手段都会被歪曲,与科学的实质貌合神离。

科学数据服务 篇12

数据新闻 就是数据 可视化?不尽然。清华大学新闻与传播学院沈阳教授对数据新闻有更加全面的解读。

数据新闻是什么?

在沈阳教授看来,数据新闻就是新闻中的数据,数据中的新闻。现在很多人认为数据新闻就是数据可视化,但这种认识并不全面。数据新闻应该至少包括五个方面:

第一是文字,比如微信上盛传的“西游记中的群妖伤亡统计”。经统计,西游记中师徒四人遇到的妖怪共计44个,死亡21个,活命23个;背景统计:灵山背景妖怪9个,灵山及政府背景妖怪1个,道家及政府背景妖怪8个,无背景妖怪26个,死20个;性别统计:雄性30个,死9个,雌性14个,死12个。从统计数据可以看出,女妖的死亡率达到了85.7%之高,可见妖怪是否被打死主要取决于其性别而不是后台或背景……这条文字类的数据新闻如果放到笑话类的栏目里,估计会有很高的点击率。

第二是数据新闻的图片,比如网易数读栏目做的一系列可视化信息图。

第三是用视频的方式表现数据,这方面新华网“新华炫视”栏目出品了许多很棒的视频。

第四是游戏,比如网易制作的《习近平和奥巴马是这样夜游中南海的,你们感受一下》互动新闻。在微信里点开这则新闻,出现的是中南海的Q版俯瞰图,以及主人的头像,通过点击,主人公会在中南海内行走,并在每一个事件点会有根据新闻制作的两位主人公的对话以及照片。沈阳教授断定,这类带有互动式的小游戏在微信上会逐渐火起来,未来数据新闻和游戏的结合将是发展的爆点。

最后就是平台,当下数据新闻的平台普遍比较缺乏。沈阳教授举例假设说,一条政策出来后,立刻自动统计出各省各部门做了哪些相关信息的发布……这种做法属于一种数据的服务。

另外,今年3月,Facebook 20亿美元收购虚拟头盔Oculus Rift,计划做虚拟社交游戏。这让沈阳教授看到了“数据体验”的前景。

沈阳教授曾和学生一起做过一个假设:未来的某一天,每个人体内都有一个体媒传感器,可以收集人体内的各种数据。假设有个女孩子,她的猫死了,这时她的情感假设叫做丧猫之痛,因为女孩非常爱她的猫,心痛升级,叫九级丧猫之痛。女孩的情感会被体媒传感器记录,然后上传到网络当中。之后,其他的网友就可以下载体验一把“九级丧猫之痛”。男生体验时,甚至可以加一个滤镜,变成男生版九级丧猫之痛。在未来,数据新闻和“体媒”的结合,发展空间非常大。

沈阳教授认为:数据新闻最终必然会走向数据服务,数据服务最终必然会走向数据体验。数据新闻的未来终极形态一定是三种结合,有数据的新闻,新闻可以服务化,服务化之后是体验化。

数据给新闻带来哪些变化?

数据给新闻带来的变化首先是流程的变化,包括素材的采集和选题的制定,比如通过数据分析就可以获得最合适的选题。新闻的表现形式也发生了变化,现在可以通过可视化或游戏的方式来标新。

另外,数据新闻传播新思维也不同于之前5w(控制研究、内容分析、媒介研究、受众研究、效果研究)的传播模式,而是在数据分析下有了新发展,拥有了预测性、预警性、针对匹配性、对比性、关联性、市场性等特点。

未来,数据新闻还将带来哪些大的改变呢?沈阳教授强调了三点自动化。

一是自动化生成。现在的数据新闻,特别是可视化新闻生产力是普遍比较低的,所以怎么样在各个环节当中有效地提升数据新闻自动化的生产程度,这是今后业界非常值得投资的一点。比如说可以根据语言自动地选择一些图标,建好大的图标库,实现自动化生产。

二是自动化分发。比如现在微博里面就提供了自动化发布的接口。

三是自动化的评估。发出的信息传播情况如何,评价反馈如何等等,这些信息可以自动化采集回来并进行自动化评估,甚至可以立刻看到包括竞争对手在内的所有信息。

数据新闻适合哪些领域?

新闻的可视化有很多途径,包括数据地图、时间线、交互性的图表,以及传统媒体平台上的信息可视化等。沈阳教授通过一系列整理归纳发现,数据新闻适合在社会类、战争类、政治活动、突发新闻、特点话题、舆情分析、新闻性纪录片类、大型运动会及国际赛事、气象预报,以及信息、知识传播类等领域中发挥效用。

其中,社会类新闻中的民生问题,是老百姓最关心的问题,数据新闻传播效果最好。比如,2014年两会期间央视晚间新闻《“据”说两会》通过采用360搜索大数据看民生,就取得不错的效果。

社会经济方面,首先是可以和金融数据进行直接挂钩,采用大数据作为经济判断指标;另一方面是可以对新闻里面的数据进行可视化的呈现和统计。举个描述房地产的数据新闻的例子,可以把过往媒体报道中发生过凶杀案的房子数据全部汇集起来,画成一个凶宅地图,供搜索房子的人参考。

另外,数据新闻还比较适合战争类的新闻报道,比如网易数读出品的《火箭弹阴影下的以色列:日均遭3枚火箭弹袭击》等等,非常形象。

政治活动方面,国外一些竞选预测的数据新闻案例非常值得借鉴,这在国际政治当中是非常有价值的。一些大型赛事和天气预测也非常适合使用数据新闻,把各类天气的数据聚合起来以后可以做灾害性的预测,包括风险模型,这些风险模型未来可供经济界投资使用……

上一篇:文化航母下一篇:双重化配置