数据服务平台(共12篇)
数据服务平台 篇1
随着我国金融业的飞速发展, 银行如何通过对客户数据的归类存储、对各种要素的自动判别分析, 从己存在的、大量的数据中挖掘出银行经营管理人员、业务分析人员所需要的信息, 以支持决策分析是一个迫切需要解决的问题。由于当前绝大多数企业内数据的真正状况是分散而非集成的, 数据不一致问题、外部数据和非结构化数据问题都难以解决。
数据仓库正是随着关系数据库、并行处理和分布式技术的飞速发展而提出的解决使用数据的一种新技术、新概念, 它是目前已知的最为广泛采用的解决方案。它不是对传统数据库的替代, 而是在传统数据库的基础上对数据进行重新组织。利用数据仓库整和金融企业内部所有分散的原始的业务数据, 并通过便捷有效的数据访问手段, 可以支持企业内部不同部门, 不同需求, 不同层次的用户随时获得自己所需的信息, 并能将网络中分布的商业数据集成到一起, 为决策者提供各种类型的数据分析。
1 数据仓库的定义及特征
数据仓库之父W.H.Inmon在《建立数据仓库》一书中提出:数据仓库就是面向主题的、集成的、不可更新的 (稳定性) 、随时间不断变化 (不同时间) 的数据集合, 用以支持经营管理中的决策制定过程。
数据仓库将不同介质、不同组织方式的数据集成转换而成为一个一致的分析型数据环境, 为不同来源的数据提供了一致的数据视图。它的最大优点在于它能把企业网络中不同信息岛上的数据集中到一起, 存储在一个单一的集成的数据库中, 并提供各种手段对数据进行统计、分析, 并且允许企业的各个部门共享数据, 为企业更快、更好地做出决策提供更加准确、完整的信息。
2 数据仓库的体系结构
数据仓库系统主要包括数据源、数据的存储与管理、OLAP服务器、前端工具四部分组成。数据仓库系统的任务就是对进入数据仓库的原始数据进行抽取、转换、过滤、清洗等处理, 最终进入数据仓库, 以及对数据仓库中存储的数据进行更新、管理、使用、表现等的相关软件/工具进行集合, 用以支持数据仓库应用或管理决策。数据源:为数据仓库提供原始数据。可以是外部数据、操作型数据库、管理数据库、生产系统数据库等。这些数据源可以是集中的或分布的、异构的。数据的存储与管理:是整个数据仓库系统的核心。针对现有各业务系统的数据, 进行抽取、清理, 并有效集成, 按照主题进行重新组织, 最终确定数据仓库的物理存储结构, 同时组织存储数据仓库元数据。OLAP服务器:对分析需要的数据进行有效集成, 按多维模型予以组织, 以便进行多角度、多层次的分析, 并发现数据趋势。前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。
3 银联数据服务平台数据仓库
银联数据服务平台系统又称为基于数据仓库的统计分析系统。它是在整合深圳分公司所有数据包括交易日志、商户资料、ATM终端资料、POS终端资料等的基础上, 对数据资源进行充分挖掘、实现多维统计分析功能, 给服务对象提供一个开放式 (WEB) 的资料查询、统计分析、无纸化沟通的平台, 让数据真正成为分公司、专业化公司、银行、商户进行市场决策, 提高跨行交易质量的重要依据。
系统总体设计, 银联数据服务平台统计分析系统实现的是一个基于数据仓库多维数据模型J2EE架构的业务数据分析系统。它所提供的是基于海量历史数据的分析而实现的面向决策支持层、管理层和业务运行层3个层次的功能。根据银行业务功能需求, 提出了银联数据服务平台是一个具有三层体系结构的解决方案。
数据仓库模型建立与数据组织, 数据仓库的建模主要包括建立数据仓库的概念模型, 逻辑模型和物理模型。首先, 根据业务需求确定系统边界, 分析主题域, 确定当前需要装载的主题。主题是一个逻辑概念, 它应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系, 它的确定限定了数据仓库的规模和应用范围。第二, 细化主题分析内容并进行数据组织, 确定粒度划分和层次划分以及分割策略。这些操作决定着系统的信息量和查询效率, 对系统有重要影响。最后, 生成数据仓库, 设计接口, 装入数据。
在后台数据库的设计中, 采用星型模型多维数据分析模型。利用这种模型可以很好地完成以主题分析为主的数据库设计, 从而理清金融行业数据库中纷繁杂乱的海量数据。为客户从各个维度观察数据打下坚实的后台数据基础。
数据的抽取、转换及装载, 数据仓库的数据源是来自OLTP (操作型环境) 中的操作数据。这些数据源都有不同的格式、标准和含义。物理点上, 他们分布于几台PC上, 分属于不同的操作系统与数据库管理系统上, 这对数据源的采集带来了困难。数据必须首先按一定的模式进行整理与过滤 (同一对象多个实例) , 最后转换成一个数据仓库接口需要的标准数据源。
本系统使用SQL Server 2000的数据转换服务DTS包及存储过程来实现数据的抽取、转换及装载。在数据仓库生成过程中, 数据变换与集成过程十分关键而复杂, 其过程如下。
DB1、DB2→数据读取→数据转换→质量保证→数据装载→目标数据库。
数据仓库的查询, 前台查询系统负责数据的展现, 它包括日志查询、MDX (多维语言) 查询以及可视化界面查询等。
系统的前端采用JSP技术实现报表的发布, 有效减弱了业务逻辑接口和数据接口之间的耦合。同时, 很好地分离了各模块的角色和责任, 有助于提高代码的可重用性和灵活性。系统提供了多种查询统计分析界面, 包括基本的查询统计、二维动态查询、多维展现、各种固定报表输出等。考虑到用户的需求, 利用J2EE技术开发的基于浏览器/服务器模式 (Browser/server, 简称B/S) 的数据服务平台系统, 实现了数据仓库中的数据在internet上的共享, 用户使用浏览器就可以方便快捷地查询、分析。
4 结语
综上所述, 数据仓库为解决目前数据分析中遇到的问题指明了方向, 为信息分析提供了良好的平台, 基于数据仓库的联机分析处理实现了在全局数据的基础上, 实时、动态地按照分析人员意愿展开信息分析的功能, 信息分析人员通过友好的交互界面可以方便地浏览数据仓库中存储的数据。因此, 数据仓库技术在国内银行业及金融业将有良好的应用前景。
摘要:本文介绍了数据仓库的定义、特征、结构及其相关技术。结合深圳银联数据服务平台, 提出了系统数据仓库的解决方案及其实现过程。文章还讨论了联机分析处理在数据仓库环境下针对信息分析的应用, 并进行了评价。
关键词:数据仓库,数据集成,联机分析处理,数据立方体
参考文献
[1]Inmon.W.H著.王志海, 等译.数据仓库.第三版[M].北京:机械工业出版社, 2003.
[2]王珊, 等.数据仓库技术与联机分析处理[M].北京:科学出版社, 1998.
数据服务平台 篇2
RedHadoop大数据工场企业版是RedHadoop公司第一款产品,简称BWE(RedHadoop BigData Works Enterprise),是一款面向行业大数据应用需求,以Hadoop平台为核心,并对其进行了大量增强的基础平台产品,定位于解决高并发、低响应、 TB级以上数据的存储和计算的需求,具备高可靠、低成本、按需扩容基础特性,并提供自动化部署、监控和告警、安全。RedHadoop持续增强操作系统功 能并打造更多丰富的上层结构化数据库和非结构化数据的应用,加强数据分析和挖掘能力。提供数据仓库(DW),结构化数据库(DB),实时分析(RT),视 频分析(VD),搜索引擎(DS)垂直应用层软件,
RedHadoop正在构建一个更完善的Hadoop分布式操作系统。会针对各个垂直应用领域做出持续优化比如 Data Storage,Data HouseWare,DataBase,RealTime,Data Mining,Data Search 等等方向做深度定制。基于行业可以由 GIS 地图,生物信息,交通信息处理,智能交通和智能城市,海量交易的定量分析,医疗数据的分析,基因组测序等等方向做探索。显然Hadoop已经从一个平台已 经向一个分布式操作系统和分布式生态系统的方向发展了,RedHadoop提供一个平台可以更好的落地各类应用,让Hadoop成为一个茁壮并快捷的生态 系统平台。
基于数字校园数据平台的数据仓库 篇3
[关键词]数字校园 数据平台 数据仓库工程
数字化校园建设中数据仓库的架构
数字化校园的构成可以用图1表示,计算机网络是数字化校园的基础设施;网络基本服务是数字信息流动的基础,包括电子邮件、文件传输、域名服务、身份认证、目录服务等;在此基础上要建立各类基于网络的数据仓库,包括职能信息库、课程资源库、数字化图书资源等;应用支撑系统包括办公自动化系统、各类管理信息系统、网络教学系统以及数字图书馆管理系统等等;在此之上的信息服务系统是校内用户的主要使用界面,为师生提供各种服务,如信息交流、信息查询、决策支持、电子商务等。五个区域分别表示数字化学习环境的功能领域:组织管理、教学活动、学术研究、公共服务和学校社区服务等,各个功能领域之间是密切相关、相互促进的。
图1
以选课系统为例解析数据仓库的构建与应用
数据挖掘,又称为数据库中的知识发现(Knowledge Discovery in Database,簡称KDD),是指从大型数据库中提取人们感兴趣的信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Pattems)等形式。数据挖掘可以应用于各个领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。利用数据挖掘技术,挖掘选课系统中积累的有用信息,可以使学校的相关部门有弹性地调节所开的课程,调整热门课程和冷门课程的人数,调节相关课程的学分,通过选课率及相关信息做出正确决策,鼓励和引导学生选择互补的课程,这有利于学生整体素质的提高,也有利于教师、教室等资源的合理分配。
1.确定数据仓库和OLAP模型
OLAP(Online Analytical Mining或OLAP Mining)是基于数据仓库的信息分析处理过程,其基本特点是能够从多种角度对从原始数据中转化出来的信息进行快速、一致、交互地处理,从中获得对数据更深入地了解。OLAM将二者结合起来,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术,它兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性,是数据库应用工具未来发展的方向之一。
通常要先分析原有业务数据库,确定待建的数据仓库主题。再根据用户的需求来确定各个级别数据仓库的存储主题。这里选取学生选课管理这一典型业务为主题。为了保证数据的正确性和一致性,还要确保这些数据是按同样的方法记录的同一件事情,需要对选课的原始数据进行预处理,转换成适合数据挖掘的数据。数据预处理(Data preprocessing)包括三个步骤:数据清理(Data cleaning)、数据集成(Data integration)和数据变换(Data transformation)。完成数据的预处理之后,便可确定待建的数据仓库模型,实现OLAP建模,生成多维数据集(CUBE)。可以建立以ROLAP方式存储的选课数目分析多维数据集(以时间维、学号维、院系专业维为维度,选课数目为度量值)、选课学分分析多维数据集(以课程类别维、课程开课部门维、学号学历维为维度,学分为度量值)等许多个不同的多维数据立方体。
2.数据挖掘关联算法的实现
关于关联规则的挖掘算法主要有循环式扫描算法、增量式更新算法、并行挖掘算法、元模式制导、基于约束挖掘等等。目前大多数研究集中在频繁数据项的挖掘方法上。其中比较典型的关联规则挖掘算法有Apriori算法和FP-growth算法。
Apriori算法可以产生相对较小的候选项目集,扫描数据库的次数由最大频繁项目集的项目数决定。因此,该算法适合于最大频繁项目集相对较小的数据集中的关联规则挖掘问题。针对Apriori算法框架的缺陷,Han.JW(韩家炜)等人提出了FP-tree结构和相应的P-growth算法。FP-growth算法采用的是分而治之的策略,即在经过了第一次扫描之后,把数据库中的频繁集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息。随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关;然后再对这些条件库分别进行挖掘。当原始数据量很大时,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。由于高校多年来存储的选课数据量较大,故选用FP-growth方法实现高校选课系统的关联规则挖掘较合适。
数据服务平台 篇4
数据新闻 就是数据 可视化?不尽然。清华大学新闻与传播学院沈阳教授对数据新闻有更加全面的解读。
数据新闻是什么?
在沈阳教授看来,数据新闻就是新闻中的数据,数据中的新闻。现在很多人认为数据新闻就是数据可视化,但这种认识并不全面。数据新闻应该至少包括五个方面:
第一是文字,比如微信上盛传的“西游记中的群妖伤亡统计”。经统计,西游记中师徒四人遇到的妖怪共计44个,死亡21个,活命23个;背景统计:灵山背景妖怪9个,灵山及政府背景妖怪1个,道家及政府背景妖怪8个,无背景妖怪26个,死20个;性别统计:雄性30个,死9个,雌性14个,死12个。从统计数据可以看出,女妖的死亡率达到了85.7%之高,可见妖怪是否被打死主要取决于其性别而不是后台或背景……这条文字类的数据新闻如果放到笑话类的栏目里,估计会有很高的点击率。
第二是数据新闻的图片,比如网易数读栏目做的一系列可视化信息图。
第三是用视频的方式表现数据,这方面新华网“新华炫视”栏目出品了许多很棒的视频。
第四是游戏,比如网易制作的《习近平和奥巴马是这样夜游中南海的,你们感受一下》互动新闻。在微信里点开这则新闻,出现的是中南海的Q版俯瞰图,以及主人的头像,通过点击,主人公会在中南海内行走,并在每一个事件点会有根据新闻制作的两位主人公的对话以及照片。沈阳教授断定,这类带有互动式的小游戏在微信上会逐渐火起来,未来数据新闻和游戏的结合将是发展的爆点。
最后就是平台,当下数据新闻的平台普遍比较缺乏。沈阳教授举例假设说,一条政策出来后,立刻自动统计出各省各部门做了哪些相关信息的发布……这种做法属于一种数据的服务。
另外,今年3月,Facebook 20亿美元收购虚拟头盔Oculus Rift,计划做虚拟社交游戏。这让沈阳教授看到了“数据体验”的前景。
沈阳教授曾和学生一起做过一个假设:未来的某一天,每个人体内都有一个体媒传感器,可以收集人体内的各种数据。假设有个女孩子,她的猫死了,这时她的情感假设叫做丧猫之痛,因为女孩非常爱她的猫,心痛升级,叫九级丧猫之痛。女孩的情感会被体媒传感器记录,然后上传到网络当中。之后,其他的网友就可以下载体验一把“九级丧猫之痛”。男生体验时,甚至可以加一个滤镜,变成男生版九级丧猫之痛。在未来,数据新闻和“体媒”的结合,发展空间非常大。
沈阳教授认为:数据新闻最终必然会走向数据服务,数据服务最终必然会走向数据体验。数据新闻的未来终极形态一定是三种结合,有数据的新闻,新闻可以服务化,服务化之后是体验化。
数据给新闻带来哪些变化?
数据给新闻带来的变化首先是流程的变化,包括素材的采集和选题的制定,比如通过数据分析就可以获得最合适的选题。新闻的表现形式也发生了变化,现在可以通过可视化或游戏的方式来标新。
另外,数据新闻传播新思维也不同于之前5w(控制研究、内容分析、媒介研究、受众研究、效果研究)的传播模式,而是在数据分析下有了新发展,拥有了预测性、预警性、针对匹配性、对比性、关联性、市场性等特点。
未来,数据新闻还将带来哪些大的改变呢?沈阳教授强调了三点自动化。
一是自动化生成。现在的数据新闻,特别是可视化新闻生产力是普遍比较低的,所以怎么样在各个环节当中有效地提升数据新闻自动化的生产程度,这是今后业界非常值得投资的一点。比如说可以根据语言自动地选择一些图标,建好大的图标库,实现自动化生产。
二是自动化分发。比如现在微博里面就提供了自动化发布的接口。
三是自动化的评估。发出的信息传播情况如何,评价反馈如何等等,这些信息可以自动化采集回来并进行自动化评估,甚至可以立刻看到包括竞争对手在内的所有信息。
数据新闻适合哪些领域?
新闻的可视化有很多途径,包括数据地图、时间线、交互性的图表,以及传统媒体平台上的信息可视化等。沈阳教授通过一系列整理归纳发现,数据新闻适合在社会类、战争类、政治活动、突发新闻、特点话题、舆情分析、新闻性纪录片类、大型运动会及国际赛事、气象预报,以及信息、知识传播类等领域中发挥效用。
其中,社会类新闻中的民生问题,是老百姓最关心的问题,数据新闻传播效果最好。比如,2014年两会期间央视晚间新闻《“据”说两会》通过采用360搜索大数据看民生,就取得不错的效果。
社会经济方面,首先是可以和金融数据进行直接挂钩,采用大数据作为经济判断指标;另一方面是可以对新闻里面的数据进行可视化的呈现和统计。举个描述房地产的数据新闻的例子,可以把过往媒体报道中发生过凶杀案的房子数据全部汇集起来,画成一个凶宅地图,供搜索房子的人参考。
另外,数据新闻还比较适合战争类的新闻报道,比如网易数读出品的《火箭弹阴影下的以色列:日均遭3枚火箭弹袭击》等等,非常形象。
政治活动方面,国外一些竞选预测的数据新闻案例非常值得借鉴,这在国际政治当中是非常有价值的。一些大型赛事和天气预测也非常适合使用数据新闻,把各类天气的数据聚合起来以后可以做灾害性的预测,包括风险模型,这些风险模型未来可供经济界投资使用……
数据库信息服务合同 篇5
乙方:_________
乙方是《_________》的总服务机构。就甲方以“《_________》检索阅读卡(机构卡)”(简称_________机构卡)方式使用乙方《_________》(简称_________数据库)中的有关事宜,甲、乙双方本着诚实信用原则,协商一致并签订本合同,双方共同遵守。
一、服务内容与方式
甲方购买_________机构卡后,乙方在“_________交换服务中心”网站为甲方开通使用_________数据库的帐号,乙方可以在中国大陆任何地方上网使用。
二、计费与收费办法
乙方按甲方浏览,下载_________数据库中的全文页数计费,每页每次_________元。文章的题录,摘要可以免费使用。页数计数由乙方在“_________交换服务中心”网站设置的计数器自动执行,乙方负责保证计数的准确无误,并为甲方提供帐号流量监控系统,对乙方计数进行监督。
乙方为甲方免费提供“内部帐号管理系统”。
甲方一次性向乙方交纳_________元订费作为_________机构卡的首次充值费,当甲方浏览,下载全文页数达到_________页时,甲方帐号自动关闭。甲方可以随时续交费用进行充值,充值费不退。
三、付费与开通服务
1.甲方应在本合同签定后两周内支付乙方_________机构卡订费。
订费合计金额(人民币大写):_________元。
2.甲方可以选择如下支付方式向乙方支付订费:
(1)电汇
开户行:_________
户名:_________
帐号:_________
(2)邮汇_________
3.乙方收到甲方充值费后,3个工作日内向甲方开通_________机构卡网上帐号,并向甲方提供相关的技术咨询服务。甲方接收服务的联系人及其有效联系方式如下:
联系人:_________
电话:_________
传真:_________
联系地址:_________
邮编:_________
四、甲方保证尊重_________数据库的版权和相关知识产权,有关条款见附件。
五、本合同一式两份,双方各执一份,自双方签字之日起生效。
六、本合同未尽事宜双方协商解决。
甲方代表(签字):_________乙方代表(签字):_________
_________年____月____日_________年____月____日
附件
数据库版权保护确认书《_________》(简称“_________数据库”)是经国家新闻出版总署批准,由_________主办,_________杂志社编辑出版,_________公司总发行的正式连续电子出版物数据库。_________的版权归_________杂志社和_________公司共同所有,受国家法律保护,任何使用者必须确认并遵守以下条款规定,以履行版权保护之责任。
1.在用户正式签署“_________数据库信息服务合同”,并支付全额款项之后,方取得“_________数据库”在该合同规定期限和范围之内的使用权。
2.未经版权所有者书面许可,不得通过网络互联允许其它机构或个人使用“_________数据库”;对使用“_________数据库”及软件之ip范围的限制不得擅自解除。
3.不得以任何方式对“_________数据库”进行非法复制、解密、扩散。
4.不得利用“_________数据库”和软件的全部或部分、制作、销售任何形式的数据库和软件,以及任何形式的出版物。未经版权所有者书面同意,不得转让“_________数据库”及其软件的使用权。
5.若违反上述条款规定或国家有关法律法规,均将被视为对该产品版权的侵害,版权所有者有权终止“_________数据库信息服务合同”,不退订费,并依法追究其法律责任。
6.凡订购“_________数据库”者,均视为确认以上版权保护条款,并在确认书上签字。
7.本确认书一式两份,自订购单位签字之日起生效。
订购单位负责人:_________(签字)
数据服务平台 篇6
关键词:大数据 大数据知识服务 信息移动推荐 云图书馆 移动情境感知
中图分类号: G250.73 文献标识码: A 文章编号: 1003-6938(2013)04-0074-06
目前,大数据已经渗透到所有行业和领域。自2008年以来,麦肯锡、IDC、Gartner等战略咨询公司,《The New York Times》、《The Wall Street Journal》、《Forbes》等商业报刊,《Nature》、《Science》等科研杂志,《软件学报》、《中国计算机学会通讯》、《计算机学报》等国内学术期刊,都安排了大量版面对大数据进行介绍。大数据基础理论、学术环境和应用研究的火热给信息移动推荐领域的研究带来的新的思路、原则和方法,进一步将我们带入到了大数据信息化时代,从而会产生两个突出矛盾,一是可获取的信息量的爆炸性增长与用户选择信息能力的局限性之间的矛盾,二是同时共现的信息量的极度丰富和用户感兴趣信息局限性之间的矛盾[1]。这两个矛盾的核心科学问题,就是如何从大数据中挖掘出用户感兴趣的信息,并按照用户所喜欢的方式推荐给相应用户。基于此思想发展起来的信息移动推荐是融合当前各种先进技术的信息服务新模式,利用移动网络环境(移动互联网、无线传感网等)在信息推荐方面的优势并克服其带来的不利条件。孟祥武[2]、刘建国[3]、许海玲[4]、王立才[5]等已对移动推荐系统、个性化推荐系统、互联网推荐系统、上下文感知推荐系统的概念及研究进展做出了充分论述,指出信息移动推荐服务正成为大数据时代的重要研究课题,面向大数据的信息移动推荐服务模式是一种面向主动服务、提高信息利用率、解决“移动信息过剩”问题等的新模式和和新技术手段。
1 面向大数据的信息移动推荐服务的典型特征
面向大数据的信息移动推荐服务模型作为大数据知识服务体系的一个子集,除了拥有大数据知识服务的共性特征之外,在数字化、网络化、物联化、虚拟化、绿色化、智慧化及个性化(共性特征)的基础上,其更为突出的典型特征可以概括为:
(1)面向移动情境感知的推荐。用户行为模式和知识服务需求正随着智能手机、PDA、平板电脑等移动智能终端及移动信息环境的完善与普及发生着革命性的变革,为个性化推荐提供了丰富的情境信息。与传统的情境感知技术相比,面向大数据的移动情境感知更为强调RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等几个大数据主要来源的综合描述,而移动情境感知范围不仅包括大数据环境中的时间、地点、用户行为等基本信息,还包括各种类型的传感信息及物联信息等,通过综合分析移动情境感知的内涵、特征及运行機理,可以尽可能的还原大数据环境下用户行为模式和大数据网络环境的实时情境,借此分析、预测其知识服务需求,从而更好为信息移动推荐提供更全面、更可靠的情境模拟。
(2)面向大数据移动用户的物理世界真实反应的推荐。大数据环境下移动用户所拥有的一些自然属性与传统网络环境下的信息用户颇为不同:一是大数据移动环境下所有用户信息都是真实的(如移动用户都是采用实名制);二是大数据移动环境中的各种复杂结构化、半结构化和非结构化的大数据,直接反映的用户之间的移动社交网络关系,用户特征的共性关系、用户行为的相互关系、知识服务的因果关系等的整体特征隐藏在数据网络中;三是大数据移动环境中的用户的所有行为(如位置信息、行为信息、身份信息及行为过程等)都是用户在物理世界的社交活动中的真实反应。
(3)面向大数据移动用户行为预测的推荐。有研究表明,用户在移动网络中的行为会被许多微妙因素所影响[6],而通过用户在大数据移动环境中的行为轨迹及其在网络中社交关系的动态变化,可以对用户行为、用户情感、用户知识服务需求等进行分析、建模、预测。从而通过对用户在大数据移动环境的足迹、点击历史、浏览历史、信息反馈,直接真实的展示用户的性格、偏好、意愿等相关数据进行分析之后,帮助信息服务机构感知知识服务市场、感知用户需求和能力、感知未来发展形势等,以便信息服务机构对价值评估、服务能力和服务水平等做出更科学的决策,进而推荐更为合适的信息。
(4)面向多维大数据交叉利用的推荐。在大数据移动环境中,数据与数据之间的关系大体可分为三类:一是依赖关系,如用户的个人属性信息(如心情、位置、身份、电话、社交等数据)与用户个体之间,如果用户的个人属性信息与用户脱离,那么这些数据也就失去了真实意义;二是协作关系,如用户信息与交通信息(如航空数据、铁路数据、公路数据等)之间的关系,一旦用户准备出行,就必然会与交通信息之间产生交互,从而生成新的协作数据;三是交叉关系,如主要是针对社交网络(包括真实社交与虚拟社交),用户在大数据移动环境中,不可能只单独的使用某一种服务(如商业服务、信息服务等),他可能既上人人网、新浪微博与朋友们交流,上互联网看新闻,又在淘宝、京东、国美在线上购物,同时还与朋友们打电话、发短信,或者在网上搜索学术论文等等,而用户在这些过程中都会产生不同类型的数据,数据因为用户、用户行为或用户所处环境而产生交集,形成了多维数据交叉的复杂社交网络。
(5)面向社会化关系迁移的推荐。Sinha等曾于2001年提出,用户喜欢来自于周围朋友的推荐多过于信息推荐系统推荐的信息[7],而Salganik等也在2006年间接地验证了这一观点,他们认为在信息推荐体系中,通过对用户历史行为进行计算得出的信息服务需求不如社会影响力的重要性[8]。而面向大数据的信息移动推荐服务体系则是两者的有效结合,其信息移动推荐的结果可能是来自于类似于口碑相传的社会影响力、或通过对用户在大数据移动环境中的历史行为轨迹的分析,得出的信息移动推荐结果。这一点在传统的信息推荐体系是难以做到的。
3 面向大数据的信息移动推荐服务平台体系架构
3.1 信息移动推荐服务模型
本文给出了一个面向多用户、 基于主动服务、能商业、半商业或非商业运行的,面向大数据的信息移动推荐服务模型(见图1)。与传统的基于Web的信息推荐服务相比,面向大数据的信息移动推荐服务模型具有多个技术特征:①信息移动感知、获取、传输、存储、分析及决策的实时连续性;②数据的真实性、时空性、不同类型数据间的关联性;③信息移动推荐服务的即时性、即地性。
面向大数据的信息移动推荐模型在整个服务平台体系架构中显得颇为重要,它主要用以解决以下三个关键问题:
(1)信息移动推荐多维交互数据的感知、获取、传输、存储、分析及预测等服务的语义获取。通过大数据环境中部署的大规模、多类型、智慧型的传感网络实时感知物理世界中用户、信息、及其關系网络的原始活动、半活动及非活动数据,提取信息移动推荐服务过程中,多维交互数据的感知、获取、传输、存储、分析及预测等服务模型,建立相关的语义表示和关联模型,生成具有时空特征的抽象用户群体信息移动推荐一体化网络[9]。
(2)信息移动推荐多维交互数据的感知、获取、传输、存储、分析及预测等服务模式发现、模型构建及部署。通过信息移动推荐多维交互数据的时空特征,对用户、信息、及其关系网络的原始活动、半活动及非活动数据进行深度挖掘、分析,发现大数据的交互规律、模式及时空特性、时空规律,从而有效构建科学、合理地信息移动推荐服务模型,并进行针对性部署。
(3)信息移动推荐多维交互数据的感知、获取、传输、存储、分析及预测等服务在特定移动情境下的演化。在满足用户信息移动推荐的抽象模型和用户服务需求的基本假设等前提下,动态演绎信息移动推荐多维交互数据的螺旋式进化[10]过程,旨在感知、获取、传输、存储、分析及预测大数据环境中的用户、信息、及其关系网络在特定移动情境下的演化趋势[11],使信息移动推荐主体、客体及主客体间多维交互网络能够以预期模式进行应用及推广。
3.2 面向大数据的信息移动推荐服务平台体系架构
面向大数据的信息移动推荐服务平台为层次化体系架构(见图2),包括大数据资源层、中间件层、移动推荐核心服务层、推荐可视化交互层和移动推荐应用层。面向大数据的信息移动推荐服务平台则由中间件层、移动推荐核心服务层和推荐可视化交互层组成。其中:
(1)大数据资源层涵盖了数据资源(结构化、非结构化及半结构化数据等)、管理资源、移动推荐服务设计资源、仿真资源、集成资源、试验资源、计算资源、存储资源、网络资源及其他服务资源等,主要提供的是大数据知识服务全生命周期管理过程中所涉及到的各种类型的大数据,在经过处理后,成为面向大数据的信息移动推荐服务资源。
(2)中间件层支持面向各类大数据的信息移动推荐服务资源的虚拟化、服务化、协作化等,从而对信息移动推荐多维交互大数据的感知、获取、传输、存储、分析及预测等服务过程提供有效支持。
(3)移动推荐核心服务层基于中间件层所提供的接口,提供信息移动推荐服务体系最为重要的各种类型的大数据知识服务功能,包括移动推荐服务部署、注册、搜索、匹配、组合、优化、调度、运行、服务过程的负载均衡机制、容错处理、监控、评估、交易及协作等。
(4)推荐可视化交互层为信息移动推荐服务使用者、运营者、开发者、及提供者等提供一种支持异构协同大数据来源的高效能、可视化支撑门户平台,以支持这三类用户的协同交互及使用。通过(移动或非移动)Web可视化入口,均可为用户提供一系列信息移动推荐服务资源和能力。
(5)移动推荐应用层提供支持单主体完成单领域信息移动推荐、多主体协同完成单领域信息移动推荐、单主体完成跨领域信息移动推荐、多主体协同完成跨领域信息移动推荐、多主体协同完成跨领域跨终端信息移动推荐等五种服务模式。参与交互的移动推荐应用层除了支持传统的移动终端、PC终端、专业终端及门户等之外,物联感知终端、生物体验终端及其他隐形终端也是未来大数据处理需求的新兴技术体系。
4 面向大数据的信息移动推荐服务的关键技术
面向大数据的信息移动推荐服务模型所涉及的关键技术大致可以分为:
(1)模式、体系架构、各类标准及规范。主要是从系统开发的角度出发,研究面向大数据的信息移动推荐系统的结构、内涵、运行机理、组织、运行及服务模式等方面的技术,同时研究支持实施面向大数据的信息移动推荐服务的相关标准和规范。包括:①支持多主体的、跨领域的、面向大数据的信息移动推荐体系结构;②大数据环境下信息移动推荐服务的交易、协作、监测、评估、互操作模式;③面向大数据的信息移动推荐服务的相关标准、规范、协议、方法等,如大数据采集、分类、组织、分析、处理规范、移动推荐核心服务层交互及互操作接口标准规范、感知与接入规范、描述规范、信息移动推荐服务许可、授权标准规范及计费标准等;④面向大数据的信息移动推荐服务组合建模、描述、一致性检查及可执行模式转化等;⑤面向大数据的信息移动推荐服务全生命周期管理模式。
(2)大数据互感、多源信息主动感知、增值及虚拟接入技术。大数据互感、多源信息主动感知等是实现面向大数据的信息移动推荐服务执行过程实时、离线信息主动推荐的前提和基础,其目标是针对信息移动推荐过程涉及到的多源信息的采集,在移动推荐过程中引入多传感技术,为实现不同信息移动推荐服务资源、能力的多源信息的智能互感提供技术支持,从而实现RFID射频数据、传感器数据、社交网络交互数据、移动互联数据等主要大数据来源的数据信息的动态有效获取、分析与预处理。包括:①大数据动态获取、组织、分析、预处理、处理等技术;②面向大数据的信息移动推荐服务资源、能力的虚拟化接入技术;③面向大数据的信息移动推荐服务过程中的多源信息的主动感知与增值技术,其中主动感知技术主要包括多层次服务事件数据模型与描述、服务过程主动感知模式、建模过程、多源移动推荐信息增值技术等部分,而多源实时、离线信息的增值主要基于规则库、组合运算、数据挖掘等方法实现,且面向多主体、跨领域的用户,提供基于实时、离线信息处理后的增值推荐信息;④支持参与面向大数据的信息移动推荐服务的底层移动、非移动终端物理设备虚拟化接入、软硬件互接入技术等;⑤信息移动服务定义封装、发布、虚拟化技术及相关根据研发等技术;⑥信息移动推荐服务请求接入和访问服务平台技术等。
(3)移动用户特征提取、相关信息检索及推荐信息排序技术。移动用户特征提取、相关信息检索及推荐信息排序技术是面向大数据的信息移动推荐服务模型的三个核心模块。移动用户特征提取模块通过获取移动用户的历史行为以及其他相关信息(年龄、性别、兴趣爱好、浏览过的信息、其他行为等)生成用户特征,以便推荐符合该用户兴趣的信息;相关信息检索模块在接受移动用户特征的基础上,快速找到该移动用户可能感兴趣的候选信息,从而生成推荐信息集合;推荐信息排序模块则采用机器学习算法,通过优化某一移动推荐指标(比如信息点击率、评分等),生成信息移动推荐服务模型,计算得出该移动用户对该推荐信息集合的认可度,并分别计算推荐信息集合中所有信息的认可度,然后按照某种移动推荐指标进行排序。包括:①移动情境感知中的用户行为轨迹、行为模式挖掘、用户行为、移动情境、用户情感、社交关系预测技术;②面向大数据的信息移动检索、预处理及索引构建技术;③移动用户与信息的相关度计算、信息移动推荐服务分类技术及移动用户信息服务需求智能化挖掘、分析及匹配等技术;④面向大数据的信息移动推荐服务的融合、管理、运行、优化及反馈等技术;⑤移动情境感知环境下多维交互大数据的时空交互语义获取、模式发现及在特定情境下的服务转化技术。
(4)信息移动推荐过程服务质量信息传感、监控、可信与安全推荐技术。主要研究和支持面向大数据的信息移动推荐服务的提供者、运营者、使用者、开发者等对信息移动推荐服务进行接入、发布、维护、组织与聚合、管理与调度、监测与评估等操作,包括:①信息移动推荐服务提供端软硬件资源和服务的传感、接入管理,如统一接口定义、注册与管理、认证管理、授权机制、访问控制等技术;②信息移动推荐的发布、维护、组织与聚合、管理与调度技术;③信息移动推荐服务的构建与部署、分解等技术;④移动情境感知终端的嵌入式可信硬件制造、移动推荐智能终端的可信接入、发布技术、可信移动网络构建、运营等技术;⑤信息移动推荐系统和服务的可靠性技术等。
(5)信息移动给推荐服务的效用评价技术。效用评价机制对于检验面向大数据的信息移动推荐服务模型的性能和发现其存在的问题来说十分重要,也是信息移动推荐服务体系不可或缺的技术之一。其主要研究信息移动推荐服务结果、服务模式综合评价及大数据感知、获取、组织、分析及预测等综合评价技术,而数据集和效用评价指标是两个重要的研究要素。获取与面向大数据的信息移动推荐服务相关的数据集,要比获取传统信息推荐系统相关的数据集更为困难,目前,公开可用的面向大数据的信息移动推荐服务的数据集很少,因此,如何获取真实、可靠、可用的数据集也是亟待解决的关键技术之一。而在确立数据集之后,使用数据集对信息移动推荐服务体系的性能进行评价时,评价指标则是首先需要解决的关键问题,如何制定科学、合理的评价指标同样应当成为待解决的关键技术之一。
(6)信息移动推荐服务的业务管理模式与技术。主要研究面向大数据的信息移动推荐服务模式下的业务与服务流程管理的相关技术,包括:①信息移动推荐服务漏乘的动态构造、运营、管理及执行技术;②信息移动推荐服务的成本构成、核算、计价、交易策略以及相应的支付模式等技术;③信息移动推荐服务体系中各方的信用管理机制及实现技术;④物理世界与虚拟世界的普适化人机交互技术。
图3所描述的技术体系,给出了每个技术小类的含义与主要内容,以及该服务模型所涉及到的部分关键技术。
5 结语
面向大数据的信息移动推荐服务体系将成为我国信息服务领域充分挖掘大数据资源、提升大数据知识服务核心竞争力的重要支撑手段,也是我国当前发展大数据知识服务领域需要探索的一个重要发展方向。由于面向大数据的信息移动推荐服务体系还是一个崭新的概念,其相关理论与技术在国内才刚刚起步,在国际上也属于前沿研究课题,如Netflix推出的基于大数据分析的个性化推荐系统架构[11]、阿里云推出的基于内容和行为的智能云推荐体系[12]。为促进我国面向大数据的信息移动推荐服务体系的研究、开发、实施、应用与推广,本文提出了一个面向多用户、 基于主动服务的面向大数据的信息移动推荐服务模型,建立了一种面向大数据的信息移动推荐服务的体系架构。
当前,面向大数据的信息移动推荐服务体系是一个具有前瞻性和现实性的前沿课题,它的实施与发展应该遵循“以需求为导向、以技术融合为重点、以协同创新为手段、以应用推广为目标”的指导思想。该服务体系的实现还需在应用需求牵引及相关技术的推动下,开展大量的理论与实践的研究工作。
参考文献:
[1]周涛,陈恩红.推荐技术与互联网广告[J].中国计算机学会通讯,2013,9(3):6-7.
[2]孟祥武,胡勋,王立才等.移动推荐系统及其应用研究[J].软件学报,2012,(8):1-18.
[3]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1-15.
[4]许海玲,吴潇,李晓东等.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362.
[5]王立才,孟祥武,张玉洁.上下文感知推荐系统[J].软件学报,2012,23(1):1-20.
[6]M. Granovetter. The strength of weak ties[J]. American Journal of Sociology,1973,78(6):1360-1380.
[7]R. Sinha, K. Swearingen. Comparing recommendations made by online systems and friends[A]. Proceedings of the DELOS-NSF workshop on personalizationand recommender systems in digital libraries[C].2001.
[8]M. J. Salganilk, P. S. Dodds, D. J. Watts. Experimental study of inequality and unpredictability in an artificial culturalmarket[J].Science,2006,(311):854-856.
[9]於志文,周兴社,郭斌.移动社交网络中的感知计算模型、平台与实践[J].中国计算机学会通讯,2012,8(5):15-20.
[10]唐杰,杨洋.移动社交网络中的用户行为预测模型[J].中国计算机学会通讯,2012,8(5):21-25.
[11]Xavier Amatrain,Justin Basilico. Netflix公布个性化和推荐系统架构[EB/OL].[2013-04-03]. http://www.csdn.net/article/2013-04-04/2814767-netflix-ml-architecture.
[12]云推薦[EB/OL].[2013-04-03].http://tui.cnzz.com/.
电网海量实时数据服务平台设计 篇7
随着电力信息化建设的不断推进, 大量实时和非实时系统得到建立, 大体可以分为监视系统、控制系统以及管理系统, 这些系统对电网的安全管理、安全生产以及经营起到了极其重要的作用。但已有的系统大多都是在不同时期由不同单位建设的。因此, 各系统的通信接口迥异, 无标准化的整体设计和建设规范, 系统间的数据关联较弱, 无法有效进行实时数据的共享与交互, 严重阻碍了电力信息化建设的发展。这也使得跨区多系统协作时, 系统间数据的传输容量, 传输效率得不到保证。建立标准化的实时数据服务平台显得十分必要。以下提出一种新的海量电网实时数据服务平台设计构架, 在研究各类电网系统数据即基本数据、运行数据、试验数据、在线监测数据和事故数据的基础上, 建立了标准化实时数据的数据接入格式, 统一了电网内系统间的数据通信协议, 消除了以往通信接口、数据存储接口以及服务接口相互孤立的缺陷, 形成了标准化的不同系统数据交互的海量实时数据的服务平台。
2 数据平台发展现状
由于电网实时系统应用范围的不断扩大, 以及安全分区的推进, 传统数据的传输交换结构已经无法满足现实的需求, 孤立接口模式来实现数据传输交换正逐渐被中心数据平台所代替。调度数据中心[1,2,3]向着一体化、集成化发展, 逐步形成图形、数据、模型等为一体的调度数据平台, 有效增强了电网应用系统间的数据交互与协同。实现电力生产海量实时信息交互和生产实时数据的共享的基础上, 需要更好地为电网的经济、安全运行以及经营管理服务。显然, 对于这一“企业级”的管理和生产需求, 调度数据中心却并不能完全满足, 因此, 企业级数据平台成为了研究热点。企业级数据平台的数据并非来自孤立单一的系统, 而是来源于电网中各部门相关的系统, 并且其数据平台能够为电网整体提供服务, 实现各类数据的共享与交互。
3 实时数据服务平台标准化
3.1 标准规定
国际电工委员会制定的IEC61970/61968协议标准以其先进的理念, 为电网自动化提供了指导, 给出了电网企业相关业务相适应的电网模型和接口规范, 即公共信息模型[4]CIM和组件接口规范CIS。这一协议标准彻底改变了电网中各系统信息无法有效交互, 效率较低等缺点, 使得电网中各电力信息化系统能够实现无障碍对接, 真正做到互通互联, 极大地降低了电网各系统的集成应用成本。CIM是整个IEC61970协议标准的核心部分, 是一个抽象的模型, 提供了标准化方法, 描述了电力系统中所有对象的逻辑结构和关系信息模型。这就使得能够把电网的物理设备层抽象为资源层, 不仅考虑到了主网的物理设备资源, 而且囊括了配用电等。传统的电力生产调度常常用CIM作为电网模型, 随着应用范围的不断扩大, 在其他相关电力业务的描述上使用也越来越广泛。比如电网电气、风电网、微电网[5]等都可以用CIM来建立电网模型, 获得抽象应用, 其意义不言而喻, 对电力系统中其他各类信息相关系统的集成与融合起到了指导性作用。从整体来看, 一整套CIM模型过于庞大、覆盖面广, 所建模对象之间的逻辑关系极其复杂, 因此, CIM中的对象类被对应成多个逻辑包, 某一个电力系统模型都对应着一个逻辑包。公共信息模型是由一组完整的包所组成, 这些包的集合逐渐发展成为独立的标准。
3.2 统一实时数据接入格式
3.2.1 标准体系结构
随着电力系统实时监控及决策支持系统的不断发展, 现有的电网内各系统间的数据交互性能、传输速率与安全可靠性以无法满足发展的需要, 建立能与海量数据流通相匹配的通信标准, 且能支撑电网中跨区域多系统的互通互联势在必行。应用较为广泛、技术较成熟的网络技术有ISO-OSI[6]参考模型, 这一参考模型大体上能够适应对电网中的实时动态数据的通信要求。ISO-OSI参考模型共分以下几层:应用层、传输层、网络层、数据链路层以及物理层。ISO-OSI参考模型中的传输层采用的是TCP协议, 面向链接的TCP能够提供可靠、全双工的字节流, 具有多路服用、全双工、控制流、同步和确认等功能。数据服务平台与其他各外部系统之间需要建立多通道和完成多发多收, 采用C/S模式的基于TCP的应用程序符合这些要求。各外部子系统的TCP/IP网络传输功能与数据的单元格式组成了实时数据传输的标准, 那么这个标准在基于TCP/IP的各类网络中均能使用。
3.2.2 数据单元格式
实时数据单元格式主要由4部分组成:头帧、命令帧、配置帧和数据帧。头帧规定了算法、变送器类型、模拟滤波器、数据源等说明性信息;命令帧规定了海量数据服务平台与电网各子系统通信的控制命令;配置帧主要描述了数据帧在传送实时数据时的数据类型及通信通道等信息。数据帧包含了同步相量测量值以及全球定位系统同步时间。而每个不同的帧有统一的功能字节分配, 前两个字节是帧的同步字 (SYNC) , 然后是占两个字节的帧字节数 (FRAMESIZE) , 再在后面的四个字节是世纪秒 (SOC) 。每个帧的帧头都提供了时间同步信息以及帧的类型, 帧与帧之间在传输的过程中无分界符, 每一帧都以CRC16校验字结束。
3.2.3 通信构架
海量数据服务平台与各系统之间的实时数据传输流程是通信标准的重要部分。实时通信基于面向连接的TCP通信协议, 使用C/S模式建立实时数据管道及管理管道, 图1简要说明了实时通信的建立过程。系统启动或重建通信时, 实时通信管道未建立, 服务平台与各系统的通信过程分解为若干子通信流程。
4 平台设计方案
4.1 整体架构
在建立配网模型标准、计量信息标准的基础上, 实现主配网信息的共享, 计量信息与配网设备的信息关联、主网设备与配网设备的关联以及设备功能位置与设备台帐的关联, 能够提供基于SVG图形的生产、运行综合信息的查询手段。配网系统和主站系统以适配器的方式接入海量实时数据平台, 系统的技术构架如图2。
4.2 技术路线
电网海量实时数据服务平台系统整体被设计为5个层次, 分别是用户接口、核心服务层、核心组件层、数据层以及操作系统层, 技术路线图3。用户接口层为用户提供统一的界面入口, 并根据授权的划分可以让用户能够完成不同模块应用。核心服务层提供以核心组件层为基础, 为标准协议层提供支持, 并且为各相关模块应用的调用的接口, 可使用本系统成为它们管理系统的一部分。核心组件层该层为实施实时协议标准提供支持服务, 其中核心组件层和核心服务层是基于C/S体系结构, 基于面向对象方法开发数据服务平台与相关基础组件和业务组件。数据层通过异构数据库各个组成部分的自治性, 实现数据的共享和透明访问, 同时实现不同数据库之间的数据整合, 其中每个数据库系统应保有自己的应用特性、完整性控制和安全性控制。操作系统层是基于C/S的架构, 支持各种流行的硬件平台和操作系统来为系统提供稳定安全的操作系统环境。
4.3 全网模型
分层、分区时我国电网管理与运行的典型特点, 所以电网信息的集成、交互、共享需以CIM来建立全网模型。全网模型的形成把各系统异构接口统一成标准化的接口方式, 使得可以任意获取电压等级范围内的设备参数、拓扑结构和电网模型。主要的核心设计是模型的导出以及全网模型的拼接与拆分。
4.4 数据接口
数据接口分为三大部分:配网系统适配器、计量自动化系统适配器以及生产系统接口。配网适配器连接信息集成平台与实时数据平台, 是其数据交互的接口, 依据CIM相关类对配网进行建模, 并且描述连接关系, 从信息集成平台获取按照CIM组织的配网模型和SVG图形。计量自动化系统适配器是实时数据平台接入计量主站系统的方式, 计量自动化系统相关量测数据的主要特点是多样, 因此, 量测与表计的模型需重点把握。生产数据与实时数据平台连接的接口可使用专用的接口方式, 生产系统接受展示服务器查询到的设备代码信息, 然后, 把设备缺陷信息或者设备台账反馈回去。
5 结束语
文中在提出适合电网实时数据传输的通信数据协议标准的同时, 给出了海量实时数据平台的设计方案, 通过研究各类电网系统数据即基本数据、运行数据、试验数据、在线监测数据和事故数据, 建立了标准化实时数据的数据接入格式, 统一了电网内系统间的数据通信协议, 消除了以往通信接口、数据存储接口以及服务接口相互孤立的缺陷, 形成了标准化的不同系统数据交互的海量实时数据的服务平台, 该数据平台能够提升电力系统整体的稳定性、安全性和可靠性, 为电网中各系统间海量数据的挖掘、分析、交互、共享提供途径, 极大的节约了电力生产中系统集成成本, 对于电网信息的整合起到了重要作用。
摘要:为了能够为电网中各系统间海量数据的挖掘、分析、交互、共享提供数据服务平台, 提出了对数据通信接入格式、数据存储以及相关服务接口标准化的海量实时数据服务平台。在分类分析现有控制、监视和管理系统中实时数据信息的基础上, 研究并设计了统一的实时数据接入格式, 并且详细描述分析了服务平台相关的设计方案。
关键词:实时数据,服务平台,数据接入,通信协议
参考文献
[1]丁鹏, 何云良, 陈国平, 等.金华电网基于IEC61970标准的SCADA/PAS一体化集成[J].浙江电力, 2005, 22 (1) :18-21.
[2]王晓波, 樊纪元.电力调度中心统一数据平台的设计[J].电力系统自动化, 2006, 30 (22) :89-92.
[3]孙宏斌, 李鹏, 李矛, 等.中国南方电网在线分布式建模系统研究与设计[J].电力系统自动化, 2007, 31 (10) :1-6.
[4]潘毅, 周京阳, 吴杏平, 等.基于电力系统公共信息模型的互操作试验[J].电网技术, 2003, 27 (10) :25-28.
[5]丁银, 丁明, 毕锐, 等.微电网系统CIM/XML模型研究[J].电力系统保护与控制, 2010, 38 (9) :37-41.
数据服务平台 篇8
关键词:云平台,结构化数据,分布式计算,并行计算,海量数据
0 引言
企业通过信息时代的编程技术、数据库技术和网络技术实现了企业办公自动化、经营决策管理信息化和生产过程信息化, 革命性的提高了运营效率, 但是对信息获取手段的落后, 使得信息的采集和长久保存都十分困难和复杂。目前, 解决海量数据并发处理较为成熟的新技术是Hadoop, 但它更多的是针对互联网行业百万以上小用户微粒度数据库实例的高并发处理问题, 并不是为海量结构化关系型数据聚集条件下单一大数据实例应用而设计。因此, 我们将站在全新的大数据应用高度, 对新的技术架构进行探索和研究, 以便更为合理的解决企业大数据应用的关键技术难题。
1 系统设计
构建企业大数据应用的客观技术前提, 主要可分为海量数据的存储架构和海量数据的服务架构两个方面:
(1) 快速读写的海量数据存取架构
海量数据的存取架构主要指在架构层需能够满足海量数据的存取处理能力和存储容量。当数据从多个来源方向向海量数据的数据池中汇入时, 数据存取架构能够在目标时间内完成处理, 并且具备水平扩展能力, 适应未来数据递增的各种条件。
(2) 快速响应的海量数据服务架构
数据服务架构是指海量数据在数据池中汇总完成后, 数据如何对各类企业决策层和企业业务层提供服务。当数据服务的请求者将一份数据服务请求涉及到多个原本跨业务系统、数据表或复杂查询时, 在数据服务架构层能够以最终结果数据量 (包括硬件处理能力) 为目标, 快速将数据服务结果反回给服务请求者。这将需要海量数据服务架构能够对各类无属性关联性的数据实现透明化管理, 对各类数据服务能够预定义快速处理的操作策略。
如图1所示, 我们按照SOA设计原则把整个平台逻辑分割成4大部分。包括:数据云协调管理器、数据云执行处理器、数据云分片管理和数据云存储。
数据云存储为整个平台数据持久化子系统, 它负责平台所有的数据的存储, 我们可以看到数据云存储部分共有3个节点, 其中A节点为没有分片的节点, 这里需要说明的是我们的平台除了支持分片集群外也支持非分片存储库的接入, 从而使许多遗留的非分片存储库可以享受平台带来的众多好处。节点B是一个分片集群, 从图中可以看到数据被分片到了3个不同的数据库中。节点N代表理论上可无限扩充的分片集群, 根据实际的存储需要和性能需求我们可以接入更多的分片集群来满足需要。
数据云分片管理提供用户对数据云存储的管理中的分片集群和非分片存储库提供统一的管理入口。它提供两种交互方式, Web页面的方式和WebS ervice方式。其中的功能部分可以支持用户对分片的管理、数据源的管理、数据迁移的管理和数据虚拟大纲的管理。
数据云执行处理器是负责整个平台数据处理执行的子系统。该处理器通过用户设定的执行策略来执行具体与数据相关的业务逻辑。它从用户那里得到要处理的业务逻辑, 从后台的云数据存储中得到对应的数据, 最后按照事先设定的策略进行计算和处理。
最后是数据云协调管理器子系统, 可以把它看成整个平台的核心。用户可以在这里定义具体的业务逻辑、将业务逻辑分配给指定的执行处理器、设定执行处理器处理执行这些业务逻辑, 并结合底层云的弹性计算架构对执行管理器进行调度管理。它提供了Web和WebS ervice两种交互方式, 用户可以通过界面或者接口来进行相应的操作。
2 技术实现
考虑到通用性、高效性、平台移植性和安全性的需求, 我们选用JAVA作为平台的实现语言。借助其广泛成熟的类库是实现平台级系统的首选。Java虚拟机我们选用了成熟可靠的JDK6, 它在动态语言方面提供了更好的支持。在数据持久化方面, 我们选用了Hibernate和Hibernate Shards作为数据持久化框架和数据分片框架, 他们都是广受好评的开源框架具有灵活的可扩展性和完善的支持。最后, 在业务逻辑脚本解析方面, 我们选用了动态语言作为业务逻辑描述语言。JDK6提供了广泛的动态语言支持, 包括Groovy、Javasript和JRuby, 我们选用Groovy作为我们平台的首选动态语言。
3 实验
我们通过系统研发构建了一个数据服务云平台的早期版本, 将其部署在了Amazon云计算平台。以测试其性能表现。亚马逊Redshift是由美国亚马逊Amazon建立的PB级规模的数据处理系统。这是一个构建在亚马逊AWS云服务平台的DaaS [1] (数据即服务) 的数据处理系统。
数据服务云平台和Redshift都支持并行数据访问。Redshift使每个节点上的CPU和内存资源平均分配给查询处理。数据服务云平台则支持相同的放置多个“切片”在同一台物理机器上, 或者使用分布式存储在不同的机器上, 或两者兼而有之。数据服务云平台和Redshift都基于“无共享”架构, 所以可以简单的理解成:你有几个节点就可以获得几倍的性能提升。
测试配置
16个节点。
Redshift分配16个XL节点和1个LeaderN ode
数据量为120G Raw Data
数据服务云平台 (16个节点共120G可用内存、64个计算核心、13340MB本地数据存储) 、Redshift (16个节点共240G可用内存、70.4个计算核心附带LeaderN ode、32000MB本地数据库存储)
响应时间 (三次查询均值)
注释:1、蓝色为数据服务云平台, 橘红色为 Redshift; 2、柱子越短代表性能越好
4结论
性能测试结果充分证明了基于分片和虚拟化技术来处理海量结构化数据的可行性。可以看到大多情况下数据服务云表现良好。但需强调的是我们的数据服务云平台运行在更少的资源和更低成本组成的系统上, 总体成本只有Redshift的三分之一。可以确信的是如果付出与Redshift相同成本的情况下, 数据服务云平台集群的可以获得更好的性能。随着计算节点增加, 处理能力呈线性提升。更好的满足数据加工和查询的同时, 更可以享受到云计算技术带来的所有好处:高性能、可伸缩。
参考文献
数据服务平台 篇9
为促进与完善高校各部门管理工作的数字化、规范化和科学化, 推动数字化校园的全面建设, 各高校分别在保留原有系统的基础上将各个应用子系统进行整合集成为一个整体。由于各应用子系统所使用的系统及数据库不尽相同, 可能同构, 但更多的是异构系统, 因此需要建立一个公共数据交换平台, 将原有各系统数据整合到公共数据库, 同时各系统可方便调阅公共库中的数据进行应用, 从而形成一个无缝数字化校园体系结构。
1 数据交换平台的设计原则
1.1 遵循统一的数据交换标准
数据交换平台的目的是在数据中心和各业务部门等原有业务系统之间交换数据。由于各原有系统的技术构架不同, 信息的表示也各不相同, 要在这些不同的系统之间交换数据, 首要的问题就是定义一种标准的数据格式及数据交换的规范, 以方便实现不同硬件平台、不同操作系统平台、不同语言平台应用之间的平滑通信。
1.2 支持异构系统、异构数据库的交互及数据存取
数据交换首先涉及到如何与各级部门、各异构系统及其异构数据库进行交互, 实现数据的存取。能够对各级部门、各业务系统的数据库定义数据抽取规则, 从而实现自动地从各级部门的数据库或相应业务系统中抽取公共数据库所需的数据。数据存取的需求具体可归纳为:支持多种异构数据库, 如主流的关系型数据库包括:Oracle、SQL Server、DB2、Sybase等;能够集成各种异构的业务系统, 通过接口实现与应用的交互, 完成数据的存取, 如Web Service接口、文本型数据库接口;
1.3 信息传输
支持灵活的数据交换方式:可以根据不同部门的情况, 对于不同类型的数据有不同的更新要求, 可分别灵活采取多种数据上传的方式, 比如, 对于信息变更频繁的数据, 能够实现实时更新, 而对校园中变动不是很频繁的数据, 如人事数据、设备数据, 则实现定时更新, 如可定义每日上传一次, 或每周一次。对于数据上传的时间, 也可灵活定义, 如为了避开网络高峰, 减少对系统的影响, 可定义在晚间及凌晨等系统和网络均比较“空闲”的时候来进行数据的同步;支持大数据量、支持跨平台、跨多种网络模式的分布式数据交换;有高可靠性和和安全性。
1.4 数据转换
平台需要能够适应各系统数据内容和格式的变化, 提供可视化的转换配置界面, 并实现各系统数据与中心标准数据之间灵活的转换。
1.5 质量控制
能够对交换数据进行验证和质量控制, 能够根据一定的规则, 进行数据验证, 验证数据是否符合入库要求;能提供完善的日志。
1.6 数据交换的安全
支持对敏感数据进行加密传输。
2 数据交换平台中的数据整合模式
根据不同子系统的数据库, 可以建立图1所示的整合模式。在该模式中的公共库选用Oracle (9i/10G) , 应用系统业务库包含Oracle8i/9i/10G、DB28.1.2/8.2、Sybase11.5/12、SQLServe2000、DBF、A CCESS、EXCEL等, 其整合线路可以定义为3类: (1) 基于业务库表进行ETL抽取输入公共库 (A、ETL抽取) ; (2) 基于业务库输出虚视图进行ETL抽取输入 (B、ETL抽取) ; (3) 基于业务数据源文件或中介文件进行ETL抽取输入 (C、ETL抽取) 。
其中A类线路的适用于业务库遵循执行标准规范、两个数据库系统网络连接有保障、业务库能为公共库提供需要公共的表的读取帐号的情况;B类线路适用于业务库遵循执行标准规范、两个数据库系统网络连接有保障、业务库能为公共库提供该视图的访问帐号、公共库能够明确给出业务库输出格式要求、业务库能依据公共库整合的要求建立输出视图的情况;C类线路适用于公共库不能直接访问业务库、应用系统能依据公共库整合要求提供输出文件、业务库能为公共库管理员提供文件结构说明的情况。
4 平台中数据的订阅模式
要将公共库中的有用数据调入各子系统中加以应用, 需要制定数据的订阅模式。根据系统的不同, 制定了同构系统的订阅模式和异构系统的订阅模式。
4.1 同构系统的订阅模式
在同构系统的订阅模式 (图2) 中, 公共库和业务库都选用Oracle (9i/10G) , 其订阅线路为: (1) 应用系统基于公共库数据表的ETL抽取 (A、ETL抽取) ; (2) 基于公共库数据表的增量快照输出 (B、增量快照) ; (3) 基于公共库数据表跨库视图输出 (C、跨库视图) ; (4) 应用系统基于公共库视图的ETL抽取 (D、ETL抽取) ; (5) 基于公共库视图完全快照输出 (E、完全快照) ; (6) 基于公共库视图跨库视图输出 (F、跨库视图) ; (7) 基于公共库数据文件输出 (G、文件输出) 。其中A线路主要适用于两个数据库系统网络连接有保障、应用系统能独立配置和运用ETL工具进行抽取、公共库通过订阅工具为应用系统提供公共表读取帐号的情况;B线路主要适用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行的情况;C线路主要适用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行的情况;D线路主要适用于两个数据库系统网络连接有保障、应用系统能独立配置和运用ETL工具进行抽取、公共库通过订阅工具为应用系统提供公共输出视图的结构和读帐号;E线路主要适用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行;E线路主要适用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行的情况;F线路主要适用于应用系统能处理中介数据文件的情况。
4.2 异构系统的订阅模式
异构系统的订阅模式 (图3) 中, 公共库用Oracle (9i/10G) , 业务库可能是Oracle8i DB2 8.1.2/8.2、Sybase 11.5/12、SQL Server2000、DBF、ACCESS、EXCEL等, 其订阅线路为: (1) 应用系统从公共库数据表中抽取 (A、ETL抽取) ; (2) 基于公共库数据表跨库视图输出 (B、跨库视图) ; (3) 基于公共库视图应用系统ETL抽取 (C、ETL抽取) ; (4) 基于公共库视图跨库视图输出 (D、跨库视图) ; (5) 基于公共库中介文件输出 (E、文件输出) 。其中A线路用于两个数据库系统网络连接有保障、应用系统能独立配置和运用ETL工具进行抽取、公共库通过订阅工具为应用系统提供公共表读取帐号;B线路用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行;C线路用于两个数据库系统网络连接有保障、应用系统能独立配置和运用ETL工具进行抽取、公共库通过订阅工具为应用系统提供公共输出视图的结构和读帐号;D线路用于两个数据库系统网络连接有保障、公共库通过订阅工具为应用系统提供可执行订阅脚本、应用系统在自有数据库中完成订阅脚本执行;E线路用于应用系统能处理中介数据文件。
5 结语
在数据整合的过程中, 建立有效安全的数据交换平台是关键。在该平台的公共数据库基础上逐步形成的数据仓储, 将为高校的决策和分析提供更好的支持, 从而加快高校的教育信息化进程。
参考文献
[1]许鑫, 苏新宁.高校共享数据中心平台的设计与实现[J].现代图书情报技术, 2005 (6) .
[2]黎小红, 田富鹏.异构数据库中数据集成技术研究[J].西北民族大学学报 (自然科学版) , 2006 (4) .
[3]段永威, 秦峰.异构数据源数据转换工具的设计与实现[J].现代图书情报技术, 2004 (4) .
[4]董向辉.分布数据整合与共享中的关键问题及解决方案研究[N].吉林大学硕士学位论文, 2004.
高校图书馆开放数据服务平台研究 篇10
一、高校图书馆开放数据服务的内容
1.检索服务。高校图书馆在向用户提供其所需要的数据资源之前,首先应当检索这些对外开放的数据资源,这项技术能力在高校图书馆的各种服务类型之中最为人所熟知。不仅仅是因为高校图书馆的主要服务方式一直以来都是文献资源的检索,还由于在全国范围内将近三分之一的高校图书馆把文献信息资源检索作为一门课程来对本校的大学生开设[1]。所以,高校图书馆为用户提供数据资源检索的服务也是其比较擅长的。但是,高校图书馆并不能因此故步自封,需要通过不断地总结研究,丰富检索信息的内容,为用户提供更加完善的服务,满足用户对开放的数据资源不同信息的需求。
2.发现服务。高校图书馆根据自身在检索和获取数据资源方面的技术优势,通过对互联网上与本校专业学科内容相关的且已经存在的数据资源或者用户需要的其他特定数据资源,进行检索、整合和存储,形成一个集合本校科研服务与专业学科知识教学的开放性数据资源体系。以此为基础,将开放数据资源的发现服务向用户提供,增加其有效利用率和访问量。用户也可以通过访问高校图书馆网站的渠道,发现所需要的数据资源内容,进而下载获取,实现开放数据资源的有效利用。
3.申请服务。假如用户在高校图书馆开放数据平台不能查询和获取所需的相关数据资源,或是资源量过大,用户不方便通过网站进行直接下载之时,可以向平台上的高校图书馆服务人员或相关申请窗口提交申请[2]。高校图书馆开放数据平台上的管理人员或服务人员在接到用户提交的申请之后,会及时进行申请信息的处理和结果反馈。用户可以通过进入高校图书馆的用户中心或信息反馈空间,查询到高校图书馆给出的答复信息或所申请的相关数据资源信息,最终满足用户对数据资源的申请需求。
4.获取服务。通常情况下,高校图书馆数据资源的开放都是免费的全文开放。一般不会存在资源获取困难的问题。而对于如何获取较为全面的开放性数据资源,用户大多没有掌握准确的方式,这就要求高校图书馆完善用户获取资源方面的服务。加上一些非主观因素的制约,部分用户在获取数据资源的时候存在一定的障碍,这主要是因为开放数据资源的提供者设置了相关的获取条件限制,这些条件限制包括用户注册、积分充值等方式。因此,高校图书馆能够在利用自身技术优势的基础上,给用户提供无障碍获取服务。
5.管理服务。高校图书馆拥有大量的数据资源信息,当这些资源向社会全面开放时,需要加以妥善的管理。可以利用相关的技术手段建立科学有效的管理模式,进而更好地发挥和利用数据资源的价值,为用户提供优质的数据资源管理服务。高校图书馆开放数据平台为用户提供的管理服务主要包括数据资源的分类、验证、整合、建设、链接、维护、更新和使用反馈等[3]。高校图书馆可以在借鉴一些知名大学图书馆开放数据管理服务经验的基础上,对本地的资源特色进行融入和优化,最终能够为用户提供完整的开放数据资源管理服务。
6.关联服务。各类文献资料的内容与科学数据之间往往会有密切的联系,高校图书馆根据这一联系可以向用户提供文献资料与科学数据关联的服务。相关研究表明,学术文献与科学数据之间进行相互关联是有作用的。目前这种关联形成的服务主要是文献单方面关联数据,也就是从论文或文章链接到数据。高校图书馆在这一方面可以通过与相关团体的合作,整合文献资料和科学数据,建立二者之间的链接桥梁,提高数据资源的可解释性与易发现性。
7.传递服务。高校图书馆为用户提供数据资源传递的服务基于其丰富的资源含量,也只有通过传递和流通,数据资源才能实现其利用价值,彰显其潜在的再利用价值。这一服务主要针对那些特殊的数据用户而言,当用户由于网络受限或其他方面的原因不便于自己直接下载所需要的数据资源时,高校图书馆可以采用邮箱发送等方式将数据资源传递到用户的手中。
8.存储服务。目前高校建立开放数据资源存档的仓储库越来越多,学术期刊等机构建议作者将自己论文中相关的数据信息提交到公共仓储的现象也开始增多。因为学科和数据量十分庞大复杂,数据信息的存储库也非常庞杂,所以用户选择起来就会愈加困难。高校图书馆为用户提供的数据资源存储服务包括网盘、资源库等多种方式,有效解决了用户在保存重要数据资源时遇到的困难。
二、高校图书馆开放数据服务的优势
1.开放数据服务是高校图书馆职业专业能力的范围扩展。经过长期对纸质文献资料进行的分类、整册、分卷和内容分析等不同层次的管理和组织,高校图书馆渐渐具备了数据资源管理和组织的职业专业能力[4]。这种职业专业能力通过不断地发展和进步,已经延续到对数据文献资源的组织管理之中,例如对数据文献资源进行的检索、下载、传送、存储等组织管理。这一职业专业能力也就成为高校图书馆开放数据服务平台的固有优势。这也是高校图书馆对开放数据资源进行组织和管理的基础。
2. 高校图书馆的开放数据资源具有可靠性和专业性。高校图书馆的专业学科馆员都与学校各院系长期保持稳定的联系,他们十分熟悉自己对口服务的专业学科教育所需要的各种文献资料和数据资源内容。在将专业性的数据资源服务向用户提供时,他们对数据资源的内容和类型选择方面具有很高的教学使用度与专业吻合度,这在很大程度上提高了图书馆开放数据资源服务的质量和水平。
三、高校图书馆开放数据服务需要注意的问题
1.保护用户的隐私权。开放数据在为用户提供便利的同时,随之而来的也有诸多的问题和风险。一些高校图书馆开放数据服务平台会对用户进行位置信息的采取和身份账号的认证。这就容易造成读者个人隐私的泄露。除此之外,黑客的攻击也是高校图书馆开放数据的过程中可能碰到的问题,后果严重的话不仅会对数据资源造成毁坏,而且用户的个人隐私乃至财产安全都有可能受到侵犯[5]。因此,高校图书馆需要不断加强开放数据平台的安全性建设,在为用户提供数据资源服务的同时,注重好用户隐私权的保护。
2.保障开放数据资源的安全。以网络为基础进行的信息资源传播是高校图书馆开放数据最主要的特点,而那些为用户提供的数据服务容易成为受攻击的目标。高校图书馆开放数据服务平台面临着较为复杂的网络环境,信息资源高度集中,如果受到攻击就会造成很大程度上的资源损失。高校图书馆一旦实现高度的数据资源开放和共享,很多网络黑客都能轻易利用系统存在的漏洞,进行数据窃取或破坏数据资源等活动。有些高校图书馆将数据资源利用云存储技术进行存储,虽然达到了灵活、高效的目的,但是相对带来的信息资源安全威胁也是不可忽视的,所以开放数据资源必须要做好安全问题的保障。高校图书馆服务人员要经常对服务平台进行维护和检测,及时处理一些隐在的风险,才能保证为用户提供的开放数据资源服务的有效性和安全性。
3.提升数据资源开放的透明度。高校图书馆开放数据服务平台应当结合社会各界的意见,合理地对数据资源开放的内容和对象进行甄别和筛选,与此同时还要兼顾公开透明的原则。高校图书馆应当取消访问权限和内容等方面的有关限制,全面对外开放,为社会各机构团体和个人提供数据资源服务[6]93。如果某些数据资源内容涉及国家安全等重要性问题,高校图书馆可以设定相关限制,保障开放数据服务符合法律制度规范。而对于涉及公民隐私的数据资源,高校图书馆可以通过实时监控和服务平台周期性检测等方式来确保公民隐私不被盗取和滥用。
总之,处在大数据时代背景下的高校图书馆,不能局限于校园服务的结构框架之内。开放数据服务是实现其资源充分利用和创新服务模式的最佳选择,也是有利于高校图书馆可持续发展的重要因素。在信息化十分复杂的网络环境之中,高校图书馆要想革新传统的数据服务模式,拓展服务范围的广度,实现数据资源的最大化利用,必须在满足用户需求的基础上,完善自己的服务流程,保障数据资源的安全和用户的隐私权,公开向社会全面开放。开放数据服务平台也是高校图书馆顺应当代潮流所做出的正确决策,这一决策虽然面临着诸多问题和挑战,但是就其前景来看,只要高校图书馆结合信息技术不断完善自身服务,在未来的数字时代社会中将会发挥至关重要的作用。
参考文献
[1]李慧芳.大数据时代高校图书馆开放科学数据服务[J].中国中医药图书情报杂志,2015(2).
[2]杨莉.我国高校图书馆开放存取信息服务现状及其发展对策研究[D].华中师范大学,2008.
[3]阮菊红,李勇,吴宗敏等.高校图书馆开放服务初探[J].科技情报开发与经济,2007(7).
[4]马晓亭,尚庆生.大数据时代图书馆开放数据服务平台与开放数据服务模式研究[J].图书馆理论与实践,2015(5).
[5]刘春丽,徐跃权.开放科学和开放数据环境中专业图书馆的新角色[J].图书馆建设,2014(2).
双“恩”结缘数据服务 篇11
毫无疑问,这是一个不小的市场。日前,两家在这一市场中颇有影响力的公司云和恩墨、恩核经过相识、相知,最终牵手走到了一起,举行了“云和恩墨&恩核战略合作签约会”,云和恩墨战略投资恩核,双方成为合作伙伴,共同为中国用户提供数据/数据库端到端的产品和服务,推动中国数据服务市场的发展。
恩核北京信息技术有限公司2012年1月成立,具有17年历史的韩国EN-CORE公司是其背后的巨大支持力量。尽管公司成立仅3年,但已有50多家客户,并与国内大型集成商或应用开发商达成了战略合作伙伴关系。恩核北京信息技术有限公司总经理郑保卫博士介绍说,恩核公司是专业从事数据及数据库服务的公司,特别在数据架构设计、数据建模、数据治理等方面具有独特的优势。
对于数据治理,郑博士解释说,当前大多数企业构建了信息系统或数据库,但在运营过程中,经常会遇到很多问题,比如因数据不标准而造成数据重复、数据不一致,因数据模型无法管理而导致表大量重复,系统上游的表结构变化而造成下游的数据混乱,数据不完整、有效性差、数据不准确,程序代码随意修改而导致系统管理混乱等问题,这些问题都亟需通过数据治理来解决,而恩核则是这方面的高手。
云和恩墨同样是一家在数据领域极具专业性的公司,他们专注于数据/数据库相关的研究与专业服务,为客户构建安全、连续、高效、整合的数据环境,在IT系统生命周期的规划设计、建设实施、运营管理、优化提升四个阶段提供端到端的服务。云和恩墨公司董事长、首席架构师盖国强介绍说,云和恩墨不但拥有行业内顶尖的技术团队,同时还得到了200多个关键行业客户的认可,为这些通信、金融、电力、石油等行业用户的核心系统提供综合保障服务。
这样两家公司的联手首先是“强强结合”,更重要的是“优势互补”。在记者的采访中,郑博士和盖国强都不约而同地谈到两家公司在数据服务方面志趣相投,而又优势互补。在IT系统生命周期的四个阶段中,恩核在数据治理、数据建模专业产品及服务上的优势,与云和恩墨在数据架构、应用架构、IT基础架构上的优势及专家资源很契合地形成了统一。同时,在市场拓展方面,相信云和恩墨也将助力恩核,进一步开拓市场。
从两家公司的名字同为“恩氏”,到都致力于数据服务市场却各有优势,他们走到一起可谓“天作人合”。
成功案例
韩国保险公司重构数据仓库
东部火灾保险公司是一家韩国企业,为了更好地为客户提供优质的服务,争取更多的市场份额,他们决定重新构建公司数据仓库(EDW),以便迅速、准确地获得各种经营活动统计数据,为决策层及时提供能够做出正确决策的参考信息。恩核公司参与了此次项目招标,并成功中标。通过构建EDW模型、数据迁移系统、数据集市以及数据标准化和元数据管理系统,为东部火灾保险构建了全新的EDW,大幅提升了企业数据分析及应用的能力,最大程度地体现了企业数据的价值;确保企业数据的标准化与集成性,强化了数据分析的功能;强化了企业对ERP系统的应用支持,全面追踪ERP系统所产生的数据,并为企业新增系统提供可靠的数据来源。
数据挖掘与数据挖掘服务实现研究 篇12
关键词:数据挖掘,因特网,服务
1数据挖掘的概念
数据挖掘 (Data Mining) 最早是在数据库领域发展起来的。称为数据库中的知识发现 (KDD, Knowledge Discovery in Database) , 据挖掘是从大量的包括结构化和非结构化数据中提取隐含在其中的、事先不为人知的、潜在的、有用的信息和知识的过程, 它要求数据源应该是大量的、真实的、多媒体的;所发现和提取的信息和知识是潜在的、有效的并隐藏在大量数据背后, 是用户感兴趣的、可理解、可运用的知识, 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。
2数据挖掘的系统简介
2.1AuthorLink系统
最近, 美国开发出了基于文献计量分析的知识查询系统, 并借助于可视化技术首次将复杂的统计结果, 用通俗易懂的图像形式显示给用户, 从而实现了知识信息提供服务的一次变革。
2.2专利统计分析系统
人们关于专利的统计分析, 事实上也是一种知识挖掘。目前, 包括英国的WPI及美国、日本专利局等网络站点, 都在提供专利文献检索服务的同时提供专利统计分析的服务。
2.3OLAP系统
OLAP系统 (On-Line Analytical Processing联机分析处理系统) 也是一种典型的数据挖掘系统。这是一种含有数据导航、数据查询、建模、预测和数据挖掘的数据分析系统。其中OLAP引擎可以在前端接口接受用户提交的多维提问, 并转换成SQL语句, 然后将提问查询提交数据库, 最后以图表的形式输出。
3数据挖掘的步骤
(1) 确定应用领域:包括此领域的基本知识和目标; (2) 建立目标数据集:选择一个数据集或在多数据集的子集上聚焦; (3) 数据预处理:在大数据集中, 根据需求, 利用数据净化和整合技术, 选择与任务相关数据, 在不降低其准确度的状况下减少处理数据量; (4) 数据转换:找到数据的特征进行编码, 减少有效变量的数目; (5) 数据挖掘:根据数据和所要发现知识的种类来确定相应的挖掘算法; (6) 数据评价:将挖掘出的知识和数据以各种可视化方式显示, 并将其以图形、文本等方式存储在库中, 以便对它们进一步挖掘, 直至满意为止; (7) 实施和应用:实施和应用阶段是指利用数据挖掘技术所建立模型在实际项目中的应用, 包括数据库的构建, 个性化用户服务、基于知识的企业信息管理 (MIS) 、金融、证券、股票分析、电子商务、企业目标管理、决策支持等等。
4数据挖掘服务的实现
4.1数据挖掘为个性化服务打下基础
收集用户有关的信息, 建立用户信息库。用户是数字图书馆的重要资源, 一个信息完整的用户信息库, 能保证在充分挖掘的基础上, 了解用户的普遍性需求与特殊性需求, 从而开展有针对性的个性化服务。通过对用户访问日志记录信息的挖掘, 把握用户兴趣, 有助于开展网络信息推送服务以及个人信息的定制服务。但从用户群整体来看, 用户的信息需求又是随机的, 这为一般用户需求信息分析带来了很大困难。数据挖掘从全局出发, 以丰富、动态的联机查询和分析来了解用户的信息需求。通过在线提问、调查表等方式, 系统可以获取关于用户的用户名、用户访问IP地址、用户的职业、年龄、爱好等原始信息。然后, 采取一定的挖掘规则 (如关联规则、联机分析处理等) , 对这些数据进行融合分析, 其结果是为每个用户建立一个信息需求模型。根据用户需求, 主动跟踪本地信息库和网络相关信息, 收集用户所需信息。为了提高准确度, 还应对所收集的信息进行相关性分析, 可以根据用户提供的检索词, 确定所检索到的信息与该检索词的相关度。同时还可以利用智能推送技术将用户所需信息推到用户的计算机、电子信箱, 甚至手机、PDA上。
4.2数据挖掘使网络资源的内容检索成为可能
网络内容挖掘是一个从文本、图像、音频、视频、元数据等形式的网络源信息中采用分类、聚类等形式的挖掘方法, 发现有用信息, 并将这些信息按满足某种检索方式的形式加以组织的过程。通过对网站内容的挖掘, 主要是对文本内容的挖掘, 可以有效地组织网络资源。有的学者应用数据和文本挖掘技术在网络上进行问题跟踪, 从而获得了以前未知的有用知识, 为信息内容分析提供了极大的可能性。网络内容挖掘是目前网络信息检索发展的一个关键, 通过对网页内容挖掘, 可以实现对网页的聚类、分类, 实现网络信息的分类浏览与检索;通过对用户所使用的提问式 (query) 的历史记录分析, 可以有效地进行提问扩展 (query expansion) , 提高查全率和查准率;可以运用网络内容挖掘技术进行关键词加权算法, 提高网络信息的标引准确度, 从而改善检索效果。
4.3数据挖掘是获取全而广的知识信息的保障