分布式数据处理及采集

2024-08-02

分布式数据处理及采集（精选9篇）

分布式数据处理及采集篇1

摘要：主要介绍了使用Python和OpenOPC进行分布式数据采集与Web发布的设计与实现方法,并说明了应用效果。

关键词：OPC数据采集,Web Service.NET,Python OpenOPC

1 基于Python+.NET的OPC分布式数据采集及Web发布应用概述

在工业生产中,实时生产数据监测对于生产控制、安全检测非常重要。为了实现对实时生产数据的有效监测,需要通过对过程控制中的OPC数据进行采集。数据采集的方式虽然多种多样,但从传输速度和可靠性考虑,基于Python+.NET的()PC数据采集及Web发布方式更适合在选煤厂的生产中应用。这种技术是一种集多种技术为一体的自有技术,从设计方法的形成到选煤厂中的成熟应用,通过多次实践和改进,目前已在自动化生产中广泛应用。

2 设计与实现方法

2.1 设计方法

基于Python+.NET的OPC分布式数据采集及Web发布方式的设计方法主要是将Python语言及接口组件、Web Service技术、.NET开发及AJAX技术进行整合,实现了从后台的数据传输到前台的数据展现过程。

后台的数据采集及传输主要是通过一种简单实用的Python语言,Python是一种开源的解释型语言,方便移植与调试,且具有丰富的标准库。Python通过OpenOPC将采集到的数据传输到Web服务器,使用Web Service技术实现数据的接收。Web Service是一种用于实现分布式互操作的Web应用程序,可以使用这种技术将采集到的数据发送到远程服务器。Web Service将接收到的数据通过.NET网站发布到前台,并使用AJAX异步刷新数据,方便用户能及时看到工业生产的状态,以便监测生产过程控制中的问题,并尽快地进行处理解决。

这种设计方法的优点在于简化了数据采集的步骤,提高了数据采集的效率,使用前沿的技术进行数据发布,瘦客户端的访问方式方便了用户的使用,并且实现简单可靠。

2.2 实现方法

2.2.1 使用Python结合OpenOPC进行数据读取

首先在OPC主机上安装Python和OpenOPC组件。编写数据采集脚本。Python代码:

至此已经可以读取出OPC服务器中标签名为“TestTank”的数据值了,下一步是将采集到的数据传输到远程服务器。

2.2.2 分布式数据传输

使用Web Service作为数据接收程序,服务程序使用C#编写。在Web服务页面中定义了一个方法,包含2个参数:tag(标签名)和value(double类型的值),方法中将得到的值以及接收的时间存储SQL SERVER中,以备查询显示。C#代码:

我们使用suds web services client进行Python的Web Service交互,它是一种轻量级的基于soap的Web服务客户端实现。现在我们把刚刚读取到的value通过调用远程Web服务的方式传输给服务器。Python代码:

Web服务接收到之后将数据存储到SQL SERVER中。

2.2.3 数据展示页面

数据展示页面使用ASP.NET页面实现,并且使用AJAX技术实现数据后台异步刷新,使程序更友善易用。Html页面中绘制了一个液罐背景的区域,液位数字显示在这个区域中。

编写一个一般处理程序以供AJAX请求,返回TestTank的数据。C#代码:

编写执行AJAX请求的JS脚本,每隔5 s向一般处理程序请求一次数据,并将请求到的数据显示到页面上。

页面显示演示如图1所示。

3 应用效果

基于Python+.NET的OPC分布式数据采集及Web发布方法已在选煤厂中进行了应用,根据长期的观察和监视,数据采集速度较快,数据准确率有保证,提高了工业生产中的生产控制效率,减轻了工作人员的负荷强度。对于管理者来说,使用Web方式监视实时的生产数据和设备状况,能更好地掌握选煤厂的生产运转情况,更及时地发现可能存在的生产问题和安全隐患,以便进行快速的处理,从而保证生产的正常进行和设备的安全运行,得到了使用者的肯定。

参考文献

[1]翟红艺.基于Python的网络数据采集系统研究与设计[J].科技创新导报,2011(1)

[2]徐常凯,王耀才.基于Web的选煤厂生产现场数据采集技术研究[J].选煤技术,2003(1)

[3]魏瑄,张娟卿,孙伟.基于OPC与TCP/IP的选煤厂数据采集传输系统的设计[A].冶金轧制过程自动化技术交流会论文集[C],2005

分布式数据处理及采集篇2

第1题

信息的（），必须借助于文字、图片、磁盘等物质形式的载体才能够表现，才能够为人们所感应接受。

A.客观性

B.传递性

C.寄载性

D.共享性

答案:C

第2题

对同一信息不同人会有不同的理解，这是一种（）。

A.认识伪信息

B.传递伪信息

C.人为伪信息

D.差别伪信息

答案:A

第3题

（）的产生是社会生产力发展和科技进步的结果和集中体现。

A.就业

B.信息

C.财富

D.职业

答案:D

第4题

根据上级要求以各种原始记录与核算资料为基础，搜集各种资料，逐级上报给有关部门属于以下哪种（）？

A.询问法

B.报告法

C.登记法

D.实验法

答案:B

第5题

以下哪项不是互联网信息的基本特点（）？

A.资源极为丰富，覆盖面广，涵盖领域多，种类繁杂。

B.以个体为核心，呈辐射状的个体中心网络。

C.来源分散、无序，没有统一的管理机构，也没有统一的发布标准，且变化、更迭、新生、消亡等都时有发生，难以控制。

D.形式多样，有文本、图标、图表、动画等。

答案:B

第6题

依据事物的属性或特征对事物进行区分和类聚，是信息整存中的（）。

A.分类法

B.排序法

C.主题法

D.标记法

答案:A

第7题

信息的（）使得它的价值与所存在的时间成反比。

A.传递性

B.转换性

C.时效性

D.客观性

答案:C

第8题

以下哪项部署与构建人际情报网络的基本程序（）？

A.寻求分析

B.确定成员和角色

C.建立联系网络

D.制定方案和计划

答案:D

第9题

（）是信息管理的中间环节，也就是信息的流通环节。

A.信息传递

B.信息整理

C.信息反馈

D.信息更新

答案:A

第10题

从业人员在特定社会生活环境中从事与其他社会成员相互关联、相互服务的社会活动，体现了职业的（）？

A.目的性

B.群体性

C.社会性

D.稳定性

答案:C

第11题

信息整存处理中的主题法一般分为（）。

A.标题法

B.单元词法

C.叙词法

D.关键词法

答案:A,B,C,D

第12题

构建人际情报网络的基本程序是（）。

A.寻求分析

B.确定网络模式

C.确定成员和角色

D.建立联系

答案:A,B,C,D

第13题

构建人际情报网络的目的除了获取信息的需求，还有（）。

A.分析情报的需要

B.谋求发展的需要

C.挖掘人力资源的需求

D.社会发展的需要

答案:A,B,C

第14题

互联网信息的优越性和价值有以下哪些（）。

A.价廉

B.新颖、深入

C.灵活、精准

D.广泛、直接交流

答案:A,B,D

第15题

以下哪些是互联网信息采集的常用技巧（）。

A.明确搜索目的和要求，确定查询策略

B.选择合适的互联网搜索工具

C.提高搜索的精度和准确性

D.只搜索某个网站内的信息

答案:A,B,C,D

第16题

以下哪些是职业的基本特征（）？

A.名称

B.工作取得的各种报酬

C.工作中建立的人际关系

D.劳动场所

答案:A,B,C,D

第17题

以下哪些属于人际网络采集信息的方法（）？

A.访谈法

B.问卷调查法

C.浏览法

D.观察法

答案:A,B,D

第18题

选择访谈对象的基本原则有（）？

A.选择认识的人

B.访谈对象拥有所需要的信息

C.访谈的人具有很高的地位

D.访谈活动不损害被访者基本利益

答案:B,D

第19题

发展人际关系网络有以下哪些好处（）?

A.进行资本的积累

B.分享非公开信息

C.可以利用各种各样的技能

D.能够获得权利

答案:B,C,D

第20题

发展人际网络的重要意义在于（）。

A.促进信息活动的深入

B.发展个人和组织的人际资源

C.构筑情报和只是管理的社会平台

D.对人类的社会活动进行探索

答案:A,B,C

第21题

古人的结绳记事是信息传递的一种。

答案:正确

第22题

信息价值的大小取决于接受信息者的需求及其对信息的理解、认识和利用能力。答案:正确

第23题

现代社会的信息财富观认为信息虽然重要但是依然无法替代生产资源。

答案:错误

第24题

只要是没有工作，就是失业。

答案:错误

第25题

随着社会的发展和变迁，一些新职业迅速产生并发展了，一些传统职业的内涵发生了改变或者转化，还有一些过时的职业开始衰落和消亡了。

答案:正确

第26题

我国的职业分类大典是1999年编制并颁布的。

答案:正确

第27题

互联网的信息虽然丰富，但是变化、更迭太快，难以控制。

答案:正确

第28题

在访谈中，如果对方多次停下表示有事情要做或者不方便谈话时，我们应该努力争取，坚持表达，把访谈工作完成。

答案:错误

第29题

就业信息的整存和处理目前并无统一的规定。

答案:错误

第30题

失业登记是信息采集的基本方法中的调查法。

答案:错误

就业信息采集与处理案例分析

1．案例分析一

某街道残疾人就业指导员张某和朋听说辖区内一家公司在招聘电话客服人员，承担处理客户查询、投诉及产品推广的工作。听说要求普通话要标准，还要会一些简单的电脑操作。他觉得辖区内的肢残人王霞平时为人热情开朗，普通话也很标准，上次还参加了区里组织的电脑培训班。他觉得该岗位非常适合推荐给王霞，决定去这家公司了解一下具体情况，并向他们推荐王霞去工作。

1.案例分析

请结合实际分析张某应该如何准备这次拜访，并设计出简单的访谈流程。

分布式数据处理及采集篇3

随着移动互联网、电子商务、社交网络等互联网新兴技术普及和应用,图像、视频、日志等网络数据呈现爆炸性增长。淘宝网近4亿的会员每天产生的商品交易数据约20TB, Facebook约10亿的用户每天产生的日志数据超过300TB[1]。大数据时代已然来临,大数据领域也成为当今热门的研究课题。而数据是实现大数据研究的基础,传统的数据采集技术方案已经难以满足快速采集高质量的数据集的需求。所以如何高效地采集海量的高质量数据对大数据应用与研究具有极其重要的作用。

本文提出一种高效新型的大数据采集技术方案。主要是采用分布式结构,在解析模块中提出了基于标签树节点权重的正文提取算法。该算法通过比较标签树节点的权值, 然后剪枝掉无用的信息块,从而能快速地定位正文信息内容,免去无用信息的解析时间,提高解析的速度。而针对网页的访问频数限制,引入IP代理池技术。通过代理池流入流出更新机制来保证池中代理的可用性。通过切换代理来保证系统能持续工作,消除限制时间的等待,这将大大提高系统的采集效率。

2系统框架设计

2.1整体架构

系统的整体框架如图1所示,主要包括5个模块: 抓取模块、IP代理池模块、解析模块、URL处理模块和数据存储模块。其中抓取模块从URL队列中获取要爬取的URL。然后调用从IP代理池中获取的可用代理,从互联网中抓取原始的数据,并交由解析模块处理。解析模块首先对数据进行预处理,去掉一些明显的噪声。然后通过基于标签树块节点权重的正文提取算法来提取正文信息。 URL相关数据交由URL处理模块处理,而基本数据则由数据存储模块处理。URL处理模块主要用于对分布式抓取的控制。而数据存储模块则对数据进行规则化和持久化, 为后续的分析和处理奠定基础。

2.2分布式架构

系统采用主 / 从的分布式架构,如图2所示,主控制节点从待爬URL队列中提取URL分配给各抓取主机。然后由抓取主机完成采集任务和解析任务并将已经成功抓取的URL和提取到的新的URL交由主控制节点处理。成功抓取的URL缓存到已爬集合中,再根据已爬集合过滤出新的URL,并将它们缓存到对应的待爬队列中。其中待爬队列和已爬集合均使用内存数据库redis来实现。待爬队列采取先存先分配的策略,用于后续的爬取。

3正文信息提取

在正文信息提取这方面,国内外学者已经做了大量的工作研究。文献 [2-5] 采用的是基于视觉特征的算法。该类算法是在微软研究院提出的VIPS(vision-based page segmentation) 网页分块算法的基础上提出的。虽然可以达到很好的效果,但VIPS算法相对复杂,且迭代次数较多, 同时其还依赖浏览器内核代码,故需消耗较长的时间。而文献 [6] 根据相似度对网页进行归类,对每类网页训练得出模板,然后根据模板对未知的网页进行提取。该方法无法适用于结构不同的网页正文提取。文献 [7] 则使用基于标记窗的方法。标记窗的提法不错,但其对每个标记窗文本都要先分词,然后计算词序列距离。不仅对分词技术有比较高的需求,同时也存在效率不高问题。

基于上述算法存在通用性和效率的问题,本文提出一种高效通用的基于标签树块节点权值的正文提取算法。其根据特定的标签对网页进行分块,并构建标签树。然后自底向上计算标签树节点的权值,通过比较权值、剪枝,最终保留正文信息的子树。实验证明该算法能在短时间提取到正文信息,从而提高解析的效率。

3.1构造标签树

目前大部分网页布局的主流分块标签是 <div>,<table>,<p>。故只使用这些标签来构建标签树。在构造标签树前,还要对源HTML文档先做预处理,去除一些明显的噪声。如文档中的内部样式文本 <style> 块,头标记 <head> 块,Java Script脚本 <script> 块和注释  块等。本文使用正则表达式的方法去除这些噪声。

构造标签树时,使用堆栈作为辅助空间。具体构造步骤如下:

(1)将根标签 <HTML> 入栈。

(2)当遇到分块开始标签,将该分块作为栈顶块节点的子节点。并将该块标签入栈。

(3)当遇到分块结束标签,栈顶出栈。

(4)若栈为空,构造结束。否则继续扫描,遇到分块开始标签跳(2),遇到分块结束标签跳(3)。

具体构造情况见图3。其中 (a) 为HTML源文档。A— G为分块标签。而 (b) 则是由 (a) 而构建出来的标签树。

3.2正文信息提取算法

因为正文信息均是所含内容最多的部分,故一般大部分网页经过分块处理后,正文信息块总是包含分块数最多的那一颗子树,并且该子树比与其同层的兄弟子树块数差异较大。故本文提出基于标签树块节点权值的正文提取算法。在构造好标签树的基础上,自底向上给每个块节点赋予权值。赋值规则为:

若该块节点为叶子节点,则其权值wi=1 。

若该节点为非叶子节点,且N为该节点的所有子节点集合,则其权值

(1) 在给块节点赋值的同时,还要将其与兄弟节点间最大权值的节点进行比较。设i节点的权值为wi,其兄弟节点的最大权值为wmax。令变量R为

(2) 当变量R <Q时,便对i节点进行剪枝。其中Q为由经验设定的阀值。

图4为阀值Q=4时的具体剪枝情况。显而易见,通过剪枝,可以减少对5个无用块的解析。只需对含正文信息的9个节点进行解析就好。因此我们通过正文提取算法提高了35.7% 的解析效率。所以当无用信息块节点相对较多的时候,那么解析效率还会有更大的提升。可见通过调用正文提取算法,不断地剪枝,便可以去除广告、导航链接、版权信息等无用信息节点,从而得到最终的正文信息节点。这将减少无用信息的解析,从而不必浪费时间去解析无用信息,大大加快网页解析的速度。

4IP代理池

一些网站为了保护自身数据的安全或减轻网站的负担,其对同一IP的访问次数会有所限制。当一个IP所访问请求超过其承受范围时,该网站会采取拦截措施,禁止该IP对网站进行访问,待一定时间后才会释放该IP的限制。为解决IP限制问题,本文使用IP代理池机制,即使用一个公共的代理池来切换代理。每次抓取一定数量数据或一定时间后,或出现IP限制情况时,便从代理池中获取一个新的可用的代理,并切换到该代理继续访问。

代理池里面的代理不是固定不变的,它会不断地从相关代理网页中获取可用代理注入到代理池中。且还会自动定时对池中代理进行检测更新,并把一些无用的代理删除。如图5所示,池中每个代理均有一标记 (flag) 记录着该代理的状态:可用 (useful)、正在使用 (using) 和无用 (useless)。每次从池中抽取标记为useful的代理分配给抓取主机,并修改该代理标记为using。若因IP限制而从抓取主机返回的代理标记为useless,否则正常返回标记为useful。当自动更新触发时,则对池中所有标记为非using的代理进行检测。检测后无用的代理均从池中删除掉。

使用IP代理池机制可以尽量避免IP限制情况发生, 若IP限制发生,其也可省去等待IP限制释放的时间,这确保了抓取主机持续的运作,从而保证了抓取的数据量。同理,当一些需要登录才能访问的网站,如微博,可加入类似的用户账户池,定时切换用户进行访问。

5实验分析

本文以新浪微博为例,验证方案的可行性。实验集群机器CPU为Intel(R) Xeon(R) 2.60GHz,内存为2GB, 操作系统为centos 6.5。其中用1台机器采集用户信息, 1台机器采集微博信息,2台机器采集评论信息。程序用java开发,打包成jar放到机器集群上运行。集群持续运行12小时。

采集的数据量见表1。根据表1的数据量与文献[9]结果进行对比得到图6a、图6b。可见在采集速率和持续稳定性上,本文方案基于文献[9]有不错的提升。主要是因为本文提出了基于标签树块节点权值的正文提取算法,其大大减少无用的非主题信息块,从而加快解析的速率。而引入IP代理池技术则保证的系统的持续性和稳定性。

为验证系统的可扩展性,我们将采集评论信息的机器由2台增加到4台。则每小时平均评论采集量由12.83万条增加到23.54万条。虽然性能只达到1.8倍提升,并没有达到理想2倍的提升,其原因可能是带宽或网络原因所致。但也可见系统具有好的扩展性。因此,在带宽支持的情况下,可通过简单的增加采集机器便可得到数据量的相应提升。

6结束语

分布式数据处理及采集篇4

海关票明细抄报与稽核对比系统操作说明

海关缴款书数据采集及比对结果接收

办理平台操作说明

北京市国家税务局

2013-7-15

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

一、系统登录...........................................................................................................................3

二、新建批次...........................................................................................................................4

三、填写、修改、保存报表.................................................................................................5

四、修改报表...........................................................................................................................6

五、删除批次...........................................................................................................................7

六、退出报表.........................................................................................................................10

七、浏览报表.........................................................................................................................11

八、上传抄报文件.................................................................................................................12

九、接收结果查询.................................................................................................................15

十、导出抄报文件.................................................................................................................17

十、导出EXCEL......................................................................................................................18

十一、稽核结果查询.............................................................................................................22

十二、通知书查询.................................................................................................................24

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

一、系统登录

进入到网上纳税申报2.0界面（如图1-1所示），选择“海关凭证办理”，登录方式分为“安全证书用户”和“用户名口令用户”两种方式。纳税人根据自己的纳税人识别号选择自己的登录方式。

图1-1

首次登录，进入系统（如图1-2所示）。系统界面左下方显示纳税人的填表的状态信息。

图1-2 北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

二、新建批次

登录系统之后，选择“新建批次”，提示“每一批次限制填写≤1000张海关完税凭证抵扣清单，如超过1000张，请重新建立批次并上传”（如图2-1），选择“是”，建立批次成功，选择“否”，取消本次要建立的批次。

图2-1

如图2-1所示，选择“是”新建批次成功后如下（图2-2所示）。

图2-2 北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

三、填写、修改、保存报表

1、填写报表

参照图2-2，在界面右部分填写“海关完税抵扣清单”；如果要填写多张“海关完税抵扣清单”，则可以选择“增加一行”来进行增加行操作；如果需要删除一张“海关完税抵扣清单”，则选择“删除一行”进行删除操作。

2、保存报表

纳税人正确填写“海关完税抵扣清单”，（图3-1所示）填写完成之后，选择“保存”。

图3-1 选择“保存”之后，提示“保存成功”（如图3-2所示）

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图3-2 点击“确定”，系统页面显示如下（图3-3所示）；此时系统左下角显示的状态信息：报表状态为填写完毕；填表日期为纳税人保存报表的日期；合计金额为报表的税款金额的小计；份数为报表中所填写的总份数。

图3-3

四、修改报表

如果纳税人需要修改所填写的清单，选择“修改报表”（图4-1所示）。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图4-1 选择【修改报表】后，进入“报表修改页面”（如图4-2所示），在此页面进行修改所需要修改的内容。

图4-2 修改完成之后，选择【保存】进行保存操作。

五、删除批次

选择【删除批次】，如图5-1所示。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图5-1 选择【删除批次】后，弹出提示框，如下图（图5-2所示）。

图5-2 选择“录入月份”及“批次”（注：报表状态为已上传时，报表不可以进行删除）

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图5-3 如图5-3所示，选择“确定”之后弹出提示框（图5-4所示）

图5-4 如图5-4所示，选择“是”，删除批次成功；选择“否”，取消本次操作。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

六、退出报表

1、报表填写完成后，可以点击“保存”按钮，也可以点击“退出报表”按钮。点击菜单栏上“退出报表”。如图5-1所示。

图5-1

2、点击“是”，提示“保存成功”。如图5-2所示。

图5-2

3、点击“否”，回到结构树目录。如图5-3所示。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图5-3

4、保存成功后回到结构树界面，左边界面右下方显示报表状态信息，包括纳税人识别号、报表状态、填表日期、合计金额、份数等信息。如图5-4所示。

图5-4

七、浏览报表

1、单击要浏览的报表，点击菜单上“浏览报表”按钮。浏览状态下，报表上任何数据项不

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

可修改。此时单击“退出报表”时，直接退出浏览界面。如图6-1所示。

图6-1

八、上传抄报文件

1、报表状态为“填写完毕”时可进行上传抄报文件操作。点击菜单栏上的“上传抄报文件”按钮，如图7-1所示。

图7-1 北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

2、选择“录入月份”和“批次”后，点击“确定”。如图7-2所示。

图7-2

3、选择“录入月份”和“批次”后，点击“取消”。回到结构树界面。如图7-3所示。

图7-3

4、上图7-2单击“确定”后，出现输交易密码提示框（用户名口令户）。输完交易密码，点击“确定”。（如果是证书户，会出现直接选证书界面。）如图7-4所示。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图7-4

5、出现如图7-5界面。上传后系统会自动查询一次上传结果。此时点击“确定”。

图7-5

6、出现自动查询界面。如图7-6所示。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图7-6

7、弹出接收结果通知书。通知书包含相符、未通过、逾期、重号等信息。

九、接收结果查询

1、已上传的批次，点击“接收结果查询”按钮。出现查询界面。如图9-1所示。

图9-1 北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

2、选择对应“录入月份”和“批次”，点击确定按钮，如图9-2。点击“查询”按钮。

图9-2

3、点击“查询”后，提示“是否从稽核系统中查询接收结果？”点击“是”，则从稽核系统中查询，点击否则从本地查询，如图9-3界面。

图9-3

4、弹出接收结果通知书，下载、打印。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

十、导出抄报文件（若发生网络故障等相关情况时使用，使用时请咨询软件服务商）

1、填写完毕和上传后的报表可以使用导出抄报文件操作，点击“导出抄报文件”出现存放上传抄报文件的界面，点击保存，提示“导出成功”，点“取消”则不会导出到本地。（目前导出的文件格式可选择XML和EXCEL）

十一、导入EXCEL 点击菜单栏上的“导入EXCEL”按钮，选择要导入的EXCEL数据文件，如图10-1，等待提示导入完成，如果数据中存在校验错误的数据，系统将自动提示校验失败项，如图10-2。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图10-1

图10-2 点击“显示错误信息日志摁钮”，系统将错误信息显示在记事本中。如图10-3

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图10-3

十二、稽核结果查询、打印、确认

1.点击“稽核结果查询”，选择要查询的抄报月份，如图12-1，点击查询，如果已经查询过，则提示“是否从稽核系统中查询”，如果是则从稽核系统中查询，如果否则从本地查询。如图12-2。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图12-1 注意：选择查询月份时，应选择要查询的抄报月份，即上传月份。

图12-2 注意：请先确认比对结果是否正确，确认无误后需点击【确认通知书】，每月只能进行一次确认通知书操作。

2.点击图12-2中的“确认通知书”按钮，对稽核比对结果进行确认。3.点击打印按钮，选择打印机后点击“确定”。如图12-3

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图12-3

十三、稽核结果通知书查询、打印

1、已上传的批次请于次月1日3点后进行稽核结果查询。点击“稽核结果查询”按钮。如图11-1所示。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

图11-1

2、选择相应的“年”和“月”，点击“查询”，出现如图11-2所示界面。

图11-2 注意：通知书查询所选择的月份应为抵扣月份，未进行【确认通知书】操作则无法查询到通知书。

3、弹出稽核结果查询通知书，此通知书包含相符、异常、滞留、重号等信息。

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

北京市国家税务局

海关票明细抄报与稽核对比系统操作说明

十四、历史稽核结果通知书查询

点击菜单栏上的“通知书”按钮，企业输入年月可以查询到稽核系统中已确认的通知书。此功能请于2013年8月1日后使用。

注：如果您在上传海关缴款书数据时出现“上传失败”提示，请您稍后再试，如多次上传后此提示依旧，请与软件服务商联系！

如您在操作中有疑问，请联系您的软件服务商。咨询电话：010-83678885 北京中联恒利科技有限公司

分布式数据处理及采集篇5

随着特高压电网的发展,“国、网、省、地、县”5级调度之间的联系越来越紧密,一体化调度运行的要求越来越高[1]。其中地县一体化主站系统是:地级调度(地调)自动化主站系统与其所辖县级调度(县调)自动化主站系统通过网络延伸互联,使之逻辑上成为一套调度自动化系统,从而实现地调、县调的数据资源、技术资源、设备资源共享的调度自动化主站系统[2]。

常见地县一体化主站的建设模式有2种。一是远程工作站模式,撤销了县调系统,县调所辖厂站直接接入地调系统。各个县调作为地级电网调度自动化系统的远程工作站,在光通信设备的支持下,远程接收数据,同时具有操作系统对象的功能[3]。但是,若县调系统与地调系统的网络通信断开,县调系统将会丧失全部功能,其相应的生产调度任务只能由地调人员暂时承担[2]。二是分布式拼接模式,地调、县调系统分别建设,独立运行,然后通过拼接方式实现图形、模型共享,通过转发方式实现数据实时共享。但是,由于拼接技术较复杂,系统维护较难,且各系统多次输入、模型不统一导致数据信息易错。

针对以上2种建设模式特点,本文提出了地县一体化系统建设的分布式数据采集模式,将系统的数据库和应用服务器部署在地调,模型、图形一次输入并统一管理,数据采集服务器和通道设备分布在地调和各个县调,形成若干个数据采集子系统,子系统所采集的实时数据无需转发即可在全系统内共享。当地调、县调系统间出现系统解列时,还能够保证解列的地调、县调可独立运行,县调仍然可独立完成监控功能。

1 分布式数据采集的原理

分布式数据采集方法将网格技术运用到地县一体化调度自动化系统的数据采集中。网格技术对于网络资源具有巨大整合力,如应用到电力系统中,可为不同调度系统间信息和资源共享带来方便,并可成为广域电网分布式电力系统计算和仿真的支撑平台。将网格技术作为技术支撑平台,以此构建未来互联大电网监控系统——广域分布式能量管理系统(EMS),实现各级电网调度自动化系统和调度员培训仿真(DTS)系统动态形成虚拟的大规模EMS,共享资源和协同分析,保证电网的安全稳定运行和控制。网格技术的引入,对于解决中国电力系统超大规模电网的数据共享和计算分析问题,具有非常重要的意义。利用网格技术可以动态地实现包括计算、数据、存储等在内的资源共享,而无须事先定义和维护需要共享的数据,使目前的信息“需则共享”模式转变为“需则可知”模式,加强电力信息化程度,从而使信息共享的紧密耦合走向松散耦合[4]。

地县一体化调度自动化系统需要接入地调、县调所辖厂站,且每个厂站一般都是多通道配置,将造成系统数据采集任务的异常繁重。因此,根据网格技术原理,将系统统一的数据采集系统分割成若干个数据采集子系统,每个子系统的数据采集任务就不会很重。同时,由于地调和各个县调分布在不同的地理位置上,将这些数据采集子系统布置在地调和各个县调也可以更好地利用原有通道资源。

系统实现分布式数据采集的具体步骤如下。

1)按照需要设置多个数据采集区,分布在地、县各区域范围内。

2)每个数据采集区包括若干数据采集服务器和数据采集通信设备,数据采集服务器负责初始化下属各数据采集通信设备。数据采集服务器运行时互为热备用,保证数据处理的可靠和高效。

3)数据采集服务器运行时首先读入所属的数据采集区信息,初始化本区域的数据采集通信设备,之后再与本区域厂站建立通信链接,而且只处理与这些厂站相关的测点信息和命令。同时,实时判断这些测点、通信和厂站的各种状态,不属于采集区的所有通信设备、通信状态、测点和命令一律不处理。

4)各个数据采集区将采集、处理后的实时数据送往数据采集与监控(SCADA)系统应用,集中处理后存入系统数据库服务器并展示。全系统的任意一个节点上,利用提供的工具都可查询所有数据采集信息,并可查看各厂站通信报文和远程终端设备(RTU)上送数据。系统自动从相应数据采集区获取相关信息,不需额外人工操作。

2 分布式数据采集的结构

分布式采集地县一体化调度自动化系统中的前置数据采集服务器,不再集中置于一地,也不再局限于2～4台,而是按需要分布在若干个地方。数据采集服务器并不是进行了简单的数量扩充,每台数据采集服务器也不是处理相同的任务,而是对数据采集功能进行分区域设置,将整个调度自动化系统的数据采集部分划分成若干个数据采集区子系统,各区域协同工作,共同完成整个系统的数据采集工作。每个数据采集区子系统都有自己独立的若干数据采集服务器和采集设备,每个区域只处理自己区域内的任务及自己管辖的厂站和测点。在每个数据采集区子系统内,数据采集服务器采用多机热备用的方式运行,其他区域的各种信息和运行状态不会影响本区域的正常运行和资源消耗[5]。

如图1所示,数据采集区Ⅰ的A,B这2台数据采集服务器只处理厂站A的2个通信通道,数据采集区Ⅱ的A,B这2台数据采集服务器只处理厂站B的2个通信通道,数据采集区Ⅲ的A,B这2台数据采集服务器只处理厂站C的2个通信通道。在数据采集区Ⅰ的数据采集服务器工作时,内存中没有厂站B,C的任何参数和数据,也不会处理厂站B,C的任何控制命令。

在任意一个数据采集区内,为了保证数据采集的可靠性,一般都采用多机配置,正常运行时多机之间会相互交换所需的各种数据,相互监视其他机器的运行状态,共同完成本数据采集区的所有数据采集任务。当任何一台数据采集服务器故障时,其数据采集任务会自动分配到剩下的其他服务器上,即使本数据采集区只剩下1台前置数据采集服务器也能完成本数据采集区的所有数据采集任务。

数据采集区可以方便地在线增加、删除和修改,而不会对其他无关区域的正常工作产生任何影响。如图1所示,如果要在数据采集区Ⅰ新增对厂站D的接入处理,只需要将新增的厂站D的通信通道设置属于数据采集区Ⅰ即可。当所有设置保存之后,数据采集区Ⅰ的数据采集服务器会自动增加处理厂站D的通信通道和数据,此过程不会对数据采集区Ⅱ和Ⅲ各台数据采集服务器的正常运行产生任何影响。同样,厂站D的修改和删除也不会对其他数据采集区的正常运行产生任何影响。

当地级、县级区域间的主干网络故障发生系统解列时,成为孤岛的县调仍具有数据采集能力。县调的前置服务器仍正常工作,可完成所属厂站的数据采集任务,并将数据送往县调的工作站,使县调系统仍然可以独立完成监控功能。

在分布式采集模式地县一体化系统中,各数据采集区处理完的数据以及各种状态都会送往系统平台集中进行下一步处理和展示。系统平台发往各厂站的命令也会由各数据采集区进行甄别后经由相应数据采集服务器发往厂站端,在系统内任意节点人工查询前置数据时无需进行区域选择。数据汇集和命令分区工作由系统自动完成,无需人工转发设置。

通过分布在各处的数据采集区协同工作,共同完成了整个系统的数据采集任务,任意位置采集的数据可共享至全网。

3 分布式数据采集的实现

目前,在南通分布式地县一体化系统中,已经实现了分布式数据采集。

3.1 硬件构成

南通地县一体化系统建设初期划分了南通、海门和如东3个数据采集区,每个数据采集区有前置服务器2台,相应的终端服务器和路由器分别用于串口通道通信和网络通道通信,如图2所示。

每个数据采集区仍然通过原有县调的通道资源采集厂站端的数据,3个数据采集区共同完成所有厂站的数据采集任务。

3.2 数据库设计

1)区域信息表:

设置不同的数据采集区的信息,初期有3条记录,分别为南通、海门和如东。

2)前置数据采集服务器表:

设置每台数据采集服务器的各种参数,如机器名称、编号等,另外还包括每台数据采集服务器所属的数据采集区。初期有6条记录,前置服务器ntfes1-1和ntfes2-1属于“南通”数据采集区,前置服务器hmfes1-1和hmfes2-1属于“海门”数据采集区,前置服务器rdfes1-1和rdfes2-1属于“如东”数据采集区。

3)前置数据采集设备表:

设置每台终端服务器的各种参数,如终端服务器名称、编号等,另外还包括每台终端服务器所属的数据采集区。如终端服务器ntts1属于“南通”数据采集区,终端服务器hmts1属于“海门”数据采集区,终端服务器rdts1属于“如东”数据采集区。

4)前置通道表:

设置每条通道的各种参数,如通信方式、通信协议等,另外还包括每条通道所属的数据采集区,分别属于3个数据采集区的通道有很多。

3.3 程序流程

1)程序启动时首先读入前置数据采集服务器表,根据本机的机器名在表中查找相应记录,得到本机所属数据采集区,以及在本区域内还有哪些数据采集服务器,写入内存。

2)读入前置数据采集设备表,根据本机的数据采集区域查找本区域内的终端服务器,写入内存。

3)读入通道表,根据本机所属数据采集区查找本区内的通信通道,写入内存,并根据通道参数初始化相应的终端服务器。

4)读入厂站表,根据厂站所关联的通道是否属于本区域来判断表中的哪些厂站属于本区域,并将其写入内存。

5)读入遥测、遥信定义表,根据这些测点所关联通道是否属于本区域来判断表中的哪些测点属于本区域,并将其写入内存。

6)与本区域各通道建立通信,解析实时数据,将值班通道的熟数据送往SCADA系统应用,将控制命令发往相应通道。若某通道或数据采集服务器发生故障,则在本区域内进行相应切换,消除故障。

3.4 运行效果

南通地县一体化调度自动化系统建设初期接入的厂站数目约为250座,每个县调管辖的厂站数目约为40座。后期又接入了2个县调的数据,目前接入的厂站数目大于300座。

在运行过程中,地调及各县调的数据采集相对独立,互不影响,南通地调侧的前置服务器只处理所属近200座厂站的数据采集任务,各县调侧的前置服务器也只处理各自所属近40座厂站的数据采集任务。因此,对于地调、县调的前置服务器来说并没有增加额外的数据采集任务。但对于一体化系统来说,任一节点上都可得到系统内所有数据,实现系统内所有功能。即使远程互联的网络中断,系统解列成多个孤岛时,各解列部分的数据采集工作仍然能够正常运行,保证各解列区域系统数据的正常刷新,系统仍可正常使用。

地调侧和县调侧可选用不同的硬件平台,目前支持Alpha、SUN、IBM、HP及PC等硬件平台,支持各类UNIX、Linux等操作系统,系统可屏蔽硬件和操作系统的差异,具备良好的软硬件无关性。系统具备良好的可扩展性,可以方便地接入新的县调节点,满足整体设计、分步实施的要求。

经过一段时间运行,南通地县一体化调度自动化系统中的分布式数据采集模式展现出以下特点。

1)大量节约通道资源。

县调有相当数量的专线通道,若全部集中到地调,通道建设成本高,因此按就近采集原则进行分布式采集可有效节约投资。

2)有效分担采集任务。

降低了地调主系统采集负担,扩展性较强,地调主系统的采集性能不会随县调规模的扩大或互联县调节点的增加而降低。

3)具备独立运行能力。

在地调主系统异常或地县联网中断等故障导致的分区解列运行情况下,依赖2台数据采集服务器,县调子系统具备短期独立运行能力,实时监控功能仍可正常运行,可将故障带来的影响降至最小。

4)灵活适应管理体制。

可以很好地适应管理体制,在当前地、县分级调度体系下,县调的自动化人员除了维护调度自动化系统外,还承担了其他系统维护职责。若管理体制发生变化,县调自动化人员全部集中到地调,系统软件也无需额外修改,只需把县调相应的采集设备集中到地调即可。

摘要：随着电网的快速发展,电网信息量急剧增大,利用传统集中式数据采集方法采集数据致使数据采集服务器负载问题越来越突出。为解决上述问题,提出在分布式地县一体化系统中采用分布式数据采集方法,将数据采集任务在地、县范围内进行区域分解,每个数据采集区只处理自己区域内的数据采集任务,区域间各种信息和运行状态互不影响。各数据采集区协同工作,共同完成整个系统的数据采集工作,所有分区实时采集的数据自动在全系统内共享,无需人工设置。

关键词：调度自动化,地县一体化,分布式,数据采集

参考文献

[1]钱君霞,徐春雷,余云川,等.地、县一体化调度自动化系统建设方案[J].电力建设,2010,31(12):65-67.QIAN Junxia,XU Chunlei,YU Yunchuan,et al.Constructionscheme for unified city and county dispatching automationsystem[J].Electric Power Construction,2010,31(12):65-67.

[2]黄邵远.地县级调度自动化一体化主站系统建设思路[J].电力系统自动化,2009,33(20):100-103.HUANG Shaoyuan.Integrated dispatching automation masterstation system for prefecture and county power networks[J].Automation of Electric Power Systems,2009,33(20):100-103.

[3]张永忠.EMS系统分区管理模式[J].内蒙古电力技术,2006,24(3):58-59.ZHANG Yongzhong.Sectional management mode on EMSsystem[J].Inner Mongolia Electric Power,2006,24(3):58-59.

[4]姚建国,杨胜春,高宗和,等.电网调度自动化系统发展趋势展望[J].电力系统自动化,2007,31(13):7-11.YAO Jianguo,YANG Shengchun,GAO Zonghe,et al.Development trend prospects of power dispatching automationsystem[J].Automation of Electric Power Systems,2007,31(13):7-11.

分布式数据处理及采集篇6

射频识别(RFID)技术是利用感应、无线电波或微波能量进行非接触双向通信,达到识别及数据交换的目的[1]。RFID技术可以对高速移动的物体进行远距离识别,属于一种非接触式自动识别技术。大容量编码的电子标签能够对单一物品提供唯一编码识别及跟踪管理,同时,RFID技术还可瞬时同歩读取批量数据,适应供应链中信息量增长幅度更大、读取速度更快的现状。RFID技术可读可写、双向通信的特性实现动态管理信息,多次读写、循环使用的特性则可以有效利用资源。射频识别RFID中间件(Middleware)处于读写器与后台网络的中间,扮演RFID硬件和应用程序之间的中介角色,是RFID硬件和应用之间的通讯服务,这些服务具有标准的程序接口和协议,能实现网络与RFID读写器的无缝连接[2]。而RFID中间件将企业级中间件技术延伸到RFID领域,是RFID产业链的核心技术。由于RFID中间件屏蔽了RFID设备的多样性和复杂性,能够为后台业务系统提供强大的支称,从而可以驱动更为广泛的、更为丰富的RFID应用[3]。

国内在物联网中间件和公共服务方面已经开展了一些工作。依托国家“863”计划的“无线射频识别关键技术研究与开发”课题,中科院自动化所开发了RFID公共服务体系基础架构软件和血液、食品、药品可追溯管理中间件;华中科技大学开发了支持多通信平台的物联网中间件产品Smarti;上海交通大学开发了面向商业物流的数据管理和集成中间件平台[4]。此外,国内公司的产品包括北京东方励格公司的LYNKO-ALE中间件、清华同方的ez物联网中间件、ez ONEez Framework基础应用套件等[5]。RFID技术进入中国的时间比较短,各方面的工作还处于起步阶段。虽然我国政府对RFID应用提供了政策、项目和资金的支持,并且RFID在国内的发展也较为迅速,但因起步较晚,在很多方面与国外还有明显的差距。

使用条形码、IC卡、磁卡等技术不能及时采集制造车间内的数据,这是因为它们存在不足之处:需要接触识别,对环境要求较高,不能写入数据等等。射频识别技术能有效克服这些缺点,由于RFID有一系列优点[6]被广泛应用在物流、商品追溯[7,8,9]、仓储管理[10]、高速公路不停车收费[11]等场合,甚至应用在一些制造行业[12,13]。运用于商业物流、物品追溯等方面的RFID中间件,并不能满足制造企业的要求,需要开发应用于制造业的RFID中间件。为了不增加制造企业开发应用系统的成本,不改变现有制造企业的应用系统,更好地利用射频识别技术采集零件的加工信息,对应用于制造车间数据采集的RFID中间件进行了研究,并提出了对制造信息的保护机制和RFID中间件采用分布式的结构。

1 RFID中间件的模型

a)基于RFID的制造车间数据采集

制造车间通过RFID技术采集的数据有:隶属型号、设计图号、投产批次、领料时间及本道工序、下道工序、当前工位、完成状态,其中前4个是属于静态信息,是零件的第一道工序前领料时写入的,后4个是动态信息,是零件加工中写入的。利用RFID技术一系列的优点,通过对物料使用状况的实时掌握联系各个工位的生产信息,通过与物料绑定的电子标签来实现物料信息与生产信息的关联,如图1所示。

图1 基于RFID电子标签的信息关联

RFID设备采集的信息要成为MES等提供实时加工信息还须经过预处理和筛选,而且RFID设备必须与信息系统有充分的信息交互,这些功能都需要用RFID中间件实现。RFID中间件是连接RFID硬件与MES等企业应用系统的桥梁,是RFID系统的核心。RFID中间件的信息传输和数据预处理是提供制造车间零件加工信息的基础。

b)RFID中间件的模型

RFID中间件采用的模型结构如图2所示。RFID中间件采集到的零件加工信息写入到电子标签的同时,还写入到服务器端的数据库,企业应用系统可以通过访问数据库获得所需的数据。其中RFID中间件的各个部分的内容和功能如下:

图2 RFID中间件的模型结构

1)读写器接口:读写器接口包括RFID中间件与射频识别的读写器建立连接和断开连接,RFID中间件首先通过读写器接口与读写器建立连接,只有成功建立连接才能进行下一步的操作;当完成需要的操作或需要退出程序时通过读写器接口断开RFID中间件与读写器的连接。

2)电子标签的设置:主要内容包括对标签的密码设置、锁定、过滤和销毁等,当标签被锁定后只有知道密码才能对其操作,避免了非法读写器的操作和误操作。

3)系统配置:系统配置由读写器配置和电子标签配置两部分组成,每个配置都分为两个选项,一是查询配置,二是设置配置。查询和设置读写器配置的参数主要有端口及其功率、跳频表、以太网IP、发码间隔、是否支持RSSI等;查询和设置标签的配置参数主要有:标签协议类型、默认Q值、默认EPC的长度等。

4)电子标签的读写:实现读写电子标签数据的功能,包括电子标签的UID(UID是只能读取的)、EPC和用户数据,其中EPC对应零件的编号,用户数据对应要采集零件的加工信息,主要采集零件的隶属型号、设计图号、投产批次、领料时间及本道工序、下道工序、当前工位、完成状态。

5)数据的加密和解密:主要实现对写入电子标签内的数据进行加密/解密的功能,从而达到保护零件制造信息的目的。RFID中间件提供了五种不同加密算法来对数据进行加密、解密,RFID中间件实现加密和解密的过程见RFID中间件的加密/解密功能。

由射频识别硬件设备组成的数据采集系统为RFID中间件提供基础数据,RFID中间件对这些数据进行一系列处理后供上层应用调用。RFID中间件从制造车间采集零件的加工信息,能实时反映零件的加工进度、加工流程,提供车间内零件实际的工艺,与设计的工艺比较,可以反映是工艺是否合理。同时通过RFID中间件将零件的工艺与制造车间机床、零件关联起来。RFID中间件向上层应用提供制造车间零件的实时加工信息,通过这些信息管理者可以追溯产品的加工过程,还可以为车间的监控管理提供数据支持。

c)RFID中间件运行过程

RFID中间件运行过程分为以下几个步骤:1)RFID中间件调用读写器接口建立与读写器的连接;通过调用读写器相应的API函数建立连接,该函数会返回是否成功建立连接。2)对电子标签数据的读写分为两个方面,一方面是领取物料时写入的信息,包括隶属型号、设计图号、投产批次和领料时间,另一方面是加工零件时写入的工艺信息,包括本道工序、下道工序、当前工位和完成状态;3)对电子标签的设置主要包括上面提到的密码设置、数据的锁定、过滤和销毁等,例如领取物料时写入的信息一般不希望任意修改,可以对其进行锁定操作来达到这个目的。4)系统配置由读写器配置和电子标签配置组成,主要是查询、设置读写器及电子标签的参数;系统配置是一个可选的步骤,如果不需要改变当前的系统设置,这一步是可以忽略的。5)RFID中间件操作完后要断开与读写器的连接,成功断开连接后就可以退出程序了。RFID中间件运行过程如图3所示。

2 RFID中间件的分布式结构

计算机网络拓扑结构是指网络中各个站点相互连接的形式,在局域网中明确一点讲就是文件服务器、工作站和电缆等的连接形式。现在最主要的拓扑结构有总线型拓扑、星型拓扑、环型拓扑、树型和分布式结构。分布式结构的优点如下:由于采用分散控制,即使整个网络中的某个局部出现故障,也不会影响全网的操作,因而具有很高的可靠性。网中的路径选择最短路径算法,故网上延迟时间少,传输速率高;各个节点间均可以直接建立数据链路,信息流程最短。便于全网范围内的资源共享。所以RFID中间件采用了分布式结构,同时RFID中间件是基于B/S结构的。B/S结构(Browser/Server)即浏览器和服务器结构,其优点主要有:1)节约成本:大大简化了客户端电脑载荷,减轻了系统维护与升级的成本和工作量,降低了用户的总体成本。2)安全:它能有效地保护数据平台和管理访问权限,服务器数据库也很安全。3)方便:B/S结构最大的优点就是可以在任何地方进行操作而不用安装任何专门的软件。B/S架构的软件只需要管理服务器就行了,所有的客户端只是浏览器,不需要做任何的维护。RFID中间件的分布式结构如图4所示。

图3 RFID中间件运行过程

图4 RFID中间件的分布式结构图

RFID中间件采用Active X控件的形式,并嵌入到相应的网页中,当访问该网页时,会自动判断该硬件设备中是否有中间件,没有的话会自动安装。分布式的RFID中间件是通过Active X控件来实现的,Active X控件是用VS2008中的C#编程开发的。

当网页运行时会自动判断客户端是否安装Active X控件,如果已经安装直接运行中间件;否则会访问服务器自动下载Active X控件,然后自动安装在本地,接着就可以采用射频识别技术采集数据。Active X控件的自动安装流程如图5所示。

3 RFID中间件的加密/解密功能

为了保护制造车间零件的加工信息,RFID中间件封装了一个用于数据加密和解密的类。该类包括了DES、3DES、AES、IDEA和RC2五种算法,这五种算法的加密函数和解密函数是公共的,这样就可以让RFID中间件调用它们对加工信息进行加密和解。

RFID中间件调用加密函数和解密函数的过程如下:当RFID中间件从电子标签读到数据时,就调用解密函数,然后解密函数根据选择的算法和输入的密钥对数据进行解密,随后将解密后的数据返回给中间件;RFID中间件要想标签写入数据时,要先调用加密函数,同样地加密函数根据选择的算法和输入的密钥对数据进行加密,然后将加密后的数据返回给中间件。RFID中间件调用加密函数和解密函数的流程如图6所示。

4 RFID中间件原型系统的实现

RFID中间件是在惠普台式机Win7系统上以VS2008为开发工具进行设计开发的,该中间件主要应用于制造车间数据的采集。RFID中间件以Active X的形式存在服务器中,当用浏览器访问服务器中的RFID中间件时,就会自动安装Active X控件并显示射频识别中间件的页面,成功连接RFID读写器后就可以利用射频识别技术采集车间内零件的加工信息,经过中间件过滤、密码保护等一系列处理后写入零件对应的电子标签进行流通,同时通过接口写入服务器的数据库用于产品的追溯等上层应用。在成功连接到读写器的过程中,还可以对读写器和电子标签的配置进行查询、设置处理。例如某一零件的隶属型号为xinghao1,设计图号为sjtuhao1,生产批次为scpici01写入电子标签的情形如图7,第一道工序为gongxu01,第二道工序为gongxu02,进行零件的第一道工序时写入电子标签的情形如图8。

图6 RFID中间件调用加密函数和解密函数的流程图

图7 将零件的隶属型号、设计图号、生产批次写入对应的电子标签

图8 零件第一道工序时写入对应电子标签的本道工序和下道工序

5 结语

RFID中间件通过自动识别与零件绑定的电子标签读写零件的加工信息,并成功调用加密和解密算法对数据进行保护,RFID中间件的分布式能很好地在局域网的服务器和浏览器上自动下载、安装,加密及解密算法很好地起到了对零件加工信息的保护,并且由于采用了五种算法保证了算法的安全可靠性,符合一部分企业对制造信息保密的要求。总的来说,RFID中间件在不改变制造企业应用系统的前提下,把射频识别技术应用到制造车间,提高了企业的效率,降低了成本。

摘要：为了更好的利用RFID的优点采集制造车间的数据,并对企业应用系统的影响最小,企业不需要重新开发部署应用系统,对应用于采集制造车间数据的RFID中间件进行了研究,RFID中间件采用了分布式的结构,达到了提高效率、节省时间和降低成本的目的,同时提出了对制造信息的保护,满足了企业对重要制造信息保密的要求。

分布式数据处理及采集篇7

高炉炼铁是钢铁制造业的关键过程[1], 直接影响钢铁企业的发展。而实现高炉冶炼过程的智能控制成为炼铁技术进步的前沿课题[2]。所以, 利用专家系统实现对高炉冶炼过程的控制是高炉计算机控制的发展方向。而所谓的专家系统 (Export System) 则是一种智能化的计算机系统, 它能够模拟人类专家对复杂的过程进行跟踪、控制和管理[3]。同时应用高炉专家系统能够提高高炉的操作技术水平, 挖掘高炉生产潜力, 节能降耗, 提高经济效益。

专家系统主要包括数据采集及分析整理、高炉炉况异常和炉热趋向、高炉配料计算数学模型和生铁成份预测、炉热指数及铁水硅含量数学模型等功能[4]。其中数据采集及处理占整个系统开发时间的35%, 它是专家系统模型开发的基础和重要组成部分, 必须要保证其运行的稳定。

本研究根据江苏永刚集团进行高炉专家系统开发的经验, 结合一般工业企业对于数据采集及处理的研究, 并针对高炉数据的自身特点及专家系统使用的需要, 总结高炉专家系统开发中数据采集的几种方法, 给出数据预处理的主要方法。

1高炉专家系统数据采集

经过最近几年的大修和引进新技术, 江苏永刚集团公司的设备已基本达到现代化水平, 为进行高炉专家系统的研究提供了良好的硬件条件。该炼钢集团拥有两个炼铁厂, 其中炼铁一厂有3个高炉, 炼铁二厂有4个高炉, 每个高炉都由高炉本体、上料、喷煤、热风炉等子系统组成。其自动控制系统分为基础自动化和过程自动化, 并预留管理自动化接口。为了方便监视炉况, 高炉上设有成百上千个检测点。高炉监测系统主要采集以下参数:炉顶压力、热风温度、热风压力、冷风流量、炉顶温度、炉喉温度、料线高度、炉身静压、炉身炉墙温度、炉衬炉底碳砖温度、炉底温度、炉基温度等。

有些钢铁厂在高炉新建时已经考虑了未来高炉专家系统的开发, 也预留了接口, 如宝钢、武钢。而很多炼钢厂如鞍钢和江苏永刚就没有考虑未来专家系统的开发, 所以企业为了系统的安全, 要求高炉专家系统独立于高炉原有的二级系统, 建立单独的数据库。本研究主要介绍江苏永刚集团公司的数据采集。

永刚基础自动化PLC控制系统采用了西门子公司的S7-300系列, 上位监控软件采用界面良好的InTouch组态软件编制的AriTime, 通过工业以太网相互连接进行通信。AriTime采用C/S模式, 支持最新的OPC技术, 提供符合OPC规范的OPC服务器。因为OPC存在跨平台性能差 (只能在Windows操作平台运行) 和远程连接无法通过Internet上的防火墙的缺陷, 本研究设计开发了用于工业现场数据集成的IO Server系统, 它支持对不同工业现场数据的采集, 能够支持标准数据协议和接口规范, 对采集的数据节点按照一定的方式组织管理, 并将数据报送到远程的监控中心, 实现对工业现场数据集成的要求。它处于工业现场仪表设备 (或监控系统) 与上层的数据集成服务之间, 属于中间接口层程序。

IO Server包含OPC客户端, 完成对符合标准接口规范OPC的工业现场数据进行采集;针对XML技术在异构数据集成系统中的研究和应用, 用XML标准组织和描述采集到的数据, 对不同语言、平台开发系统的数据应用平台都有广泛的意义, 所以这种数据采集机制具有很强的适用性。

IO Server系统的采集部分封装OPC服务接口, 实现对提供OPC服务仪表设备和监控系统的数据采集功能;报送部分采用基于TCP/IP协议的Socket通信, 有效地解决了客户应用程序直接用OPC接口程序获取数据穿越防火墙和跨平台问题;在保证系统实时性的基础上提供有效的数据保护机制、维护机制, 保证了在网络不稳定的情况下报送数据的完整性, 从而突破了传统基于OPC数据采集的局限。

过程自动化后台采用Oracle数据库, 江苏永刚没有购买数据转储软件, 而是通过C#编程开发从IO Server取数据写入Oracle数据库中。实践证明利用C#编程数据转储开发时间较短且系统的稳定性较好。同时此系统可以有效地集成工业自动化系统的实时数据, 达到企业综合自动化系统对工业现场数据集成的目标, 故此系统还具有很强的可靠性。通过IO Server方式采集AriTime的数据并完成到Oracle数据中心转储, 同时将数据发送到引擎中进行分析。系统采集数据的时间间隔为1 s, 共从AriTime端采集2 000个左右数据采集点, 包括高炉本体、喷煤、上料、热风系统等数据, 通过Oracle客户端建立只读映射, 读取过程自动化动化系统数据 (如上料数据) , 以构建专家系统Oracle数据库平台, 专家系统数据采集系统结构如图1所示。

2高炉专家系统的数据处理

由于设备或外部干扰的影响, 从高炉上采集的数据并不能直接利用, 需要通过引擎分析把离散数据转化为业务数据, 业务数据包括一段时间的平均值、开关量启动时刻值等, 同时需要将采集的数据处理成粒度适合、去除了噪声干扰并且具有物理意义的数据, 从而为高炉模型的计算、推理和信息决策提供支持。数据预处理包括一次预处理和二次预处理, 一次预处理即实现数据平滑, 二次预处理即实现复合参数的计算、参数的特征抽取及参数的模糊处理[5]。

2.1一次数据预处理

2.1.1 数据均值处理

高炉生产数据的采样间隔是1 s, 而在高炉专家系统的开发过程中, 需要将采集的生产数据通过均值处理。根据查阅大量的文献, 借鉴其他高炉专家系统的开发经验与永刚的实际情况和需求, 本研究把数据统一处理成数据粒度分别为30 s、1 min、5 min和10 min均值的数据。下面举一个10 min均值处理的例子。

例如用一个表存储富氧流量、冷风流量、大气湿度、鼓风动能、理论温度、风口面积、炉顶压力、瞬时喷煤量、冷风压力、喷煤载气量和热风压力等高炉的操作参数, 主要用于高炉基础数学模型计算准备 (理论燃烧温度、鼓风动能、炉热指数等) 。

2.1.2 数据清洗处理

在高炉众多的传感器中由于原料装入的波动等因素不可避免地会产生一些干扰信号, 导致从数据采集系统获得的数据往往叠加有噪声, 为了提高数据处理的精度必须除去这些随机噪声, 通常采用平滑滤波处理的方法。目前随着计算机技术的发展出现了用各种统计方法进行滤波的方法, 如时域平滑滤波法和频率域滤波法[6]。下面介绍在江苏永刚高炉专家系统项目开发中, 遇到需要清洗处理的例子。

(1) 炉顶压力数据处理。

保持高炉炉顶压力的稳定是高炉生产操作的一项首要工作, 稳定炉顶压力能起到稳定煤气流、促进高炉顺行的作用, 同时提高炉顶压力是降低燃料比、焦比及增产的重要手段。但是炉顶压力受到噪声影响比较大, 根本无法直接使用, 因此本研究采用时域平滑滤波法, 将噪声滤出, 保留有用的信息。利用Matlab仿真滤波前后的值如图2所示。

(2) 热风温度数据处理。

高风温是高炉提高喷煤比、节能降耗、降本增效的有效措施, 同时稳定的风温也是保持高炉炉况正常的重要条件, 但是高炉炉况复杂, 直接测到的热风温度根本不能直接作为判断炉况的参考值, 需要对其采用频域滤波法滤出噪声, 保留有用的信息。利用Matlab仿真滤波前后的值如图3所示。

2.2二次数据预处理

二次预处理是在一次预处理后的孤立数据不能反映炉内特征的基础上进行复合参数的计算、特征参数的计算及参数的模糊处理。这样利用各种数学方法对参数进行二次数据处理, 就能够提取反映炉内不同特征的适合于高炉专家系统使用的参数。

2.2.1复合参数的计算

在高炉专家系统的运行中, 不但选用了风量、风温等单一参数, 还用到了煤比、焦比、透气性指数、利用系数、冶炼强度等复合参数。这些复合参数需要计算求得, 例如求透气性指数的计算如下:

δ=Q风/P全 (1)

其中:

P全=P热-P顶 (2)

式中 δ—透气性指数;Q风—冷风风量;P全—全压差;P热—热风压力;P顶—炉顶压力。

2.2.2 特征参数的计算

高炉专家系统推理判断中所用的参数值不仅要考虑到本时刻的瞬时值, 还应考虑到高炉在过去一段时间的参数值及将来一段时间的变化趋势, 因此需要对参数进行特征抽取, 特征抽取主要包括求参数的标准方差和变化梯度等。其计算公式如下:

(1) 参数的标准方差:

$Δ y = \sqrt{\frac{1}{Ν} \sum_{i = 1}^{Ν} (y (i) - \bar{y})^{2}}$ (3)

(2) 参数的变化梯度:

$\frac{Δ y}{Δ t} = \frac{1}{Δ t} [\bar{y} (t) - \bar{y} (t - 1)]$ (4)

式中 $\bar{y} (t) ‚ \bar{y} (t - 1) — t, t - 1$ 时刻的参数值;Δt—两时刻的时间间隔。

2.2.3 参数的模糊处理

由于参数的取值是连续的, 且高炉炉内状况非常复杂, 影响高炉状态的参数非常多, 无法确切知道每个参数对高炉状态的影响到底有多大, 因此这种影响具有模糊性, 应采用模糊数学中隶属函数的办法来表示这种模糊性[7]。

根据高炉的实际情况, 可选用多种隶属函数。本研究定义了如下两种隶属函数:

(1) 降型。即当参数值越大时, 参数对结论的影响程度越小:

(2) 升型。即当参数值越大时, 参数对结论的影响程度越大:

其中, y1, y2为参数的域值, 它由专家经验给出, 并可在系统运行中修正。参数经过模糊处理后, 便可供专家系统的推理之用, 为高炉专家系统的开发作了很好的铺垫。

3结束语

本研究根据江苏永刚集团进行高炉专家系统开发的经验, 结合一般工业企业对于数据采集及处理的研究, 提出了采用IO Server系统实现高炉专家系统的数据采集, 打破了传统基于OPC工业数据采集的局限性, 实践证明此种方法采集数据具有很强的适用性和很高的稳定性。本研究还建议在高炉计算机系统建立时, 预留高炉专家系统开发数据端口, 对于已经建立计算机系统的高炉, 推荐采用江苏永刚数据采集机制, 因为它具有很好的适用性和参考价值。

参考文献

[1]ZENG Jiu-sun, LIU Xiang-guan, GAO Chuan-hou.Sub-space Method for Identification and Control of Blast FurnaceIronmaking Process[J].Amercan Control Conference, 2008:2481-2483.

[2]李启会.高炉冶炼过程的模糊辨识、预测及控制[D].杭州:浙江大学理学院, 2005:2-9.

[3]WARREN P, HARVEY S.Development and implementa-tion of a generic blast furnace expert system[J].Transac-tions of the Institution of Mining and Metallurgy, 2001, 110 (1) :43-49.

[4]冯晶, 李福全.现代大型高炉的检测、数据采集和控制[J].钢铁技术, 2006 (5) :25-28.

[5]邓君堂.济钢1750 m3高炉专家系统实时数据采集与处理[J].山东冶金, 2008, 30 (1) :58-60.

[6]国宏伟, 邓君堂, 陈杉杉, 等.高炉专家系统的数据采集及处理[J].冶金自动化, 2008, 32 (3) :18-22.

分布式数据处理及采集篇8

关键词：分布式数据库,数据复制,数据分片

通常，分布式数据库系统需要维护数据库的多个副本，保持数据库多个副本间的数据一致性是分布式数据库系统维护的重点。数据复制能够将数据副本建立在不同的节点上，是重要的分布式数据库应用技术，能够避免因为某一个节点失效而导致分布式数据库崩溃的情况出现。在不同的数据副本上操作不同节点上的事务，进行单副本串行是保持数据库中不同数据副本间的一致性的重要方法。利用SQL Server 2000中的数据复制功能，可以把主要精力放在本地副本更新上，由分布式数据库系统完成其余副本的更新。

1 数据复制概述

数据复制能够将数据库中的数据备份到互联网、广域网或是局域网连接的服务器、站点的数据库当中，是强大的、重要的分布式数据库应用技术。数据复制能够保证各个副本之间数据的一致性，保持数据的同步。数据复制具有提高分布式数据库系统的性能，提高数据可用性，提高数据查询的速度等优点。通常，分布式数据库中，以数据更新传播的不同方式为依据，将数据复制分为异步复制和同步复制两大类。数据同步复制是事务执行的内容之一，其将每一个更新操作同时传送至其他副本的另外节点之上，并同时提交全部副本的更新。数据异步复制不同于数据同步复制，其将所有更新纳入到一个事务中，然后传送至副本的另外节点，使通信量降低，并且减少事务回滚而导致的代价。数据复制能够将已有中心数据库中的信息备份到各级拥有信息需求的不同数据库当中，也能够把各级分布数据库中的信息备份到中心数据库当中，从而有利于进行全局联机的决策支持分析与事务处理。

2 数据复制在SQL Server 2000中的应用

在维护同一个数据库多个副本间的一致性方面，SQL Server 2000提供了较为完备的复制功能。SQL Server 2000中数据复制的相关主体是发布者、分发者和订阅者。在SQL Server 2000中，用户能够利用数据库中已有的数据。用户处理数据时，即使断开了连接也能够进行数据副本处理。只要在重新连接后，用户将更改的内容传送至数据库当中就可以了。这样充分确保了各个分布数据间的独立性。SQL Server 2000中主要有事务复制、快照复制与合并复制三种类型的数据复制模式。首先，事务复制模式。在订阅服务器上进行数据初始快照运行，如果在发布服务器上进行数据更改，就使用事物日志对个别事务进行捕获，然后将个别事务传送至订阅服务器。其次，快照复制。直接分发数据位于某个时刻的状态，不对数据更新进行监视。把发布器中的数据复制到订阅服务器中进行数据复制。快照复制适合更新次数较少的大量数据的数据复制。最后，合并复制。在订阅服务器接收数据的过程中，不论订阅和发布服务器之间是否进行了有效的连接，数据更新都可以照常进行。在订阅服务器和发布服务器连接时，合并复制能够合并所有的更新。

这些复制类型都能够保证各个层次数据一致性的需求，为事务的ACDI属性提供了相应的功能。事务复制、快照复制与合并复制所具有的特点和功能都能够满足独立性与一致性的数据复制的要求。其中，事务数据复制是常用的便捷的数据复制方法。事务数据复制能够将数据库中的数据传送至其他的数据库，能够记录DELETE、UPDATE、INSERT等不同类型的数据操作。在维持数据复制的一致性方面，事务复制采用异步复制方式，将数据分发至订阅服务器，并进行增量修改。事务复制在SQL Server 2000中主要由三部分构成：日志读取代理、分发代理和快照代理。快照代理能够形成数据文件和描述文件，与新的订阅数据库保持同步。日志阅读器代理能够在分布数据库中插入事务日志中的事务。分发代理能够将复制事务从数据库中传送至订阅者。快照代理、日志读取代理和分发代理相互协调，保证各个副本的传输数据保持同步。

3 基于XLM的中间件模型及数据分片

3.1 基于XLM的中间件模型

基于XLM的中间件模型的主要功能模块包括：全局DOM树、中心处理模块、局部DOM树以及包装器。首先，全局DOM树。W3C组织推荐的DOM是一组用于合法HTML文档与XML文档的编程接口。全局DOM树允许脚本与程序进行动态访问、结构更新、文档内容更新和类型更新。其次，中心处理模块。中心处理模块是中间件模型的核心模块，它按照相关的数据分片策略，参照XML或DTD提供的路径模式信息，处理全局DOM树上的路径实例，在各个站点上分布每种模式的路径实例。第三，局部DOM树。在数据分片完成之后，在各个站点上利用DTD模式信息重新构建和全局DOM结构相同的局部DOM树。局部DOM树是全局DOM树的子集，如果把所有站点上的局部DOM树合并在一起，就能够得到全局DOM树。最后，包装器。通常，数据源均具有自己的包装器，在获得查询请求之后，就会从数据源中进行数据检索，找出所需的数据，并且将数据转化成XML形式。此外，数据源中的包装器能够进行数据源和DOM树之间的转换操作。从纵向来看，包装器、局部DOM树与其所对应的数据源共同形成了一个处理单元;从横向来看，包装器、局部DOM树、核心出来模块与全局DOM树共同组成了XML的中间件层。

3.2 数据分片

数据分片是分布式数据库的重要技术之一。传统的数据分片技术有Hybrid-Range分片策略、Range分片策略、Round-Robin分片策略。这些分配策略适用于有着固定模式的数据库，而不适用于无固定模式的、半结构化的XML文档。HRPS是一维分片方法，其划分的根据是关系中的某一个属性值，划分好的每个子空间内的数据元组数量相同，数据元组的值域互不相交。查询响应时间极小化是HRPS的重要目标，在查询数据时应当注意网络通信、磁盘I/O、CPU这些基本资源的占用。HRPS在XLM中间件基础上的扩展方法——EHRPS。EHRPS划分全局DOM树遵循以下原则：子空间包含路径实例数量大致相同的局部DOM树;子空间均只包含路径实例不重复的集合;根据DTD提供的路径模式信息，在不同站点上进行路径实例分配。由于中间件是统一的数据模型，在DOM树查询的相应时间当中会发生中间件系统资源消耗。DOM树的合并和XML文档生成DOM树的时间影响着DOM查询的响应时间。

4 结束语

综上所述，数据复制与数据分布在分布式数据库中有着广泛的应用。分布式数据库中，根据数据更新传播的方式将数据复制分为异步复制、同步复制两大类。在SQL Server 2000中的数据复制的主要有事务复制、快照复制与合并复制三种类型。事务型数据复制能够从一个数据库向其他的数据库分发数据，是一种较为理想的数据复制方法。在SQL Server 2000中事务复制主要由日志读取代理、分发代理和快照代理三个有机环节组成。全局DOM树、中心处理模块、局部DOM树和包装器是基于XLM的中间件模型的主要功能模块。Hybrid-Range分片策略等传统的数据分片技术适用于有着固定模式的数据库。EHRPS是HRPS基于XLM中间件的扩展方法，适用于无固定模式的、半结构化的文档，能够降低查询难度，提高查询的准确度。

参考文献

[1]朱丽丽.分布式数据库在高校的应用策略[J].科技信息 (科学教研) , 2008 (17) .

[2]涂承胜.基于VB的数据库的图像处理技术[J].计算机工程与设计, 2003 (6) .

[3]王祥武.数据复制技术比较[J].信息系统工程, 2010 (3) .

[4]勒敏, 刘建辉.分布式数据库系统数据一致性维护方法[J].科技广场, 2008 (3) .

[5]张建飞.数据复制系统的研究[J].才智, 2011 (11) .

[6]刘荣.分布式数据库系统数据复制技术的研究[J].电脑知识与技术, 2009 (7) .

[7]徐丽萍, 袁刚, 卢炎生.DRMDP:一个基于动态优先级的反射式数据复制中间件[J].计算机工程与科学, 2009 (2) .

基于WEB的智能信息采集及处理篇9

WWW从诞生以来至今, 对Web信息的搜索正在从“偏平”走向“垂直”, 从“通用”发展到“个性和智能”。但是据调查目前市场上绝大部分搜索工具或者产品都存在“重采集、忽视信息的处理和服务”, 即对采集的信息缺乏深层次的加工、处理, 并且提供主动的信息发布服务的机制。经过十余年的市场培育, Web用户最需要的是能提供面向一定的领域, 有较好智能程度的信息采集、加工和发布的产品, 本文将构建和实现这样的系统。

2 系统架构

系统由三个子系统组成, 即Web信息采集子系统、信息智能处理子系统和信息发布子系统。三个子系统可以单独部署和运行, 也可以通过接口文件实现整个过程的自动化采集、智能化处理和主动式发布, 整体架构如图1所示。

2.1 系统整体架构

该系统架构不仅适合较大用户的分布式部署采集、加工的需要, 也可以适应单用户集中部署的需要。当用户只需要某个子系统时, 只需对接口文件稍作配置就可以满足不同的用户需求。

2.2 Web信息采集子系统

Web采集器一般都是从称为种子的URL出发, 通过协议向Web上其它所需页面作扩展。经研究表明Web上30%的页面是重复的, 当面向特定的主题时, 80%以上的URL链接是我们不关心的, 因此在采集中如何进行URL去重和分析适合主题特征的URL是提高采集子系统效率的重要因素。同时如何获取有效的Web页面信息, 过滤广告、导航栏等噪声, 将直接影响后续的智能处理的性能。该子系统的流程如图2所示。

有别于通用的Web信息采集器, 该子系统最大的特点在于任何用户的主题采集都是在相应的模版的支撑下完成。所谓模版就是关于要采集的Web对象的特征描述, 为了提高下载的有效性和效率, 将某一个具体的网站所有的Web页面划分为Hub页和Topic页, 表示为一个三元组<M, Hf, Tf>。其中M刻画Web页共性特征, 如:网站名称、网站URL地址、语言种类等;Hf刻画该Web资源中的Hub页面特征, 即此类Web中哪些URL地址特征是下载时需要解析的;而Tf则是刻画某一类具体的Topic页特征, 主要是描述用户最感兴趣的内容的访问路径, 如:正文标题、作者、来源等。为了实现对下载的Web资源的监控, 将最新的信息及时地推送给用户, 触发器可以为用户指定适合需要的采集策略, 通过设定一定的间隔时间来激活下载机器人, “巡视”是否存在最新的信息。

2.3 信息智能处理子系统

该系统预先通过机器学习建立用户感兴趣的内容分类器, 当用户某一次下载任务完成后, 发送消息激活处理子系统, 系统将会自动地处理下载的内容, 主要包括自动分类、自动摘要和元数据分析, 如创建正文标题、关键字、分析作者等。系统流程如图3所示。

传统上的Web信息采集不具备对下载信息的深层次加工能力, 而本系统不仅实现机器的自动分类、摘要和元数据分析, 还提供人机交互的机制, 将处理的结果以便捷预览的方式呈现, 用户可以进行修改、删除以及确认后入库存储等操作, 确保发布信息的正确性和有效性。

2.4 信息发布子系统

近年来信息的发布形式越来越备受关注, 作为对外信息服务的平台, 该子系统主要特点有:多视角、多层次发布采集信息, 即从来源、原始栏目、分类体系多个视角交叉进行展示, 可以灵活的进行信息集合的交、并运算;个性化信息发布, 用户登录后利用个性化信息定制界面, 选择自己感兴趣的信息视角, 再次登录后, 推送给用户的就是完全个性化的信息内容;强大的信息检索能力, 不仅提供针对独立字段的检索, 还提供快速检索、高级的表达式检索及全文检索。

3 若干关键技术

3.1 URL去重

常规的URL去重有两种解决思路, 一是将所有的URL地址存入数据库, 做好索引后, 利用数据库的查找来判断该URL是否被重复下载;二是利用文件存储, 将URL通过一定转换, 也是建立基于文件的查找索引。这两种方式的弊端是显而易见的, 如中文网页有4亿左右, 假设每一个URL的平均长度为25个字符, 那么存储这些网页的URL地址需要的空间为8G左右, 很显然面对如此大的文件, 这种机制无法快速的进行URL查找, 因此不能保证快速的下载和去重。在本系统中采用了文件目录寻址机制来实现URL的快速去重。基本思想是首先将URL地址做CRC32转换, 生成一个唯一的4字节32位的编码, 如:E8CA0B3F, 将4个字节组成两级目录和一级文件, 即第一个字节的首字符作为第一级目录名, 第二、三个字符组合作为二级目录名, 第三、四个字符组合作为文件名存放在二级目录下, 每个文件的大小固定为4K, 最后还剩下三个字符一共是12bit, 共有4096个二进制数, 与4K的文件大小刚好一一对应。这种机制能够容纳的总页面数为232, 大约43亿个, 几乎包括目前互联网上所有URL链接。

3.2 HTML解析

为了提高下载页面的有效性, 需要过滤掉一些无用的噪声信息。传统上有两种解决方案, 一是页面学习的方式提取熵值最大的页面分块[1];二是通过定义访问路径来提取需要访问的感兴趣的内容。无论是哪一种方案都必须有对页面的HTML的解析能力, 即构造合适的数据结构来解析HTML的标签。解析的难点在于目前的网络Web页面的HTML非常不规范、不严格, 标签之间即使有错误或者不严格的匹配, IE也能完美的呈现。但是为了信息的精确提取, 必须要构造严密的访问结构。

3.3 自动摘要与元数据分析

摘要是指通过对文档内容处理, 从中提取出满足用户需求的重要信息, 经过重组修饰后生成比原文更精炼的文摘过程。目前主要自动文摘技术有三类:基于浅层分析的方法、基于实体分析的方法、基于话语结构的方法。

本系统采用一种新的使用自然语言处理 (NLP) 技术的自动摘要系统, 通过融合基于内容的方法[Based on Content]和基于主题 (Based on Topic) 的方法, 将主题与内容相结合, 生成具有良好连贯性和流畅性的摘要。基本思想是首先对主题词进行分析, 动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术, 对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果, 生成摘要;最后采用指代消解技术 (Anaphora Resolution Technology) 进行平滑使生成的摘要更连贯流畅。在上述摘要生成的算法中, 部分元数据如对标题的分析、作者、主题词的提取, 作为中间结果也将被输出和保存, 形成完整的符合基本文献规范的元数据体系。

4 结束语

基于Web的信息采集和处理技术, 在互联网飞速发展的时代, 将扮演者越来越重要的角色。本文设计和实施的系统, 继承和发展了现有的偏平化的信息采集策略, 以“信息采集、组织处理和发布”三项并重为理念, 使面向Web的信息采集系统向垂直和智能的方向推进, 也同时预示着该系统有广泛的市场和应用前景。

参考文献

【分布式数据处理及采集】推荐阅读：

分布式处理05-13