RFID数据

2024-09-08

RFID数据（精选7篇）

RFID数据篇1

有源RFID系统作为物联网的主要组成部分, 以其自带电源的特点, 使其应用范围也更加广泛。本文从有源RFID系统的组成和工作原理, 分析有源RFID刺痛的数据安全隐患, 并给出相应的安全策略。

RFID技术是一项非接触式自动识别技术, 目前广泛应用于零售业、服装业、医疗、交通、物流等方面。随着应用的不断深入, 与之相关的数据安全隐患逐渐凸显。有源RFID系统以其环境适应性强、新号发射距离远等特点, 在移动定位、商品管理等方面广泛应用, 但是有源RFID系统中的数据安全逐渐成为其发展的主要障碍, 如何保障有源RFID系统数据安全成为当前亟待解决的问题。

有源RFID系统组成

有源RFID系统由标签、阅读器、数据传输和处理系统三部分组成。如图1所示

标签:在有源RFID系统中, 所使用的标签是有源标签, 由中心处理器 (MCU) 、通讯芯片和外围电路三部分组成。有源标签除了具有持久性、信息接收传播穿透性强、存储信息容量大等RFID标签都具有的特点外, 有源RFID标签自身可以发射电磁波, 可以长距离使用, 可以用于车辆、野外设施等无法靠近或供电困难的地方, 还可以作为定位使用。但是由于有源标签自身带有供电装置, 与无源标签相比其价格更高、体积更大、寿命短。常见的有源电子标签工作频段主要有433MHz、900MHz、2.45GHz、5.8GHz。

阅读器:分为手持和固定两种。系统中所使用的是有源RFID阅读器由中心处理器 (MCU) 、通讯芯片、接口电路、存储单元和外围电路组成, 可以实现对接收数据的解析、处理和分析。

数据传输和处理系统:存储标签信息供控制程序使用, 控制阅读器进行数据接受发送操作, 处理接受的数据。

有源RFID系统工作原理

RFID标签俗称电子标签, RFID标签中存储一个唯一编码, 其地址空间大大高于条码所能提供的空间, 因此可以实现单品级的物品编码。标签上电后, 按照预设的规则周期性的进行信号发射, 当RFID标签进入阅读器的作用区域, 阅读器获取到标签发射出来的信息, 即完成了对标签的识别过程。

阅读器是对RFID标签进行读/写操作的设备, 主要包括射频模块和数字信号处理单元两部分。阅读器是RFID系统中最重要的基础设施, 一方面, RFID标签返回的电磁信号通过天线进入阅读器的射频模块中转换为数字信号, 再经过读写器的数字信号处理单元对其进行必要的加工整形, 最后从中解调出返回的信息, 完成对RFID标签的识别或读/写操作;另一方面, 上层中间件及应用软件与阅读器进行交互, 实现操作指令的执行和数据汇总上传。在上传数据时, 阅读器会对RFID标签原子事件进行去重过滤或简单的条件过滤, 将其加工为阅读器事件后再上传, 以减少与中间件及应用软件之间数据交换的流量, 因此在很多阅读器中还集成了微处理器和嵌入式系统, 实现一部分中间件的功能, 如信号状态控制、奇偶位错误校验与修正等。

数据传输和处理系统包含硬件驱动程序、控制应用程序、数据库三部分。主要功能是储存所有标签相关的数据, 控制卡片阅读机的运作, 接收读卡所回传的数据, 并作出相对应的处理。

数据安全隐患及防范措施

由于有源RFID系统是用在开放的环境中, 因此该系统中的数据安全主要集中在有源RFID标签、标签和和阅读器之间数据传输、数据通讯和处理系统本身的安全这三个方面。

1有源RFID标签安全

有源RFID标签的安全主要有两个方面:一方面, 有源电子标签的安全主要表现为标签信息的非法读取和标签数据的恶意篡改;另一方面, 电子标签所携带的标签信息会涉及到物品的所有者的隐私信息。电子标签的隐私威胁主要有跟踪隐私和信息隐私。因而, 针对有源RFID标签本身的安全, 可以采用直接有效的物理手段进行保护, 如控制标签电源开关主动控制是否进行信号发射和静电屏蔽、灭活操作、主动干扰以及阻塞法等物理方法屏蔽对标签的主动读写。

2有源RFID标签和和阅读器之间数据传输安全

在物联网应用中, 对RFID系统实现有效数据管理的前提在于保障RFID数据的安全性与私密性。同理, 在有源RFID系统中, 要保证数据传输过程的安全, 需要有为数据传输建立安全的通道, 保障非法标签不被读取、非法阅读器不能读取合法标签。现有的安全策略主要是标签识别与防冲突、认证与隐私保护。

标签识别与防冲突:在无线通信环境下, 普通的无线设备主要基于载波侦听多路访问/冲突避免 (CSMA/CA) 的竞争机制来实现多个设备之间的通信, 如802.11协议。与普通的无线节点不同, RFID标签是极为简单的无线设备, 标签上的资源极其有限, 不能够自发地通过调节自身的无线传输机会来避免标签间的传输冲突。具体来说, 标签没有足够的处理能力和能源来实现上述竞争机制, 避免通信冲突。鉴于RFID的系统特点, RFID标签识别协议需要具备简单、高效的特点。目前的RFID防冲突算法主要分为两大类:基于二进制树的防冲突算法和基于ALOHA的防冲突算法。

认证与隐私保护机制:对于有源RFID系统, 其安全问题是指存在伪造标签时, 如何有效地对标签进行认证;其隐私问题是指存在恶意阅读器时, 如何防止阅读器对标签的非法访问, 来有效地保护用户的隐私。在常用的网络安全解决方案中, 已经存在成熟的加解密算法如DES、AES、RSA、椭圆曲线密码等, 这些算法构成了对称密钥加密以及公开密钥加密中的支撑技术, 能够有效地实现加密与鉴别功能, 抵制非法读取、伪装哄骗、重放攻击等安全威胁, 具有良好的安全上, 对于RFID系统而言, 真实传输环境中的一些物理因素包括路径损耗、能量吸收、信号干扰等给物理层的信号传输带来了极大的不可靠性, 由此对基于防冲突算法的RFID数据收集机制的性能也带来了很大的影响。

3数据通讯和处理系统安全

在有源RFID系统中, 数据通讯和处理系统的安全也就是互联网安全和数据库的安全, 与传统所说的安全是一样的, 在此就不再赘述。

结束语

有源RFID系统中数据安全与无源RFID系统的数据安全有许多共同之处, 但是由于有源RFID系统中电子标签有自己的供电系统, 有许多方便之处。如在使用范围上, 可以有源RFID系统的限制适应更加严苛的环境;在保护数据安全的策略上, 可以采用更加灵活的信号发射模式;在标签与阅读器之间进行数据传输时, 可以采用更加安全的传输协议和加密机制。

RFID交通冗余数据检测及分析篇2

关键词：智能交通系统,RFID交通数据,冗余数据检测,冗余率

0 引言

近年来,信息技术、电子通信技术和互联网技术已在交通运输领域得到越来越广泛的运用,交通数据采集手段也随之取得进步。然而,各种内部和外部因素都会对数据采集过程造成干扰,可能使得数据被多次识别或上传,得到表达相同交通信息的冗余数据。数据冗余会占用不必要的存储空间,导致数据库越来越庞大,并降低查询速度。因此,在应用并挖掘采集得到的数据之前,需要检测出原始数据中的冗余数据并进行清洗,以提高数据质量。成功的应用系统需要高质量的数据,因此,数据质量控制是智能运输系统建设的关键技术之一。

随着交通数据采集手段的发展,国内外学者逐渐开始对交通冗余数据和数据质量控制开展研究。Turner[1,2]等在2000年将智能交通系统(ITS)在数据归档时出现的数据质量问题分为3类,从设置于美国圣安东尼奥的TransGuide系统中得到了线圈检测器数据,对其进行分析后总结了ITS存档数据的典型质量问题及问题的性质和程度。K.S.Chen等[3]将行程时间检测精度和系统成本同时纳入衡量标准,提出用于计算路网检测点密度的双层规划模型,该模型纳入了比较全面的影响因素,但未对采集数据质量与检测点密度的关系进行探究。伍建国、王峰[4]以流量相似性关系为基础,提出了交通数据检测点优化布设方案,以此减少检测点数量,从而达到减少冗余数据的目的,该方案在稳定和周期性的交通流条件下效果明显,但在随机动态的条件下难以保证系统可靠性。储浩等[5]研究了动态交通信息系统对数据质量的要求,以此为基础对几种常用的数据预处理方法进行了比较和分析,并以上海外环线上的超声波传感器获取的数据为实例进行了验证和比较,为进一步研究提供基础。桑丽等[6]对路网结构和检测点布设需求进行了分析,探究了在路网中布设固定检测器的基本策略,并讨论了结合使用固定型和移动型采集技术的可行性。吴芳[7]将等级分组的方法作为参考,使用等级法计算交通参数权值、设计多趟查找方法,提高了识别精度,同时采用分组法降低时间复杂度,从而得到识别单检测器冗余的有效方法。在约简冗余数据时,吴芳[7]采用2种方法:记录完全重复时,删除多余重复记录;记录相似时,对各交通参数数据取平均值。针对RFID数据,付文秀和李星[8]以矩阵型Bloom滤波器(MBF)为基础提出TIMBF冗余数据清洗方法,该方法可用来表示动态集合,在不产生消极错误的情况下以小内存获得高正确率,采取的空间优化措施也进一步减少了所需内存空间。施莉娟和牛世峰等[9,10]分别针对交通数据质量问题提出了创新的评价体系和数据质量控制策略。颜彦文[11]为轨道交通AFC系统设计了数据处理子系统,该子系统根据不同数据的特性对轨道交通中出现的冗余数据进行识别和处理。刘进[12]和陈海龙等[13]则分别对冗余数据的识别进行了研究,运用了并行窗口同时计算的方法和阈值的比较与沿法向量投影点位置判断结合的双重判断方法。2013年,袁高峰、王扬和郭建华[14]利用南京市的RFID交通数据采集平台进行了RFID匹配数据有效性分析,提出了基于统计技术的RFID匹配数据有效性检验方法。杜威和郭建华[15]提出了基于RFID技术的路网交通流分析方法。虽然交通数据质量控制的研究已逐渐成为智能交通系统研究的重要方向,但目前已有论文大多是对多种数据质量问题进行综合分析,于是,笔者专门针对冗余数据这一数据质量问题进行研究。同时,RFID作为一种新兴的交通数据采集技术,具有应用便利、适应力强等优点,得到了越来越广泛的应用,所以,针对RFID交通数据质量控制的研究迫在眉睫。本文对于RFID冗余数据的研究对提高RFID数据质量具有重要意义。

RFID是一种利用射频信号自动识别目标对象并获取相关信息的技术。笔者针对RFID交通数据中冗余数据的检测、分析及清洗问题进行了研究。首先将冗余数据分为2类:重复数据和相似数据,给出了针对2类重复数据的检测、分析和清洗方法;然后选取南京市区某区域路网作为研究对象,按照上述方法进行实践,并提出相应的RFID数据质量控制措施。

1 RFID交通数据采集原理

射频识别(radio frequency identification,RFID)技术是一种使用射频通信的非接触式自动识别技术,其在交通信息采集领域具有广泛应用。RFID数据采集系统[16,17]包括3个部分:贴有电子标签的车辆、设置在路侧的RFID基站和交通信息中心。其工作原理为:当携带有电子标签的车辆进入射频范围后,基站读取该车辆电子标签内的信息形成过车记录,并将该过车记录传输给交通信息中心,交通信息中心将接收到的过车记录连同采集时间一起保存,完成数据采集过程。图1为RFID基站采集数据的示意图。

RFID基站可采集到车辆所携带RFID标签中的信息,主要包括记录序号、基站编号、车道编号、过车时间、标签编号、标签类型、车牌颜色、车牌号、车型、车身颜色、环保等级等。通过对采集到的过车信息进行归类分析和统计,可实时掌握路段上的交通流量、车速、行程时间等数据,从而为路段交通状况及拥堵情况判别、路面交通流的控制诱导、导航、交通事故检测、交通事故应急和紧急调度等智能交通系统应用提供数据支持。

2 RFID交通冗余数据检测与分析方法

2.1 冗余数据检测方法

根据RFID数据采集原理,RFID冗余数据的产生原因主要有2种:①RFID采集系统对数据进行了多次识别,这主要与其工作原理有关:RFID以一定的频率发射射频波,车辆进入识别区域时若行驶缓慢或静止,便可能造成读卡器多次读取车辆信息,形成冗余数据;②在上传和存储数据过程中可能出现断电断网等意外情况,导致数据终止上传、存储,当电源、网络恢复时,可能发生数据的二次上传、存储,从而产生冗余。RFID冗余数据主要来自于车牌号码和过车时间,因此,对RFID冗余数据的检测主要是对大量的车牌号码和过车时间数据进行检测,找出可疑数据,并做出标记。RFID冗余数据包括2类:

1)重复数据。表达信息完全相同的数据。RFID采集的数据中,若车牌号码和过车时间完全相同,则为重复数据。如表1所列,车牌号码为苏A**050的车辆,在2014年1月5日21:04:07被基站6026连续采集到2条完全相同的数据。

2)相似数据。不完全相同但表达内容指向相同信息的数据。RFID采集的数据中,若车牌号码相同、过车时间不同但相差很短(如相差2s或10s),则认为这些数据为相似数据。因为同一辆车不可能在很短时间内2次或多次通过同一基站,并且RFID基站在读取数据时需要花费时间,采集的数据必定会产生一定的时间差,所以,相似数据也很有可能是冗余数据,有必要对其进行检测处理。如表2所列,车牌号码为苏A**M08的车辆,在2014年4月22日18:30:11~18:30:48时的长度为37s的时间段内被基站6026连续采集到5条数据(时间差分别为7s,11s,7s,11s)。

RFID冗余数据检测,即针对RFID采集的具有相同车牌号的数据,判断其过车时间间隔是否在合理范围内。该检测可分为冗余数据的检测和相似数据的检测2个部分。

1)重复数据的检测。将RFID数据先按照车牌号码排序,对车牌号码相同的数据再按照过车时间排序。针对排序后的数据,判断相邻数据是否完全相同,若存在连续若干条完全相同的数据,则其中除第1条数据以外的其余数据为重复数据。检测流程见图2。

2)相似数据的检测。删除重复数据后,将RFID数据先按照车牌号码排序,对车牌号码相同的数据再按照过车时间排序。针对排序后的数据,判断数据中的车牌号码是否第1次出现,若车牌号码连续多次出现,则对这些连续数据的过车时间以秒为单位做差分。车牌号码第1次出现时标记为“.”,表示跳过此项,随后将差分时间小于或等于300s的数据筛选出来作为可疑数据(若车辆在检测器附近以10km/h的速度行驶且检测器可检测到15m范围内的车辆信息,那么,车辆通过可检测范围仅需不到10s,然而,为保证不漏检相似数据,应在尽可能大范围的可疑数据中寻找相似数据,即应选用远大于10s的差分时间筛选可疑数据,于是本文将该差分时间设定为300s),分别统计出差分时间为n(n=1,2,…,300)的车辆数。从这些可疑数据中找出冗余数据的关键是确定冗余时间点。于是,按基站统计n(n=1,2,…,300)时间内的累积冗余数,累积冗余数即过车时间差小于或等于n的车辆数。根据统计结果做出累积冗余率(累积冗余率=累积冗余数/基站采集的数据总量)随时间差变化的折线图,将冗余率变化趋于平缓的点所对应的时间点定为冗余时间点。对于冗余时间点内的可疑数据,将其中除第1条数据以外的其余数据视为冗余数据;对于冗余时间点以外的可疑数据,则视为正常数据。检测流程如图3所示。

2.2 冗余数据的分析方法

2.2.1 重复数据的分析

重复数据的分析较简单,检测出重复数据后,统计重复数据数量并计算冗余率即可。设基站i共采集到ni个不同的车牌号,分别记为:P1,P2,P3,…,Pni。其中对于车牌号Pk(1≤k≤ni),基站i共采集到mk个过车时间,将这些过车时间按从小到大的顺序排列,分别记为:。令。引入以下逻辑函数:

由此可得基站i采集到重复数据的冗余率计算公式。

式中:Ri为基站i采集到重复数据的冗余率;

为基站i采集到重复数据的数量;

为基站i采集的数据总量。

2.2.2 相似数据的分析

基于重复数据分析中的假设,并设基站i的冗余时间点为Ti,引入以下逻辑函数。

由此可得基站i采集到相似数据的冗余率计算公式。

式中:Si为基站i采集到相似数据的冗余率;

为基站i采集到相似数据的数量;

∑nik=1mk为基站i采集的数据总量。

2.3 冗余数据清洗方法

重复数据的清洗比较简单,将检测步骤中标记过的冗余数据删除即可。

相似数据的清洗则相对复杂,需要根据累积冗余率的大小,将基站分为3类:①冗余率<1%;②1%<冗余率<2%;③冗余率>2%。对于冗余率<1%的基站,冗余数据所占比例较小,可通过冗余折线图确定冗余时间点,将冗余时间点以内的冗余数据删除。对于1%<冗余率<2%的基站,冗余数据所占比例较高,需检查RFID基站的工作性能。以此确定是由于RFID基站所在道路交通量大,常引发交通拥堵导致冗余,还是RFID基站设备问题导致出现大量冗余数据。若是道路交通量大的原因,则确定冗余时间点、删除冗余数据即可;若是RFID基站设备的问题,则需检查调整RFID基站,待基站正常工作后重新采集数据,确定冗余时间点。对于冗余率>2%的基站,冗余数据所占百分比极高,很有可能是RFID基站设备出现了问题。因此,应检查RFID基站设备,查找冗余数据产生的原因并调整RFID基站,待基站正常工作后重新采集数据,确定冗余时间点。

3 RFID交通冗余数据检测及分析实例

3.1 数据采集

使用南京市RFID交通数据采集系统采集得到的原始数据进行冗余数据检测和分析的实验。南京市目前已经安装RFID基站1 305个,约140万辆车安装有RFID标签,每天产生海量RFID过车数据。本文选用路网北至珠江路,南至瑞金路,西至龙蟠中路,东至清溪路,另外还包括黄埔路、解放路、中山东路和御道街等(均为主干道或次干道),建有21个RFID基站。本文研究路网和对应的RFID基站见图4。

其中,对6026,6027,6028,6029这4个基站,数据的采集时间范围为2014年1月1日~2014年6月19日,共170d;对其余17个基站,数据的采集时间范围为2014年1月1日~2014年6月24日,共175d。各RFID基站在此时间范围内采集得到的过车记录数据总量见表3。

3.2 冗余数据检测

如表3所列,笔者应用到海量的RFID过车记录数据。为了实施图2和图3所示的重复数据和相似数据检测流程,选用SAS软件进行数据处理,并编制RFID冗余数据检测算法。在应用冗余数据检测算法前,使用SAS软件的导入功能将CSV格式的原始RFID过车数据导入到SAS软件系统,形成SAS本地数据文件,在此基础上应用重复数据和相似数据检测算法,实施RFID冗余数据的检测。

SAS软件对重复数据的检测结果显示,RFID基站采集的数据中,只存在重复一次的数据,即只存在2条数据完全相同的情况,尚未发现3条及以上数据完全相同的情况。

而从SAS软件对相似数据的检测中可发现,从各RFID基站筛选出的过车时间差小于或等于300s的数据量很大,有的基站符合条件的数据量超过20 000条。以基站6026为例,说明在筛选出过车时间差小于或等于300s的可疑数据后如何找出冗余数据。从图5所示的基站6026冗余率变化折线图中可以看出,在前5s的开始阶段,折线图中有一小段直线,冗余率几乎为零(这是因为在建立基站时已写入程序,基站在数据采集过程中自动对5s内的冗余数据进行了清洗);过了开始阶段,曲线开始快速上升,当到达35s附近时,曲线增长缓慢并趋于平稳,最终的冗余率达到1.28%。于是将35s作为基站6026的冗余时间点。因此,过车时间差小于或等于35s的可疑数据中,除第1条数据以外均为相似数据;过车时间差大于35s的则为正常数据。

3.3 冗余数据分析

3.3.1 重复数据分析

使用SAS软件检测得到重复数据后,按照基站进行统计,使用式(1)和式(2)计算出各个基站重复数据的冗余率,各基站计算结果统计见图6。

由图6可知,21个基站所采集重复数据的平均冗余率为0.006 2%,说明重复数据的冗余率很低。各基站的重复数据冗余率变化较大,规律不明显。其中,基站6027的重复数据冗余率最低,只有0.002 7%,基站6435的重复数据冗余率最高,达到了近0.01%。可以看出,RFID基站采集的数据中,重复数据所占比例很小。

3.3.2 相似数据分析

通过累积冗余率变化折线图确定冗余时间点、找出冗余数据后,使用式(3)和式(4)计算出各基站相似数据的冗余率。

1)按不同基站分析。所有基站的冗余时间点和冗余率汇总见表4。21个基站所采集相似数据的平均冗余率为0.92%,说明相似数据的冗余率也很低。但相比于重复数据,相似数据的数量更多,所占比例更大。这主要是因为车辆通过RFID基站时若行驶缓慢或静止,可能会被多次检测到,因此相似数据的数量比重复数据多。同时可从表4中发现,各基站的冗余时间点均远小于筛选可疑数据时使用的差分时间300s,说明本文选取的差分时间300s已足够大,造成漏检相似数据的可能性很小。

2)按冗余率曲线走势分析。根据冗余率曲线的形状,将21个基站的冗余率变化趋势分为3类:趋于平缓、尾部上扬和呈直线。分类结果见表5。

冗余率曲线形状为趋于平缓的有基站6026。由图5所示的曲线走势可以看出,随着过车时间差的增加(从1s增加到300s),曲线越来越平缓,即冗余数越来越少。

冗余率曲线形状为尾部上扬的有基站6027。如图7所示,基站6027的冗余率曲线在第1阶段有一小段近乎为零的直线段;到了第2阶段,曲线开始迅速上升;第3阶段,曲线上升幅度减缓,没有第2阶段幅度大,但一直保持上升姿态到最后。

冗余率曲线形状为直线上升的有基站6148。如图8所示,基站6148的冗余率曲线在第1阶段有一段直线,但相比图6和图7,直线段长度明显较长(查看原始数据发现,这是因为前30s中冗余量没有随着过车时间差的增加而增加,即对应过车时间差内没有冗余车辆);到了第2阶段,曲线呈近似直线增长(查看原始数据发现,过车时间差每增加1s,增加的冗余车辆数相近)。

3类冗余率曲线的走势相差较大,对比冗余率曲线和基站特点发现,这可能与基站所处的地理位置有关。结合图5、图7和图8发现,从过车时间差等于5s开始,基站6026,6027的冗余率快速增加,基站6026比6027增加更多,基站6026的增速大约是基站6027的5倍,这种增速持续到40s左右;过了40s后,增速放缓,但从250s(约4min)开始,基站6027每秒的冗余量较之前都有增加,而基站6026依然保持较低增速、基本无增加趋势,这导致基站6027的冗余率曲线呈尾部上升。这可能是因为基站6027附近的交叉口车辆较多、交通量较大,车辆无法在一个信号周期内全部通过,出现二次停车现象。而通过基站6026的大量交通量通常能一次通过,不产生二次滞留,因此冗余主要在5~40s产生,其后冗余基本无增加。基站6148的冗余量均匀增加且冗余率较小,因而冗余率曲线呈直线上升。这说明基站6148所在道路较为畅通,车辆行驶速度较快。由以上分析可知,冗余率曲线呈趋于平缓和尾部上升的基站,通常交通量较大,造成冗余量较大,因此冗余率较高;冗余率曲线呈直线上升的基站,交通量较小,冗余率较低。通过整理基站冗余率曲线形状和基站冗余率之间的关系也印证了以上结论,整理结果见表5。

3.4 冗余数据清洗

根据重复数据的检测结果,将被标记的冗余数据删除。

根据相似数据的分析结果,按照累积冗余率划分基站所属类别:①冗余率<1%;②1%<冗余率<2%;③冗余率>2%。分类结果如表6所示。首先,对于冗余率<1%的13个基站,删除冗余时间点内的冗余数据。其次,对于1%<冗余率<2%的7个基站,检查基站工作性能和基站所在道路的交通量,若是交通量大导致大量冗余,则采用与第一类基站相同的清洗方法;若是基站设备问题,则在调整基站后重新采集数据。最后,对于冗余率>2%的1个基站,应在检查该基站设备并进行调整后重新采集数据。

3.5 数据质量控制策略

针对冗余数据分析的结果,提出以下几点提高RFID数据质量的建议:

1)对RFID设备进行定期检查和修理,以保证设备的工作质量,增强其抗干扰性。同时提高RFID设备的工作稳定性,避免在数据采集过程中出现断电断网等意外情况。

2)进行冗余数据检测和分析后,以冗余时间点作为参考,为基站设定一个删除冗余数据的间隔节点。在接下来的数据采集中,为基站设置自动清洗该间隔节点内的冗余数据的程序。

3)建立RFID交通数据采集行业标准,提高RFID交通数据采集系统安装流程的标准化,以保证相关设备的正确安装,进而保证各设备能够有效地采集交通数据。

4 结束语

RFID读写器内存数据结构篇3

在小型的RFID应用中, 进入RFID读写器读写范围内的标签被RFID读写器读取, 读写器将读取到的标签数据直接发往后台的应用程序或中间件进行处理。由于小规模应用时使用的读写器数量以及卡的数量不多, 大量的重复数据不会造成严重的问题。在大规模RFID应用中, 读写器每一次读取的标签数量可能很大, 并且一个中间件服务器可能连接有众多的读写器, 因此读写器如果直接将每次读取的标签数据发往中间件, 不但中间件服务器负担沉重, 而且网络数据的传输量将非常庞大。一般的做法是将数据处理环节推前, 即把RFID读写器读到的标签数据在读写器内进行过滤、分组等处理, 只向后台中间件发送经过处理的数据。这样可以大大减少网络数据传输流量及中间件服务器的处理数据量。为了提高读写器数据处理效率, 保证数据处理的实时性, 需要一种高效的标签数据过滤算法及相应的内存数据结构。

1 RFID读写器的读周期、事件及标签状态

在一个RFID读周期内, RFID读写器对读写范围内的所有标签进行读操作。由于RFID读写的射频物理特性, 在一个RFID读周期内, 并不能保证每一个在读写器识读范围内的标签都能被读到, 个别标签可能会在某个读周期内丢失, 当标签处于读写器识读范围边缘时这种丢失现象会更加明显。如下图所示。

由图1可见, 判断一个标签是否已进入读写器识读范围需要知道这一标签处于被读取状态的时间, 当一个标签在连续几个读周期 (超过一个阈值) 内被读写器读取, 则可以认为该标签进入读写器识读范围。同样地, 判断一个标签是否已离开读写器识读范围, 需要知道该标签处于丢失状态是否已超过某一个阈值。一般的来说, 一个标签从进入读写器识读范围到离开, 标签会在RFID读写器内经过五种状态:未知状态、第一次被发现、已进入、丢失、已离开。标签在读写器内所处的状态及转变机制如图2所示。当标签还未进入读写器识读范围时, 处于未知状态 (状态0) 。当标签进入读写器的识读范围边缘时, 第一次被读写器读取。这时的标签处于状态1, 即第一次被发现状态。由于在读写器读写范围的边缘因此读写器对该标签的读取不太稳定, 标签在下一个读周期内可能会丢失。如果在以后的时间里, 读写器在大于一个阈值 (Tenter_threshold) 的读周期内连续读到该标签, 则该标签被确认为进入读写器读写范围, 即处于状态2。处于状态2的标签如果在某个读周期内不能被读到, 则被认为是丢失了 (状态3) 。当丢失的时间超过一个阈值 (Tlost_threshold) 后, 该标签被认定为离开 (状态4) 。当处于离开状态时间大于一个阈值 (Tleave_threshold) 后, 标签回到状态0[1,2]。每个读周期结束后, 读写器向后台中间件或应用程序发送本次读周期内处于各状态的标签集合 (事件数据集) 。对于后台应用来说, 关心的事件数据集有:当前读周期新发现的标签集, 当前读周期刚离开的标签集, 当前读周期处于读写器识读范围内的标签集。

2RFID读写器生成的主要数据

由上一节读写器对标签的读取特点可以知道, 在RFID应用中读写器的数据处理是以读周期为单位进行的。在每个读周期结束后, 读写器需要将当前读周期读取的标签与当前读周期以前的各状态标签进行比对, 并将标签按照在当前读周期后处于新发现状态、已进入状态、新离开状态等几个状态进行分组, 形成各事件的标签集合。以下的公式表示了各事件标签集合的产生关系。

当前读周期的标签集合表示为

Sn={T|Tn} (1)

上式中Sn表示第n个周期读写器读到的所有标签集合, Tn表示第n周期读到的标签。当前读周期结束后, 处于发现状态的标签集合表示为

SnF={T|T∈Sn∩T∉S (n-1) E∩T∉S (n-1) F} (2)

上式中SnF表示第n个读周期后处于新发现状态的标签集合, S (n-1) E表示为上一周期结束后处于进入状态的所有标签集合, S (n-1) F表示为上一周期结束后处于发现状态的所有标签集合。当前读周期结束后, 处于进入状态的标签集合表示为

SnE={T|T∈Sn∩T∈S (n-1) F, tlast>tTenter}∪{T|T∈

S (n-1) E, tleave<tTleave} (3)

上式中SnE表示第n读周期结束后处于进入状态的标签集合, S (n-1) F表示为上一周期结束后处于发现状态的所有标签集合, tlast表示该标签处于发现状态的时间, tTenter表示标签由发现转入进入状态的时间阈值。S (n-1) E表示第n-1读周期结束后处于进入状态的标签集合, tleave 表示标签处于丢失状态的时间, tTleave表示标签由处于丢失状态转为离开状态的时间阈值。

当前读周期结束后, 处于离开状态的标签集合表示为:

SnL={T|T∈S (n-1) E, tleave>tTleave} (4)

上式中SnL表示第n个读周期后处于离开状态的标签集合, S (n-1) E表示第n-1读周期结束后处于进入状态的标签集合, tleave表示标签处于丢失状态的时间, tTleave表示标签由处于丢失状态转为离开状态的时间阈值。Sn、SnF、SnE、SnL 是读写器操作的最主要的四个集合, 其它的所有事件数据都可以从这四个集合得到。

3内存数据结构及操作

由以上的公式可以看出, RFID读写器的数据处理主要是集合数据的比较与查询, 具体的操作分为以下三步。

3.1数据的比对插入

每一个标签被读取后, 都需要与已经存在的标签进行比对, 以确定标签是否存在及处于什么状态。将新发现的标签插入新发现的标签集合, 对于已有的标签进行数据更新。

3.2状态查询

当前读周期结束后, 以标签状态为查询条件, 形成各事件报告。

3.3删除过期数据

对于过期的标签数据进行查询并删除。

由于在每一个读写周期内RFID读写器数据操作存在一个规律, 先做比较、插入操作, 所有标签比对完成后, 再对所有标签做各状态查询生成事件数据, 然后再将部分过期数据进行删除, 所以对于算法及数据结构的选择可以通过分别考察各算种算法及数据结构的比较、插入与范围查询的操作效率来实现。

对于比较与插入操作, 一些常用的对比查找算法特点及时间复杂度对比如表1所示。

顺序查找:主要应用于无序表的查找, 查找效率低。

折半查找与二叉树查找:具有相同的特征, 但是折半查找适合用于静态表的查找, 二叉树适合动态表的查找, 二叉树的查找效率很大程度上取决于建立二叉树时取得数据的顺序, 对于RFID应用来说数据是无序的, 因此二叉树难以保证具有O (lgn2) 的时间复杂度。平衡二叉树 (AVL) :是二叉树的一种改进, 它具有左右子树深度之差的绝对值不超过1的特性。能保证查找的时间复杂度为O (lnn) 。但由于在数据进行插入或删除的过程中会造成平衡被破坏, 所以需要进行平衡处理, 在插入删除操作比较多的情况下, 平衡操作会占去很多的时间。为了减少平衡操作的次数, 引入了T树的结构。在RFID读写器中, 读周期的标签数据查找插入阶段, 可以使用T树的结构, 使标签数据比较及插入过程达到O (lgn2) 的平均时间复杂度。但是在查询生成各事件标签数据集合时需要重新遍历整个T树, 因此降低了算法的效率。

哈希表:理论上利用哈希表查找法可以得到最优的查找效率, 最好的情况下只需一次查找就可以得到结果。哈希表查找法的时间复杂度主要取决于哈希函数及冲突处理算法的好坏。由于RFID标签取值范围很大, 很难做出限制, 所以找一个合适的哈希函数将标签的值均匀地映射到某一个范围内比较困难, 在RFID应用中难以得到很高的时间和空间效率。

对于范围查找操作, 需要将所有的处于某一状态的标签数据全部查找出来。对于以上的各种算法及结构, 都很难达到很高的效率。

4T链表树及数据操作

常用的数据结构及查询方法都不适合用于RFID数据处理。AVL树结构在对比插入操作中需要大量的平衡操作, 并且在状态查询时效率不高。为了减少AVL树的平衡操作, 可以使用T树结构。T树结构是AVL树的一种改进型, 它在AVL树的每个节点上增加数据量, 减少了平衡操作的次数, 提高了增加删除节点的效率, 目前T树结构在内存数据库 (MMDB) 中被大量的使用[3]。T树结构可以大大提高在对比、插入操作阶段的数据处理效率, 但是在状态查询上, 效率不高。如果能在T树的基础上将所有处于同一状态的节点用双向链表结构连接起来, 在做状态查询的时候只需要遍历某一状态的链表就可以将处于某一状态的所有标签遍历出来。因此可以考虑在T树结构上增加双向链表结构, 用于范围查询, 可以显著地提高范围查询的效率[4,5]。这种结构可以称为T链表树结构。这种结构可以综合两种数据结构的优点, 在RFID数据处理的两个阶段都达到较高的效率。一个T链表树的节点结构如图3所示。

每个T节点的各数据单元由五个域组成, 两个指针节点用于建立双向链表, 一个标签记录域用于记录标签号, 一个计数器域用于计数标签处于某一状态的时间, 一个状态域用于标记所处的状态。在T链表树结构中, 处于相同状态的标签形成一个链表, Front Ptr用于指向前一个处于同一状态节点, Successor Ptr用于指向下一个处于同一状态节点。整个T链表树的数据结构如图4所示。

T链表树有两个根指针, 一个Root指针指向T链表的树根节点, 另一个HPtr根指针指向连表的头指针链表。由RFID数据处理的特点可知, 在任何一个时刻标签只能处于四个Sn、SnF、SnE、SnL集合中的一个, 所以T链表树中共有四个链表头节点, 每个节点所链接的节点, 都是处于该集合中的标签。这四个集合分别代表了:上一次读标签后处于发现状态的标签节点链表指针、上一次读标签后处于已存在状态的标签节点链表指针、当前一次读标签后处于发现状态的标签节点链表指针及当前一次读标签后处于已存在状态的标签节点链表指针。

在每一个读周期中, 数据操作方法如下。

4.1查询、插入操作

对于每一个读周期, 新的标签进入时根据T树的查询规则从根节点开始作查询、插入操作。如果标签已存在则读取标签所处的状态值, 如果标签原先处于发现状态则判断该标签处于发现状态时间加上本次读取时间是否已经超过发现状态的门槛值, 如果已超过则更改标签的链表指针, 将节点链接入本次操作后已存在链表, 更改标签的状态, 时间设为0, 并形成本次进入标签的报告。如果未超过门槛值则链入本次操作后发现链表。

4.2删除操作

所有本次读入的标签都已查询完成后, 判断上一次处于发现状态的链表是否为空, 如不为空则根据链表指针遍历所有链表节点并执行节点删除操作。

4.3清除链表

判断上一次处于存在状态的链表是否为空, 如不为空则遍历所有节点, 如果节点的计数值加上本次计数值超出门槛值则表示该标签已经消失, 加入本次的消失标签报告, 从树中删除该节点。如果未超出门槛值则将计数加上本次值后链接入本次读后已存在标签链表。

由以上的操作可以得到, 任何一次读周期完成后, 所有的节点都处于当前周期的两个链表中, 而上一次读周期的两个链表必为空。因此四个链表指针可以循环使用。

5性能分析

本算法与采用多链表、T树结构的性能分析及对比情况如表2所示。

由上表可知, 多链表结构在读周期的新增标签部分效率比较低, 主要是因为需要通过遍历所有已知的节点进行对比。但是在对本次未读到的标签处理上, 只需遍历一次链表就能将所有标签找到, 效率比较高[6]。而对于T树结构, 在对比查找阶段, 由于AVL树的特点, 效率较高, 但是对于本次未读到的标签处理上, 需要重新遍历整个树才能得到所有的标签, 效率低[7,8]。T链表树是一个综合, 在对比查找阶段, 具有T树的特点, 在未读到标签处理上具有链表的特点。T链表树通过增加两个指针节点的空间, 和维护链表结构及T树结构的操作, 来换取查找及删除阶段的高效率。

6结论

根据RFID读写器的读写、输出及数据特点, 提出了T链表树的结构, 及与之相应的数据处理算法。利用T链表树结构及算法在每一个读周期内, 读写器只需对所有标签数据进行一次遍历就完成所有标签状态的维护、各标签报告的生成, 具有很高的效率, 可以极大的提高读写器的实时处理能力。

摘要：在大型RFID应用中, 需要将标签数据处理环节前移至读写器。由于读写器的硬件条件限制, 要提高读写器的实时数据处理能力, 就必须有适合RFID应用的高效的数据处理算法及存储结构。分析了RFID读写器数据处理的特点, 提出了一种特殊的T链表树结构。在T树的结构基础上增加了双向链表结构, 使得读写器在读周期的各个数据处理阶段都能保持很高的效率。在T链表树结构基础上, 还设计了一套数据处理算法, 结合特殊的数据结构, 可以极大地提高读写器的实时数据处理能力。

关键词：RFID,读写器,T树,T链表树,数据结构

参考文献

[1]EPC global.The EPCglobal architecture framework EPCglobal final version.July1, 2005

[2]EPC global.The application level events (ALE) specification version1.0.September15, 2005

[3]Lu Hongjun, Yeung Yuet, Tian Zengping.T-tree orB-tree:main memory database index structure revisited.Database Conference, 2000.ADC2000.Proceedings, 11th Australasian31Jan—3Feb2000

[4]Choi Kongrim, Kim Kyungchang.T*-tree:a main memory database index structure for real time applications.Real-Time Computing Sys-tems and Applications, 1996;Proceedings, Third International Work-shop30Oct—1Nov1996

[5]卢炎生, 邓立峰, 朱英武.支持实时数据库的L树.研究计算机工程与应用, 1997; (4) :5—7

[6]严蔚敏, 吴伟民.数据结构 (第二版) .北京:清华大学出版社, 1992

[7]The application level events (ALE) specification V1.1;EPCglobal Inc, www.epcglobalinc.org, 27—February, 2008

RFID数据篇4

射频识别(Radio Frequency Identification,RFID)系统中,由于RFID阅读器本身数据的不可靠性以及无线传输信号受外界干扰等诸多因素,出现漏读、多读和脏数据的情况;同时,RFID系统中存在海量中间数据。为了减少以上情况的出现,提供高质量的RFID数据,对RFID原始数据进行处理显的尤为重要。

目前,RFID的数据清洗技术研究已经取得一定的进展。文献[1~3]通过将数据过滤算法嵌入到标签阅读器当中,解决漏读和脏数据。但由于阅读器本身的处理能力和存储单元的限制,这种处理方法能产生的效果还比较有限。文献[4~6]采用定长时间窗口清洗方法应用在中间件中,设定一个时间窗口,在窗口内若标签被读到则认为其存在于阅读区域内,虽然方法简单易行,但缺乏灵活性,不能很好地实现数据过滤。文献[7,8]采用一种基于事件驱动的滑动时间窗处理RFID数据,设定一个固定的时间阈值,当新的阅读到达时,根据时间戳和时间阈值,判断其过期时间,然而该方法缺乏灵活性,没有解决冗余读问题。文献[9~11]采用一种基于伪事件的数据清洗方法,将标签的冗余读当作伪事件,通过设定时间阈值的方式,来判断标签是否为伪事件,对伪事件数据进行丢弃。在一定程度上解决了冗余读的问题。文献[12]用阅读区域的大小和标签的运动速度估计出时间窗口长度,但是在实际应用中阅读器的阅读区域是一个范围估计值,存在着较大误差,而且该方法只能用于固定流速的标签信息处理,对于非匀速标签运动则无法实现数据过滤。文献[13]提出一种自适应调整滑动窗口大小的数据清洗方法(Statistical s Moothing for Unreliable RFid data,SMURF),把阅读器读取到的RFID数据流看做统计学中的随机事件抽象成样本统计和建模,并且灵活的根据当前得到的样本对窗口大小进行连续的动态调整。但是这种方法会对时间窗内的数据重复存储,消耗大量的系统内存,同时也可能造成多读和漏读数据,同样不能解决非匀速标签运动问题。

针对目前研究的不足,本文提出一种新的自适应时间窗的RFID数据清洗算法(Adaptive ATDCA)。将时间窗模型和伪事件过滤模型结合在一起,基于分层机制过滤数据,解决冗余读问题,减少系统缓存。

1 相关算法研究

1.1 自适应滑动窗口RFID数据清洗算法

SMURF算法中规定窗口大小为w,阅读器在大小为wi个时段中检测单标签i,在窗口的每个时段中,只有部分时段能读到标签i,窗口中每个阅读周期的平均阅读率定为piavg。

针对单标签清洗,利用伯努利二项分布模型来处理数据。为了保证阅读器读到数据的完整性,要求窗口的大小能保证存在于标签阅读区域内的所有标签都被读到的概率δ满足,其中δ表示置信度。根据中心极限定理,SMURF算法规定标签发生动态变化的条件为:,其中表示窗口中标签阅读出现的次数。

而对于多标签聚集清洗的情况,SMURF算法采用一种基于π-estimator分布模型的多标签阅读清洗问题解决方案,用以确定窗口的标签数量。通过窗口中标签至少出现一次的概率为:,估计出窗口中间总的标签数量为:,其中sw表示窗口检测出的标签集合。假设不同标签之间相互具有独立性,则Nw'的方差可以表示为,从而标签发生动态变化的条件为:。其中Nw和Nw'分别表示在当前窗口和当前1/2窗口内存在标签个数之和。针对这两个条件的响应具体操作与解决单个标签的情况类似。SMURF算法可以根据窗口数据自动调整窗口大小,当新阅读产生时,标签进入时间窗口,将每次读到的标签信息依次放入缓存队列当中,每个标签的信息,在一个时间窗口中只输出一次。从而改善窗口大小设置不合理而造成的漏读、冗余读等问题[13]。

1.2 基于伪事件的RFID数据清洗方法

伪事件是一种人为定义的事件,以特定时间触发特定动作。将冗余读设为伪事件,分别对各个伪事件设定阈值,判断标签信息的读入是否为伪事件。

针对冗余读伪事件,设定阈值δ1,当标签首次被发现,记该时刻为t,在时间区间[δ1,δ1+t]内,若标签被重复读取,则认为是重复读伪事件,不输出该标签信息。该方法解决了传统数据清洗方式会给系统带来大量中间数据的问题,减少了缓存的开销[10]。

由于每个标签在其存在周期内都可能被读到多次,SMURF算法在存储时间窗内每次阅读产生的标签信息需要消耗大量的缓存,同时在一个时间窗内的标签被读取次数随机性较大,如果仅仅通过设置阈值来达到清除多读数据和脏数据,可能会导致真实标签被误判为多读数据或者脏数据。而伪事件的RFID数据清洗方法设定的阈值是固定的,取值缺少灵活性。

2 自适应时间阈值的标签数据过滤

2.1 改进算法的思想

ATDCA结合时间窗模型和伪事件过滤模型,以伪事件过滤算法为基础,通过设定事件过期时间阈值,过滤阅读范围内的标签信息,触发事件过期阈值根据阅读范围内标签的存在状态自适应改变。

算法首先通过查询缓存队列中的标签信息,来判断新阅读产生的数据是否为冗余读数据,从而实现阅读范围内新标签的发现和信息输出。在实际应用中,大量已过期的标签信息占用大量的缓存空间,增加了查询消耗。因此要求缓存队列中的数据要实时更新。SMURF算法可以得到当前时刻时间窗的长度,其长度根据读卡器阅读区域内的标签数目变化而自适应的变化,可以动态的反应当前时刻阅读区域内的标签存在状态,所以选择自适应时间窗的大小作为缓存队列中标签信息过期的阈值。利用标签时间戳和阈值实现标签过期的判断。

阅读器在实际读取标签信息时,会出现多读数据和脏数据,这些信息在以时间窗作为阈值的数据过滤算法中很难有效地与真实存在的标签信息进行区分。但是在单缓存队列的方法中,由于标签信息的过期时间是整个存在周期,而同一个信息多次发生多读或误读的概率极低。因此对多读数据和脏数据设置一个时间阈值来判断标签信息的真实性。

其中,时间阈值T满足,δ为置信度,为单个阅读周期的平均阅读率,pi,t为单个阅读周期内读到标签的数目,表示缓存队列中标签信息的数目,算法窗口长度随着缓存队列中标签的的长度自适应改变。由于每次阅读发生都进行时间阈值的计算,带来巨大的计算量,给系统增加沉重的负担,规定触发窗口大小改变的事件为:,其中N'为上一次阈值改变时缓存队列中的标签数目,N为此时缓存队列中的标签数目,λ为置信区间,用于表示可接受的变化范围,当标签数目的变化率超出置信区间则重新计算时间阈值大小,整个时间阈值自适应调整过程如图1所示。

当新的阅读产生,查询此时缓存队列中的标签数目,若标签数目在阈值有效范围内,则不更新时间阈值。若标签的数目不在范围内,则触发时间阈值更新,更新完成后,通过,计算并更新阈值。

2.2 改进方法软件实现

定义标签缓存队列的单元格式:∪t={[UID t][Tt end][N t]},其中UID为标签ID,Tend为标签预计过期时间,N为标签被读到的次数,i表示标签的序号。

标签在整个存在周期内,被阅读器多次重复发现。当一个新的阅读发生时,系统查询缓存队列,判断它是否已存在缓存队列当中,若已经存在,则根据此时的时间t和时间阈值长度T,求出标签的预计过期时间Tend=t+T,更新该标签的相关信息,并且将标签信息放入队列末尾;若不存在,则将标签的相关信息直接插入缓存队列末尾,同时顺序查询缓存队列,若当前时间大于或者等于某个标签的预计过期时间则认为该标签已经过期,从缓存队列中删除该标签。具体实现流程如图2所示。

步骤1:读写器进行新的阅读,得到标签UID。

步骤2:系统缓存队列中的标签数目是否在阈值有效范围内。若在有效范围内,转至步骤4执行,若不在有效范围内转至步骤3执行。

步骤3:根据计算出新的时间阈值,根据更新阈值范围。

步骤4:根据标签被读取时刻的时间t和此时的时间阈值T计算出标签信息的预计过期时间Tend=t+T。

步骤5:将标签中记录的UID与缓存队列中的标签信息进行对比,判断标签信息是否已经存在于缓存队列当中。若已存在则转至步骤6执行,若不存在则转至步骤7执行。

步骤6:将标签被读到的次数Nt加1,更新标签的预计过期时间等相关信息,并且将该标签信息移至缓存队列末尾,转至步骤8执行。

步骤7:将标签被读到次数记为Nt加1,并将该标签的相关信息插入到缓存队列末尾,转至步骤9。

步骤8:判断标签被读到的次数,若次数大于μ,认为该标签信息为真实信息,将其输出给上层模块并且对其进行标记,转至步骤9。

步骤9:更新缓存队列,统计缓存队列长度L并初始化计数值k=1,用以表示缓存队列的第一个标签信息,转至步骤10。

步骤10:将缓存队列中第一个标签的预计过期时间与当前时间相比对,若当前时间已经超出或者等于标签的预计过期时间,则认为标签信息已经过期,将其从缓存队列中删除,转至步骤9。若没有,则转至步骤11。

步骤11:判断读操作是否停止,若停止,则结束数据清洗,若没有停止,转至步骤1继续执行清洗操作。

2.3 改进方法的硬件实现

改进方法的清洗过滤器主要由计算器、时钟、比较器和缓存队列组成,清洗机制如图3所示。

其中时钟用于获取当前时间t,计算器用于计算此刻时间窗长度T,并且得出标签预计过期时间。比较器1用于判断标签是否已经在缓存队列当中,从而实现对缓存队列的添加。比较器2用于判断标签是否是真实数据,过滤多读数据和脏数据。比较器3用于判断标签是否过期,从而删除队列中的冗余信息。

3 仿真结果及分析

标签信息由Matlab随机产生,取标签的置信区间δ≤0.01,保证标签被读到的概率大于1-δ≥0.99,每个阅读周期中,标签任意标签被读

到的平均概率piavg=0.6,则根据,取窗口大小w为满足条件的最小整数值,μ=2。在试验中,考虑到标签的两种通过场景,分别是快通过场景和慢通过场景,这两个场景的区别是每个时间窗长度之内,标签的变化率的大小,在快通过场景,标签的变化率可能达到60%~70%,取θ=70%,在慢通过场景标签的变化率可能只有5%~10%,取θ=10%。

由图4可以看出,相比较SMURF算法,随着读写器阅读区域中标签的数量的增大,传统数据清洗方法所占用的缓存空间与改进方法相比差距成倍增长,从而可以看出改进方法能有效地减少缓存空间的占用率。

而对于伪事件标签清洗方法,其发出的标签信息量由时间窗值T与时间阈值T'之比还有标签的变化率θ有关,。取T=T',此时。

由图5可得,在时间阈值T'选取的不是很恰当时,当标签慢速通过,伪事件标签清洗方法会带来大量的冗余数据输出,会严重的影响系统的性能;当标签快速通过时,它依然还会有一定的冗余数据输出。而两种改进方法都基本不会带来冗余数据的输出。

4 结束语

本文针对RFID系统中的冗余读事件和缓存清理进行了探讨,深入研究了现有RFID数据清洗技术。提出了以自适应时间窗长度作为阈值来触发标签输出和过期的改进数据清洗方法。实验结果表明,改进后的算法在保证数据的准确性、实时性和精简性。相对SMURF算法,该算法大大降低了缓存队列的长度;相对伪事件过滤算法,其时间阈值自适应调整,灵活性增强,进一步解决了时间阈值选取不当造成的冗余数据输出问题。而且相比起以往的数据清洗方法,其对于多读数据和脏数据有更好的过滤效果,算法的硬件实现简单,显著提高了RFID原始数据的清洗效率。

摘要：传统的以事件过滤方式处理RFID冗余数据的方法缺少灵活性,缓存消耗比较大,影响系统的运行效率。本文通过对RFID数据处理方法的深入分析,在原有数据清洗方法的基础上,提出了一种以事件为基础,自适应时间阈值约束的新型RFID数据清洗机制。根据当前读取的标签信息,结合时间窗方法和伪事件过滤方法,从标签存在周期的角度,自适应地调整事件发生的时间阈值。实验结果表明,该方法降低了缓存的数据量,一定程度上解决了多读和冗余读等问题,具有一定的理论和实际意义。

RFID数据篇5

标签对象位置的推断方面, 对阅读器固定而标签对象移动的应用场景, 文献[2]提出了一种通过分析监控对象之间的关联度来进行数据填补的模型。在有小组参与的应用场景中, 该模型可以提高数据填补的效果;货物相对固定而阅读器随移动的应用场景, 美国Massachusetts大学则以阅读器移动, 标签对象相对固定为应用场景设计了RFID概率推演系统[3], 旨在将缺失的、带有噪音的原始数据流清洗成带有较精确标签位置的事件流。文献[4]基于采样机制提出一种粒子过滤技术, 从RFID原始数据流中推断出标签对象的位置信息;但该机制讨论的是阅读器及标签均可移动的情况。文献[5]提出基于贝叶斯推理的数据清洗方法MH-C。利用数据冗余对探测对象的位置进行推断, 针对每个探测对象的可能位置, 将探测对象的整体位置分布的所有可能作为采样空间, 采用改进的蒙特-卡洛机制对标签位置进行采样, 经过有限步骤得到探测对象总体的位置分布。但随着部署环境中阅读器及标签对象数量的增多, 采样空间急剧扩增, 很难同时保证算法的准确性和高效性。文献[6]提出随时间变化的图模型来有效地捕获标签对象间的关系 (如小组关系、包含关系) , 继而通过概率推演算法推断出每个标签对象的位置, 该算法考虑了RFID数据的不完整性和不确定性, 但仍基于标签在某一时刻只被单一阅读器读到的前提, 没有考虑数据冗余及具体应用中的约束条件.

基于Bayes原理的统计推断方法能够在考虑不确定性的基础上给出更合理的参数估计, 但往往需要进行大量的采样计算, 随着采样方法的发展, 新型采样算法大大削减了高维采样的计算复杂度, 使Bayes估计得以实现。本文建立利用RFID原始冗余数据反演RFID系统中标签符号位置参数的Baye模型, 对符号位置参数进行了估计, 主要贡献如下:

(1) 详细分析了RFID数据模型, 推导了待估计符号位置参数的条件后验概率分布, 建立利用多阅读器的冗余数据反演目标符号位置参数的Bayes模型。

(2) 融合监测区域中的先验知识和约束条件, 提出了采用MCMC方法中的Metropolis-Hastings抽样估计符号位置参数, 提出并证明了参数估计算法性能的检验模型。

(3) 实测数据与大量仿真, 将本方法与Sequential Importance Sampling (SIS) [6]的性能进行了比较, 证明了所提出方法的效率和效果。

1 Bayes模型的建立

1.1场景描述

本文研究的对象是湖南张家界某风景区基于RFID技术的旅游智能管理系统[7], 通过RFID电子门票的使用, 实现游客流量统计与密度分析、游客游迹跟踪与追溯, 从而规范景区内部管理以规范旅游行业, 保障消费者的权益, 促进旅游市场的良性发展。景区的实验采用远望谷支持EPC Gen2协议与ISO18000—6C标准的XCRF—860密集型阅读器和Inlay嵌体的无源电子标签XC-TF8029-C07作为现场的基础设备现场的实验结果显示, 由于环境湿度和人体的个体差异, 尤其是当游客密集的时候, 阅读器对游客的身份识别卡 (电子标签) 的获取率在50%~60%之间, 这降低了游客识别率。为了提高精度, 在游客集中通过的地方, 增大了阅读器的数量。增加的阅读器识别区域在空间上交叉的, 这些从硬件上报的原始游客游迹数据量是海量的, 但可能只有少部分是对用户有意义的、非重复性的数据。

因此, 抽象后的场景如图1所示。将阅读器的识别范围分为3个部分:主识别区域、次识别区域以及0识别区域, 各个区域分别对应于阅读器所在位置区域、阅读器所在位置的相邻区域以及无法识别区域。其中, 于二者间存在共同的交叉探测区域而构成一组交叉读写器空间组 (被动式读写器的探测区域在平面上是如图1中虚线所示的近似扇形) 。

1.2 RFID识别模型

根据图1场景, 当附着标签的对象进入阅读器的感知范围内时, 就会产生一个RFID标签的读数。将标签对象标记为Oi, i= (1, 2, …, n) ;数据元ri= (r~EPC, o~EPC, t) , 其中, r~EPC和o~EPC分别表示阅读器和电子标签的EPC编码, t表示标签对象被识别的时间戳。由于EPC编码仅仅是一个理论上的标准, 在实际应用中, 一般都采用预先设定的连续编码来标记阅读器和监测对象, 相当于将EPC编码映射成为一个逻辑的id号。因此, So表示o~EPC集合, 通过映射f:So→N, 这样就用Oi表示具有id号i的标签对象;Sr表示r~EPC集合, 通过指定映射g:Sr→N, 每个阅读器指定关联一个逻辑区域, 用变量hi标记该区域, 表示实际应用中的某一指定位置的id号i的逻辑区域, 多个r~EPC映射为hi, i= (1, 2, …, n) 。

将t时刻在整个监控区域内标签对象的集合标记为R (t) , t时刻某个逻辑区域i探测到的标签定义为, 需要说明的是, 阅读器一般都会预先布置在指定的逻辑区域, 位置不会在应用中发生变化;而标签对象Oi将动态地穿梭于各个rm, 因此rm (t) 是动态变化的。

定义1数据元 (data element) 阅读器对进入其识别范围中对象的探测上报的数据, m个区域中的阅读器获取n个监测对象原始数据元矩阵用珗R表示, 该举证元素rij表示位置j中的阅读器读到标签Oi的情况, 其中, rij=0表示位置j中的阅读器没有读到标签Oi, rij=1位置j中的阅读器读到标签Oi。

定义2符号位置集 (symbol location set) 标签符号位置Oi在m个区域中的可能位置集合为, 其中, p (hi|珗R) 表示标签符号对象Oi在区域位置hi的后验概率, 简写pro (hi) 。

定义3先验知识 (prior knowledge) 关于阅读器及部署环境等先验知识 (如阅读器的误读率、部署情况) 先验知识。由先验知识所知, 一旦获得的rij为非0, 可以判定肯定某个阅读器探测到某个标签对象, 则先验知识如公式 (1) 所示。如果pro (h1) >pro (h2) , 说明符号位置在1的位置比2具有更大的可能性。

定义4约束条件 (Constraints) 每个位置区域关联被称为资源描述符的多重变量, 将位置区域i关联的资源定义为一个变量, 记作Capi, 表示位置区域i的空间容量;将位置区域i中的对象数量定义为一个变量, 记作Volj。约束的条件是如果位置资源变量大于或等于容纳对象数量, 否则, 分配的位置无法容纳放置对象的体积, 必须重新采样直到一个新的位置满足所有的约束。约束条件如式 (2) 所示。

RFID阅读器传输和标签传输可能导致碰撞因为阅读器和标签使用共用的无线频道来进行通信。当邻近的阅读器同时与一个标签通信时, 产生阅读器碰撞, 当多个标签在同一时间与一个阅读器进行通信时, 产生标签碰撞。但是, 仲裁协议能够有效地阻止这两种类型的碰撞。因此, 在研究中, 假定不产生碰撞为前提, 得到性质1—性质2。

性质1符号位置集各个元素hi之间相互独立。

性质2之间相互独立。

综合上述, RFID的识别模型将阅读器的所有识别区域划分为几个子区域, 每个子区域对应关联一个具有唯一阅读速率的区域, 跨越邻近的子区域的阅读速率的差异是一个常量。对于一个具体的阅读器来说, 在n-态识别模型下, 各个区域的识别速率依次为x, (n-1-1) x/n-1, …, (n-1-k) x/n-1, …, x/n-1, 0。本文采用3态识别模型, 假设在该模式下的最高阅读速率是x, 第一状态拥有x速率, 第二状态保持x/2速率, 第三状态为0速率, 则信号模型如式 (3) 所示。

2参数估计方法

2.1待估计位置参数后验分布

Bayes原理是根据已知观测数据 (y) 来估计未知数据 (x) 的概率一种统计归纳推理方法。根据Bayes原理, 假设某个时刻M个位置上的阅读器对位置标签i的阅读情况为, 由此推断位置标签i在位置hi的后验概率

由全概率公式得知,

, 代入式 (4) 得到

式 (5) 中p (hi) 为标签i在位置hi的先验概率, 先验概率即为观察数据未知时候标签对象i在所有可能位置的概率分布, 通常认为是均匀分布。由此式 (5) 可以化简为

式中, 称为关联概率, 即已知标签i在位置hi的条件下能够得到的概率。未知符号位置参数变量的先验概率分布根据先验知识给出, 各个观测数据相互独立且服从均匀分布, 式 (7) 显示利用观测到的数据反演位置参数。

2.2 Markov Chain Monte Carlo抽样

Markov Chain Monte Carlo (MCMC) [8]方法通过构造一条非周期不可约的Markov链, 其样本近似为目标概率分布的样本, 可用来估计目标分布。Metropolis-Hastings (MH) 抽样器[9]是应用最广泛的MCMC抽样器之一, 它抽样通过重复考虑随机地对每个分量产生变化来实现, 基于它们如何影响状态的概率或接受或拒绝这种变化。本文采用Metropolis-Hasting抽样算法。

借助辅助的提议函数q (x, y) 构造一个目标分布π (x) 的Markov链。提议函数的形式与目标分布越接近, 则模拟的效果越好, 且满足以下三个条件: (a) 对于固定的x, q (x, ·) 是一个概率密度函数; (b) 对于的值要能够计算出来, 其中S表示状态空间; (c) 对于固定的x, 能够方便地从q (x, y) 中产生随机数。本文构造的提议函数描述为

式 (8) 中, 令Ci表示第i个抽样样本, Pi表示第i个提议样本, S表示均匀提议分布的步长, Rand (-S, S) 表示根据均匀分布产生整数一个随机。具体的步骤描述如下:

(1) 第0次迭代, 从阅读器上报原始数据中选择合格样本, 构建提议函数q (x, y) , 初始化迭代P1。

(2) 迭代次数j, 其中j∈[1, Dobject]。

判断提取的样本是否满足式 (1) 和式 (2) , 如果不满足, 重新抽样;如果满足, 根据式 (8) 计算接受概率

(3) 抽取样本u~U[0, 1], 如果u≤α (x, y) , 则接受该提议样为Markov链的下一个状态, 否则, Markov链保留原状态。

(4) j←j+1, 返回 (2) 。

2.3位置参数估计性能分析

符号位置参数估计后验分布, 消除了系统的无效状态, 利用熵衡量该系统的性能。针对n-态信号识别模型来说, 阅读器成功获取符号位置标签数据可能出现的区域个数为2 (n-2) +1=2n-3, 将先验概率假设为一个均匀分布, 令x是最高的阅读速率, 则位置i的区域中阅读速率为 (n-i) x/n-1, L表示对象i的真实位置, 根据等式 (9) 的右面, L的概率分布如下:

得到如下定理:

定理在满足先验知识和约束条件的前提下, 3态识别模型比其他态模型得到的位置参数的估计能使系统的性能更佳。

证明:

因为n-态模型所有的2n-3个区域概率和为1, 即

由式 (9) 、式 (10) , 可得n-态模式的熵:

令, 则熵函数为

n-态模式的熵函数H (L) 关于n是递增的, 设置x=0.95, 当H (L) |n=2=1.098, H (L) |n=3=0.395。因此, 当且仅当n=3时熵最小, 参数估计的精确性最高。证毕。

3结果分析

3.1实验环境与数据集

RFID冗余数据的符号位置的参数估计具有两个显著特点:一是原始上报数据与位置参数之间的地位非对称性;二是参数估计的实时性。非对称性表现原始上报数据是符号位置参数数量数倍;实时性表现在标签与具体位置的相对运动, 给参数估计带来困难。

实测数据通过湖南张家界某景区的游客管理系统获取, 并与本文的模拟方法进行对比并分析了数据误差的原因;仿真试验对RFID冗余数据中位置参数的Bayes估计方法进行了验证, 仿真实验通过真实的矩阵发生器随机地产生具有真实的分布效果的分布矩阵, 噪声矩阵发生器按照相同格式提供类似RFID原始数据噪声的噪声矩阵, 仿真实验所用的参数如表1所示。

3.2实验结果与分析

3.2.1符号位置参数估计计算效率

本节实验主要验证符号位置参数的Bayes估计的效率, 衡量的指标为算法的抽样时间, 抽样时间越小说明抽样的算法效率越高。与SIS相比, MC-MC的平均采样时间随着合格样本的数量显著地减少, 如图2所示。例如, 对于5 000个合格样本来说, MCMC的采样时间是11.58 s, 而SIS的采样时间是230.78 s。因此, MCMC比SIS花费更少的时间来产生相同数量的合格样本。

3.2.2冗余度的位置参数估计曲线

本节实验验证数据冗余度对符号位置参数Bayes估计精度的影响, 数据冗余度反映数据误报程度, 验证衡量的指标为K-L散度, K-L散度越低说明估计的精确度越高。设置样本数量为5 000, 数据冗余度从0.325变化到0.475, 主要识别区域中的阅读速率相应地从65% (最小可靠的阅读器) 变化到95% (最大可靠阅读器) 。图3显示了这些结果, 随着数据冗余度的增大, MCMC和SIS的K-L散度都随之降低, 说明在约束精确度方面的性能是逐步提高的。重要的是, MCMC比SIS一直维持在一个较低的散度, 这证明本文提出的算法比SIS更为精确。

3.2.3数据量的位置参数估计曲线

本节实验验证数据量对符号位置参数的Bayes估计精度的影响, 衡量的指标依然为K-L散度。首先将合格样本的数量从500增加到9 000来研究MCMC和SIS对重构精确度的性能。图4所示, 随着合格样本数量的增大, 两种方法的SK-L散度值全部保持减小。但是, MCMC总是比SIS性能要好。尤其是, 当我们绘制了500个合格样本时, MCMC的SK-L散度是0.86而SIS的SK-L散度是3.78。因此, MCMC比SIS花费更少的时间来产生相同数量的合格样本。

3.2.4模拟与实测位置参数对比分析

本节实验验证实测数据与本算法效果对比。随机选择了10个旅行团对位置参数算法进行了对比测试, 分别在晴天、雨天、多云、高峰期等条件下进行测试, 测试的方法是通过导游给每个游客一个吊牌式电子标签, 通过关联阅读器的ID号, 验证游客的位置识别率。实验的结果如图5所示, 显示第7组实验团的误差最大, 其主要原因在于当天大雨且人数非常地拥挤, 造成数据上报缺失, 其他组游客位置参数的识别与人工测量值具有良好的一致性。

4结论

利用原始RFID阅读器上报的数据反演符号位置参数的Bayes方法, 以先验知识和约束条件为基础, 利用3-态RFID识别模型, 有效地估计了多阅读器环境下, 符号位置参数的精确估计, 可作为仓储物流的跟踪与追溯、数据统计与查询等系统的基础参数。仿真实验验证了在噪声环境下, 随着RFID数据冗余度的增加, K-L散度则逐步减小, 说明Bayes估计的精确性更高;符号参数呈正态分布。本文建立的Bayes模型可进一步发展, 例如将标签的时间戳观测数据用于参数反演, 以期降低RFID数据的不确定性。

摘要：RFID设备固有的限制和环境噪声的影响, 造成RFID原始数据的不确定性。为了估计RFID冗余数据中位置参数, 提出了利用多阅读器观测到的冗余数据反演目标符号位置参数的Bayes方法。该方法以3-态识别模型为基础建立了Bayes推论模型, 通过融合监测区域中的先验知识和约束条件, 采用Markov Chain Monte Carlo (MCMC) 的方法求解Bayes联合概率分布, 进而得到符号位置参数的后验概率分布。模拟实验结果表明, 符号位置参数的估计方法可以获得较好的效率和准确性。

关键词：RFID,冗余数据,Bayes方法,MCMC方法

参考文献

[1] Hahnel D, Burgard W, Fox D, et al.Mapping and localization with RFID technology.In:International Conference on Robotics and Automation, 2004:1015—1020

[2] Cu Y, Yu G, Chen Y G, et al.Efficient RFID data imputation by analyzing the correlations of monitored objects.In:Database Systems for Advanced Applications, 2009:186—200

[3] Thanh T, Charles S, Richard C, et al.Probabilistic inference over RFID streams in mobile environments.In:International Conference of Data Engineering, 2009:1096—1107

[4] Chen Haiquan, Ku Weishinn, Wang Haixun, et al.Leveraging spatio-temporal redundancy for RFID data cleansing.In:Proc of Special Interest Group on Management of Data, Indiana, USA, 2010:51—62

[5] Cocci R, Tran T, Diao Y L.Efficient data interpretation and compression over RFID stream.In:Proceedings of Internatianal Conference on Data Engineering, ICDE, Cancun, Mexico, 2008:1445—1447

[6] Xie J, Yang J, Chen Y, et al.A sampling-based approach to information recovery.In:ICDE, 2008:476—485

[7] 卢印举, 苏玉, 单国全.基于RFID技术的跟踪与追溯系统研究.煤炭技术, 2012;05 (6) :163—164

[8] 侯云山, 黄建国, 金勇.基于MH抽样的Bayesian方位估计快速算法.系统仿真学报, 2009;10 (19) :6033—6035

RFID数据篇6

物联网是把所有物品通过各种信息传感设备与互联网连接起来,实现智能化识别和管理的一种新兴技术。其中,信息采集技术、近程通讯技术、信息远程传输技术、海量信息智能分析与控制技术是物联网的关键技术。目前的信息采集主要采用传感器和电子标签等方式完成,其中的无线射频技术(R FID)作为信息采集的重要手段,是构成物联网的基础。

无线射频技术是一种利用电磁信号进行双向通信,对信息进行快速、实时、准确地采集与处理,从而自动识别物体的无线传感技术。早在第二次世界大战期间,RFID技术就已经开始用于军事领域的识别、定位和跟踪。目前,这种技术在生产、零售、物流、交通、医疗等各个行业的应用越来越普及。以往,物流中普遍使用的是条形码,一个条码对应一类商品。随着设备成本的降低,读写距离的提高以及可靠性的增强,RFID技术将逐渐取代条形码,实现对单个物品的识别、跟踪和信息共享。

与传统的识别技术相比,RFID具有很多优点,如数据记忆容量大,可输入数千字节的信息;存储信息可更新,标签可重复使用;远距离非接触识别,精度高,能穿透非金属介质;可识别高速运动物体,并可同时识别多个物体;标签上的数据可以加密,保密性高;读写器与标签之间通过认证实现安全通信和存储;抗恶劣环境,防水、防磁、耐高温,使用寿命长。

RFID技术的基本功能包括以下几种:自动识别物体和人员,包括快速移动中的物体,可用于门禁管理、高速公路收费、机动车自动识别和管理等;跟踪物体的来源和行踪,可用于动物跟踪和管理、资产跟踪和管理、物流与供应链的跟踪等;物体或人员定位,可用于地震灾害过后,救援人员对受困人员的定位等;防伪等其他功能。

一、数据存储原理与功能

一般来说,R FID应用系统由标签、阅读器、天线、数据库、应用软件和中间件构成(如图1所示)。标签含有电子产品编码,附贴于物品上,阅读器可以在一定距离内识别物品的位置,天线在标签和读取器间传递射频信号,数据库保存读取的数据,应用软件对物品信息进行处理和分析,中间件则负责处理阅读器和应用软件之间的命令及数据信息的传输,以及事件处理,数据过滤、压缩、计算和转播,路由选择,错误恢复,资源定位等服务。

RFID阅读器产生的原始数据格式为一个三元组:<EPC,location,time>,其中EPC是所识别物品的编码,location是物品物体的位置,time是读取时间。当物品在一个地点停留时,阅读器每隔一定时间就会读取一次标签,产生一条源数据。为了减少信息的冗余,将相同的数据合并成一条记录:<EPC,location,time_in,time_out>,其中time_in是物品到达该位置的时间,time_out是物品离开该位置的时间。另一种存储方式是:<EPC,location,duration>,其中表示物品在该位置停留的时间。

在物流中,起初物品往往以包的形式批量运送到某地,然后再分发到不同的目的地。例如,某超市将100箱牛奶从生产厂家运送到仓库,再分别放置到10个货架上,最后由顾客以个体为单位取到收银台。可见,在物流开始的阶段,这些物品的位置和移动信息是相同的,可以压缩为一条记录,从而大大降低存储空间。

数据立方体是数据仓库的基本数据模型,实现对高维数据查询的快速响应,并支持对数据的切片、钻取等操作。韩家伟等人提出了RFID-CUBOID数据模型[1],将路径信息引入数据立方体的结构中,支持对路径的存储与查询。考虑到物品的批量移动特点和查询要求,将物品的位置信息从静态属性信息中分离出来,用专门的表结构存放。这种数据结构的优点在于充分利用了物品批次移动的特点,运用合适的路径选择和位置记录的优化方法,将路径动态信息加入到数据立方体中,不仅有效地压缩了数据,而且提高了路径查询的效率。

二、RFID数据的挖掘与分析

RFID系统采集到大量的实时数据,包含物品本身的信息以及不同时刻的位置信息,这些物流信息蕴含着许多有用的规律,为决策提供支持。例如,销售商希望得到某类商品在某段时间内的销售路径和变化趋势,物流管理人员希望掌握货物在运送过程中的路径,从而保证货物的及时送达。RFID为数据挖掘提供了准确、实时、全面的数据,有效地减少数据收集时的测量误差和数据遗漏,提高数据质量,为数据挖掘提供更准确的原始数据。RFID系统可以同时阅读多个标签,减缓因人工操作较慢造成的数据老化,保证数据的时效性。而且,RFID可以采集到物品在特定地点出现的频率、停留时间、运动轨迹等数据,通过数据挖掘可以得到有价值的决策信息。

RFID数据的特殊性对数据挖掘提出了更高的要求。

首先是,R FID会产生了大量的实时数据,例如沃尔玛超市每天产生的原始数据超过7T,三天产生的数据相当于美国国会电子图书馆的数据量。这就要求数据挖掘在短时间内对这些数据进行有效的存储、分析、管理和应用。其次,由于R FID获取的原始数据存在大量的错读和漏读,因此需要对这些数据进行清理和汇聚以提高数据的质量,减少数据冗余并压缩数据规模。第三,RFID数据包含了物品的时间和空间属性,这种特殊的数据结构使得传统的挖掘方法很难直接对其处理。第四,RFID应用要求获取的数据必须及时进行处理,而传统数据挖掘方法难以满足存储和处理的实时性要求,因此需要研究适合挖掘RFID复杂数据的算法,提高分析的速度和效率。第五,RFID阅读器往往分布在不同的地点,对于这种分布式存储的数据来说,与集中式挖掘相比分布式挖掘降低了数据传输的代价和算法的复杂性,提高了数据处理的效率。最后,由于R FID数据以数据流的形式获得,随着新数据的加入以往的模型对决策的支持能力降低,为了保证模型的准确性,需要进行周期性和增量式数据挖掘,在尽量减少对历史数据重复处理的情况下,实现对知识的更新。RFID数据挖掘可以从大量的物流信息中发现运动趋势、频繁路径、异常模式、数据流模式和分类模式等。以下介绍几种典型的挖掘应用。

1、频繁路径序列挖掘

RFID自动记录物品在不同时间的位置,不仅可以实现对物品的实时监控和追踪,通过分析物品的移动路径还可以发现其走向规律。

给定某个物品,该物品在某段时间内的移动记录按照时间顺序构成一条序列。路径分为位置序列和时间序列两部分。如果只考虑位置而忽略时间信息,对此类数据进行的挖掘称为频繁位置(或地点)序列挖掘。如果同时考虑位置和时间,则称为频繁路径挖掘。

(1)频繁位置序列挖掘

位置序列数据库就是由不同物品对应的位置序列组成的集合,合并相同序列得到一个权值,因此记录的形式为:(lid,path,w),其中lid为序列标识,path为位置序列,w为权值。

在一个位置序列数据库中,频繁位置序列就是在位置序列数据库中频繁出现的序列。频繁位置序列反映了物品的移动趋势,可以用于优化路径,预测物品走向,发现异常移动,从而提高物流管理效率,降低物流成本。

(2)频繁路径挖掘

在路径数据库中,可以挖掘支持数不小于给定阈值的路径,这被称为频繁路径。挖掘频繁路径可以得到在某段时间内物品的移动规律,这一规律对于我们了解物品的需求情况和物流状态有所帮助。

(3)频繁多维路径挖掘

RFID数据库不仅存储路径数据,还存储了物品的类型、商标等属性信息。不同类型的物品具有不同的移动趋势,因此在挖掘时有时需要考虑物品自身的属性,结合路径信息和非路径信息进行频繁多维路径的挖掘[2]。

(4)多层次路径挖掘

考虑到物品和地点往往存在概念层次,在不同的层次上对数据进行细化和泛化可以为不同的用户提供不同粒度上的知识。以图2为例,整个数据流由工厂、运输和商店构成,对于商店的管理人员来说,可能只关心从仓库到收银台这段的流程,而运输部门可能只关注从物流中心到卡车这个环节。因此,地点概念层次可以为客户提供不同的路径视图。

2、基于路径的分类和聚类

从学习的方法来看,数据挖掘有两类任务:有监督的学习和无监督的学习。前者利用已知的类别标识,对一组训练样本进行学习,发现样本特征与类别之间的关系,用于预测新样本的类别,这个过程称为分类。后者在样本类别未知的情况下,根据样本之间的相似性进行分组,这个过程称为聚类。在RFID数据挖掘中,同样存在这两种学习,由于所处理的样本数据蕴含着路径信息,称为基于路径的分类和聚类。

基于路径的分类根据物品在一段时间内的移动路径,判断物品所属的类别。例如,在物流监控中,将货物的运输轨迹分为正常和异常两种,发现这两类轨迹的特征可以用来监测可疑行为。对路径的分类通常需要先将路径划分为子序列,然后利用决策树、神经网络、贝叶斯等方法进行分类。

基于路径的聚类发现相似的路径群,揭示路径之间的关系以及路径与其它特征之间的关系。聚类的结果可以用来优化道路设计,减少交通阻塞,预测交通流量。路径聚类一般包括数据表示、相似度量定义、聚类、聚类描述和聚类评价几个步骤。

目前,对路径进行聚类的方法有很多种。按照物体的运动特征可分为自由空间的运动物体和有约束网络空间的运动物体,后者研究在道路交通网络上物体的运动轨迹。按照数据格式可分为几何数据和符号数据,前者用物体在几何空间中的坐标表示运动轨迹,通常利用欧几里德距离来度量空间轨迹的相似度,而后者用物体经过的路段的集合表示运动轨迹,最常用的度量方法是最长相同子序列。路径的相似度量包括空间相似度量和时间相似度量,前者只考虑轨迹的空间距离,而后者同时考虑时间距离。根据聚类对象可分为完整路径聚类和路径段聚类。在一个路径集中,路径的长度和组成各不相同,但往往含有公共部分,虽然它们在整体上相似程度较低,但是某些路径段之间却具有较高的相似度。其次,在实际的数据中,路径大多是不完整的,对某些环节,比如繁忙路段进行聚类具有更重要的应用价值。对路径分段之后,相似性的计算复杂性降低。

3、异常分析

异常分析是指发现RFID数据流中的异常模式。在实际应用中,那些偏离整体趋势的异常事件往往更有决策价值。例如,挖掘货架存货数据得到的异常值,可以为库存阈值的设置提供依据。

异常分析通常可以用其它的方法来实现。例如,在数据流分析中,那些出现概率较低的非主流路径往往表示需要关注的异常现象。利用分类,可以发现与正常样本类别不同的异常样本。例如,在海关边境检查中,对物品的路径以及其它信息进行异常分析,可以发现与申报不符的可疑物品。利用聚类分析,找出那些不属于其它组的噪声数据。利用趋势分析,发现不符合主要趋势的异常情况。在频繁模式分析中,出现频率较低的模式通常表示异常的情况,可以作为异常分析的一种方法。

在一些对安全性要求较高的场所,利用RFID标签可以依据用户的身份设置访问权限,还可以对历史数据进行挖掘得到有关路径的模式,用于识别可疑人员和非法入侵。在医院的安全系统中[3],按照身份将人员分为四类:医护人员(D)、工作人员(W)、病人(P)、访客(V),按照安全级别将地点划分为公共场所和特殊场所,前者包括接待处(R)、电梯(LT)、普通病房(GW),后者包括重症监护室(ICU)、手术室(OR)、特殊病房(SW)。以不同身份的人员的移动路径作为训练数据,利用分类算法建立模型,可以判别可疑的行为。以下的几种模式中,前两种是正常模式,后两种是异常模式。

人员:ICU->LT->ICU->LT->ICU->LT

人员:OR->LT->OR->LT->OR->LT

医护人员:ICU->LT->SW->LT->OR->LT

访客:R->LT->RW

三、RFID的应用

目前,R FID的应用已经遍及物流监控与可视化、危险品监控、医疗管理、安全控制、食品检测与跟踪、边境检查、军事等领域。表1列举了RFID在不同行业中的一些应用案例。

以上案例反映出RFID技术在提高企业的管理效率,优化业务流程中的作用,可以概括为以下几个方面[4]。

1、降低成本

货物失窃是物流过程中经常发生的事件。宝洁公司统计数据显示,商品盗窃造成的损失占到利润的2%,而在2005年,美国零售行业因偷窃造成的总损失高达300亿美元。在所有的失窃案例中,半数以上发生在货物到达商店之前的运输过程中。RFID对物品的自动识别和跟踪有效地减少了偷窃和遗失事件的发生。内华达大学图书馆利用该技术发现了500本遗失图书,减少了图书更新的费用。在库存管理中,RFID取代繁琐和低效的人工管理和条码扫描模式,消除人工操作的人为因素,减少重复扫描和遗漏,实现精确库存定位和盘点自动化,大大提高了库存管理的效率,降低库存管理成本。

2、供应链柔性管理

R FID技术使供应链中物流可见,通过对供应链中的物流、库存及相关信息的实时跟踪,获得准确的信息流,从而完善物流过程中的监控,减少不必要的环节及损失,降低供应链各环节的安全存货量和运营资本,实现供应链的柔性管理。维持适当的库存水平是供应链中的重要问题,RFID可以自动监测库存量,根据实际值与理想值的偏差修正模型,动态调整库存安全阈值。沃尔玛通过对库存和商品流通的跟踪和管理,减少了商品脱销或积压事件的发生,使存货量降低了一成。R FID所积累的信息可以帮助企业分析客户的消费模式,协调生产和销售,调整外包和服务,改善与供应商的合作关系。沃尔玛通过对最终销售的监控,挖掘顾客的消费偏好,实现商品结构的调整优化,获得更高的顾客满意度。

3、创建新的业务流程

RFID技术的应用带动了新的业务流程和新产品的出现。例如,意大利某制药公司要求产品高温灭菌,但是温度过高会对条形码标签造成破坏。该公司采用了RFID电子标签和自动灭菌过程控制,改善了员工的工作环境,提高了劳动效率。嵌入RFID芯片的智能交通卡在日本、香港、新加坡、印度和泰国等地已经投入使用。麦德龙超市使用的智能购物车可以自动扫描车内的商品,实现支付自动化,而智能货架可以监视货架的库存,为货架的摆放和货品调整提供参考。

四、结论与展望

物联网是近年来为业界所关注和投入精力进行研究和开发的新技术平台,它集成了多种现代技术手段,可以在人与人之间互联的基础上实现物与物之间的互联互通,人们可以借助于这项技术对于与自己相关的事物以及周边环境有更好的把握。但是技术的使用必须要有一定的目的性,有了技术和平台之后,还需要对其中已有的和未来可能发现的规律进行挖掘与发现,这就要引入数据挖掘的技术和办法。数据挖掘的目的就是要在海量数据中发现具备更加深刻规律性且很难为人们通过简单判断得到的知识,本文对基于RFID数据的路径序列模式发现,以及分类聚类方法进行了介绍,随着数据的愈发丰富和多样化,挖掘还可以继续深化与扩展。

参考文献

[1].Hector Gonzalez,Jiawei Han,Xiaolei Li,Diego Klabjan,Ware-housing and Analyzing Massive RFID Data Sets.Proceedings of the22nd International Conference on Data Engineering(ICDE),2006∶83～92.

[2].陈竹西,胡孔法,陈歧,宋爱波,现代物流系统中的频繁封闭路径挖掘算法,计算机集成制造系统,2009,15(4)∶809～816.

[3].G.NaliniPriya,P.AnandhaKumar,Neural Network based Ef-ficient Knowledge Discovery in Hospital Databases using RFID Technology,2008IEEE Region10Conference,Hyderabad,2008∶1～6.

RFID数据篇7

随着射频识别(radio frequency identification,RFID)技术的迅速发展,其在制造过程自动识别中的应用前景受到广泛关注[1,2,3]。由于射频识别无线通信的特点及制造系统复杂环境的影响(如金属或液体等干扰),电子标签普遍存在重读、多读、漏读等异常阅读现象,导致RFID原始数据流中存在大量冗余或不完整的异常数据,这些不可靠数据给应用系统造成困难,制约了RFID技术的广泛应用[4,5,6,7]。因此,在现有RFID硬件设备技术的基础上,根据应用需求对RFID原始数据流进行清洗和纠正,保证应用数据的精简性和完整性,是RFID应用中必须解决的关键技术问题。对此,目前国内外主要有两类处理方法,一类侧重于采用不同的平滑机制来清洗RFID原始数据流中冗余的、脏的数据[7,8,9,10];另一类是基于不同的应用完整性约束条件(如对象运行路径、重量和形状等)侦测异常阅读现象[11,12]。

现有研究尚未涉及如何通过纠正不可靠数据来解决RFID异常阅读现象。为此,本文着重考虑制造系统环境下多标签、多阅读器的RFID系统应用可靠性问题,给出一种RFID系统应用可靠性评价指标,以规范系统可靠性评价的准则。然后从系统应用完整性角度,建立一种分层数据处理模型,该模型通过清洗与纠正异常阅读产生的不可靠数据以提高RFID系统应用可靠性。

1 相关概念及定义

在RFID应用中,标签通常附着在或者内嵌于被识别或跟踪的对象中。当标签处于阅读器的识别范围内时,阅读器执行简单的链路层协议获取标签中的标识符。为便于研究,给出如下与制造系统RFID应用相关的概念和定义。

定义1 原始阅读事件。物理阅读器在某时刻识别到标签的过程称为原始阅读事件,事件产生的数据可用三元组PE=(pr,t,τ)表示,其中pr、t分别为物理阅读器和标签的标识号,τ为标签被探测到的时间戳。用pe表示原始阅读事件三元组实例。

定义2 逻辑管控点。应用层需要管理控制的点称为逻辑管控点,如制造系统中的工位、仓库的出入口等。

定义3 逻辑阅读器。逻辑管控点设置N(N≥1)个物理阅读器来识别标签。当对象经过逻辑管控点时,若逻辑管控点的任何一个物理阅读器识别到对象上的标签,则认为逻辑管控点已识别到该对象,这样的具有相同作用的物理阅读器集合称为逻辑阅读器。当N=1时,逻辑阅读器由一个物理阅读器组成。仓库出口设置由多个物理阅读器组成的逻辑阅读器来识别出库产品,以提高产品的识别率。

定义4 逻辑阅读事件。逻辑阅读器在某时刻识别到标签标识物理对象的过程称为逻辑阅读事件,一个逻辑管控点只对应一个逻辑阅读器,事件产生的数据用三元组LE=(lp,o,τ)表示,其中lp、o分别为逻辑管控点和物理对象的标识号。用le表示逻辑阅读事件三元组实例。

定义5 RFID系统可靠性。借鉴文献[13]对系统可靠性的定义,RFID系统可靠性是指在规定的条件下、在规定的时间区间内,物理阅读器成功识别到电子标签的能力。

制造系统应用中,RFID系统因无线射频识别特点和复杂应用环境影响会产生异常阅读现象,导致RFID原始数据流中存在大量不可靠数据,影响RFID系统应用的可靠性。RFID异常阅读一般分为如下三类[4,7,10]:①漏读(false negative readings)。标签经过物理阅读器时未被识别到。物理阅读器一般只能识别到感应范围内60%～70%的标签[12],漏读是RFID应用不可靠的主要原因。②多读(false positive readings)。当标签在阅读器阅读范围之外时,该阅读器仍识别到该标签。③重读(duplicated readings)。标签经过阅读器范围时重复被识别到。

2 RFID系统应用可靠性评价

一般认为标签识别成功率越高,所标识物理对象识别成功率就越高,但仅以此评价RFID系统应用可靠性显然是不全面的,因为对RFID应用中的异常阅读问题,还可通过一定的应用条件或规则从系统层面加以改善。鉴于目前对RFID系统应用的可靠性尚没有完整的评价方法,以下从标签识别、对象识别和系统识别三个层面,自底向上定义评价RFID系统应用可靠性的指标。

定义6 标签识别率(tag identification probability,TIP )。标签经过物理阅读器被识别到的概率。

定义7 对象识别率(object identification probability,OIP)。物理对象经过逻辑管控点被识别到的概率。贴附有M(M≥1)个标签的对象经过有N个物理阅读器的逻辑管控点时,任一物理阅读器识别到任一标签则认为逻辑管控点识别到该对象。

定义8 系统识别率(system identification probability,SIP)。物理对象被应用系统成功识别到的概率。系统成功识别包含两种情况:一种情况是物理对象经过应用系统逻辑管控点时被成功识别到;另一种情况是物理对象经过逻辑管控点时发生异常阅读现象,系统可基于应用逻辑约束规则和上下文,从系统层面对源于异常阅读产生的不可靠数据进行清洗与纠正,且不影响业务,因而,从系统应用层角度,物理对象经过逻辑管控点时被成功识别。

基于以上定义,存在TIP≤OIP≤SIP的关系,意味着在标签识别、对象识别和系统识别三个层面,可以采用一定的技术方法,逐层提高RFID识别的可靠性。如图1所示,通过改进标签和物理阅读器硬件识别的可靠性、减小应用环境的影响可提高TIP;采用多个标签标识一个物理对象、在逻辑管控点设置多个物理阅读器的应用方案可提高OIP;SIP是在OIP改进的基础上,基于各种应用完整性约束规则(如路径约束、伴随约束等),通过对异常阅读产生的不可靠数据进行清洗与纠正的方法来提高。

为此,本文考虑多标签、多阅读器的制造系统应用环境,提出一个改进RFID系统应用可靠性的分层数据处理模型,从系统应用角度解决RFID多读、重读和漏读等异常阅读现象,提高系统识别率和RFID系统应用可靠性。

3 提高RFID系统应用可靠性的分层数据处理模型

提高RFID系统应用可靠性的分层数据处理模型如图2所示,模型采用分层结构,包括RFID设备网络层、简单事件处理层、复杂事件处理层和应用层。简单事件处理层连接RFID设备网络,接收多类型阅读器产生的原始阅读事件,过滤重读产生的冗余原始阅读事件,形成精简的逻辑阅读事件。复杂事件处理层接收简单事件处理层上传的逻辑阅读事件,基于预设的应用完整性约束规则对逻辑阅读事件进行分析、分类,侦测漏读、多读的异常阅读现象,然后清洗、纠正不可靠数据,从而保证应用数据的系统性和完整性,为应用层的系统如ERP/MES/SCM等提供有意义的应用数据。

3.1 简单事件处理

载有标签的物理对象经过逻辑管控点阅读器网络时,存在标签重读现象,阅读器采集的原始数据流中包含大量的标签和物理对象重复的冗余数据。简单事件处理层依据标签与标签标识物理对象不重复约束规则清洗重读产生的冗余数据。由于考虑了多标签、多阅读器的应用方案,故处理方法具有通用性。

3.1.1 处理流程

简单事件处理层结构如图3所示。该层由阅读器适配器、原始阅读事件队列、标签事件过滤器、逻辑阅读事件队列、对象事件过滤器和逻辑映射引擎组成。逻辑映射引擎储放标签标识物理对象与标签之间的映射关系。

首先,阅读器适配器采集相应物理阅读器产生的原始阅读事件,并上传给标签事件过滤器。标签事件过滤器依据标签号不重复约束规则清洗冗余的原始阅读事件。由于考虑了多标签、多阅读器的应用方案,经标签事件过滤器处理后的原始阅读事件还存在需要处理物理对象重复的事件。对象事件过滤器根据物理对象与标签之间的映射关系,基于逻辑管控点内物理对象不重复约束规则,再次清洗原始阅读事件。最后,将逻辑管控点内物理对象不重复的原始阅读器事件转换成精简的、唯一的逻辑阅读事件,存入逻辑阅读事件队列,并上传至复杂事件处理模块。

3.1.2 算法步骤

(1)接收物理阅读器产生的原始阅读事件pei=(pri,ti,τ);

(2)根据ti到原始阅读事件队列查询,若有标签号相同的原始阅读事件,转步骤(7);

(3)向原始阅读事件队列中插入pei;

(4)根据ti到对象与标签之间的映射关系中查找物理对象号,若找不到,转步骤(7);

(5)根据物理对象号oi,到逻辑阅读事件队列查找相同对象号的逻辑阅读事件,若有,转步骤(7);

(6)根据oi,将pei组装成逻辑阅读事件,并将其插入逻辑阅读事件队列;

(7)摒弃原始阅读事件,转步骤(1)。

3.2 复杂事件处理

3.2.1 复杂事件层设计

虽然简单事件层清洗了逻辑管控点内重复的冗余数据,消除了标签重读现象,但没有处理多读、漏读产生的不可靠数据。在简单事件层对原始阅读事件处理的基础上,复杂事件处理层从系统层面根据RFID应用完整性约束规则侦测并纠正多读、漏读现象,提高RFID系统应用可靠性。完整性约束可以基于不同的约束条件,如标签标识物理对象的重量、位置和运动路径,也可以基于不同对象之间的相互关系,如包含和排斥等[3]。

复杂事件处理层结构如图4所示,该层主要由对象信息库、完整性约束规则库、事件分类引擎、正常事件处理器、多读处理器和漏读处理器构成。

完整性约束规则库存放预先设定的约束规则和条件。

对象信息库存放物理对象在逻辑管控点的识别记录,其数据结构为(o,lp,s,τ),其中,s为物理对象在逻辑管控点的识别方式,有normal和compensation两个取值,若正常识别到则为normal,若漏读后被纠正,则为compensation。

事件分类引擎接收简单事件层上传的逻辑阅读事件,基于完整性约束规则和对象信息库的对象历史记录,判断逻辑阅读事件是否正常,若异常,再判定该逻辑阅读事件是由多读还是漏读现象产生的。

正常事件处理器处理正常逻辑阅读事件后,向对象信息库添加对象正常识别记录;多读处理器摒弃判定为多读现象的逻辑阅读事件;依据预设的完整性约束规则(存放于完整性约束规则库)和对象历史记录(存放于对象信息存库),漏读处理器判定物理对象在哪些逻辑管控点发生了漏读,然后向对象信息库添加所有漏读逻辑管控点的漏读记录。

应用查询接口为上层应用系统(如ERP/MES/SCM等)提供数据查询反馈接口,实现模型与上层应用系统数据的集成。

制造系统中,某些标签标识物理对象往往会沿着预先指定的路径向目的地移动,如生产线上的在制品、库房的产品,那么当所获得的实际路径与预设路径不符合时,就可判定物理对象在某些逻辑管控点有异常阅读现象。下面以物理对象运动路径为例,用完整性约束规则来判定多读、漏读现象。

3.2.2 基于路径约束的异常阅读判定方法

考虑物理对象路径约束R(LP,A)中没有自环(A为对象在逻辑管控点移动时路径抽象出来的边的集合),其中逻辑管控点对应于lp∈LP,物理对象在逻辑管控点之间可能的路径对应于边a∈A[7]。物理对象沿着确定的路由< lpl, lp2,…,lpm>移动,称其为对象的预设路径。为了判断对象路径上逻辑管控点前后顺序关系,给出如下定义。

定义9 运算符“<”。对于任意的两个逻辑管控点lpi、lpj;若lpi在lpj之前,即物理对象先经过lpi后才经过lpj,则lpi<lpj。

基于上述的路径约束规则,若当前收到逻辑阅读事件lek=(lpk,ok,τ),则判定物理对象多读、漏读现象的方法如下:

(1)多读判定。依据ok到预设路径中找到物理对象当前应经过的逻辑管控点lppre。若lppre=lpk,物理对象正常识别,若lppre<lpk,则为多读现象。

(2)漏读判定。同样地,先找到lppre。若lpk<lppre,则物理对象在预设路径< lpi,lpi+1,…, lpk,lpk+1,…,lppre,…,lpj>中lpk之后、lppre之前的所有逻辑管控点lpleak(包括lpk)发生漏读现象,存在关系lpk<lpleak﹤lppre或lpk=lpleak。

3.2.3 基于路径约束的复杂事件处理算法步骤

(1)接收逻辑管控点上传的逻辑阅读事件lei=(lpi,oi,τ);

(2)根据oi从路径约束规则中获得当前实际应经过的逻辑管控点lppre,若lpi=lppre,转步骤(4),若lpi<lppre,转步骤(5);

(3)根据oi、lpi到路径约束规则中查找漏读的逻辑管控点lpleak,向对象信息库中添加漏读记录(oi, lpleak,compensation, τ);

(4)向对象信息库中添加正常识别记录(oi,lpi,normal,τ);

(5)摒弃逻辑阅读事件lei,转步骤(1)。

4 应用实例

本文提出的RFID系统应用可靠性评价指标和改善RFID系统应用可靠性的数据处理模型已应用于某企业的摩托车制造系统。应用中选取了生产线上16个关重工位作为逻辑管控点,在RFID应用方案方面,并采用两个标签标识单个在制品,部分逻辑管控点采用由多个物理阅读器组成的逻辑阅读器。

模型的简单事件处理层在Linux平台下用C语言实现,分布式部署于装配现场逻辑管控点的工位控制器上;复杂事件处理层在Windows平台下用Java语言实现,部署于车间服务器上。

应用后,某月生产数据统计结果(总生产量14 998台)如表1所示。其中标签识别次数来源于工位控制器上原始阅读事件队列,对象识别次数是对象库中normal的记录数,对象漏补次数是compensation的记录数。

标签识别率、对象识别率与系统识别率沿摩托车制造过程路径上逻辑管控点的对比及走势如图5所示。

由表1与图5可知,TIP与OIP沿逻辑管控点呈现出波动,其原因在于各逻辑管控点设置的物理阅读器数量会影响标签识别率,且阅读器越多,识别率越高。

由于采用了多标签、多阅读器的应用方案,在TIP基础上提高了OIP,因此OIP在各个逻辑管控点均大于TIP。但由于受射频识别机制及环境干扰的制约,TIP与OIP均难以达到100%。

此外,SIP在有序逻辑管控点前端(lp11之前)为100%,然后依次降低,并在最后逻辑管控点(lp16)与OIP相等,且在任何逻辑管控点均大于或等于OIP。这是由于应用本模型后,从系统层面清洗了重读、多读的冗余数据,并基于沿对象路径向前补齐的机制解决了漏读问题,因此得以在OIP的基础上,进一步提高SIP。入库工位(lp16)之后,没有其他逻辑管控点可以利用,无法纠正漏读现象,故SIP与OIP相等。

5 结论

(1)提出的RFID系统应用可靠性评价指标体系,可以全面支持对RFID系统应用可靠性的评估和分析。

(2)提出了改善RFID系统应用可靠性的分层数据处理模型。在某企业摩托车制造系统的应用验证了该模型的可用性。

(3)鉴于利用应用层逻辑关系建立的完整性约束随应用环境不同具有差异性,因此在模型应用中选择适合应用背景的完整性约束尤为重要,应根据不同的应用逻辑约束及上下文设计合理的完整性约束规则,或采用多种约束组成的混合约束规则。

摘要：针对复杂制造环境下RFID应用可靠性问题,给出了一种RFID系统应用可靠性的评价指标,在此基础上建立了改善RFID系统应用可靠性的分层数据处理模型。在该模型中,简单事件处理层接收阅读器网络产生的原始阅读事件,通过不重复约束规则清洗重读产生的冗余事件,聚合成精简的逻辑阅读事件;复杂事件处理层建立应用完整性约束规则,分析逻辑阅读事件,侦测并纠正多读、漏读现象,并以物理对象路径约束为例,描述了多读、漏读判定方法。应用案例验证了该模型的可用性。

【RFID数据】推荐阅读：