数据一致性

2024-09-14

数据一致性（通用11篇）

数据一致性篇1

1 概述

移动自组织网络-MANET (Mobile Ad-hoc Network) 是一种在不借助中心管理的情况下, 在有限的范围内实现多个移动终端平等互联的组网方式。MANET没有基站等基础设施, 各节点都是移动的, 兼具主机和路由器的功能, 节点间采用多跳数据转发机制来交换信息。在这个网络中, 每个节点都经常移动位置且电量有限, 节点间的链路可能频繁断接, 传统的分布式数据库事务处理模型不能保证MANET中各个节点的数据一致性, 因此不适合在MANET中使用为了解决这一问题, 设计了一种MANET事务处理模型。

2 事务处理模型的基本结构

2.1 移动主机的分类

根据通信能力、计算能力、磁盘储存器容量、内存容量和电量限制, 我们可以把所有的移动主机 (MH) 分为两类:a.SMH:这类MH拥有较小的存储容量和电量, 并且计算能力有限;b LMH:这类MH拥有较大的存储容量和电量, 通信和计算能力远远超过SMH。

不论哪类MH都有一个通信半径。每个MH能与通信半径里的其他MH直接通信, 与通信半径之外的MH就要通过其他若干MH进行多跳间接通信。由于能量和储存容量限制, 我们将整个数据库管理系统只储存在每个LMH上在SMH上只储存数据库管理系统的一些简单模块, SMH向LMH查询自己的数据、提交事务处理请求和接受处理结果。

2.2 移动主机的关键信息

在描述的MANET体系中, 每一个MH都会在本地存储一些关键信息, 这些信息包括:a唯一标识每个MH的ID号;b.每个MH的地理坐标, 这些坐标可以通过GPS系统周期性的更新, 我们根据这些坐标在MH提交事务时进行合理路由;c.MH的无线通信半径;d.MH当前电量, 这个信息用来判别MH的连接有效性;e.数据记录分配表, 每个LMH上都会存储一张数据记录分配表, 这张表综合所有LMH上数据记录得到, 通过它, 我们可以知道任何一个数据记录存储在哪个LMH上。每个LMH周期性的广播它的关键信息, 其他LMH和SMH接收到这些信息以后, 把它存储在自己的LMH LIST列表中。关键信息的广播周期可以根据具体应用来确定, 移动越频繁的LMH, 广播周期应该越短。

为了节省和平衡每个MH的电量, 我们把MH状态分为3类。a.活动状态:MH的处理器和通信组件处于正常工作状态;b.挂起状态:MH的处理器停止工作, 通信组件能接收信息并唤醒处理器;c.休眠状态:处理器和通信组件都停止工作, 相当于断接。

2.3 移动事务的描述

在的MANET系统中, 每个移动事务都有一个可以被执行的最终时间期限, 根据这个最终期限的设置情况不同, 我们把事务分为两类firm事务和soft事务。对于firm事务来说, 当时间超过最终期限时, 这个事务就被终止。对于soft事务, 我们给它设置两个执行时间期限的和一个等待记录, 在不同具体应用中, 我们给这个等待记录赋予不同的含义和不同的初始值。当时间超过第一个时间期限后, 事务不被终止, 但等待记录中的数值开始减少;当时间超过第二个时间期限后, 等待记录中的值为零且事务被终止。

若事务要求处理的数据记录位于不同的MH上, 我们把这个事务称为全局事务;全局事务的一部分要在特定MH上执行的, 我们称之为亚事务。这里我们假定每个MH上只会执行每个全局事务的一个亚事务。

3 事务处理过程

一个SMH创建一个事务T, 并把这个事务T提交给通信半径之内的一个LMH (协调主机LMHC) , LMHC检查自己的数据记录分配表以确定执行事务T所需要的数据记录存储在哪些LMH上, 之后根据检查结果, 在保证每个亚事务所需数据记录只在一个LMH上的情况下LMHC把全局事务分解成亚事务交给其他LMH执行。LMHC在其他LMH协助下, 如果执行事务成功就把结果返回请求SMH;如果执行失败, 也会把失败信息通知请求SMH。

3.1 移动事务的提交

移动事务的成功执行受MH电量和事务执行时间期限的影响, 因此在MH提交事务时要使用一个策略来平衡各个MH的电量消耗, 同时要尽量避免事务执行超时。

对于firm事务, 我们规定MH把它提交给距离最近的LMH以节约时间;对于soft事务MH把它提交给通信半径内电量最高的LMH以平衡电力消耗。因为SMH上都存储着每个LMH的坐标和剩余电量等关键信息, 因此可以通过使用LAR协议来实现上述规定。

如果SMH提交事务后进行了位置移动, 那么它需要把自己的新坐标通知LMH。如果接收事务的LMH处于活动状态, 事务执行;当LMH处于挂起状态, 它可以被firm事务唤醒并执行事务;若LMH处于休眠状态, 事务就不能被执行了。SMH提交事务一段时间后, 如果没有收到处理结果, 就认为LMH处于休眠或断接状态, 这时SMH会按照规则向其他LMH提交该事务。这个等待时间根据下面的算法计算:

等待时间=事务执行时间+SMH与LMH通信时间+亚事务个数*亚事务通信时间

3.2 移动事务的执行和结果返回

每一个LMH的事务处理程序包含三个组件。a.事务调度组件 (TS) :负责管理需要处理事务的队列;b.事务协调组件 (TC) :负责把全局事务分解成亚事务并提交给相应LMH执行, 同时也负责把事务执行结果返回SMH;c.事务执行组件 (TM) :负责亚事务的具体执行。

为了使LMH的电量发挥最大效率, 在TS中通过综合考虑事务执行期限 (D) 、执行时间 (C) 、SMH断接几率 (Pd) 和平均断接时间 (Pt) 因素, 计算出每个事物的权值 (S) , 并根据权值的升序把接收到的事务排成一个事务处理队列, 权值计算公式如下:

S=D- (T+C+Pd*Pt)

其中T为当前时间, Pd和Pt通过事务执行历史记录可以得到。对于两个事物的权值相同的情况, firm事物优先于soft事物;若是两个firm事物或soft事物, 那么先执行电量低的SMH提交的事物 (电量信息随事物一同提交) 。

如果执行事物需要的数据记录在本地, 那么TC将事物交给TM执行;否则, TC会把事务分解为亚事务交给其他参与的LMH执行, 分解生成的亚事务可以使用EQF策略重新确定事务执行期限。事物执行完毕以后, TC会把结果返回给事物请求SMH, 如果SMH处于活动状态则接收结果;如果SMH处于挂起状态, 对于firm事务, SMH转为活动状态并接收结果, 对于soft事务, 要根据电量剩余情况来决定是否转为活动状态并接收结果;如果SHM处于休眠状态不能接收事务执行结果, 对于firm事务, LMH会立即丢弃这个结果, 对于soft事务, LMH在时间没有超过事物的第二执行期限之前, 每隔一段时间向SMH发送一次结果, 若超过了第二执行期限, LMH丢弃这个结果。

摘要：为了保证MANET中各节点的数据一致性, 针对MANET节点经常移动、电量有限和节点间频繁断接等特点, 提出了一个移动事务处理模型。该模型对移动节点和事务进行了分类、定义了节点的关键信息, 并设计了事务提交和处理的策略。

关键词：MANET,事务处理,数据一致性

参考文献

[1]郑静, 卢锡成.面向MANET环境的动态自适应副本放置算法研究[J].通信学报, 2004, 8 (25) :1-8.

[2]Y.B.Ko.Location-aided routing (LAR) inmobile Ad-Hoc networks[J].MOBICOM, 1998 (7) :66-75.

[3]陈立家, 江昊.车用自组织网络传输控制研究[J].软件学报, 2007, 6 (18) :1477-1490.

数据一致性篇2

全国硕士研究生招生考试网上报名平台已经开通(报名入口)，20考研正式报名时间为10月10日至10月31日，每天9：00-22：00.逾期不再补报，也不得再修改报名信息。预报名为有效数据，报名成功的考生不必重复报名。

在填报时，发现网报系统中考试科目数据与学校公布的不一致，怎么办?

电视照明（光源）一致性指数篇3

【关键词】TLCI；人眼响应曲线；CCD响应曲线；颜色修正；TLMF

文章编号：10.3969/j.issn.1674-8239.2016.01.001

Television Lighting Consistency Index – TLCI

Original/ [USA]Mike Wood Translate/YAO Han-chun1

（1. Shanghai Theatre Academy China， Shanghai 200040， China）

【Abstract】Color Rendering Index（CRI） and Color Quality Scale（CQS） are two color rendering index for human eyes， but not suitable for TV cameras. For the application of TV system， the new research and development has released a new metric： Television Lighting Consistency Index （TLCI）. In this paper， the author described the principle， method and procedure of TLCI， analyzed the content and application of TLCI test report， the relationship between CRI and TLCI， and introduced the Television Luminaire Matching Factor （TLMF）.

【Key Words】Television Lighting Consistency Index； Response curve of the human eye； CCD Response curve； Color Correction； Television Luminaire Matching Factor

在《Protocol》杂志2010冬春季刊上，笔者已谈论过显色性度量。那些论述着眼于早些年的显色指数（CRI）和新近的色质指数（CQS），以及应用这些指数的赞成和反对意见。尽管这些度量彼此各不相同，但都具有一个重要的共同点：它们是适用于人眼的两个度量指标，而没有说明在其他传感器上，诸如应用于视频，或电视摄像机中的传感器，或在胶片材料上，光源将如何呈现颜色。这一切使得电视照明指导或摄像指导的工作要困难得多。

1 为什么CRI和CQS对电视照明和摄像工作不适用？

读者可能认为，在使用视频摄像机时，一个具有适当CRI或CQS值的光源会产生很好的颜色呈现效果，其实并非一定如此。视频传感器的响应曲线非常不同于人眼的响应曲线，其光信号将以完全不同的方式被处理。此外，人眼（和人脑）是非常宽容的，并不断地调整以使颜色看上去是正确的；视频和电影摄像机没有这种作用机制，而实际上它们被设计成能精确地反映它们所看见的情景而不会改变颜色。图1显示人眼中锥体细胞的响应曲线，而图2则显示使用CCD传感器的摄像机中探测器的响应曲线。这两个图谱如此不同，以致它们不同地看待事物就不会令人感到惊奇。CCD的响应曲线与应用于标准光度和色度仪表的响应曲线非常相似——这就是这些测量仪表为什么有时给予的结果与人眼所感知的不相匹配的另一个原因。

在电视摄像机场合试图运用现有的显色性度量例如CRI的另一个问题是，所采用的一些试验色位于摄像机的色域之外，因而是不可见的。例如，用作CRI R9饱和的红色就位于电视摄像机的色域之外，因此，它不是用来检测摄像机显色性的合理颜色。

2 电视照明（光源）一致性指数

电视照明（光源）一致性指数（TLCI，Television Lighting Consistency Index）力图解决这些问题并提供一种类似适用于人类视觉的CRI和CQS的电视和视频摄像机的显色性度量指标。TLCI研究工作早在20世纪70年代由英国广播公司（BBC）启动。然而，当时普通应用的光源，除了奇特的日光灯之外，主要是宽频带光发射器，这意味着对这种度量指标的需要并不是很急迫，因而这项研究就流产了。近年来，固态光源的引进，尤其是LED光源的发展，激励了这项研究工作重新回到现实生活中。LED光源得到了大量的采用，而其中许多产品的显色性并不是很好，这意味着对这种显色性度量指标的需要比以往任何时候更为急迫。艾伦·罗伯茨（Alan Roberts），也是一名前BBC的科研工程师，已经承继了这项研制工作，经过大量的工作之后，将TLCI研发工作成功推进，它已被发布为欧洲广播联盟（EBU）的推荐标准。TLCI有可能成为（美）电影电视工程师协会（SMPTE，Society of Motion Picture and Television Engineers）的标准，笔者相信，今后全世界都会采用它。

TLCI采用类似于CRI和CQS的研究方法，即采用一个标准组的试验色样品，并在试验光源和理想辐射光源或日光下（根据色温）比较它们的外貌。对应用而言，颜色的选择是一种简单的选择；电视产业已经广泛采用如图3所示的爱色丽颜色测试图（X-Rite ColorChecker ）作为摄像机阵容的标准（以前被称为Macbeth Color Test Chart，麦克白斯颜色测试图）。

nlc202309031500

在视频领域内每一个人都非常熟悉，这张图前3行的颜色样品中也包含我们所需要的全部样品（底端一行的灰度样品与显色性测试没有关系）。第一行包含自然色，如浅肤色和深肤色、树叶色和天空色，而第二行和第三行则包含着覆盖整个色域的饱和度更高的颜色样品。在当前的应用中，这张测试图有一个奇异点：在日光色温的光源照明下，第三行末端的青色样品对于电视实际上恰好位于色域之外。因为这张测试图原先是为摄影应用而设计的，而彩色胶片通常具有更宽的色域。然而，这个出格的青色并不妨碍这张测试图进行检测工作。

为了读者能了解本文谈论的显色性问题，图4显示一张色块被劈为两半的颜色测试图，每一个色块上半部受照于天然日光，而其下半部则受照于相同色温的白光LED光源。底部一行的灰色样品看上去很正常，但是在其他的色块中可以看见极大的差异。尤其是第一个色块深肤色表现得全然不同，它呈现得比应该显现的更深暗些。

正如CRI和CQS的评价一样，TLCI的评价也没有采用实际的测试图和摄像机；而采用另一种方法，将测试图上的颜色用数学建模，其全部测试工作都由被捕获到的测试光源的光谱在软件中数字化运行。这个软件也包含标准摄像机光谱响应曲线的模型，而该模型创建于许多商业摄像机光谱响应的平均值。图5显示在被软件程式化了的有色方框中整个评价过程的方框图。

这个过程的第一步骤是计算被测试光源光谱的CCT（Correlated Color Temperature，相关色温），这项计算一旦完成，一个相同色温的参考光源就生成了。在CCT低于3 400 K时，其算法采用真实的普朗克黑体轨迹；CCT高于5 000 K时采用日光光源；而CCT在3 400 K与5 000 K之间，则采用中间插补的混合发光体。这种不同测试光源的应用与现实世界照明产品的应用相匹配，日光和钨丝灯（3 200 K）是应用于拍摄影像最常见CCT的光源。

产生于这个评价程序的主要结果是个单一数字，其变动范围是0～100，表示被测试光源的TLCI值。与CRI和CQS一样，一般而言，其数值越高，表示一致性越好，完美显色的光源具有最高100的TLCI值。在实际中，数值范围大致是这样设定的，TLCI值等于85或大于85的光源对于视频摄像机几乎不需要调整或很少的调整。当下降数值范围时，TLCI值为50和85之间的光源可能仍然是可用的，但是需要在视频通道设置中进行修正，以获得可接受的结果。最后，TLCI数值低于50的光源可能完全不可用，即使进行了显著的修正，特别是被应用于如肤色这样敏感的颜色时。

3 单一数字度量指标

这里CRI和CQS都使用单一数字度量指标。单一数字度量指标有显著的缺点，数字只告诉用户显色性误差的大小，但是它没有说明这个误差发生在哪里。例如，有两个光源，假如它们具有相同的CQS值——80，这并不意味着它们看上去有相同的外貌。一个光源可能缺乏红色，而另一个光源可能缺乏蓝色。它们都获得相同的CQS值，但是它们呈现的颜色是非常不同的。TLCI在其报告中进一步采取另一步骤，除了单一TLCI度量指标之外，也提供其他有关的信息，诸如光源缺乏何种色彩，可能需要做何种修正可使其具有更有用的信息。图6显示对调整后产生3 200 K白光的RGB LED灯具所做出的完整TLCI测试报告的例子。

测试报告中有很多有用的信息。在这张测试图的左上角，可获得经计算后的该光源的CCT值，此时它的CCT值是3 324 K，而它偏离黑体辐射轨迹的距离（此值为+0.1）超出了可被接受的范围，实际的TLCI值本身同样也是不可接受的（注：小于50，不可接受；且前面+0.1的偏离，在色度坐标中是一个很大的值，一般要求小于0.05～0.07）。在这种情况下，采用TLCI值为48的光源，如果它被用来照明表演者或着色临界的服饰时，对于视频和电视而言，它可能不是很好的光源；而用于舞台布景照明，它或许是一个可以采用的光源。在这些数字的下面，是每一个色块表示的被完美参照光源照明的外围色块，和被测试光源照明的内部色块所显示的颜色测试图（Color Checher chart）。在这种情况下可以看见很多色块显示出显著的误差。在图6的右下角，可以看见参照光源的光谱（用青色线条表示）和测试光源的光谱（用黑色线条表示）。在这个实例的图谱中，RGB LED灯具的3个波峰明显可见。最后——对用户非常有用——测试图右上角的表格则显示估算的修正值，这些修正值将要被应用于视频电视通道，以使画面符合广播规范。显然，在图6显示的实例中，围绕着品红/蓝色和品红/红色区域，采取了大量的色度和亮度修正，以使颜色色度点返回到黑体辐射轨迹。

图7显示色温为5 600 K的单一白光LED的相同报告。在这种情况下，LED是由蓝泵和黄色荧光粉层组合而成，蓝光并激发黄色荧光粉而混合发光，给予人眼白光的幻觉。其光谱图显示，在青色区域有许多缺失的能量，与其背后显示的日光光谱相比，深蓝和深红区域的能量变少了。作为电视照明应用，TLCI值仅为43的灯具是边际灯具，在光谱的许多区域都需要极度修正。再一次注意到，其灰度等级的显现效果是很好的。

最后，再举一例，只为证实LED在TLCI方面做得很好：图8显示多种颜色LED光源的混合，其中包括荧光粉转换型白光LED光源，它们已经由TLCI最优化了。这时，TLCI值为97，因此，几乎不需要摄像机做任何修正。

笔者测试了很多最近的LED产品的TLCI值，TLCI从40到90的所有在市场上可得到的产品。要预测哪些产品具有良好的TLCI值，而哪些产品的TLCI不好是很困难的。就其本质而言，是因为它利用摄像机的响应而不是利用人眼的反应，这与我们察看光时所见的毫无关系。一种光源具有良好的CRI或CQS值，但TLCI值却很差，或者反之亦然，这种情况是非常可能的，在笔者的经验中屡见不鲜。确保这两个指标都表现优异的唯一光源是拥有接近黑体或真实日光的光谱的那种光源。不连续光谱、缺失光谱波长的任何光源，对人眼和摄像机将不可避免地看上去不一样。

nlc202309031500

图9显示艾伦·罗伯茨（Alan Roberts）测试的一些结果。他测量了73个光源的CRI和TLCI，并将这些CRI和TLCI值彼此对称地标绘在图上。如果有某种相关性的话，那么笔者期待能看见一条直线将这些点连接起来。然而相反，它们之间几乎一点儿关联也没有。例如，查看图9中的粉色带，在粉色带上的点显示相关的光源都具有约80的CRI值。能看见这些点包含着14个光源，所有光源都拥有大致相同的CRI值，然而这些光源具有的TLCI值却介于45～95的变化范围。这里强调了最关键的一点，正是笔者试图说明的：CRI和CQS，或者其他为人眼设计的任何度量指标，在谈到给电视或视频选择光源时，它们一点儿帮助也没有。同样地，TLCI值也没有表明，人眼看上去，一束光的颜色将如何呈现。

4 电视灯具匹配系数

所有这一切使得电视灯光主管或摄像主管的工作变得很困难。工作人员一直知道不能用自己的眼睛去审理评估灯光，替代的是必须通过监视器以及通过摄像机的眼睛去观察判断。具有极度不连续光谱的LED光源的应用恰好使这个规则显得更加重要。

TLCI又多了一个伙伴，它将有助于光源之间的匹配。如前所述，单一度量指标无助于理解两个光源如何相互比较。如果有两个TLCI值都为75的LED光源，那么，可以确信使用两者中的任一个光源都能使视频摄像机出色地工作。然而，假使想同时使用这两个光源又将会怎么样？如果摄像机针对其中一个光源被调整时，那么另一个光源看上去将表现如何？它们将需要相同的修正，或者需要不同的修正？现有一个新的度量指标作为TLCI的伙伴，即：电视灯具匹配系数-TLMF（Television Luminaire Matching Factor）。TLMF可让用户在两个不同的光源之间进行相互比较，而不是与完美的参照光源相比较，并看看它们一起使用是否能匹配得很好。当然，在虚拟软件世界中，也可以让用户在它们前面附加一张色片，然后再看看那是如何改变匹配的。如果TLCI是给制造商为电视应用而设计产品时所使用的工具，那么TLMF则是给实践工作者使用的工具，它可让用户在进入演播室之前预测不同光源真实的混合和匹配效果，而进入演播室后再改变光源常常显得太迟了。举例如下。图10显示RGB LED混合3 300 K的白光和RGBA LED混合约3 300 K的白光相比较的TLMF。RGBA本身具有相当数量的TLCI值为67，而RGB的TLCI值仅为48。就它们本身而言，两者各自都是可用的，但是，从颜色测试图看得很清楚，如果试图同时使用两者，那将会一团糟。它们之间的TLMF值仅是7，这意味着它们的相互匹配是非常糟糕的。用户最好极尽全力将摄像机排列成行，以这种光源组合方式制作优质的画面。

TLCI和TLMF是全新的度量指标，因而仍处于被采用的早期。然而，毫无疑问它们是需要的，所以笔者期望所有制造商必须将TLCI值应用于它们的产品。笔者仍然不清楚的是颜色修正值将在实践中多么有用，因为笔者怀疑：TLCI仅仅是即将发布的单一度量指标。

（原文《Television Lighting Consistency Index-TLCI》刊登于《Protocol》杂志2013秋季刊。）

（编辑张冠华）

数据一致性篇4

现代制造业的发展对工控和自动化技术提出了集成化、网络化、实时性、准确性要求[1]。可燃气体应用范围越来越广,其一旦泄漏将会给人们的生命财产带来威胁,造成不可估量的损失和伤亡。因此,可燃气体报警器使用状态是否良好,数据是否准确可靠,对安全生产事故的判断与防范起着至关重要的作用[2]。

穆克等研发的报警器数字检测系统[3],能够自动完成对气体检测仪的检定,但该系统仅涉及检定环节,且原料气不能充分混合,影响检测结果的准确性。吴珂等研发的可燃气体报警器在线检测系统实现了远程数据监控和采集的功能[4],但该系统没有充分考虑报警器检测头可能出现的报警误差而产生报警误判断。王显建所设计实现的可燃气体报警器检定装置能对不同类型固定式和便携式可燃气体报警器进行在线检测[5],但该系统中各子系统之间不能达到数据实时一致性的要求。

由此可见,目前报警器性能检测普遍存在离线检测、检测可靠性差、精度低的缺点,各生产环节无法保持数据的一致。因此,针对检测现状,本文在自行设计研发的可燃气体检测头生产线管控系统过程中,将综合采用多种方法来保证整个管控系统数据的准确一致性。

1 系统中影响数据准确一致性的因素

自行研发的可燃气体检测头生产线管控系统作为一条完整的生产线,包括多个检测、返修、服务器等子系统,其网络结构如图1所示。检测子系统成批地采集检测头数据并处理分析及判断等级,当有故障或有不合格的则需将之送入返修子系统进行返修,完成返修则还需进行检测,服务器子系统管控着整个生产流水线,将协调多个检测、返修子系统,完成收集汇总所有检测头的数据并永久保存之,为设计、销售、售后服务、财务等提供各种统计数据以及数据挖掘等功能。这些工作过程中存在检测头数据的产生、使用、传递、存储、处理等。

管控系统中存在诸多因素将影响着数据的准确一致性。首先,系统需每批同时地采集检测腔内24个检测头数据及即时的可燃气体浓度,因此,如何设计检测腔的结构,包括可燃气体注入孔和排泄孔的大小及位置、被检测头的布局、浓度检测传感器的布局等,如何设定可燃气体注入速度,采取何种腔内气流循环方式及对采集数据的处理方法等等,将直接影响着检测腔内不同区域的可燃气体浓度是否一致,数据采集是否即时同步和可靠。其次,如何有效的过滤干扰信号,如何根据检测头输出波形特征来判断其工作状态,包括对一批24个检测头中正确的提取出每一个所对应的数据并保存到该检测头的记录中,如何在确定检测头状态后提取状态发生时刻的气体浓度等等,将直接影响数据处理环节24个检测头状态的准确判断与气体浓度的一致对应。最后,数据存储环节汇总保存所有检测头的数据并保证各子系统间数据准确一致,因此,在数据上传、分发操作中采样何种架构、采用何种协议、同步内容的设计、进程并发的控制等,在检测-返修(录入返修信息)-再检测的最多5次循环中,如何辨别区分各检测头、检测返修新旧数据的管理、循环流程的控制等等,将直接影响整个系统各子系统间各检测头数据的准确一致。综上,影响数据准确一致性的问题较多,且涉及到各个环节,于是本文将从数据采集、处理、存储三个环节进行分析,综合采用多种方法以保证整个管控系统中各检测头数据的准确一致性。

2 系统数据准确一致性的分析与实现

管控系统需保证各环节检测数据的准确性和一致性。在管控系统的研发过程中,通过对影响管控系统数据准确一致性诸多因素的分析,从数据采集、处理、存储三个环节对系统进行分析与实现。首先,采集数据时,采用改善检测腔设计等方式保证采集的准确性;其次,处理数据时,利用算法有效过滤干扰、判断检测头状态等保证数据的准确性;最后,传输存储数据时,使用一致协议等技术保证各子系统间数据准确一致,同时,为了保证检测头在各个工位的流转中数据不出现混乱错位,运用条码技术,对每个检测头生成唯一的条码,通过在各环节扫描条码,达到识别区分各检测头,并自动读取、录入各检测头数据,建立物理空间与信息空间的联系的目的。

2.1 数据采集环节数据准确一致性的分析与实现

底层的数据采集影响着后期的计算、汇总和统计等,只有保证底层数据的完整准确,才能保证上层数据应用的准确性和一致性。数据采集环节需每批同时地采集检测腔内24个检测头数据及即时的可燃气体浓度,传至检测工位计算机分析处理。现有检测子系统检测腔示意图如图2所示。

在实际生产检测时发现检测腔结构设计不够完善,可燃气体不能均匀地注入检测腔内,检测腔内气体浓度呈阶梯形曲线分布,如图3所示。导致靠近注气孔的区域的检测头先触发报警行为、远离注气孔的区域的检测头后触发报警行为,增大数据采集的误差。另外,检测腔内气体分布不均匀会影响红外线气体分析仪准确采集检测头状态改变时刻的气体浓度值。

因此,为达到检测腔内可燃气体均匀分布的目的,通过对现有检测腔内气体扩散分布模式的分析研究,本系统对影响气体均匀分布的主要因素进行了改善。首先,完善检测腔设计,从注气孔引出若干条底部有排气洞的管子,均匀贴在检测腔顶部的内侧,如图4所示。

改进以后可燃气体能够从上往下较均匀扩散到检测腔内,减少由于检测头处于不均匀可燃气体浓度环境而引发的先后报警的误差,其次,改变红外线气体分析仪布局,在检测腔内壁与检测头平行的位置安装三台红外线分析仪,取三台仪器示值平均值,作为检测腔内可燃气体浓度值。改进后三台红外分析仪检测到的浓度分布如图5所示。说明改进后不同区域可燃气体浓度分布较均匀。

此外,为进一步达到检测腔内不同区域可燃气体浓度一致的目的,增加流量控制计,合理设定可燃气体注入速度,使可燃气体流量适中地注入检测腔内,且在检测腔内壁偏上位置安装两台排气扇,改善气流循环方式等等,如图4所示。通过以上具体措施达到检测腔内不同区域的可燃气体浓度均匀一致与数据采集同步可靠的目的。

2.2 数据处理环节数据准确性的分析与实现

数据处理是对原始数据进行分析和处理的技术过程,是自动控制和系统工程的基本环节[6]。数据处理环节对采集环节采集到的检测头数据进行分析处理,即根据检测头输出波形特征判断其工作状态,并在确定检测头状态后提取状态发生时刻的气体浓度。

数据处理环节中因硬件设备电平随机干扰、系统不稳定等偶然因素均会引起尖脉冲干扰信号[7],这些因素均有可能引起检测头脉冲信号的误判断;此外,检测开始检测头一直默认输出高电平信号,当检测头第一次输出低电平时有可能是报警也有可能是发生故障,只有检测其输出1Hz的脉冲信号时,才能判断发生了报警行为,理论上由于检测头的这种输出特性,确定检测头报警相对报警发生时刻有500ms的时间延迟,而在状态确认的500ms时间差里,可燃气体浓度已经发生了改变。因此,基于剔除干扰脉冲、准确判断检测头状态、提取状态发生时刻气体浓度的原则,处理环节检测头数据处理流程如下,首先,剔除掉有可能引起检测误差的尖脉冲信号,即每次检测头的电平信号均需间隔5ms读取三次按照算法判断其电平高低;其次,按照算法当检测头连着输出三个1Hz脉冲信号才能判断该检测头报警,排除把故障检测头误判断为报警检测头的可能;最后,浓度采集模块与检测头信号采集模块并行采集,每次采集到的浓度值均及时锁存待用,以保证准确采集检测头状态发生时刻的可燃气体浓度值,如图6所示。

排空可燃气体检测检测头是否恢复不报时,由于检测头的输出特性,数据处理环节有可能把没有恢复不报的检测头误判为恢复不报,因此按照算法间隔490ms三次读取检测头电平,若检测的结果均为高电平则该检测头恢复不报,则第二次测得高电平时刻的浓度作为恢复不报浓度,进一步提高判断检测头恢复不报、恢复不报浓度的准确率,如图7所示。

2.3 数据存储环节数据准确一致性的分析与实现

数据存储环节收集汇总所有检测头的数据永久保存之,同时,在管控系统中需保证检测头数据在各环节的上传、分发、存储等过程中准确一致。

检测子系统实时采集到的检测数据、返修产生的返修数据均需实时上传至服务器子系统,检测头进入返修、已返修检测头再次检测时,服务器子系统均需及时分发历史数据并存储新数据,此外,同一检测头在管控系统中存在各个工作过程间的数据流转,在检测-返修-再检测循环中,存在检测头新旧数据管理、循环流程的控制等问题。

因此,为保证检测头数据在各子系统间上传、分发、存储等过程中准确一致,本文结合管控系统生产线实际应用,基于Sync ML标准体系架构[8],利用Sync ML数据同步规范定义数据同步操作中检测、返修、服务器子系统间数据传输协议。协议定义了会话流程、会话过程中的数据交互过程、同步双方的握手过程等,在Sync ML消息头定义了含有消息的数据源信息、协议版本、认证信息、会话信息等,在消息体中以XML格式的文档定义了检测头状态改变时刻、状态改变时气体浓度值、返修-再检测流程控制等等,数据同步规范如图8所示。

为达到各子系统间数据上传、分发等过程准确一致的目的,选用Sync ML同步传输双向传输模式。首先,检测、返修子系统发出同步请求,同步初始化数值、目标地址、源地址、同步认证等;其次,服务器子系统发出同步请求、回复请求,唤醒对方;再其次,检测、返修子系统提交数据,回复服务器子系统的请求;然后,服务器子系统提交数据,回复检测、返修子系统请求;再然后,检测、返修子系统显示数据更改情况,回复同步请求;最后,服务器子系统确认更改,证实数据已经做了更改。通过以上同步规范,达到保证检测头数据在各子系统间上传、分发、存储等过程准确一致的目的。其次,为保证检测头在检测-返修-再检测的最多5次循环中数据的准确一致性,运用条码技术,并使用前推式“链”表管理检测头新旧数据、控制其循环流程等。通过以上方法保证整个系统各子系统间各检测头数据的准确一致。

3 实验验证

按照生产线流程,进行一系列实验验证管控系统各环节保证数据准确一致性方案的可行性与有效性。实验采用可燃气体甲烷作为标准样气,检测阶段一通过流量控制器以每秒1400ppm的流量注入检测子系统的检测腔内以检测被检测头是否会发生报警行为,然后检测阶段二利用排气扇排空可燃气体以检测被检测头是否会恢复不报。检测子系统完成检测后,检测子系统工控机检测界面如图9所示。

检测子系统部分检测数据如图10所示。

检测到有故障的检测头需进入返修子系统进行返修处理,返修子系统部分历史数据上传如图11所示。

服务器子系统汇总存储的部分数据如图12所示。

观察图9工控机检测界面可知,检测子系统能够实时采集到检测腔内24个检测头数据及即时的可燃气体浓度,能够按照企业标准对检测头数据进行分析处理,判断其等级并在检测界面上以虚拟色彩的形式表现出来。此外,对比分析本地检测、返修数据与服务器子系统数据,对比结果表明,检测子系统完成一批检测以后,同批次24个检测头的数据能够按照Sync ML数据同步协议及时上传至服务器子系统,返修与再检测的数据也能够按照协议及时上传至服务器子系统,从而达到管控系统各子系统间数据一致性的要求。

此外,为验证检测的准确性,取一定数量的检测头作为样本,利用管控系统与人工检测方法分别进行三次检测,两种检测方法的误差率对比如表1所示。对比结果表明,管控系统检测误差率较少,检测准确性有了很大提高。

综合以上测试可知,管控系统能够高效准确的检测被检测头,且能达到检测、返修、服务器多子系统间数据分布存储的一致性的目的。

4 结束语

现代制造业的发展对工控和自动化技术提出了集成化、网络化、实时性、准确性等要求。本文对管控系统涉及的检定数据的准确性以及检测、返修、服务器多子系统间上传分发存储数据的一致性问题进行了分析与研究,并逐项解决数据采集、处理、存储三个重要环节的数据准确一致性,从而保证整个管控系统数据的准确一致性。测试表明,该管控系统能较好地保证数据的准确一致性,可靠性高、实时性强,具有较高的实用价值,对企业现代化、精确化具有一定的参考意义。

摘要：随着科技发展,工业控制自动化对精准型工业系统的需求越来越高。文中在自行研发可燃气体检测头生产线管控系统的过程中,针对检定数据的准确性以及检测、返修、服务器多子系统间分布存储数据的一致性问题,从数据采集、处理、存储这三个环节进行分析,综合采用多种方法以保证整个管控系统数据的准确一致性。最后,在生产实践中验证了其方法是有效的。

关键词：工业控制自动化,可燃气体报警器,数据准确性,数据一致性

参考文献

[1]刘美丽.现代工业条件下工业自动化的特点和作用[J].自动化与控制,2010,3(196):73-74.

[2]Han Yao-zhen,Xiao Hai-rong,Pan Wei-gang.Design and Realization of a New Combustible Gas Alarm System[C]//2010 International Conference on Electrical and Control Engineering.IEEE computer society,2010:691-694.

[3]穆克,韩志刚.有毒有害气体报警器数字检测系统的设计[J].辽宁石油化工大学学报,2012,32(1):74-83.

[4]吴珂,张全斧,黄武,等.化工行业可燃气体报警器在线检测系统的研发[J].安全科学技术,2014(2):7-11.

[5]王显建.可燃气体报警器检定装置的设计与实现[D].成都:电子科技大学,2013.

[6]Eric D.Knapp,JoelL angill.Industrial Network Security[M].2nd Edition,USA:2014:351-386.

[7]田园.多通道脉冲信号高精度计数方法研究[D].西安:西安工业大学,2012.

浅谈课堂德育叙事的一致性篇5

摘要：课堂教学作为德育的主渠道，在青少年德性成长中具有极为重要的意义。从德育学的角度分析，叙事暗含基本规范，可以激发青少年的道德反省和伦理感觉；叙事注重过程体验，可以激发青少年对道德情操的向往和追求。在课堂教学中运用叙事方式对青少年进行道德教育具有天然合理性。

关键词：课堂；德育；叙事；一致性

叙事作为一种德育方式有着悠久的历史。无论是东方还是西方，“说故事”在古代德育中都具有重要的地位。近现代社会知识观的转型，使得德育叙事逐渐为道德灌输与说教所替代。随着美国“新品格教育运动”的兴起，德育叙事逐渐引起人们的重视。自从华东师范大学丁钢教授于20世纪90年代末开拓“叙事研究”以来，国内德育研究领域也出现了“叙事转向”。2001年3月，万俊人在《读书》杂志撰文《重叙美德的故事》，直接论及叙事与道德教育的关系，首开“用叙事的视野考查道德教育问题”的先河。之后，越来越多的学者认识到，青少年德性的培养，从德育方式或方法上看，并不仅仅表现为义理的灌输或理性的说教，还可以采用叙事的方式，让受教育者在“过有道德的生活”中，“认识社会与道德，体验生活及道德，发展道德理性与道德感悟的能力，进而将自己的认识、体验、感悟化在生活之中”，生成“德性品质”。课堂教学作为德育的主渠道，在青少年德性成长中具有极为重要的意义。因此，探究叙事与德育的一致性，在课堂教学中运用叙事法，诱发和唤醒青少年的道德体验，促进青少年德性品质的成长与发展就显得十分必要。

一、叙事及其过程可以培育德性

叙事的道德教育意义问题，是一个相对薄弱的教育研究领域，但叙事学、叙事伦理学的研究已经为本问题的研究奠定了基础。笔者认为，从德育学的角度分析，叙事及其过程具有强烈的道德教育意义。

1，叙事暗含基本规范，可以激发青少年的道德反省和伦理感觉

叙事学认为，所有的叙事都必然含有叙述者的道德价值倾向。正如美国芝加哥派修辞学批评家韦恩·布斯所指出的，“当人的行动被赋予形式，创造出一部艺术作品的时候，创造出来的形式就永远脱离不了人的意义。其中，包括每当人们行动时就暗含于其中的道德判断”。叙事不仅是对具体内容的叙述，其中还潜藏着一些行为规范引导，它通过隐喻、换喻、提喻和反讽等4种转义方式对故事中的人物、人物行动以及现实生活中的人和事进行道德评价，从而达到传递道德价值的目的；叙事也可以通过故事中的人物之口、叙事者之口或叙事者，直接通过对故事中人物个体的思想行为进行评价来传递价值观。

“故事为我们提供了一种重新描述世界的模式。不管是传记性的，还是虚构的故事，都给我们提供了生活的意义和归属。它们把我们同他人联系起来，同历史联系起来。通过提供一种具有丰富的时间、空间、人物甚至对生活的建议的丰富多彩的画面，故事的结构给我们提供了想象、陈述和隐喻的空间，使我们在道德上产生共鸣，促进我们对他人、世界和自己的认识。”别人讲的故事，不仅有助于我明朗自己面临的道德困境，也有助于我搞清楚自己的生存信念。在许多时候，青少年正是通过叙事理解了他人、理解了历史。故事与呈现故事的过程，架构了人与人之间、人与历史之间超越距离和时空的桥梁，促进了道德意义的生成。

2叙事注重过程体验，可以激发青少年对道德情操的向往与追求

叙事作为一种行为方式。具有明显的过程性。青少年在日常情境下向自己的同伴讲述故事、见闻或自己的“奇思妙想”，讲述的过程也是展示自己生命体验的过程，必然不自觉地添加自己的理解和评价，投入自己的感情。“这一过程对讲和听双方都有道德教育意义。对讲述者来说，讲述的过程也是‘梳理自己的理解、体验和价值的过程；对听者来说，不但可以‘吸收故事本身的价值和意蕴，还可以体会讲述者的情感、价值和体验。”通过故事激起青少年体验他人曾经承受的巨大不幸。或者体验他人取得胜利的喜悦，这正是青少年在日常环境中难以经历的。故事帮助青少年体验他人的生活，唤起他们的热情，激发他们对道德情操的向往与追求。

从某种意义上来说，在一些叙事中所叙道德故事或事件本身可能并不重要，重要的是在这一过程中形成的体验对主体的精神陶冶。换言之，即在此过程中，叙事中所内蕴的道理通过事件来得到证明。通过事件来使其基本道理得到表征。但如果没有道德故事或事件为依托，道理虽然能够说明白。但因缺乏具体的情境而难以深刻体验，从而影响对道理的感悟。这在那些以自己的亲身经历事件为背景的叙事中表现得更为明显，由于所叙道德故事或事件是叙述者对自己亲身经历的事件过程的再现，听者更容易获得深刻的情感体验。

二、德育课堂不但可以而且应该叙事

课堂教学是青少年道德教育的主渠道。正是由于叙事具有如此大的魅力，才使得在课堂教学中运用叙事对青少年进行道德教育具有天然合理性，这种最为原始而古老的德育方式也才能跨越时空不断呈现出新的面貌。如今，在享受着高科技带来的种种便利与幸福的青少年也同样离不开故事。

1叙事的课堂，也是道德教育的课堂

先来看下面一则案例。

教师从一张历史照片导入新课，并把照片从一个场景切换到一个可爱的小男孩，再切换到小男孩那双大大的眼睛。

教师：(展示历史照片《受迫害的犹太人》)“这是一张第二次世界大战时期的历史照片，画面中的小男孩吸引着我们的目光。他为什么要高高地举起自己的双手呢?他是不是正在和小伙伴们玩游戏呢?但，他的目光否定了这一点。在他身后，有一群荷枪实弹的士兵，正在驱赶着一群毫无抵抗能力的妇女和儿童离开自己的家园。这些士兵是什么人?他们为什么要驱赶这些妇女和儿童?他们要把她(他)们赶到哪里?对这些答案我们必须回到20世纪30年代的历史中去寻找。”

接着教师又投放了8段史料供学生分析讨论。经过一番热烈的讨论之后，教师饱含感情地说了这样一段话：

“希特勒确实具有较强的个人能力，但不幸的是，这种超强的个人能力被用来为一种邪恶的目的服务。在法西斯统治下，本国人民被剥夺了最起码的民主权利，并有可能随时被拖入战争机器充当炮灰。而外国的人民则面临着被奴役、被掠夺和被屠杀的悲惨命运。可见，法西斯专政在剥夺本国人民民主权利的同时，也在剥夺他国人民的生存权。这种剥夺是不分国籍、不分肤色和不分年龄的啊!”

“让我们再来看看这张照片吧!请同学们注意观察这个孩子的眼睛。像他这个年龄的孩子，目光流露的本应是天真烂漫的神情，应该充满着对未来生活的憧憬和渴望。但这一切都被极度的恐惧所取代了。我们不知道他的姓名，我们也不知道他的命运，他是不是和他的600万同胞一样被毒杀在奥斯维辛集中营的毒气室中，或者是被枪杀在纳粹的刑场上了呢?在此，我想提醒同学们：当你有可能被希特勒个人的所谓才干所倾倒的时候，当你有可能被法西斯的所谓赫赫武功所折服的时候，请想一想这个孩子的眼神吧!那是

对死亡的恐惧和对纳粹暴政无声的控诉。当希特勒把他自己的才干用于达到他心中的目的时，他的个人能力越强，给人类造成的灾难就越大。而他本人最终也不能逃脱身败名裂的可耻下场……”

又是那双大大的眼睛。一阵静默之后，一个又一个学生自发地站了起来，他们用力发出了长时间的掌声。

这节历史课结束了。课前调查，全班有14名学生崇拜希特勒；课后再次调查，曾经崇拜希特勒的14名学生中有13名学生放弃了自己原来的想法。

从叙事学的角度分析，这是一节典型的课堂德育叙事课。在课堂教学中，教师通过叙事来引导学生追问生命的意义，并借助信息媒介(照片)和口头的话语来促成学生自我反思，一环扣一环，环环相扣，扣人心弦，最终实现学生德性品质的自由生长。课堂中的叙事唤起了青少年的“在场感”，促使他们去用心“体验”事件，激发了他们作为道德主体进行自我反思的自主性、能动性、创造性，教学双方也由此产生了“文化亲近感”和不由自主的“情感关涉”(学生们自发地长对间热烈鼓掌就说明了这一点)。

以叙事的方式来展开课堂教学，无论是叙事者，还是倾听者，其内心都是平等的。参与叙事的表达者与倾听者都是自愿的、积极的。每一个参与课堂德育叙事的个体，“都在自觉不自觉地横向比较。掂量着自己的道德准则与道德水平，并且自觉不自觉地借鉴着他人的道德原则而修正自己内心的道德原则”。在叙事过程中，青少年之间平等、协作、交流、讨论。在民主和谐的气氛中，讨论不仅使他们经历体验，而且使他们学会处理分歧，在公开的场合表达自己对有争议的观点的态度，从而促进了个体社会化的进程，实现了意义的自主建构。

2自主建构道德意义的课堂，应该是叙事的课堂

当前，我国社会正处于转型期，科学技术发展日新月异，社会生活方式和文化价值的多元化趋势日益明显，社会的开放程度空前提高。后现代主义、消费主义等社会思潮在对学校德育产生积极而深远的影响的同时，也对其提出了巨大的挑战。

随着互联网的普及和发展，“触网”青少年日益增多。在这样的时代背景下，青少年的生活方式、思维方式都发生了巨大变化，他们求知欲强、思想开放，面对社会上不断出现的新事物、新问题不再人云亦云，而是以一种批判、审视的态度多角度地来看待。他们在重新认识自然、审视社会的同时，在反思和批判中更加深刻地认识了人生，认识了自我，自主观念和独立人格也日渐成熟。受此影响，他们不再盲目崇拜权威和书本，而是更注重自身的需要与追求。所以教师在课堂上灌输的知识对学生的影响也只是具有相对的意义。这就要求“消解主客二分的约束性道德教育的哲学思维方式，在此基础上反思单向灌输的道德教育的实践样式，凸显其中被遮蔽的一些有价值的因素”，从青少年身边的人、身边的事说起，变“显性灌输”为“隐性灌输”，变“硬灌输”为“软灌输”，让他们自己去感悟。

数据一致性篇6

在现已提出的原子提交协议中[1,2,3,4,5],两阶段提交协议2PC是分布式系统广泛采用的经典同步更新协议。但是,当我们把2PC用于服务器节点完全对等的分布式并行数据库系统DPDBS(Distributed and Parallel Database System)时,却偶有更新结果不一致现象发生。大量跟踪测试发现,问题的根本原因是事务执行前的数据环境(副本分布情况、冗余度、版本号等)一致性遭到了破坏。

考虑到DPDBS同步更新前数据环境一致性检查的必要性,对经典2PC在提交表决内容、表决次数以及全局提交和撤销定义等方面进行针对性改进,提出了考虑数据环境一致性的分布式并行两阶段提交协议DEC-DP2PC。文中首先基于DPDBS系统模型提出问题,然后在定义分布式并行事务、区分事务执行过程中节点角色的基础上给出了DEC-DP2PC执行全过程。实际应用表明,该协议在过滤数据环境不一致事务的执行的同时还有效降低了数据环境一致性维护的成本,实现了DPDBS数据环境一致性和数据更新结果一致性的良性循环。

1问题描述

在DPDBS中,任何一个数据库操作请求都被当作一个事务处理。因此,DPDBS服务可被抽象为一个三元组:<S,I,T>,其中:I指所有节点共享的具有一定带宽的内部通信网络,负责所有服务器节点之间的信息交换;S={S1,S2,…,Sn},是由n(一般要求n≥3)个对等服务器节点通过I连接成的一个有机整体;T={T1,T2,…,Tm |m≥0},是某时刻在S上并行执行的事务集。系统服务模型如图1所示。

对每个事务Tk(k=1,2,3,…),分布式并行I/O接口总可为其选择一个当前性能最优的会话节点Sck(0≤k≤m, Sck∈S),用于负责与客户的交互和协调事务的执行。Sck在发起事务Tk前,必须首先获取当前操作数据的分布信息,由这些信息决定子事务的分配。因此,当该信息与实际不符时将造成事务回滚或非全局的数据更新等问题。例如,如图1所示,若Sc1获知事务T1相关数据分布节点是S1、S2和S3,而T1相关节点实际只有S1和S2,则T1将因S3不能完成分配的子事务而回滚;若T1相关节点除了S1、S2和S3外还有S4,则在Tk完成后S4上的数据并不能得到及时更新。此外,副本本身的一致性及事务各参与节点对其信息描述的一致性也会影响到更新结果一致性。

显然,DPDBS的同步更新较一般的分布式系统不同,其一致性首先必须保证当前数据的分布信息、版本号和冗余度等环境信息的一致性。在DPDBS中,这种数据环境一致性问题属于小概率事件,如果我们考虑单独的数据环境一致性检查和维护必将造成不必要的资源浪费。因此,考虑对传统2PC进行针对性改进,把数据环境一致性检查结果纳入提交表决,并在不一致现象发生时触发其维护,不失为一个两全其美的解决方案。

2分布式并行事务及节点角色

2.1分布式并行事务

DPDBS的分布式并行调度和完全对等的管理方式使其在事务处理等方面与一般的分布式数据库系统DDBS(Distributed Database System)形成了以下主要不同点:

(1) DDBS的会话节点就是管理节点,而DPDBS的会话节点由分布式并行I/O接口优化调度且与数据分布没有必然联系;

(2) DDBS的管理节点故障将导致事务中断甚至整个系统瘫痪,而DPDBS不存在管理节点瓶颈;

(3) DDBS中不存在全局数据分布信息一致性维护问题,在DPDBS中存在并直接影响到更新结果一致性;

(4) DDBS的数据更新采用“一票否决”制,并把节点“未表决”作“不同意提交”处理;而DPDBS只能把节点“未表决”当作节点故障处理,因此,只要正常节点正确提交,事务都可照常执行;

(5) DDBS中事务的并行度取决于带宽和管理节点的处理能力,而DPDBS主要取决于带宽;

(6) DDBS不存在网络分割问题,而DPDBS必须考虑网络分割对事务的影响。

可见,DPDBS与DDBS因服务模型的不同形成了事务处理方式上的很大差异,DPDBS的事务具有明显的分布式并行特性。因此,为区别一般的分布式事务,本文将DPDBS中的事务称为分布式并行事务。

2.2节点角色分析

由以上分析可知,DPDBS中大量的事务可并行执行,且每个事务都由若干相关节点协作完成。尽管参与节点协同完成事务,但它们的任务不尽相同,角色也因此有区分。

设数据D冗余度为m(1≤m﹤n),分布于节点SD1,SD2,…,SDm,并设T是对数据D的一个更新事务,其会话节点为Ssel。则系统中各参与节点角色可分别用以下几个线程描述:

(1) 主THD 由服务器端监听线程创建的用于处理客户数据库操作请求的线程,负责与客户的交互。当D∈Ssel时是T的协调者和参与者,否则只作为二级协调者。

(2) 代理THD 主THD在{SD1,SD2,…,SDm}- {Ssel}中建立的、与主THD有相同执行参数和环境选项的线程,用于完成子事务,只是T的一个参与者。

(3) 主代理THD 当D∉Ssel时,由主THD在{ SD1,SD2,…,SDm }中指定的、用于汇集所有代理THD执行结果并返回执行结果到主THD 的一个代理THD。它有权单方面中止事务的执行,是T的一级协调者,同时又是T的参与者。

需要说明的是,S-({SD1,SD2,…, SDm }∪{Ssel})中的任何节点都不会参与T的执行,是T的无关节点,但可能是其它事务的参与者或协调者。

3DEC-DP2PC协议的执行

DPDBS采用多版本并发控制和两阶段封锁相结合的多版本两阶段封锁协议[5],把只读事务RT(read-only-transaction)和更新事务UT(update-transaction)分别处理:UT执行强两阶段封锁协议,各节点上以全局时间戳为标准按提交的次序串行执行;RT则遵从多版本时间戳排序协议。由于RT的执行不会造成新的数据不一致,下文中的T均指UT。

为确保T的更新结果一致性,需要由所有参与节点的本地数据环境信息MLDE( Message of Local-Data-Environment)一致性检查结果与本地子事务的执行情况共同决定T的命运。

由于Ssel的选取与数据分布无关,但事务执行过程却因Ssel上是否存在当前操作数据而不同,故DEC-DP2PC需根据Ssel的如下两种选取情况分别处理。

(1) 当Ssel ∈{SD1,SD2,…,SDm }时,DEC-DP2PC处理过程如图2所示。

Ssel启动的主THD,各参与节点启动的代理THD。

• 主THD算法

1) 接收到服务请求Reqi后进行权限检查和语法分析;

2) 查询本地数据环境信息,获取与当前操作数据相关的MLDE并分发子事务;

3) 组播两条准备提交事务信息“Prepare T”到各代理THD;

4) 在第一阶段等待期限Wt1内收集各代理THD表决信息;

5) 根据表决信息决定事务的提交或中止并组播相应信息“Commit T”或“Abort T”;

6) 在等待期限Wt2内收集各参与节点应答信息及执行结果;

7) 向客户端返回执行结果。

• 代理THD算法

1) 本地执行子事务,同时查询本地数据环境信息获取与当前操作数据相关的MLDE;

2) 向主THD返回MLDE和提交表决信息Vote;

3) 在Wtc内等待主THD的事务提交信息;

4) 提交或回滚事务。

(2) 当Ssel ∈S-{ SD1,SD2,…,SDm }时,DEC-DP2PC处理过程如图3所示,算法不再赘述。

除了以上两种正常情况以外,DP2PC协议还应处理服务器故障的各种情形,故对事务的执行补充如下:

1) 若某数据分布节点数为m,则多达m-1个代理节点故障时事务仍能照常执行;

2) 当Ssel∈S-{ SD1,SD2,…,SDm }时,主代理THD在Wt2内未收到主THD的应答信息则断定其故障并发送中止事务信息“Abort T”以释放当前事务锁;

3) 若代理THD在等待期限Wtc内未收到协调者全局提交命令,对于Ssel∈{ SD1,SD2,…,SDm }的情形,当前事务按网络分割处理;对于Ssel ∈S-{ SD1,SD2,…,SDm }的情形,则在代理THD中选举产生新的一级协调者继续T的执行;

4) 网络分割处理遵循多数原则:系统保留多方节点,其余节点强行重启后重新加入多方。

4性能比较

假设某事务参与节点数为n,根据DEC-DP2PC和2PC、3PC的提交协议过程可将它们在报文交换次数、记录日志次数和一致性方面进行比较,结果如表1所示。

可见,2PC、3PC和DEC-DP2PC都能在事务更新前数据环境一致的前提下有效保证事务更新结果一致性,但只有DEC-DP2PC能在任何数据环境下确保更新结果一致性。

此外,我们还对三种协议在平均响应时间方面进行了测试比较,结果如图4所示。容易看出,三种协议中,3PC的平均响应时间最高,DEC-DP2PC明显低于2PC。

5结语

研究经典2PC及若干基于2PC改进的原子提交协议发现,它们对同步更新一致性的保证都建立在事务执行前数据一致的默认事实上,这对于服务器节点完全对等的分布式并行数据库系统DPDBS来说是不够的,全局数据分布、副本冗余度、版本号等数据环境信息是否一致都直接影响到更新结果的一致性。

为确保DPDBS数据更新一致性,本文提出了考虑数据环境一致性的分布式并行两阶段提交协议DEC-DP2PC,把数据环境一致性维护和数据更新相结合,对分布式并行系统环境下事务的提交表决内容、表决次数以及全局提交和撤销定义等方面基于经典2PC进行了针对性的修改。测试和分析表明,该协议可有效过滤不一致数据环境下事务的执行,减少了不必要的全局信息维护开销,同时,对降低系统平均响应时间也起到了一定的作用。

摘要：为了保证服务器节点完全对等的分布式并行数据库系统更新结果一致性,提出基于数据环境一致性的分布式并行更新协议DEC-DP2PC(Distributed and Parallel 2PC Based on Data-Environment-Consistency),对经典2PC(two phase commit)在执行条件、表决内容和次数、全局提交和撤销定义等方面进行了针对性改进。性能分析和测试表明,DEC-DP2PC可有效过滤数据副本分布和版本号等数据环境信息不一致情况下事务的执行,减少全局数据环境一致性维护开销和降低系统平均响应时间。

关键词：分布式并行数据库,同步更新,数据环境,一致性

参考文献

[1]Heine Kolltveit,Svein-Olaf Hvasshovd.Efficient High Availability Com-mit Processing[C]//Proceedings of the 2008 Third International Con-ference on Availability,Reliability and Security.March 04-07,2008.Washington,DC,USA:IEEE Computer Society:64-71.

[2]Abdallah M,Guerraoui R,Pucheral P.One-phase commit:Does it makesense?[C]//International Conference on Parallel and Distributed Sys-tems(ICPADS'98),Taiwan,Dec 16-18,1998.Washington,DC,USA:IEEE Computer Society:182-192.

[3] Gopi K Attaluri, Kenneth Salem. The Presumed-Either Two-Phase Commit Protocol [J]. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2002,14(5):1190-1196.

[4]Heine Kolltveit,Svein-Olaf Hvasshovd.Efficient High Availability Com-mit Processing[C]//The Third International Conference on Availability,Reliability and Security:64-71.

数据一致性篇7

1 一致性哈希算法的工作方法

一致性哈希算法的工作方法大概可以分为两个步骤:第一, 通过求模运算来计算储存节点上的哈希值, 在计算过程中, 可以将储存空间假设成一个环, 并将所有的储存节点均匀的分布在环上, 这样的话所有的节点就都拥有了一个哈希值。第二, 应用哈希算法对第一步的数据进行计算, 然后按照顺时针的方向将计算出来的结果映射到离它最近的节点上去。即使某个节点出现了故障导致离线, 也能减少对其他节点的影响。而当需要在两个节点之间增加一个节点时, 所产生的影响也仅仅存在于两个节点之间的位置。因此, 通过一致性哈希算法, 对节点进行分布和计算可以有效提高系统运行的稳定性和可靠性。

2 一致性哈希算法的应用优势

一致性哈希算法区分于传统哈希算法, 也是在简单哈希算法的基础上进行改进, 其应用优势可以从以下几点进行分析:第一, 改进了传统哈希算法中需要增删节点的麻烦, 提高了系统更新的效率, 并避免在增删节点过程中对其它节点造成影响。同时节省传统哈希算法中进行数据移动的开销, 降低了系统运行的成本。第二, 增强了系统的平衡性。由于数据库中的每个点都有其自身的性能, 有些性能较强, 有些则较差, 通过一致性哈希算法, 可以对其节点性能进行科学分析, 进而提高节点分布的合理性。第三, 能够提高数据增长时的系统运行速度。当数据库内的数据出现持续增长状态时, 对系统的运行压力比较大, 很容易因为突然的数据数量增加而导致其运行速度迟缓或者直接造成瘫痪。而通过一致性哈希算法的应用, 能够将包含数据较多的虚拟节点进行分类, 并可以在服务器之间调整期储存分布情况, 这样就可以提高系统服务器对于数据增长的适应性, 避免造成运行不畅[3]。一致性哈希算法目前主要应用于分布式Key-Value存储系统中, 其作用是存储高并发的事务性数据, 并根据Key值的不同, 存放在不同服务器中, 比如一些大型网站通常会把一些访问频率较高但是变化频率较低的系统缓存页面储存在Key-Value系统中, 以降低服务器的运行压力和后台的访问压力, 进而提高其运行速度和运行的稳定性。

3 一致性哈希算法在数据库集群研究中的应用分析

对于数据库的集群研究可以根据其研究目的以及数据特征等划分为不同的研究形式, 其中对于结构化数据的分析称为分析性数据库。而随着现代化信息化程度的提高, 以及基于智能平台的新媒体的不断深化和拓展, 导致结构化数据的产生速度不断加快, 进而提高了对于数据的分析工作难度。在这种情况下, 传统的数据库分析方法已经不能够满足其数据数量和数据增长的需求, 而针对大规模数据分析的并行计算和集群系统应运而生 (以下并称为并行分析型数据库集群) , 提高了数据分析的扩展性和可靠性, 并节省了分析成本。以下就对一致性哈希算法在并行分析型数据库集群中的应用进行分析。

3.1 数据的基本划分方法

在对数据进行划分时, 可以选择一个分区键, 分区键和元组之间形成类似Key-Value的关系, 并利用哈希函数计算出每个元组在分区键上的哈希值并作为新的分区键。如果分区键是基本型数值, 可以将原来的分区键划分为新的分区键, 称其为“数值型分区键”, 并称数值型分区键的值空间“分区空间”。指定数值型分区键之后, 即可将数值型分区空间划分为若干的分区。

3.2 数据划分方案设计

HDSF是目前数据量较多情况下实用性很强的一种存储系统, 能够保证存储数据的容差性和可扩展性。而Map Reduce能够很好的完成数据进入存储引擎之前的抽取、转换格式和加载的任务。因此, 将利用这两种系统完成对数据划分方案的设计。具体划分方案可以分为以下几个流程:第一, 输人划分所需的参数。输入的参数需要包括具体的采样数和分区数。并用a表示在HDFS上的数据表文件中总共采集了多少行参数作为样本, A表示数据划分最终要生成多少个分区, 同时保证每个数据块的大小要基本均衡, 最终这些数据块将会被导入到集群的存储系统中。第二, 采样生成Partition File。对于采集到的每个行, 获取或计算出其数值型分区键。采样到a个分区键后, 对其进行排序, 并按照这a个分区键的值将分区空间划分为A段, 每段中包含的分区键个数基本相同, 将划分后的A一1个分区端点写入到Partition File。第三, 启动一个Map Reduce Job对数据表进行一致性哈希划分。

3.3.1测试方法

在Presto中DDL部分的功能依赖于Hive的实现, 所支持的数据划分和Hive是一致的。但是Hive不能直接对哈希划分哈范围互粉提供支持, 因此可以指定一个字段作为分区键, 导入数据时可以将分区键上值相同的元组导入一个分区中, 相当于提供了对列表划分的支持。对于导入同一分区的数据, 可以按照某个字段的值进行聚簇和排序。

3.3.2测试结果

采用TPC-DS作为测试基准, 并利用其生成器生成了100GB数据集, 同时把其中最大的一张事实表作为测试数据, 数据量达到38.15GB。在实际的测试过程中, 对Hive/Presto和哈希数据划分方法进行对比。从测试结果可以看出, 哈希数据划分方法的性能更加良好, 并且当数据集群规模增加时, 哈希划分方法的适应性和扩展性都表现得比较优良[4]。

4结论

本文通过分析一致性哈希算法的具体工作原理以及应用优势, 并以并行分析性数据库集群为例, 分析了一致性哈希算法的实际应用效果, 并建立了具体的应用方案, 通过对方案的测试可以发现, 一致性哈希算法的应用效果良好, 能够提高数据划分的速度并保持其扩展性能, 有利于维护系统的稳定性和安全性。

摘要：为了提高数据的运行速度以及运行的可靠性和安全性, 需要设置合理的数据划分方法 , 并将一致性哈希算法运用到数据库集群研究中。本文分析了一致性哈希算法在数据库集群研究中的具体应用方法 , 并设计了具体的数据划分方案, 为后期的数据研究工作提供参考和借鉴。

关键词：数据库集群研究,一致性哈希算法,数据划分

参考文献

[1]颜吉强.数据库集群中的数据分布策略研究[J].煤炭技术, 2013, 32 (4) :154-155.

[2]姚墨涵, 谢红蔹.一致性哈希算法在分布式系统中的应用[J].电脑开发与应用, 2012 (7) :1-2.

[3]杨或剑, 林波.分布式存储系统中一致性哈希算法的研究[J].电脑知识与技术, 2011 (22) :5295.

数据一致性篇8

信息社会已进入数据洪流时代,大规模数据的涌现对数据的处理带来了挑战。现有信息媒介包括广播电视网络、新闻网站、微博和视频分享网站等多种承载平台,其数据以文本、图像、视频等多种形式传播。一方面,各种信息不仅局限于单一平台中,还通过互动方式迅速跨平台传播;另一方面,用户不再简单地用文字直接表达观点,而会用多种形式的媒体来表达看法。这种新的媒体形式被称为“异构媒体”,异构媒体的一致性表示是进行关联与聚合的基础。现有媒体描述和表达仅仅针对特定的任务,对于不同媒体数据往往独立表示,缺乏对不同平台下的多媒体数据的一致性表示,如图1所示。

面向媒体融合的海量异构数据一致性表示成为了一个重要的研究课题。高效的异构媒体描述是有效分析的前提,它不仅需要刻画媒体的自然属性,还应能够有效描述社会属性。媒体数据的自然属性主要刻画的是媒体本身的内容信息。为了描述各种媒体数据的自然属性,对于音频数据、视觉数据和自然语言数据,都分别有不同的表示方法。

(1)音频数据

首先需要将属于不同说话者的声音片断分割出来,Delacour等将一些二阶统计量作为特征,对连续语音信号中的不同语义声音进行分割[1]。该方法不需要知道说话者的数目和其他一些先验信息,但是要求说话人不能同时讲话。Kim等比较了声谱投影(audio spectrum projection,ASP)和MFCC这两种特征在说话人分割问题中的有效性[2]。

(2)视觉数据

传统的媒体表达方式往往采用自然语言表示中的“词袋”模型[3]及其变种,如所提出的“视觉单词”[4]以及“视觉文法”[5]等。但“词袋”表示方法忽略了空间、结构信息。为此,研究人员提出了区域划分的表示策略,如空间金字塔划分[6]和形状上下文描述子[7]等。基于中层语义表示的方法也被广泛应用,如概率隐语义分析方法[8]、隐狄利克雷分配模型[9]和语义样例检索[10]等。另外,研究人员也进行了直接利用高层语义表达[11,12]的研究,取得了良好的表示效果。但是,现有方法往往无法处理虽然视觉相似,但语义完全不同的问题。

(3)自然语言数据

自然语言处理中,文档常先被分割为词项、短语等元素。而在文档集中频繁出现的有意义的词项、短语,可以看作是具有一定的标识性。一种行之有效的方法是:首先在每个文档中提取短语,然后去除很多无意义的短语,比如过短、过长或者过于频繁的短语,并将短语视为图节点;再根据短语间的编辑距离,得到短语间的相似度,从而得到短语图;在得到短语图后,对短语图进行分割。

媒体数据的社会属性主要指的是媒体数据本身在社会事件中起的作用,侧重于对其社会影响的描述。网络事件的语义不仅体现在媒体数据本身的自然属性方面,也体现在其社会属性方面。现有的社会属性获取方法主要可以分为两种:基于语义标注的方法[13,16]和基于信息挖掘[17,19]的方法。基于语义标注的方法往往利用有标注的训练样本,通过视觉、文本相似性来传递标注词,从而达到对于未知图像、视频和文本的社会属性获取。基于挖掘的社会属性获取方法也引起了研究人员的广泛兴趣,并提出了一系列行之有效的方法,如概念发现[17]等。另外,网络信息挖掘还可以获取用户行为等社会属性,如基于习惯挖掘的相似移动用户选择[20]等。对于媒体数据社会属性的提取和挖掘尚处在起步阶段,还存在大量的问题亟待解决。

上述方法大多是针对特定媒体数据、特定语义理解任务的,而异构媒体一致性表示的方法流程如图2所示。将异构媒体进行特征抽取与表示,并在此基础上进行结构化数据组织,以实现一致性表示,为后续的关联与聚合提供基础。

2一致子空间学习

在抽取完异构媒体各自的特征表示后,需要进行一致性子空间投影,以实现异构数据之间的相似性度量。原始表示的维度往往较高,而一致子空间的维度较低,因而,一致子空间的学习可以认为是降维的过程。降维技术可以分为特征选择、特征变换、距离度量学习和基于排序的子空间学习。特征选择是从原始的特征集合里直接选取某些特征作为新的低维表示。依据是否利用类别信息,可以分为监督的特征选择[21]和无监督的特征选择[22]。

特征变换是指利用某个线性的或者非线性的变换函数去产生原始数据的简洁表示。根据变换函数的性质,可以分为线性和非线性两种。特征变换也可以利用排序的方式进行。这种方法基于两点假设:查询数据和相关联的数据通常分布在一个低维的流形上;查询数据和相关联的数据间存在一定的顺序关系。在排序过程中,不仅要识别出是否属于同一个层次,还要保持层次之间的顺序关系。给定训练集,通过优化下述目标函数实现:

目标函数的第一项是寻找d个正交方向,使得d个保持数据几何结构信息的方向尽量相同。

距离度量学习是利用某些给定的辅助信息,从输入空间学习一个距离度量来测量数据点之间的距离。一个有代表性的距离度量学习方法是LMNN[23],其目标是对于输入空间中的每个样本,其k个具有相同类标的近邻应尽可能地接近,而属于不同类别的样本应保持一定距离。

基于排序的子空间学习方法主要是针对高维数据进行排序。排序学习框架如图3所示。

大部分的距离度量学习技术都是为了分类或聚类任务设计的,无法直接应用与排序任务。在实际的排序问题中,也需要依赖距离度量来比较并确定排序关系。如果能够学习一个合适的距离度量,就容易构造一个好的分类器。基于这种假设,相应的线性学习模型可以表示为:

其中,第四项是松弛变量,w(i,j)是加权因子,其定义为:

算法通过梯度下降的方式进行求解。

类似地,基于多核度量学习的非线性学习模型可以表示为:

在移除松弛变量后,上述目标函数可以重新表示为:

可以通过交替的梯度下降进行求解。

3多模态结构化一致索引

在获取异构媒体的一致性表示后,还需要对其进行索引表示。不同模态信息之间存在结构化的关联关系,利用结构化信息进行一致性索引更有利于多模态数据的关联和聚合。现有的方法大致可以分为特征高阶特性的分析和基于二值化的结构索引两部分。

3.1高阶特性分析

传统的多媒体分析方法往往采用词袋模型,忽视了不同特征之间的关联关系。而空间上下文关系等高阶特性对于一致性表示的改进被忽略了。由于对于二维图像数据来说,这种空间上下文关系的利用更能改进表示的效果,因此,现有的方法主要针对视觉数据进行。随机抽样调查,即RANSAC是一个比较经典的算法,它假设查询图像与数据库图像之间存在一种仿射变换模型,这种变换可以通过匹配的局部特征对估计出来。将视觉特征的空间上下文关系,即高阶特性,嵌入到倒排表结构中,用以获得更好的初始特征匹配,提高检索精度。

近些年,研究人员投入了很多精力,关注如何生成可以保持高维视觉特征相似度的紧凑二值特征码。将高维的特征编码成二值比特流,具有很好的存储便利性和特征相似度计算的便利性。下面着重介绍将局部视觉特征的高阶特性进行高效利用。

对每个视觉特征来说,根据其周围特征和该特征的空间关系,这些周围特征被分为几个组,如图4所示,绿色的点代表局部特征,红色圆中的特征点表示绿色特征的有意义的空间上下文范围。为了描述每个特征组中的视觉内容,首先对每个组生成一个统一的描述子,其次将左右组的描述子连接形成描述该特征的上下文关系的描述子,最后将生成的上下文关系描述子二值化以方便应用和存储。除了特征的上下文描述子之外,还揭示了局部视觉特征的多模态特性。图5中展示了几个多模态特性的例子,该图中采用海森仿射检测子,每个黄色的椭圆代表一个检测到的特征区域,其中被红色矩形框标出的是两个具有多模态特性的示例。

这里以图6中特征A为例说明空间上下文表示方法,记A的空间位置的主方向为OA,并以此为基础建立一个以IA为原点,以OA为x轴的坐标系。这样可以将图像平面划分为4个子区域,在图6中给出了每个子区域的标号。由于以特征点的主方向为基准,这样的划分方式具有平移、旋转的不变性。实验的结果显示,图像平面被划分为3个子区域的时候能得到较好的结果,每个子区域为120度角,这样对特征点主方向的误差有较好的鲁棒性。考虑到存储和相似度计算的复杂度问题,将环境特征描述子编码成二值字符串。令A的环境特征记为,其中NA表示A的环境特征的数目,然后把每个子区域中的环境特征以加权求和的方法融合成一个向量表示:

其中,fi表示特征fi落在第k个子区域,di表示特征fi的描述子,wi表示fi的权重。

其中si和Ii表示特征fi的空间位置,t决定了特征环境描述子的范围。基本上是对距离特征A较远的环境特征分配较小的权值,较近的环境特征分配较大的权值。然后将所有子区域的描述子连接形成一个长向量。

3.2二值化结构索引

特征的匹配可以被当作查找特征的最近邻或者近似最近邻,当特征量变得非常巨大的时候,这种最近邻的匹配方法就变得太费时而不能使用,从文本检索中引入的倒排表的数据索引结构可以解决这个问题。

在倒排表结构中,每个特征被分配一个整数ID,如图7(a)和7(b)中所示。每个整数ID对应倒排表中的一个表项,表项中记录着含有这个整数ID对应的特征的所有图像ID和特征的一些其他信息,如空间位置、尺度、主方向等。特征采用在视觉码本中的最近邻或者近似最近邻的方法量化到视觉单词。

对于基于编码单词和基于视觉单词的索引结构,特征空间被编码单词和视觉单词划分成很多字空间。在高维空间中,给定了一个查询特征,它的正确匹配特征有可能落在量化后不同的特征字空间内,两个匹配的特征之间的二值化字符串之间的编码单词(前32比特)之间的汉明距离是3比特。为了获得更好的查询查全率(recall),检索时通常要检查多个编码单词字空间或者视觉单词字空间,分别称之为编码单词查询扩展和视觉单词查询扩展。

对于视觉单词查询扩展,在特征空间中进行均匀的查询扩展效率并不高,因为有些查询特征与它的正确匹配特征之间并不是均匀分布,有些特征的正确匹配特征落在较多的视觉单词字空间中,有些落在较少的视觉单词字空间中,如图8所示。

基于上述对编码单词和视觉单词查询扩展的分析,可以采用交叉索引进行处理。考虑到查询过程中的复杂度,仅进行一比特的编码单词查询扩展,用以找到一些正确的匹配,和这些正确匹配量化到的视觉单词ID,这样可以自动发现需要进行查询扩展的视觉单词。交叉索引过程如图9所示。首先,如图9(a)所示,绿颜色十字表示的查询特征对应的编码单词被用作编码单词查询扩展,查询扩展到的编码单词以紫颜色的虚线三角形表示,在这个过程中有两个正确的匹配特征被找到,在图9(a)中以绿颜色的矩形表示。然后,查询上一步骤中找到的正确匹配特征对应的视觉单词字空间,如图9(b)所示,紫颜色的虚线表示的不规则多边形,这个过程中新发现的正确匹配特征,也以棕颜色的矩形表示。最后,对第二步中找到的正确匹配的特征对应的编码单词,进行小范围查询扩展,如图9(c)所示。

在视觉单词袋模型中,每幅图像被表达成含有TF-IDF加权的视觉单词直方图。图像之间的相似度以图像视觉单词直方图向量之间的L1或者L2距离来计算。在含有二值码字符串的图像检索系统中,特征的二值码被用作特征匹配的校验,并且正确匹配的特征数目被用来衡量两幅图像之间的相似度,算法可以用以下公式:

其中,i表示第i幅数据库图像。B(d)和B(q)表示数据库中的特征d和查询特征q的二值码。T是一个预先设定的阈值,它的影响将在实验部分给出。H(B(q),B(d))表示两个二值特征码之间的汉明距离,如果两幅图像和查询图像之间有相同的匹配特征数,就将含有特征数较少的数据库图像排在前面。这种交叉索引结构可以提高查询特征的查全率。图10给出了码本大小为一百万时,交叉索引算法在UKBench数据集[25]上的性能。

4总结与展望

在市场需求和全球大潮流的驱动下,媒体融合已经是大势所趋。而现在多种媒体共存,造成信息的多渠道和分众化传播。网络媒体虽然有在线传播的优势,但是新闻传播角度的先天缺陷和技术的不够成熟使其在短时间内还很难一统当今的媒体。现有的几种传统媒体中,广播电视媒体的前期投入最大,针对广电数据进行媒体融合就尤为迫切。不同平台的数据在表示形式、结构和语义内容上存在很大差别,它们具有非结构化、异质等特性,给数据内容分析和挖掘造成巨大挑战。因此,首先需要对这些异构媒体数据进行结构化抽取和一致性表示,为后续的关联与聚合分析提供数据基础。

摘要：随着信息技术的发展,急需处理海量异构数据的方法。面对媒体融合的需求,海量异构数据的一致性表示成为一个关键问题。本文首先对媒体融合、海量异构数据一致性表示的必要性进行了讨论,随后对海量异构数据一致性表示的主要步骤进行了介绍,并详细介绍和分析了一致子空间学习和多模态结构化一致索引这两个主要步骤,最后对面向媒体融合的海量异构数据一致性表示进行了总结与展望。

数据一致性篇9

计算机技术的迅速发展和广泛应用,使人类从重复、繁杂的数值计算和信息处理中解脱出来,计算机中的数据成为用户越来越重要的战略资源,但是各种意外事件如:电力中断、电脑硬件的损坏、系统软件内部的Bug、恶性病毒的破坏、人为失误等造成的关键数据丢失或不可用,如不能及时得到恢复,将对用户造成巨大损失。利用IP-SAN的自有优势建立基于IP-SAN异地容灾备份系统是一种有效的方案。如何高效地确保备份系统中数据一致性问题是本系统的关键所在。

IP-SAN系统是基于iSCSI存储技术的网络存储系统。iSCSI技术可以很好地克服光纤通道存在的成本高昂和可互操作性缺陷问题。它是将现有SC-SI接口与以太网(Ethernet)技术相结合,使服务器与使用IP网络的存储装置互相交换资料,是基于IP协议的技术标准,实现了SCSI和TCP/IP[1,2]协议的连接。相对于以往的网络接入存储来说,基于iSCSI技术的IP-SAN解决了容量、传输速度、开放性、兼容性、安全性等问题,其优越的性能受到了广大用户的青睐。

本系统是基于IP-SAN(iSCSI)实现的容灾备份系统,如今大多数IP-SAN备份技术采用完全+增量备份或完全+差分备份的备份模型[3,4]。完全+增量备份的模型是在一次完全备份之后进行多次增量备份,可以通过较少使用完全备份来减少数据移动。但由于其数据恢复困难,本系统使用完全+差分备份策略,差分备份考虑的是自上次完全备份以来哪些文件发生了变化,在此策略中数据的一致性成为备份过程考虑的主要问题。在实际使用中,系统备份过程即要保持数据的一致性和完整性[5],又要保证系统的实时性即在备份过程中可以接收用户响应和数据更新。为了达到这个目标,实现的IP-SAN备份系统使用热备份的方式进行备份操作来保证数据的完整性和一致性。如何具体实现数据的一致性是研究的关键所在。

1 基于IP-SAN容灾备份系统数据一致性设计和实现

1.1 数据一致性设计

相对于目前较为成熟的数据一致性方法而言,本文提出的设计方法有其自身的优点:它基于IP-SAN系统,充分利用现有IP网络成熟性和普及性的优势,同步速度快、占用网络带宽少且源数据和备份数据的检测基于数据块进行,容易实现。具体方法如下。

数据一致性指的是本地服务器的源数据和远程服务器的备份数据是否处在一致的状态。可以通过对备份数据和源数据进行差异性检测就能判断其是否一致。假设本地服务器的源数据D、远程服务器的备份数据F初始状态下数据为一致,经过一段时间后D发生变化,同时要保持F一致的变化,最简单的实现方法是将源数据D所有内容原封不动再拷贝至备份数据F。这种方法尽管能保证数据的完整性,但是所耗费的时间以及网络、服务器资源是许多用户所无法承受的。现采取先找出源数据D和备份数据F之间的差异值,然后根据差异恢复数据F的方法来实现数据的一致。以下是具体步骤。

第一,将源数据D分成一系列固定大小的数据块,块与块之间相连不重叠,再以相同的方法对备份数据F进行同样的分块,那么D和F之间就有一个相同的块对应。第二,对D和F中每一数据块求取摘要值,将摘要值进行对比。若摘要值相同,则源数据D与备份数据F相一致不需同步;若摘要值不同,对比结束后,源数据D所在服务器发出一系列指令给备份端服务器,备份端服务器根据指令更新数据F,最终实现数据D和F之间的一致性,如图1所示。

1.2 数据一致性实现

依据上述算法,数据一致性实现步骤如下。

1.2.1 数据分块

首先定义数据单元的大小,依据大小将源数据和备份数据分成固定大小的单元,最后一数据块若小于前面所分数据块则用空格补齐至相同大小。其次定义数据块大小。最后计算数据块数目。

1.2.2 数据块摘要算法

数据分块结束后,需对每块数据求取摘要值,算法如下。

(1) 设数据块M上有信息N,将其分成i个长度为j的字符串(x1,x2,…xi)。

${\begin{cases} x_{1} = a_{11} a_{12} \dots a_{1 j} \\ ⋮ \\ x_{i} = a_{i 1} a_{i 2} \dots a_{i j} \end{cases} (1)$

(1)式中,amn∈M(0≤m≤i,0≤n≤j),若 $| Ν | \leq i \times j$ ,则填充N为N′,使得 $| Ν^{'} | = i \times j$

(2)利用映射关系f,构造i个向量。

${\begin{cases} W_{1} = (f (a_{11}), f (a_{12}), \dots, f (a_{1 j})), \\ ⋮ \\ W_{i} = (f (a_{i 1}), f (a_{i 2}), \dots, f (a_{i j})) \end{cases} (2)$

(3)构造一个随机向量V=(v1,v2,…vj),依次做向量乘法运算。

$\begin{array}{l} W_{m} \times V = \sum_{n = 1}^{j} f (a_{m n}) \times v_{n} = \\ f (a_{m 1}) \times v_{1} + \dots + f (a_{m j}) \times v_{j} \end{array}$

其中,0≤m≤i,0≤n≤j,把运算的结果转换成二进制数B(Wm×V)

(4)最后计算。

$\begin{array}{l} Ν S C = B (W_{1} \times V) \oplus B (W_{2} \times V) \oplus \dots \oplus \\ B (W_{i} \times V) (3) \end{array}$

在求取数据块摘要值(NSC)时,首先将数据块的内容按式(1)的原则分成若干字符串;然后利用式(2)构造相应的向量组;利用式(3)计算出数据块的摘要值NSC。另在应用时注意使 $| Ν S C | 2 \geq 64$ ,可以通过调整j的大小,或者调整V的大小来实现控制NSC的值,这将有效降低NSC被强行攻击成功的概率。

1.2.3 数据块摘要传递方法

TCP是为了在不可靠的互联网上提供一个可靠的端到端字节流而设计的,是面向连接的协议,在数据传送前需要进行3次握手。当3次握手过程结束后,服务器进入连接状态,双方才开始传输数据。这种传输方法延长了传输时间,增加网络中报文的数量,容易造成延误。为了解决此问题,在本系统中,使用如下方法进行数据块摘要传递。

其思想是保证网络中不存在两个同时有效的SYN报文[6]。设先后发送两个SYN报文syn1(syn-no,syn-ts1)与syn2(syn-no,syn-ts2)。对于由SYN延期产生重复SYN报文的问题解决方案如下:当syn2建立连接并已传输结束,syn1才到达,syn1到达时刻>syn2到达时刻>syn2发送时间>syn-ts1,则syn1被拒绝,如图2所示。对于由SYN-ACK丢失或延期产生重复的SYN报文的问题解决方案如下:设syn(syn-no,syn-ts)在now时刻被接受到,分两种情况,情况1:若此时连接并未关闭,则根据last-ack的值可以过滤syn-no,如图3所示;情况2:若此时连接已关闭,则now>fin-ts>=syn-ts,则syn被拒绝,如图4所示。

使用此机制实现数据块摘要的传递避免了3次握手所需的等待时间,无须接收端再连接任何维护信息。当数据在一个最大传输单元内时,只需要一个单位的时间就能接受到数据,而3次握手机制需要三个单位时间才能接受到数据,很明显此机制效率提高了3倍。

1.2.4 差异数据同步

若摘要值相同,则源数据与备份数据相一致不需同步;若摘要值不同,对比结束后,源数据所在服务器发出一系列指令给备份端服务器,备份端服务器根据指令更新数据,最终实现源数据和备份数据的一致。

2 实验分析

为了说明本文所提方案的有效性,使用9台机器模拟一简单IP-SAN网络,进行数据一致性的检测和数据同步实验。3台机器组建一个小型的SAN作为源数据端A,另6台机器分2组,每3台机器以与源数据端完全相同的方式组建备份数据端B、C。A、B、C挂接在互联网上。首先,将A中的数据原样复制到B、C中,保证源数据端A和备份数据端B、C的初始数据完全一致。在源端服务器A和备份端服务器B、C分别配制5个测试分区,大小分别是200M、500M、700M、1 000M和1 300M。分别让源数据和备份数据处在完全相同、有部分差异、完全不同三种状态并纪录其数据一致性检测速度,以及所形成的网络负载。得到的结果如图5和图6所示。

由实验得到,当源数据与备份数据完全相同和只有部分差异的时候,其检测速度变化不大,而当源数据与备份数据完全不同时,检测速度有所变慢,如图5所示。当源数据与备份数据完全相同和只有部分差异的时候,对网络负载较小,当源数据与备份数据完全不同时,网络负载变大,如图6所示。

在基于IP-SAN实际使用情况中,源端数据和备份端数据基本处于完全相同或有部分差异的状态。因此,使用本文中提出的方法能够很快地对数据一致性进行检测,实现数据同步,且产生的网络负载低。

3 结论

设计的基于IP-SAN备份系统数据一致性测试方法充分发扬了IP-SAN自有的优势,利用可靠的摘要算法以及改进的报文传输方式,有效地提高了数据一致性测试速度,降低了对网络的负载,提高了系统的可靠性与响应速度,实验证明是一种代价相对较低且切实可行的数据一致性检测方案,具有较好的应用前景。

参考文献

[1] Wrightw G,Richari S.TCP/IP Illus2 t rated Vol 2:The Implementation M.Boston:Addison Wesley,1995:1—15

[2] Amit C,Cohen R.A dynamic approach for efficient TCP buffer allocationJ.The 7th International Conference on Computer Communications and Networks,1998

[3] IBM Companies Redbook. Integrated Catalog Facility Backup and Recovery. http://www.ibm.com

[4] Hernandez R. IP Storage Networking: IBM NAS and iSCSI Solutions. IBM Corporation, International Technical Support Organization, Feb 2002, ISBN 0738424226

[5] Beaver D.Network security and storage security symmetrics and symmetry-breaking. Proceedings of the First International IEEE Security in Storage Workshop,2002(SISW’02)

数据一致性篇10

关键词：教学；评价；课程标准；一致性研究；胶体

文章编号：1005–6629（2015）2–0020–04 中图分类号：G633.8 文献标识码：B

课程标准是国家对基础教育课程的基本规范和要求，是国家管理和评价课程的依据，是教材编写、评价和考试命题的依据，更是教学的重要依据[1]。然而，有研究表明[2]，课改十年来，教学与教材的吻合度却仅有50%，当前课堂教学普遍存在着内容膨胀和难度拔高的现象。另一项调查也显示[3]：只有57.4%的教师在编选试题时考虑到课程标准，说明教师的标准意识较为淡薄。因此，强化教师教学、评价与课程标准的一致性意识，既有助于发挥课程标准对于课堂教学和考试评价的积极作用，驱动课程向期望的方向发展；也有助于破解当下学生学业负担过重的难题，为实现减负增效提供有效途径。

各级各类联考是影响课堂教学的重要因素，其试题质量的优劣在一定程度上影响着教师在课堂教学中对教学内容深广度的把握，也直接影响课程标准在教学中的落实程度。本文以高中化学必修1中“胶体”内容为例，通过近年安徽省部分市级联考命制的相关试题为切入点，探索教学、评价与课程标准的一致性，以提升教师课程执行力。

1 研究过程

1.1 分析课标和教材

课程标准对教学和评价影响最为直接的是内容标准，具体以条目的形式出现，即“行为动词+学习内容”，主要明确学生应该知道什么和能够做什么，它陈述了期望教师教给学生什么以及在特定学科中应当获得普遍的知识与技能[4]。从课程标准要求看，可以明确胶体的认知要求仅限于认知性学习目标的最低水平“知道”，即能正确复述、再现、辨认或直接使用有关胶体的知识。对现行三种版本高中化学必修1教材进行分析发现，在胶体相关内容的设计和编排上表现出一些异同，都将胶体穿插于“物质的分类”中进行介绍，以体现从物质的聚集状态所表现出的性质对物质进行分类的思想。

综合课程标准和几种版本教材的研究分析，可以确定必修1阶段对胶体内容的教学要求和评价标准（见表1）。其中，基础性要求是面对所有学生，即教学的基本要求；拓展性要求是针对学习基础较好、对化学学科学习兴趣较大的学生群体，不需要也不能体现在考试评价中。

1.2 收集相关试题

为检验各校教学质量和教师的教学效果，我省多数地市在每学期末自行组织全市的统一检测，因此，试题能够反映各地对相关内容的教学要求，具有一定的导向性。为保证取样的客观性和科学性，本次抽样对象为我省11个地市2013年和2014年自行组织命制的每学年第一学期期末试卷，共24份，从中遴选出涉及胶体知识考查的试题共16题。

1.2.1 考查胶体知识试题的题型

涉及胶体知识的16道试题都采取客观题的设计，其中15道为选择题，1道为填空题。由于胶体知识的要求层次不高，主要是考查胶体相关知识的记忆和理解，适合发挥选择题的题型功能，多用于对考生思维要求较低的知识的考查。15道选择题中有11题采取与其他知识综合的方式出现，仅通过个别选项体现胶体相关知识。主要围绕胶体知识考查的试题只有4题，如例1。

例1 今年入冬以来，我市一度出现了较严重的雾霾天气，其中霾的粒子直径多在1～104nm之间。有关雾霾的说法①属于胶体②属于混合物③不稳定，能很快完全沉降④可能产生丁达尔现象，其中正确的是

A.①④ B.② C.②④ D.②③④

1.2.2 考查内容和认知水平的分布

考查内容和认知水平是试题命制中必须考虑的两个重要维度。例2的A、B、D选项考查内容是胶体的概念和丁达尔效应等，认知水平为了解，即能正确再现有关知识，而C选项则达到理解层次。

例2 氯化铁溶液与氢氧化铁胶体具有的共同性质是

A.分散质粒子大小都在1～100nm之间

B.都有丁达尔效应

C.加热蒸干、灼烧后都有氧化铁生成

D.都呈红褐色

逐一分析所考查的具体内容和认知水平，涉及具体胶体知识点的考查频次为19次，考查的主要内容是胶体的概念和丁达尔现象，大多数试题的认知水平要求是识记层次；部分试题通过创设新情境考查学生对胶体概念的理解；考查胶体稳定性的有1次，占5.3%；涉及渗析内容考查的有2次，占10.5%；涉及Fe（OH）3胶体实验室制备和常见胶体的试题各2次，占21%；没有出现对胶体的电泳和聚沉等内容进行考查的试题。

1.3 对部分教师的访谈

为进一步了解教师对课程标准中胶体知识相关内容标准和评价要求的理解，笔者通过对本市范围内不同学校、不同教龄的23位教师进行了访谈，多数是具有5年以上教学经验的教师。访谈问题的设计主要围绕胶体的8个具体知识内容：胶体的概念、胶体的丁达尔效应（现象）、胶体的稳定性、胶体的聚沉、胶体的电泳、渗析、Fe（OH）3胶体的制备方法和常见的胶体。要求教师逐一对上述内容是否适宜于进行考查及其原因进行了访谈，如“您认为胶体的概念是否适合考查？以什么形式考查较合理？”、“您认为胶体的稳定性是否适合考查？考查到什么程度？理由是什么？”等，通过这样的问题设计实际可以反映教师在课堂教学中的要求。

1.4 课标分析、试题分析和教师访谈的比较

针对具体知识内容、认知水平，将试题抽样、教师访谈与课标进行比较，以此反映课堂教学中教师的教学要求、考试评价标准与课程标准是否一致，以及一致性差异。如通过教师访谈反映有超过三分之一的教师在教学中仍将胶体的电泳和聚沉作为教学的基本要求，而该知识内容显然不是课程标准所要求的；又如有的试题对丁达尔效应的考查达到理解层次，即需要学生能运用胶粒直径大小解释出现散射的原因，也超出课标要求。

2 研究结果分析

通过对课程标准的分析、抽样试题的分析和教师的访谈，针对涉及胶体的知识内容进行比较（见表2），可看出在对胶体相关内容的考查中，63.1%的试题以“胶体概念和丁达尔现象”为考查内容，部分试题（约21.1%）在认知水平上超过课标要求；教师在教学中都认为这两个知识点是主要内容（认为适合考查的比例均达到100%）。但在其他内容和认知要求上，无论是考试评价，还是教师的课堂教学要求都不同程度地偏离了课程标准要求。

2.1 考试评价与课程标准的一致性

从表2对抽样试题与课程标准比较不难发现，在区域性联考或校内考试中，考试评价高于标准已经成为常态，其表现为：一是在考查内容上超出课程标准要求，如例2的C选项涉及盐的水解平衡原理，在知识内容和水平层次上超过课标要求。二是在认知水平上超越了课程标准的要求，如胶体的丁达尔现象只要求学生“知道”，而不要求“理解”，但从取样的试题中有些要求达到了理解层次。由于教师在考试命题中对课程标准的重视和研究不够，造成了考试评价与课程标准的一致性有待提高，如表2中有36.8%的试题考查内容涉及课程标准中未作要求的胶体的稳定性、渗析等内容。

2.2 教学与课程标准的一致性

通过对教师的访谈发现，在日常教学中，多数教师凭借自身所固有的理念和经验开展教学，将经验转化成了课程内容。这种经验很多来自于各类联考试题，从表2中显示的有约35%和44%的教师认为可以考查胶体的电泳、聚沉和渗析，说明教师在日常教学中对此类课程标准没有明确要求的内容仍给予了充分的关注。另一项调查也显示[5]：有66%的教师把各类考试试题作为备课时的重要依据；近96%的教师认为各类考试试题对教学内容的广度和深度有影响。长期以来，这种轻视课程标准，重视经验和考试试题的现状，导致了教学与课程标准的不一致，形成了考试评价高于课程标准、教学又高于考试评价的恶性循环，增加了教师的教学压力和学生的学习负担。

3 提高教学、评价和课程标准一致性的建议

从上述结果不难看出，当前高中化学教学中普遍存在从课标到评价再到教学，学习内容与要求不断被放大的现象。究其原因，或由于教师对课程标准未予以充分的重视；或教师处于“担心考试评价中可能出现而教学中没讲到”的心理；或受某些不规范命题的影响等。如何提高教学、评价和课程标准的一致性？笔者认为可从以下方面做些改变。

3.1 完善课程标准，研制相应的“表现性评价标准”

表现性标准可以界定学生对内容标准要掌握的程度或成就水平，描述的是程度和质量，它们要回答的问题是“十分好是多好”。因此，表现性标准为评价提供了直接的尺度，从而使评价与内容标准保持更高的一致性[6]。现行高中化学课程标准的内容标准相对较抽象，尽管部分省市出台了相应的“教学要求”或“教学指导意见”，但由于缺少具体且有操作性的表现性评价标准，对“标准”的解读不尽相同，也就不利于教师在命制试题时参考使用。如课程标准中关于“胶体”的要求仅是“知道胶体是一种常见的分散系”，对此有的解读为：知道胶体是一种重要的分散系，能列举一些生活中的胶体，了解胶体与其他分散系的区别；知道丁达尔现象、聚沉（凝聚）等是胶体的重要特性，并能够运用胶体特性解释简单的实验现象和生产、生活中的实际问题[7]。有的要求为：了解分散系的含义，知道胶体区别于其他分散系的本质特征和鉴别方法，并说明“胶体的概念只要求了解其不同于溶液的特性，对胶体的凝聚、布朗运动等不宜扩展”。有的指导建议为：知道根据分散质粒子的大小，把分散系分为溶液、胶体和浊液；知道胶体的丁达尔现象；并指出“胶体的渗析、凝聚、布朗运动和电泳等不作要求”。因此，根据课程标准中的“内容标准”研制更具体、可操作性的“表现性评价标准”，在教学内容的广度和深度上明确可以考查的内容和要求，是保持评价和课程标准的一致性重要途径。

3.2 加强教材研究，深刻领会课程标准要求

教材能直观反映教材编写专家对课程标准的理解，体现了他们的专业智慧，因此，加强教材研究能帮助广大一线教师理解课程标准。尤其是通过对不同版本相关教学内容的比较研究，找出其内容呈现相同或相似的部分。如课程标准对胶体知识内容的广度虽没有明确界定，但通过比较几种版本教材可发现，胶体的概念和胶体的丁达尔效应等放在教材正文中，反映了对其具体内容的基本要求，而电泳、聚沉等胶体的性质用科学视野、知识点击、资料卡片等方式呈现，反映了其拓展性。再比较呈现不同的内容，对照标准分析其合理性，如Fe（OH）3胶体的制备和渗析等问题，不同版本教材处理的方式不同，此时需要教师根据学生的学习基础和认知需求设计教学，不轻易作过多拓展，避免教学中出现内容膨胀和难度拔高的现象。

3.3 提高教师评价素养，充分发挥课程标准对考试评价的指导作用

教师评价素养是教师专业标准的重要内容之一，许多国家在教师专业标准中，描述了不同发展阶段教师应具备的评价素养。评价专家波帕姆（Popham）指出，如果教师缺乏评价素养，就意味着专业自杀[8]。外部评价会对教师的评价活动产生示范作用，这也要求教研部门以“监测”、“调研”为名的评价必须具备良好品质，为教师评价素养的提升提供示范。为此，作为市级教研部门组织的较大规模区域测试命题工作，应加强对相关命题教师的培训，提高教师的试题编制水平，在试题编制过程中充分遵循课程标准，科学选择符合课程标准内容要求的考试内容，坚决摒弃超越课标要求的内容（如胶体的聚沉、电泳、渗析等），准确把握对考试内容的认知要求，努力使试题与标准保持较高的一致性，充分发挥课程标准对考试评价的指导作用。

3.4 加强测后数据分析，完善对区域学业质量测试试题的评价

随着计算机应用和网上阅卷工作的普及，教育领域也已进入大数据时代，充分发挥并利用测试后的数据在试题质量评价工作中的作用，对于提高命题水平和测试效度有着重要作用。在每次较大规模考试（如市级以上联考）后，及时采集相关数据，借助于韦伯模式[9]、SEC模型[10]等一致性分析工具，或从知识种类、知识深度、知识广度和知识分布平衡性维度，或从内容标准和认知要求维度分析试题与课程标准的一致性，不断提高、完善对试题质量的评价水平，为促进评价与课程标准的一致性提供科学、有效的保证。

参考文献：

[1]钟启泉，崔允漷.新课程的理念与创新——师范生读本[M].北京：高等教育出版社，2003：67～68.

[2]朱慕菊.十年基础教育课程改革的思考——课改热点问题访谈[J].人民教育，2011，（18）：37.

[3][5]汪纪苗等.高中化学试题对教师教学影响的调查研究[J].化学教学，2014，（4）：10～13.

[4][6]邵朝友，周明.试论内容标准、表现标准的特点及关系[J].当代教育科学，2006，（10）：46.

[7]王磊.化学教学研究与案例[M].北京：高等教育出版社，2006：57.

[8] Popham， W. J. Why Assessment Illiteracy Is Professional Suicide？ [J]. Educational Leadership，2004，62（1）：82～83.

[9]刘学智，张雷.学业评价与课程标准的一致性：韦伯模式本土化探究[J].外国教育研究，2009，（12）：13～17.

数据一致性篇11

在生产经营中,企业需要通过调查研究,聆听顾客的声音[1]。在调查研究中,由于调查问卷产生的数据来自不同的用户、渠道,问卷的描述方式也有差异。调查问卷所获得的数据通常有三种形式:效用值型、次序值型和语言短语型。这些数据需要经过一致化的处理才能集结汇总,用于支持企业的营销决策。

营销决策传统的处理方法有:(1)距离测度的一致性公理化方法[2],理论较为严谨,是支持群决策的重要方法;(2)层次分析法(AHP法)[3]应用广泛,用于对群体意见或偏好信息的集结处理;(3)个体偏好序集结的一致化方法,把不同偏好信息一致化为矩阵形式再行处理。面对顾客声音表现出的不同偏好信息的处理,很多学者给予专门研究。针对次序值型、效用值型、互补判断矩阵型、互反判断矩阵型数据,樊治平等[4]将其统一转化为互反判断矩阵的形式处理;徐泽水[5]则将其转化为模糊互补判断矩阵的形式处理;陈岩等[6]利用语言判断矩阵来统一表达偏好信息,实施“量化”处理。为了集结不同顾客的模糊偏好信息,并保持其原始信息在集结后的完整性和可靠性,巩在武等[7]用二元语义的语言判断矩阵形式,统一表达不同的偏好信息,实现了一致化的处理;还有一些学者将不同的偏好信息,统一表达为区间数的形式[8]再行处理。

上述方法虽然应用广泛,但都有表达顾客原始声音不准确和丢失的缺点。表现在:(1)传统一致化处理方法在处理数据时已经丢失了部分调研原始数据,在哪里丢失,缺失多少无从判断;(2)传统一致化处理方法未考虑企业知识背景,在数据转换处理时未加入企业知识和经验,调查数据的处理是“被动”和“武断”的;(3)传统一致化处理方法作为一种普遍的群决策方法没有考虑特定的使用环境。因此,在数据处理时针对性不强或缺乏针对性。为了解决上述问题,本文在集结原始数据时,提出一种二维的顾客声音一致化映射方法,最大限度的减少了原始信息在集结后的丢失。该方法能弥补了一致化数据时容易丢失原始信息的缺陷,使数据在转换时,能够在兼顾企业知识的基础上,形象直观地建立数据映射关系。该方法具有以下特点:对顾客声音数据的转换是一种基于企业知识认知的非强制性转换,可以实现转换过程最大限度的数据不失真,是在特定环境下一致化处理顾客声音数据的优化方法。

1 不同形式的顾客声音数据表达与描述

为了便于对提出方法的描述,我们使用了以下假设和标记:

设顾客(k=1,2,…,m)的集合为:E={e1,e2,…,em}(m叟2),一组反映顾客声音的有限客户需求集X,记为X={q1,q2,…,qn}(n叟2),它是客户需求集合(CR)的一个子集。顾客(ek,k=1,2,…,m)表达客户需求的声音形式多种多样,主要有以下表达形式:

(1)效用值型的顾客声音表达:ek针对客户需求集给出的一组效用值向量为(u1,u2,…,un),其中ui∈[0,1]是qi(i=1,2,…,n)的效用值排序,效用值ui越接近于1表示qi越重要。

(2)次序值型的顾客声音表达:ek针对客户需求集X给出的一组次序向量为(o(1),o(2),…,o(n),其中:o(i)是qi(i=1,2,…,n)的重要性排序,o(i)值越小表示qi在CR中越重要(即最重要的是1,而最不重要的是n)。

(3)语言短语型的顾客声音表达:ek针对客户需求集X给出模糊语言的评价值构成的向量,记为(γ1,γ2,…,γn)。其中,γi(i=1,2,…,n)是由7粒度构成的语言评语集合{非常不重要(FI),不重要(I),不太重要(JI),一般(M),比较重要(JZ),重要(Z),非常重要(FZ)}中的一个语言短语。

例如,在QR汽车公司营销决策应用中,我们对统计过的汽车安全性方面的顾客需求声音数据进行处理,得出能够反映不同客户层面对安全需求的三类声音。把问题简单为3个汽车用户评价5个有关“汽车安全性”的客户需求问题,问题描述如下:q1=“刹车灵敏,噪音小”,q2=“雨雪天气的行驶安全”,q3=“紧急情况反应稳定”,q4=“刹车时的有效保护”,q5=“夜间行驶安全”。他们的偏好信息是:

·e1给出了效用值型的顾客声音:{0.8,0.5,0.4,0.7,0.3}

·e2给出了次序值型的顾客声音:{1,2,4,3,5}。

·e3给出了语言短语型的顾客声音:{FZ,JI,M,I,JZ}。

2 顾客声音数据转化的一致化映射关系

对于三种不同类型的顾客声音数据的一致化处理需要具备以下两个条件:(1)尽可能不丢失原始调研数据所反映的顾客声音数据信息;(2)充分地反映顾客需求的重要性结构。基如此,将次序值型和语言短语型的顾客声音转化为效用值型的顾客声音表达形式是比较理想的做法。而采用了图形映射的方法更是直观又通俗易懂。具体转换如下:

2.1 次序值型与效用值型的顾客声音数据的转换关系

效用值与次序值之间有一种反方向变化的关系,排序靠前的方案的效用值大,排序靠后的方案的效用值小。即有ui=f(i(i)),其中,f为o(i)的单调下降函数。该顾客声音数据的一致化处理如表达式(1)所示:

不失一般性,取n=5。由式(1)可得表1及图1。

2.2 语言短语型与效用值型的顾客声音数据的转换关系

由于现实决策问题的复杂多样性以及人类思维的模糊性,顾客在对某一产品属性的评价时,通常喜欢用模糊语言的形式,这符合常理且在调查顾客声音数据时也是必须考虑的问题。但是,在对收集来的顾客声音数据进行分析时,有必要对这些信息进行“量化”处理。通过图2和图3的映射关系,可以找到一个具备这些语言短语的隶属函数的可行集。

对于各种不同类型的模糊数,本研究为了能说明问题选择了具有代表意义的三角形映射关系。若假设更复杂的形状映射关系,可能会增加计算的复杂性却对结果不会产生太大的影响,故不必考虑。假设某个三角模糊数si,被记为(ai,bi,ci),且每个si都与一个γi相对应。借助文献[9]的三角模糊数排序方法,该顾客声音数据的一致化处理如表达式(2)所示:

式中:系数表示顾客承担风险的态度。当0.5<α燮1时,表示顾客偏好风险;当0燮α<0.5时,表示顾客厌恶风险;当α=0.5时,表示顾客对风险的态度是中性。fM(si)和fG(si)分别由下式确定:

其中:μM和μG分别是三角模糊数(xmin,xmax,xmax)和(xmin,xmin,xmax)的隶属函数,且xmin=infΦ,xmax=supΦ,Φ=

需要指出,对于某一具体客户需求项目,当有多个客户需求时,系数α一般难以直接给出。因此,在较难由顾客给出的情况下,可以采用文献[9]中给出的计算公式直接得出,即:

由式(5)得:α=0.5

由此可知,由7(κ=7)粒度构成的语言评语集来评价客户需求时,顾客对风险的态度是中性的。

由式(2)～式(5)可得表2及图4。

3 讨论

本文给出的方法只是针对5个客户需求,并且是在顾客对风险的态度是中性的特定情况下的一种映射关系。可根据不同客户需求偏好的个数以及顾客风险态度调整映射转换关系。从图1和图4可知,客户需求的个数对次序值型的顾客声音数据与语言短语型的顾客声音数据的映射关系具有影响作用;而语言短语集的粒度对语言短语型的顾客声音数据与效用值型顾客声音数据的映射关系也有影响作用。因此,在设计调查问卷时,若顾客是喜欢回答次序型调查方式,则选择客户需求的个数是关键;若顾客喜欢回答语言短语型的调查方式,则要考虑顾客对风险态度以及语言评语集的粒度参数。

获得顾客声音数据的调查方式多种多样,本文只是选择具有代表性的三种顾客声音描述形式。对于需要转换其它形式的顾客声音时,也有其一致化的映射关系。本文给出的三种声音之间可以相互转换。在实际的转换过程中,都是在特定环境下进行的。本文将次序值型和语言短语型的顾客声音数据转化为效用值型的顾客声音数据,给出的映射关系为线形函数形式是为了便于说明问题。对于一般的其它映射关系,可以比照上述一致化方法处理,如字型映射关系、梯形映射关系等。建立映射关系均依赖于企业的知识和优先解决问题的迫切程度。因此,能保证数据在转换映射过程中不失真,使得集结以后的数据仍然能够准确反映原始数据的需求特点是建立一致化映射关系的关键。

4 结论

在企业营销决策中,不同类型的客户对产品设计的某些具体属性要求是不相同的。机构在问卷调查中获得的顾客声音原始数据是最真实和全面的,经过统计后的顾客声音尽管形式不同,但在集结过程中会或多或少的丢失一些客户的原始需求。本文讨论三种常见的顾客声音数据表达形式,说明数据采集来自不同的方式和不同的渠道,代表着不同的需求。因此,对这些不同的顾客声音数据的一致化处理,最后再集结为一个统一的声音最好是无任何原始信息丢失,但实际上只能最大限度地减少信息的丢失。

传统方法将三类顾客声音数据一致化处理,主要化为各种矩阵形式,也有区间数形式,这些方法都会导致部分原始信息的丢失,并且在一致化处理时也未考虑企业知识背景要素,是一种强制性的数据转化,丢失信息是必然的。因此,其最终的一致化结果所获得的数据并不能准确反映调查数据所蕴涵的原始需求,无法支持企业有效决策。本文针对上述缺陷,在应用环境被严格界定的基础上,考虑企业知识背景利用的情况,对调查获得的顾客声音数据进行一致化处理,给出集结映射方法。该方法在一致化处理过程中能最大限度保证调查获得的原始信息在采用时损失最小。

摘要：在顾客声音数据一致化处理过程中,原始客户需求信息容易丢失是企业营销决策难题。文中尝试用图形化形式描述顾客声音数据一致化转化过程,给出了一种面向群决策的三类不同顾客声音(效用值型的顾客声音、次序值型的顾客声音、语言短语型的顾客声音)的一致化映射方法。该方法是一种考虑企业知识背景等相关要素的非强制性数据转换方法,能最大限度地保证数据在转换的过程中不丢失,对支持企业营销决策具有重要理论意义及实用价值。

关键词：顾客声音,数据一致化,图形化映射

参考文献

[1]Liliana L Bove,Nichola L Robertson.Exploring the role ofrelationship variables in predicting customer voice to a service worker.Journal of Retailing and Consumer Services[J].2005,12:83-97.

[2]Cook W D,Seiford L M.Priority ranking and consensusformation[J].Management Science,19 78,24(16):17 21-173.

[3]Saaty T L.The Analytic Hierarchy Process[M].New York:McGraw-Hill,1980.

[4]樊治平、姜艳萍:《基于OWG算子的不同形式偏好信息的群决策方法》[J];《管理科学学报》2003(1):32-36。

[5]徐泽水:《多属性决策中四类偏好信息的一种集成途径》[J];《系统工程理论与实践》2002(11):117-120。

[6]陈岩、樊治平:《基于语言判断矩阵的群决策逆判问题研究》[J];《系统工程学报》2005(2):211-215。

[7]巩在武、刘思峰:《不同偏好形式判断矩阵的二元语义群决策方法》[J];《系统工程学报》2007(2):185-189。

[8]吴江、黄登仕:《多属性决策中区间数偏好信息的一致化方法》[J];《系统工程理论方法应用》2003(4):359-362。

【数据一致性】推荐阅读：

数据一致性测试07-21

数据一致性检查10-26

数据非一致性01-22

数据一致01-09