信息预处理

2024-09-21

信息预处理（精选12篇）

信息预处理篇1

摘要：针对舰船目标提出了一种新的航迹数据预处理技术,该方法首先建立起基于速度异常点剔除模型,较好地剔除了野值点。然后,采用卡尔曼滤波方法进行平滑。验证结果表明,该方法具有较强的准确性、鲁棒性和实时性,解决了滤波发散问题,在航迹信息处理及舰船目标识别领域具有较好的应用前景。

关键词：航迹信息,卡尔曼滤波,野值剔除

对舰船目标雷达航迹信息进行预处理,从而精确估计出目标姿态角是基于高分辨距离像海上目标识别的一项关键技术。从实际经验和统计理论可知,即使是高质量的原始采样数据,由于受多种偶然因素的影响,通常包含有较大的随机误差,有时1 %～5 %,有时多达10 %～20 %的数据严重偏离目标真值,从而成为野值(Outlier)或称为异常值。文献[1]将野值定义为测量数据集合中严重偏离大部分数据所呈现趋势的小部分数据点。由此造成了目前广泛应用于数据处理中的最小二乘估计、多项式滤波与平滑微分技术以及基于观测模型和状态模型的卡尔曼滤波技术等严重病态和发散现象[2]。因此,辨识并剔除动态测量航迹数据中的野值,对拟合的航迹曲线进行平滑滤波,成为工程应用中急需解决的问题之一,对于舰船运动的姿态角估计[3,4,5]、目标测长[6,7]和雷达目标识别[8,9,10,11]均具有重大意义。

文中针对海上目标运动特点提出了一种新的航迹数据预处理方法,该方法首先是建立基于速度异常点剔除的模型,较好地剔除掉了变化较大的野值点。随后,采用了卡尔曼滤波方法进行平滑,便保证了运动轨迹估计的准确性。经实验证明,该方法准确、可靠、实用,并解决了滤波发散问题,且使野值的辨识、剔除和状态估计能够同时有效地进行。

1 野值的剔除

目前,已有众多研究者对野值剔除提出了不同的解决方法[1,2,3,4,5,6,7,8,9,10,11,12],但算法的复杂度较高,对于工程应用的实用性较差。故文中提出了一种简单有效的野值剔除方法。

1.1 强制约束剔除

由于记录等多种因素的影响,航迹中存在个别变化过于剧烈的点,这些点通常对估计的精度造成了较大的影响。可采用粗略的约束方法进行剔除,即对航迹的距离和方位信息进行度量,计算出速度变化,然后采用较大的阈值进行约束。设R(i),T(i),i=1,2,…,N,R为距离信息,T为时间信息,N为航迹点的个数,定义速度变化为

$S_R (i) = | R (i + 1) - R (i) | / (Τ (i + 1) - Τ (i))$ (1)

S_R(i)表示为航迹点i+1与i之间距离信息的速度,设Thr_R为舰船实际的最大运动速度。若满足

S_R(i)>Thr_R且S_R(i+1)>Thr_R (2)

则认定第i+1点为野值点,更新由于野值产生的畸变速度

$S_R (i + 1) = | R (i + 2) - R (i) | / (Τ (i + 2) - Τ (i))$ (3)

否则,计算第i、i+1与i-1(i≠1)点之间的速度

$Τ_{p}_1 = | R (i) - R (i - 1) | / (Τ (i) - Τ (i - 1))$ (4)

$Τ_{p}_2 = | R (i + 1) - R (i - 1) | / (Τ (i + 1) - Τ (i - 1))$ (5)

若Tp_1<Pp_2,则认为第i+1点为野值点,更新速度

$S_R (i + 1) = | R (i + 2) - R (i) | / (Τ (i + 2) - Τ (i))$ (6)

否则认为第i点为野值点。若i=1时,只需计算第1、2与3点的速度即可。方位信息也进行较大野值点初步判断,方法同上。

1.2 基于速度的约束

该模块通过对直角坐标系下航迹估计出的平均速度,对变化过大的速度段认为存在野值,从而找出并剔除掉。设第i与第i+1之间的距离为

Dis $(i) = \sqrt{(x (i + 1) - x (i))^{2} + (y (i + 1) - y (i))^{2}}$ (7)

其中i=1,2,…,N,所以速度为

Sp(i)=Dis(i)/(T(i+1)-T(i)) (8)

求出每段的速度后,除去强制约束剔除的速度段和最大速度段,剩下速度的平均值为平均速度,记为A_Sp,若

Sp(i)>Thr·A_Sp且Sp(i+1)>Thr·A_Sp (9)

则认为第i+1点为野值点,其中Thr为倍数阈值,更新速度

$S_{p} (i + 1) = \sqrt{(x (i + 2) - x (i))^{2} + (y (i + 2) - y (i))^{2}} / (Τ (i + 2) - Τ (i)) (10)$

否则(i≠1)计算

$\begin{array}{l} Τ_{e}_1 = \sqrt{(x (i) - x (i - 1))^{2} + (y (i) - y (i - 1))^{2}} / (Τ (i) - Τ (i - 1)) (11) \\ Τ_{e}_2 = \sqrt{(x (i + 1) - x (i - 1))^{2} + (y (i + 1) - y (i - 1))^{2}} / (Τ (i + 1) - Τ (i - 1)) (12) \end{array}$

若Te_2>Te_1,则认定第i+1点为野值点,更新速度方法同上,否则认为第i点为野值点。当i=1时,只需计算第1、2与第3点的速度即可。

2 卡尔曼滤波算法

卡尔曼滤波是一种时域滤波方法,采用状态空间方法描述系统,算法采用递推形式,数据存储量小,且不仅可处理平稳随机过程,又可处理多维和非平稳随机过程。由于其突出的优点,自提出以来在许多应用领域得到了普及和推广,尤其是在导航、测轨定位、目标跟踪与拦截等方面广泛应用。

2.1 卡尔曼滤波模型

卡尔曼滤波有两个基本方程:状态方程和观测方程。对于一个目标跟踪系统而言,状态方程描述目标运动。目标二维运动模型可描述为

$X (k + 1) = X (k) + Τ X^{'} (k) + \frac{1}{2} X^{″} (k) Τ^{2}$ (13)

X′(k+1)=X′(k)+TX″(k) (14)

X″(k+1)=X″(k) (15)

X(k)=[x(k),y(k)]T表示目标在二维坐标中的位置,X′(k)=[x′(k),y′(k)]T表示目标在二维坐标中的速度,X″(k)=[x″(k),y″(k)]T表示目标在二维坐标中的加速度。

目标的状态方程可描述为

X(k)=AX(k-1)+BU(k-1)+W(k-1) (16)

其中,A为状态转移矩阵;X(k)是k时刻的目标状态向量;B为输入控制项矩阵;U(k-1)为已知输入或控制信号;W(k-1)是零均值、互不相关的白色高斯过程噪声序列,其协方差为Q。

系统的观测方程为

Z(k)=HX(k)+V(k) (17)

其中,Z(k)是k时刻的测量向量;H为观测矩阵;V(k)为具有协方差R的零均值、互不相关的白色高斯观测噪声序列。

当X(k)=[x(k),x′(k),x″(k),y(k),y′(k),y″(k)]T时,系统的状态转移矩阵为

$A = [\begin{matrix} 1 & Τ & \frac{1}{2} Τ^{2} & 0 & 0 & 0 \\ 0 & 1 & Τ & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 & Τ & \frac{1}{2} Τ^{2} \\ 0 & 0 & 0 & 0 & 1 & Τ \\ 0 & 0 & 0 & 0 & 0 & 1 \end{matrix}], Τ$

为两采样点之间的时间间隔。

观测值在直角坐标系下,即当Z(k)=[x(k),y(k)]T时,观测矩阵为

$Η = [\begin{matrix} 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 & 0 \end{matrix}]$

,表示从状态向量X(k)到观测向量Z(k)的转换。

卡尔曼滤波递推运算过程如下:

状态一步预测值

X(k|k-1)=AX(k-1|k-1)+BU(k-1) (18)

一步预测均方误差阵

P(k|k-1)=AP(k-1|k-1)AT+Q (19)

滤波增益矩阵

Kg(k)=P(k|k-1)HT/[HP(k|k-1)HT+R] (20)

滤波均方误差阵

P(k|k)=[I-Kg(k)H]P(k|k-1) (21)

状态滤波值

X(k|k)=X(k|k-1)+Kg(k)[Z(k)-HX(k|k-1)] (22)

以上式(18)～式(22)便是卡尔曼滤波器的5个基本公式。图1给出了卡尔曼滤波算法所包含的方程及滤波流程。

2.2 状态向量估计的初始化

采用前三点航迹信息对状态向量X(k)进行初始化,即初始状态为

$X (1) = [\begin{matrix} x (1) \\ 0 \\ 0 \\ y (1) \\ 0 \\ 0 \end{matrix}], X (2) = [\begin{matrix} x (2) \\ \frac{x (2) - x (1)}{Τ} \\ 0 \\ y (2) \\ \frac{y (2) - y (1)}{Τ} \\ 0 \end{matrix}],$

$X (3) = [\begin{matrix} x (3) \\ \frac{x (3) - x (2)}{Τ} \\ \frac{\frac{x (3) - x (2)}{Τ} - \frac{x (2) - x (1)}{Τ}}{Τ} \\ y (3) \\ \frac{y (3) - y (2)}{Τ} \\ \frac{\frac{y (3) - y (2)}{Τ} - \frac{y (2) - y (1)}{Τ}}{Τ} \end{matrix}] (23)$

其中,T为两采样点之间的时间间隔。初始滤波的误差协方差矩阵为

滤波器从k=4时刻开始工作,按照标准卡尔曼基本公式进行递推计算。

3 实验结果

为测试算法性能,利用某型雷达在某海域采集到的航迹数据进行实验。实验中,设过程噪声和观测噪声的协方差矩阵为

$\begin{array}{l} Q = 3 \cdot 3 \cdot [\begin{matrix} \frac{Τ^{4}}{4} & \frac{Τ^{3}}{2} & \frac{Τ^{2}}{2} & 0 & 0 & 0 \\ \frac{Τ^{3}}{2} & Τ^{2} & Τ & 0 & 0 & 0 \\ \frac{Τ^{2}}{2} & Τ & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & \frac{Τ^{4}}{4} & \frac{Τ^{3}}{2} & \frac{Τ^{2}}{2} \\ 0 & 0 & 0 & \frac{Τ^{3}}{2} & Τ^{2} & Τ \\ 0 & 0 & 0 & \frac{Τ^{2}}{2} & Τ & 1 \end{matrix}], \\ R = [\begin{matrix} 0.01 & 0 \\ 0 & 0.01 \end{matrix}] (25) \end{array}$

图2是经野值剔除及卡尔曼滤波之后的航迹信息与原始航迹的对比,由图可见,文中方法成功剔除了原始航迹数据中存在的几个较大野值点,并对航迹信息作出了进一步平滑,取得了较好的预处理效果。

4 结束语

文中提出了一种适用于舰船目标航迹信息的预处理方法。该方法有针对性地剔除掉了航迹数据中的异常点,同时采用卡尔曼滤波算法作出进一步的平滑处理,从而准确估计出目标的运动轨迹。并以实测数据对该方法进行了测试,结果表明,该方法具有较强的准确性、鲁棒性和实时性,在航迹信息处理及舰船目标识别领域中具有较好的应用前景。

信息预处理篇2

概论

1、计算机应用领域：数据处理（信息处理）

辅助技术，如CAD、CAM、CAI等过程控制（或实时控制）人工智能（或智能模拟）网络应用

2、计算机在经济管理中应用属于哪一大类？ D A）科学计算 B）过程控制 C）辅助设计 D）信息处理 E）人工智能 F）网络通信

3、办公室业务：办公自动化

生产制造业：计算机集成制造系统商务管理：电子商务

金融业：电子金融（网络金融）政府管理：电子政务

医院、学校管理：医务/教务管理信息系统

4、计算机应用模式 1.利用现成软件工具 2.自行开发应用程序 3.信息系统集成

5、（简答题）下面的应用问题适用哪种应用模式？

（1）学生成绩分类统计；

（2）大中型企业会计帐务；

（3）银行储蓄柜台业务处理；

（4）投资项目经济评价；

（5）调查问卷统计；

（6）简单工程预算编制；

（7）超市收银处理；

（8）企业管理信息系统。

6、信息意识：包括信息文化内化的广度与深度；信息获取能力：包括信息发现、采集、优选等；

信息分析能力：包括信息分类、信息综合、信息评价等；

信息加工能力：包括信息排序与检索、组织与表达、存储与变换、控制与传输等；信息利用能力：指能否有效地利用信息来解决学习、工作和生活中的各种问题 7（简答题）辩析以下概念对:（1）经济信息与信息经济（2）管理信息与信息管理

（3）信息管理与信息处理

8、（选择题）一般而言，计算机在经济管理中应用属于_________应用范畴。A．科学计算 B．过程控制 C．辅助设计 D．信息处理

9、（判断题）没有计算机人类就无法进行信息处理

10、（简答题）信息在经济管理中有哪些作用？试举例说明。

11、（简答题）人们利用计算机进行信息处理一般有哪些途径？自编程序解题一般要经历哪些步骤？

12、利用计算机解题一般过程： 1.问题分析

2.建立模型:数据(信息)模型和处理模型 3.模型描述:形式化

4.程序化(机器化):编写程序 5.运行程序,获得结果

作业

（1）在EXCEL中，输入学号时，首位的“0”可能会丢失，为什么？输入身份证号时，显示结果可能是科学计数形式，为什么？答：1.作为数值型数据处理时，EXCEL会默认去除首位的0；2.EXCEL对数值型的数据处理时，对超长数据往往显示为最多14位有效数字的浮点数据。（2）如何输入以“0”开头的数字符号串（如学号），使前面的“0”不丢失？又，如何输入超长数字符号串（如身份证号），使其不变成科学计数形式？有多少正确的方法？答：1.预先将单元格设置为文本格式（多次性解决方法）；2.在数字前加‘(临时一次性解决方法)

(3)从WORD或文本文档中复制学号（或身份证号）等数据到EXCEL工作表时，能否使首位的“0”不丢失（或保持原样显示）？如果能，请给出操作方法。

答：预先将单元格设置为文本格式，粘贴时，使用“选择性粘贴”，以文本方式粘贴上去。（4）如何改变单元数据显示格式？

答：1.右键需要改变的单元格，选择单元格格式；2.选择要改变的单元格->格式（O）à单元格；3.选择单元格，按下CTRL + 1

（5）先将日期数据格式改为数值格式，观察其值的变化，再将其格式还原成日期。请找出数值数据与日期数据的内在对应关系。

答：通过0与1900-1-0对应、1与1900-1-1对应，可知EXCEL对日期数据的处理是以1900-1-0（即1899-12-31，24：00）作为起始日来计算日期数据的。另外，负值的日期EXCEL一律显示为####，原因与电脑的“千年虫”问题类似。但EXCEL的这个“遗留问题”对日期数据的处理问题不大，因为除非历史研究，平时用不到1900年之前的日期数据。

（6）逻辑值“TRUE”、“FALSE”与数值型数据有内在对应关系。请你先推测它们的对应关系，然后上机验证，最后给出你的结论。

答：TRUE对应1，FALSE对应；反之，数值0对应FALSE，而非0的数值都对应TRUE（多对一）。（7）文本型、数值型（日期型）、逻辑型数据都有其默认对齐方式。请问它们各自默认的对齐方式是什么？

答：文本型数据默认左对齐，数值型（日期型）数据默认右对齐，而逻辑型数据默认中对齐。（8）在常规格式下分别输入8、8-

8、8-8-8和8-8-8-8，观察其值，并给出合理解释。答：输入“8”，EXCEL以数值型数据处理；输入“8-8”和“8-8-8”，EXCEL以日期型数据处理；输入“8-8-8-8”，EXCEL以文本型数据处理。三种不同的方式在于EXCEL试图对用户所输入数据赋予意义。当数据能解释为数值型时，EXCEL优先当作数值型数据处理；不能，则尝试把它作为日期型数据处理；（还不能则尝试作为逻辑型数据、公式处理；）最后只有前述尝试EXCEL都无法解释所输入数据的意义时，才会以文本型数据处理。** 8-8默认为当前年份的八月八日。

（9）在不同格式下输入=8-5-1，观察其值的变化，并给出合理解释。答：在数值型格式下显示为2.00（默认两位小数）；在日期型格式下显示为1900-1-2；在文本型格式下显示为=8-5-1。前两种格式都对“=8-5-1”作公式处理，只是同一结果的两种表示方式而已（两种表示的关系已在第（5）题中说明）；而文本型格式下，EXCEL不再认为“=8-5-1”是公式，故直接显示原文。

跨表引用：

表名!区域例：（sheet1!D2:E3）常用函数：

最大值与最小值函数：MAX()； MIN()统计计数函数：COUNT()数字、日期、或以文本代表的数字计算在内空白单元格、逻辑

值、文字或错误值都将被忽略

COUNTA()COUNTBLANK()计算指定单元格区域中空白单元格的个数

COUNTIF()计算区域中满足给定条件的单元格的个数

平均值函数：AVERAGE()；AVERAGEA()标准差函数：STDEV()： STDEVA()补充：

SUMIF函数：

A B

属性值 100,000 200,000 300,000 400,000 公式

佣金 7,000 14,000 21,000 28,000 说明（结果）1 2 3 4 5

=SUMIF(A2:A5,“>16000属性值超过 160,000的佣0”,B2:B5)金的和(63,000)

ABS函数：返回绝对值

RAND函数：返回0和1之间的一个随机数 INT函数：返回小于参数的最近的整数

MID函数：返回文本字符串中从指定位置开始的特定数目的字符

MID(text,start_num,num_chars)Text是包含要提取字符的文本字符串。

Start_num是文本中要提取的第一个字符的位置。文本中第一个字符的start_num为 1，以此类推。

Num_chars指定从文本中返回字符的个数。

举例：INT(RAND()*80)返回[0,79]的整数 MOD函数：返回余数 SQRT函数：返回正数的平方根数

ROUND函数：返回四舍五入到指定的小数位

=ROUND(12345.6789,2)返回值是 12345.68 =ROUND(12345.6789,-2)返回值是 12300 INDEX函数：

INDEX(reference,row_num,column_num,area_num)Reference 是对一个或多个单元格区域的引用。Row_num 是要从中返回引用的引用中的行编号。Column_num 是要从中返回引用的引用中的列编号。

Area_num 用于选择要从中返回 row_num和 column_num的交叉点的引用区域。选择或输入的第一个区域的编号是 1，第二个区域的编号是 2，依此类推。如果省略 area_num，则 INDEX将使用区域 1。

IF函数格式：

IF(条件表达式,表达式1,表达式2)A B C

姓名成绩等级周杰伦 85 B 刘德华 78 C 2 3

单元格C2 =IF(B2>=90,“A”,IF(B2>=80,“B”,IF(B2>=70,“C”,IF(B2>=60,“D”,“E”))))单元格C3 =IF(B3>=90,“A”,IF(B3>=80,“B”,IF(B3>=70,“C”,IF(B3>=60,“D”,“E”))))注：多重IF嵌套，当输入数据不全时，将不输出工作量（输出空值）

当输入数据不全时提醒更明显什么是数据有效性设置？

用来控制输入数据有效性的设置：数据-有效性

公式=AVERAGE(A1:B30)与公式=SUM(A1:B30)/60是否完全等价？为什么？

Average如果包含文本、逻辑值或空白单元格，则这些值将被忽略；但包含零值的单元格将计算在内

单引号‘ Excel强制将其后数据设置为“文本型” Excel的输入数据主要有以下三种：

标签：属于文本型对应于基本数据类型中的“C”型数值：就是“数” 对应于基本数据类型中的“N”型

公式：以等号开头，有单元格名称、运算符号和数值组成的字符串 FV、PV、NPV、PMT及IRR等函数的计算模型

其中参数：Type表示付款类型，其值为0或1，1为期初付款，0为期末付款

Nper——该项投资的总的付款期数

FV：基于固定利率及等额分期付款方式，返回某项投资的未来值 PV：一系列未来付款的现值的累积和

PMT：基于固定利率及等额分期付款方式，返回贷款的每期付款额 IRR： IRR(value,[guess])Values 为数组或单元格的引用，包含用来计算返回的内部收益率的数字 Guess 为对函数 IRR计算结果的估计值若忽略，则默认为0.1 Excel公式 ① &连接符

②比较运算符 A1为9 A2为8 A1>A2的值为TRUE “A1”>“A2”的值为FALSE ③引用运算符只有区域运算符“:”和联合运算符“,” 模拟运算表法（百度懂的）VLOOKU函数

格式：VLOOKUP(查找值，表，列号，匹配方式)功能：在表的首列中查找与查找值相匹配的行，返回由列号指定的列中的数据。匹配方式有两种，精确匹配和非精确匹配，参数值为逻辑值，真值为精确匹配（默认方式），假值为非精确匹配。

注意：表必须是按首列有序排序，默认升序。参考office网站http://office2010.microsoft.com/zh-cn/excel-help/HA001056320.aspx?pid=CH001085946&CTT=1&origin=EC001022984 EVAUATE

E F 工程量计算公式 13.4 2.3*1.6+2*3+2.3*1.6

=EVALUATE(工程量!$F$2)参见EXCEL帮助或教材P103至P106 什么是宏？如何建立宏？怎样运行宏？怎样控制宏的安全性宏是完成特定操作的VBA程序（模块）。

简单宏可以直接用“录制宏”的命令录制，复杂的宏需要用VBA编辑器编写VBA程序菜单法；快捷键法；按钮法；在VBA窗口运行 “工具”-“宏”-“安全性” 定义

1.定义名称：插入→名称→定义→输入名称“X”；

在引用位置信息输入框中定义计算关系：=EVALUATE(计算器!C8)添加→确定。

信息预处理篇3

关键词:数据预处理;数据挖掘;劳动保障信息系统

中图分类号:TP274 文献标识码:A文章编号:1007-9599 (2010) 06-0000-03

Application of Data Preprocessing Technology in Labour&Security Information System

Zhang Jingchun

(Nanjing Human Resources&Labour Security Bureau,Nanjing210002,China)

Abstract:The data mining is a kind of technique of knowledge,and has got fast development in recent years.The data preprogressing is becoming more useful day by day.Whether to use the technique of datapreprogressing in real subjects of data mining will receive the different out- come.And there give a method in data mining of labour & security information system how to use the technique of data preprogressing.

Keywords:Data preprogressing;Data mining;Labour&Security information system

近年来,劳动保障系统的信息化建设正由事务处理层面走向集成和数据管理阶段。各应用系统产生和收集数据的能力已经迅速提高,拥有越来越多的数据,可以高效地实现数据的录入、查询、统计等功能,但缺乏从海量数据挖掘出知识的手段,无法全面正确分析和理解数据,无法根据现有的数据预测未来的发展趋势,对管理和决策缺乏有效支持。

面对这一挑战,我们引入数据挖掘技术,逐步构建宏观决策支持系统。

数据挖掘是指从大量数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则的高级处理过程。在劳动保障信息系统,多年的应用产生了海量的数据,这给数据挖掘准备好了物质基础,但是目前还没有针对这些海量数据成功地进行数据挖掘的应用项目。如何规划数据挖掘项目工程,如何选择数据挖掘算法、数据挖掘工具和产品,这些都是具有重要的理论研究价值。

一、数据挖掘(Data Mining)

数据挖掘技术作为基于数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息提取、高性能计算和数据可视化等学科领域而发展起来的从数据中获取知识的技术,正成为各个科研机构竞相研究的对象,也正在多行业得到广泛的应用。数据挖掘的定义可以从技术和应用两个角度叙述:

(一)技术角度的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

(二)劳动保障信息系统应用角度的定义

从劳动保障信息系统应用的角度来说数据挖掘从本质上说是一种新的信息处理技术,是对劳动保障信息资源的有效采集和管理、合理衍生和使用、充分挖掘和利用,对大量的数据进行深层次分析以揭示隐藏的、未知的规律性并将其模型化,实现联机事务处理(OLTP)和联机分析处理(OLAP)的合理隔离和有机统一,从而实现对各种业务及其管理的强有力支持,通过定期发布各项统计指标向管理部门提供南京劳动保障工作开展情况及南京市民基础信息、劳动就业和社会保障等各方面情况,并为政府提供政策制定依据。

数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。它通过对数据进行抽取、转换、分析和其他模型化处理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导劳动保障管理决策活动,如图1所示。

图1数据挖掘和劳动保障管理决策

(三)数据挖掘的功能

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。

数据挖掘功能以及它们可以发现的模式类型有以下六个方面:概念/类描述(特征化和区分)、关联分析、分类和预测、聚类分析、孤立点分析、演变分析。

(四)数据挖掘的过程

一般的数据挖掘过程中主要有如下四个步骤:数据选择、数据预处理、数据转换和数据挖掘。整个数据挖掘过程是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈。

数据挖掘的过程的工作量比例如图2所示。

图2 数据挖掘过程工作量比例

从图2可以看出,数据预处理环节的工作量占全部工作量的60%,因此,如何提高数据预处理的效率,是加快数据挖掘规则进程的关键。

二、数据预处理(Data preprocessing)

由于数据库系统中数据量的迅速膨胀(达到GB或TB数量级),现实世界的数据库极易受噪声数据(noise data)(具有不正确的属性值)、空缺数据(missing data)(缺少属性值)和不一致数据(inconsistent data)的侵扰。当进行数据挖掘时,只有进行数据的预处理,才能提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。

数据预处理的主要方法包括:

(一)数据清理

数据清理(data cleaning)例程通过填写空缺值,平滑燥声数据,识别、删除孤立点,并解决不一致来“清理”数据。

(二)数据集成与变换

数据集成(data integration)就是将多个数据源中的数据结合起来存放在一个一致的数据存储中。这些数据源可能包括多个数据库、数据立方体或一般文件。数据变换(data transformation)主要是将数据转换成适合于挖掘的形式,如规格化和聚集。

(三)数据归约

数据归约(data reduction)的目的就是缩小所挖掘数据的规模,但能够产生同样的(或几乎同样的)分析结果。数据归约的策略有数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层等。

数据预处理的方式如图3所示。

图3数据预处理的方式

三、数据预处理实例分析

(一)劳动保障信息系统简介

信息预处理篇4

关键词：事件抽取,元素规格化,不完备信息处理

0 引言

认知科学家们认为,事件是人们认识和理解世界的基础,符合人们的正常认知规律[1]。目前,事件信息抽取Events IE(Events Information Extraction)是信息抽取领域的研究热点之一,在自动文摘、自动问答、信息检索等领域有着广泛的应用。

事件抽取主要是从一个语句或句群中提取预先设定的目标事件的各个语义角色的过程。近几年不少组织和个人对事件抽取开展了很多研究,文献[2,3]利用机器学习方法对ACE的事件抽取任务进行抽取;文献[4]同样利用该方法进行职务变动事件抽取;文献[5]提出基于事件框架的信息抽取系统;文献[6]提出了根据格语法的一种新的事件抽取模式定义方法等。

总之,目前事件抽取研究主要集中在简单语句或者句群中的事件抽取,并未对抽取出的事件进行相关处理。事件抽取技术建立在分词、命名实体识别、词性标注及指代消解等技术基础之上,由于这些技术并不能达到完全正确,所以往往会抽取出不完整的事件信息,同时受汉语自身特点的影响,往往最终抽取出的事件存在元素不完整、描述形式不统一等问题,为进行事件融合带来麻烦。

本文通过对事件进行不完备信息处理和元素规格化处理,将事件表述统一化、规格化,同时结合事件本身的特点,对抽取出的事件进行修正,过滤错误事件,初步去掉明显的冗余事件并完善事件,为后续的事件融合做准备工作。

1 数据预处理

本文将做以下工作,包括不完备信息处理、元素规格化处理、事件真伪辨别及一些无用事件和相同事件信息的初步过滤,其中元素规格化处理是将具有相同语义的表述以统一的形式表示,同时对于缺少一些重要信息的事件,进行事件元素填充处理,以防止丢掉重要信息,提高事件聚类及融合的效率;辨别事件真伪是对不符合原文语义的事件进行辨别并进行修正处理;最后将一些无用的事件信息及冗余信息过滤掉。总体流程如图1所示。

1.1 缺失值的处理方法

在事件抽取的过程中,数据缺失的情况是经常发生甚至是不可避免的。造成数据缺失的原因是多方面的,主要有以下两种:(1) 汉语自身的特点。在描述一事件时往往会省略一些重要细节,有的需要结合上下文才能掌握事件的全部信息,因此抽取出的事件往往会缺失一些主要的事件元素,比如一些新增病例事件,或者没有地点信息,或者没有时间信息;(2) 目前指代消解水平的制约。一些重要信息无法消解,比如“我国”,“该区”等。而这些事件若缺少地点和时间这些重要信息则等同于一条无用信息。

目前,处理这些缺失信息方法主要有以下两类:一是删除信息的方法,即在存在信息缺失的事件中,将存在缺失信息的事件从事件集合中删除;二是数据填充方法,该方法用一定的值去填充缺失值。第一种方法简单易行,可以得到完整的事件信息集合,但是删除了可能会丢失大量的事件信息,尤其是事件集合中该事件较少的情况下,会丢掉信息;第二种方法通常基于统计学原理,根据决策表中其余对象的分布情况来对一个缺失值进行填充,目前有机器学习和统计学两方面的研究。在文献[10]对几种不同缺失值的比较中已经做了三个实验,结果第二种最好。

根据香农信息论中的信息增益的概念,数据集中各属性之间是存在着一定的关系的,当某一个属性发生数据丢失时,我们可以根据与这个属性关系密切的其它的属性来预测未知值。因为缺失值的填充是数据预处理中的重要任务,填充后的完整数据集将被用于后续的分析及事件融合。

本文提出基于统计的缺失数据填充算法。算法主要思想为:

设由事件的各元素组成的数据集S的属性集A为{A1,A2,…An},设属性集中Ai 为缺失值,那么通过其它的属性集的在句子中的组合出现,即可获得Ai的候选集合,以候选集合中出现的次数作为其权值。同时根据统计可以得到缺失值往往在一些固定的地方可以取得,具有一定的概率,则最后的权值为:

$w = \max \sum_{i = 1}^{c} (S w_{i} + C w_{i})$ (1)

其中,c代表通过别的属性组合在缺失值处出现的取值个数,Cw为取值C的个数,而Sw为C在句子中的位置及取值情况,Sw的取值情况通过对语料进行统计获得:

从H1N1主题的1000篇文档中随机选取460篇文档进行事件抽取,

若缺失值为时间信息,通过表1中统计的情况,我们制定以下规则:

1) 若句子是标题,或者是各段段首句,则以首段首句的时间作为其时间信息,并设置该值的权值为0.9;若首段首句无可用时间信息,则以新闻报道时间作为其时间信息,并设置该值的权值为0.8;若没有新闻报道时间,则以新闻发布时间为其时间信息,并设置该值的权值为0.7;

2) 若句子是段落内句子,以其前面与之最相邻的句的时间信息为其时间信息,并设置该值的权值为0.9;若无,则以段首的时间为其时间信息,并设置该值的权值为0.8;若无,则以首段首句时间为其时间信息,并设置其权值为0.7;若无,则以新闻报道时间为其时间信息值并设置权值为0.6;若无报道时间,则以新闻发布时间为其值并设置权值为0.5。

3) 若缺失信息是地点,通过分析语料并人工统计,对于表2中缺少地点信息的事件进行分析结果如下:若以标题的地点为该事件的地点元素,其权值设置为0.9,若没有,可以将报道信息的地点为参考点,其权值设置为0.8,除此之外,可以新闻来源的地点为其信息值,并设置权值为0.7;若干地点取前面最近一个句子的地点,其权值设为0.9,否则设置段首的地点,权值为0.8;别的地点首段开头的地点为准,或者是标题的,或者是新闻来源的,其权值为0.6。

1.2 元素规格化

1.2.1 时间信息规格化方法

本文通过时间词典及规则相结合的方法进行时间信息规格化处理:

1) 语义词典构建要想对时间信息进行规格化,首先应该识别这些时间词语及这些时间词语的外界约束信息。因此本方法通过收集时间表达式中的时间词,时间副词和介词等建立相应的语义词典。时间短语词典,收集了时间表达中常见的时间词和短语,如:“昨天”,“今年”“今晚”“如今”等,时间短语识别时直接进行匹配即可。边界信息词典,对于可能触发一个时间短信的前后边界词语、与时间短语有着紧密搭配的词语进行了收集,这些词语作为时间短语的外界约束信息。如:“左右”、“之际”、“截至……”、“……为止”、“自从……”、“从……开始”等。

2) 模板规则生成目前,我们对时间短语的识别只采取了两个简单的办法:一是和词表进行匹配,另一是靠规则识别。模板规则根据时间表述形式用正则表达式的形式定义,本文采用的时间模板规则是在文献[11]提出的15种模板规则上,根据本文的需要,经过改进得到。

时间信息经上述方法处理后,所获得的时间表示可能有两种形式:一、绝对时间,可以直接对应到时间轴上;二、相对时间,如时间信息为“昨日”和“上月10日”则经处理后得到一个相对偏移量“-1日”和“-1月10日”。这类时间需要通过和参考时间进行计算才能对应到时间轴上。

经过分析发现,相对时间一般都以文档的报道时间为参考,因此本文将报道时间作为参考时间。若无报道时间,以新闻发布时间为参考时间。通过参考时间与相对时间的计算将相对时间转化为绝对时间,同时为了后续的事件融合将该方法得到的时间信息的权值设置为1。

1.2.2 地点信息规格化方法

目前对空间短语的规范化处理研究的很少,但空间信息和时间信息一样,是构成事件的重要要素。本文研究的是甲流H1N1病毒方面的事件,主要报道一些新增病例、确诊病例、死亡病例、接种疫苗等几类主要事件。这些新闻报道事件基本上都是针对某一个地方进行报道的,因此事件基本上都有地点这个事件元素,但鉴于中国地方大,地名较多,很可能存在同名的地方,如果能将地点信息隶属的几个行政级别按顺序罗列出来,能够更清楚知道事件发生的地点,去除事件中冗余的信息,同时为融合后的事件能按地理级别进行层次化组织提供方便。

通过对语料分析,本文借助互联网上谷歌地图提供的接口,将事件中的地点信息统一化,比如沧浪区,会统一化为中华人民共和国江苏省苏州市沧浪区。这样含有地点元素的事件将很容易的按所在的区域组织在一起,方便用户查阅,同时可以去掉一些冗余信息,比如:

事件A:2009年2月1日苏州新增一例H1N1疑似病例;

事件B:2009年2月1日沧浪区新增一例H1N1疑似病例。

经处理后会发现这是同一个事件,可以保留任一个,去掉重复的冗余事件。同时若统计苏州一周内的H1N1疑似病例情况,可以通过统计下面数据得到结果或者验证两者结果是否吻合来核实数据真假。

1.2.3 数字规格化方法

数字在事件信息中常出现一类实体,包括货币、百分数和纯粹的数字。数字信息往往是人们在整个事件中比较比较关心的信息。如:H1N1事件中的新增人数、疫苗注射人数不清等。

数字在文中的表现形式也具有多样性,如大小写等。本文根据数字表述的特点,采用自定义模板的方法,对数字进行规格化。

首先是将大写的数字统一转化为小写的,然后对不同类的数字以相应的形式表示:第一类是确定的数字,以“数字/量词”的形式表示;第二类是约数,以“基准数字/浮动方向/量词”的形式表示,其中浮动方向以“+”“-”表示。如:“至少10人”可规格化为“10/+/人”,“大约100”规格化为“100/+-”;第三类是其它数字,由于只有数量级,因此本文对其中的数字表示为“X/若干个0/量词”的形式表示。如:“数百人”表示为“X/00/人”。

1.3 辨别事件真伪并进行修正处理

目前中文事件抽取,主要是面向动词进行的,而对于动词,前后添加一些助词,副词或者动词等将会改变整个事件的意思。比如:

5月/t21日/t [泰国]/LOC /n甲型/nH1N1/x流感/n确诊/v病例/n增加/v到/v16/m例/q。

5月/t21日/t [泰国]/LOC /n甲型/nH1N1/x流感/n确诊/v病例/n增加/v了/u6/m例/q。

相同的事件类型,除了数字以外,各个事件元素结相同,会造成歧义,误认为其中一个是假事件,从而影响了事件的准确性及完整性,使事件不能正确的表达它原有的意思,对于后续的事件融合带来麻烦。

同时,对于不同的事件类型,也有可能会出现相同的类型,比如,对于确诊事件类型:9月/t25/m号/q[江西]/LOC /ns新/d确诊/v了/u92/m例/n甲型H1N1流感/n确诊/v病例/n。虽是属于确诊类事件,但是“确诊”前面加上“新”,也可以作为新增病例事件。因此,为了事件更全面、更准确,应将事件放回原句子中,通过定义相应的规则,扩充触发词,让事件合乎汉语语义要求。

1.4 过滤同文档内的相同事件,去除冗余

同一文档内,往往会有重复事件的出现,比如文档标题出现的事件,在正文中一般会再重现,如果不作处理,留待事件融合等工作去处理,将会增加融合的工作量。标题中往往会存在时间不明确,极个别有地点不明确的情况,而在下文中一般会有具体的事件介绍,所以在设置好权值后将权值高的留下,去掉权值低的元素,不仅可以减少很大一部分冗余,同时也可以完善事件,有利于和别的文本中的事件进行最后的聚类融合处理。

2 实验及分析

本实验是从中华网、搜弧网、腾讯网、网易网、新浪网等几大门户网站上抓取了2009年11月份和12月份的所有关于H1N1的文档资料,共1000篇,通过人工分析修改,进行实验。

在这1000篇资料中共抽取出876个新增事件,人工统计共有262个不完整事件,在此不完整事件是指事件缺少时间或者是地点信息的事件,而互指事件是指存在多个指向同一事件的事件描述,事件种类数是指这些互指事件所指向的事件数,其余事件是指不存在互指事件描述外的事件,具体语料情况如表3所示。

在对表4的实验结果分析可知,在对地点元素进行填充时,因底层预处理如分词,命名实体识别,指代消解的级联错误,无法正常识别出正确的地点信息,而在新闻报道及来源等处又不出现需要的地点信息,甚至通篇无地点信息,即该地点信息无法找到合适的值填充;而在时间信息填充时,由于一些模糊的时间表达,无法正常处理这些信息。

在对表5的实验结果分析可知,在用规则来辨识事件真伪时,由于领域知识有限,不能穷尽触发词的所有可能搭配,致使有些事件无法还原真实的情况,同时对于还原后的事件仍需要在后续的事件融合时才能根据一定的融合策略确定真伪。

在对表6实验结果分析可知,在对事件进行必要的预处理后,在同一文档内去掉冗余的事件数占到11%,充分说明利用该方法可以很好地为后续的事件融合服务。

3 结语

本文对抽取出来的事件,先进行元素规格化处理,不仅统一化了事件元素,同时对于缺失事件元素的事件进行填充,防止有用信息流失,其次通过规则来辨别事件真伪,最后对同文档的事件进行冗余事件过滤。通过实验可以发现,事件能够很好地被预处理,同时本文方法可以很好地完善事件,修改歧义的事件信息,去掉了同文本中的相当一部分冗余信息,也让留下的事件信息内容更丰富、更全面。后续工作是在本文基础上,进行事件融合,方便用户查阅。

参考文献

[1]周文,刘宗田,孔庆苹.基于事件的知识处理研究综述[J].计算机科学,2008,33(2):160-162.

[2]赵妍妍,秦兵,车万翔,等.中文事件抽取技术研究[J].中文信息学报,2007,22(1):3-8.

[3]Ann D.The stages of event extraction[C]//Proceedings of the Work-shop on Annotations and Reasoning about Time and Events,2006:18.

[4]于江德,肖新峰,樊孝忠.基于隐马尔可夫模型的中文文本事件信息抽取[J].微电子学与计算机,2007,24(10):92-94.

[5]姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98.

[6]马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23.

[7]Zhou Guodong,Su Jian.A High-performance Coreference ResolutionSystem Using a Multi-agent Strategy[C]//Proceedings of the 20th in-ternational conference on Computational Linguistics,2004:522-528.

[8]Li J H,Zhou G D,Kong F,et al.Hierarchical parsing with MaximumEntropy models[C]//International Conference on Chinese Computing(ICCC’2007),2007.

[9]Zhou G D,Kong F,Zhu Q M.Context-sensitive convolution tree kernelfor pronoun resolution[C].IJCNLP’2008.

[10]刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150.

信息采编处理应用篇5

大家好，我叫窦雨佳，来自中国体育报，做了多年的记者，可能之前跟在座的很多老师一同出过差，做过采访。从去年开始，我所在的中国体育报承担了国家体育总局政府网站的采编部工作，由我来担任采编部的负责人。

简单介绍一些采编部，这个部门是在总局办公厅指导下，在信息中心和中国体育报的管理之下开展日常工作，我带着4个“90后”小朋友一晃干了一年多。采编部主要的工作内容，是生产信息，这个信息包括整合来的信息，比如说体育报的信息、华奥星空的信息、新华社的信息等等，因为签署了合作协议，我们将这些来源的、适合在咱总局网站上刊发的信息，进行加工处理并发布。在咱们总局政府网站上，有一个一级栏目“今日体坛”，这个是我们在尝试与一些商业媒体的体育频道PK的栏目，很多次碰撞当中，不管是拼独家，拼深度，还是拼速度。

同时，采编部也会主动去采集信息，比如到一线去采访，有时候是总局各种活动，我们到现场采访拍摄，有时候是下队，直接和教练员、运动员沟通，有时候是到资料库中进行统计整理做出资料类的信息，另外还有一块重要的信息采集方式，那便是每个月一到两期的“在线访谈”，现在已经完成了17期，邀请的嘉宾包括总局群体司司长刘国永、青少司司长郭建军、经济司司长刘扶民等等，还有田径中心、武术中心等中心的领导等等。

咱们总局网站的“在线访谈”越来越走向正轨，记得第一期时，访问网友只有100多人，还好多是托儿，包括宣传司司长张海峰当时都当了一回网友，提了不少问题。那么现在，每期在线访谈，网民数量，最高一期，访谈一小时里，万余人造访，提出的问题也超过100个。一些项目中心的嘉宾在访谈结束后，会让我们帮忙把网友的全部问题收集起来打印给他，以方便他思考与决策。

除了在线访谈之外，采编部还会协助信息中心网站部做一些大事的专题栏目，譬如去年的伦敦奥运会专题，被国务院的“中国政府网”列入其首页……点击“中国政府网”首页，相对醒目的位置就会发现咱们总局网站的奥运专题链接。

今天很高兴，能在美丽的海埂，与大家一同交流。我接下来要谈的这些，都是在日常工作中摸索学习得到的点滴经验，不一定都对，希望能起到抛砖引玉的效果，能给大家带来一些灵感与思索。如果在我讲述当中，您有什么问题，可随时打断我。

今天我想说说四个疑问，看看能不能通过我举的例子与分析，来解除这些疑问。第一个疑问——信息怎么处理？第二个疑问——信息如何有魅力？第三个疑问——信息怎么利用？第四个疑问——危机怎么消除？相信大家在日常，都会遇到这些疑问。我的讲述，侧重于对外对百姓公开的政务信息，读者主要是网民，当然了，给领导上报的信息，领导也是百姓，其实都应该是触类旁通的。

第一个疑问：信息怎么处理？

我们每天都在和信息打交道。公文、会议、比赛……甚至手机天天接到的那些“法院传票”、“开假发票”、“找洗头妹”……还有微博、微信里转发的一个个小故事、一张张图片、一段段视频，甚至八卦、花边、荤段子……这些都是信息。那么，我们是信息员，从理论上来讲，我们的工作范围是无穷大的。

但是政务信息，多了“政务”俩字，性质就有所不同了。简要来说，它应当具备鲜明的政治性、广泛的综合性、高度的真实性、极强的指导性、突出的内部性、严格的时效性和科学的前瞻性。这是有人总结出的这样七条性质。但是，即便是七条全都占据，也不能简单地理解说，好的政务信息就应当是新闻联播、人民日报里的那样的腔调……其实，这是一种狭隘，是一种惯性思维。我认为，即便是政务信息，也能生气勃勃。我认为，转文风，首先就应当转变政务信息的文风。

特别是我们的体育政务信息，因为体育是充满活力的，我们的体育界很多领导干部官员又都是运动员出身，按说，我们的信息也应当充满活力，充满体育的特色，能够给社会无尽的“正能量”。所以我想，在我们做信息工作的时候，能不能首先想一想转变思维、创新思路。这样，在信息、编信息的时候，也多了一分创作的美妙感受，而且写出来的信息，读者爱看，特别是能给决策者眼前一亮的感觉，何乐而不为呢？

信息到底应该怎么处理？在去年的培训班上，我着重说的就是“采编技巧”，现在不妨简要来回顾一下，在去年的基础上，我作了一些调整和修改。中央有八项规定，我总结信息采编有“八要八忌”，或者说“八要八不要”。先来说说这八要。

八要——

①发布要及时。如果不及时，恐怕后果很严重，体育总局有过教训，包括我在内也被牵连进去。去年2月，刘鹏局长到西沙慰问官兵。本来是非常正常，并且值得赞扬的一件事情，但是因为当时没想那么高调，就没有及时发布消息，反倒被一个西沙上的网友抢先发了一个给他自己脸上贴金的微博，惹来了大面积的转发，说刘鹏局长到西沙钓鱼去了。当时，他刚刚从西沙回到北京，网上已经不可开交了，当时我被叫到总局，写一篇客观、正面的消息，很快写完了发布了，谁料结果没有想象中完美，因为舆论或者说谣言，总是具有抢占先机的效果，网民已经不相信了。更有甚者，因为文章署名是我，好多网友人肉了我，发现我的微博上，写了一些当时杭州站一场田径比赛的信息，质疑我说当时应该在杭州，怎么就跑到西沙去了？骂声一片，包括一些反动网站跟着煽风点火……到现在，一年半了，那些质疑的微博还都可以搜到。

这个惨痛的教训，得出一个结论——发布一定要及时。我们要满足人民的知情权，把事情客观及时地告诉读者，这是必须要尽到的义务。特别是一些敏感类信息，比如说领导活动、人事任免……有人在盯着呢，他们唯恐天下不乱。想办法督促领导，及早发布这些信息。至于一般的、不痛不痒的信息，也尽量别拖，养成一个好习惯。②说完了及时，不是说抓紧时间上传就万事大吉了，关键第二个“要”——把关要严——大家都是信息员，虽然有领导会审稿，但文责终究是自负的，所以咱自己一定要绷根弦。特别是，现在从体育总局政府网站来说，一般发稿8分钟以后，搜狐、人民网等会第一时间转载，其他网站纷纷跟上，如果发错了一点，后果不堪设想，所以咱要把关口前移。

把关这个环节，很容易就被忽略了，一方面是字词、语法的错误，要小心；另一方面就是基本的数据、事实，别出错；还有一方面，就是一定要紧贴社会的脉搏，信息把关，务必不要出原则性的问题。可能有些时候，无心的一条信息，引发社会的蝴蝶效应。特别是今年是全运会年，形势非常严峻，届时，一定是骂声一片，我们现在要提早做文章、做预案。

（举例子）

③内容要实——杜绝假大空，杜绝政府性的说教。特别是现在中央有八项规定，要改文风，说文风即党风。所以信息千万别穿衣戴帽，罗里吧嗦。

内容实在，首先标题得实实在在，有时候一个好标题，比一篇好文章重要，就好比人的眼睛。不要太虚，而且要规范，18个字原则。会做标题，犹如会写诗。像我在报社做编辑，有时候一个标题能琢磨20分钟。大家好好积累，每天看一看权威报纸的电子版，做个摘抄和记录，积累灵感。

内容实在，还要有导语要精，文章要短，结尾不拖泥带水、高唱赞歌、大声号召……应当见好就收。而且还得善用直接引语（举例子），特别是领导的话，引用的时候，一定得引——言之有物的东西，得让他的话，说到点子上。

内容的实在，还得包括要素必须齐全——我们要报送的政务公开类信息，有一个目的，那就是充分满足读者的知情权。时间地点人物事件等等，特别是人名别漏、职务别错、数字别乱……一万个小心，不要给居心叵测的读者留下把柄。（举例子，领导人漏了一个，张海峰，吴齐、肖天……）④第四个要——定位要准。立足大局，围绕热点工作，而且，你信息的读者，你要有一个定位。这里明确一点，信息不是发得越多越好，豆大点事儿，频繁发，往往事与愿违。比如总局网首页的总局动态，每天有许许多多根本不适合在这里刊发的稿件出现，大家的发稿积极性值得肯定，但可能有时候热心肠给总局帮了倒忙。比如，曾经删过某基层单位农家乐的稿件。幸好删了，不然网民一旦发现，唾沫星将会淹死我们。定位要准，必须围绕大局的热点工作。而且必须有读者意识，很多信息，看起来就是工作总结，没有任何看点。枯燥乏味，自己写的都不愿多看一眼。写的时候，时刻抱着一种诉说的口吻，仿佛有人在听。

⑤第五要，立意要巧——挖掘闪光点，追求有效阅读率。其实说白了，中国各级政府都欠缺活动，活动也好，工作也罢，都是不那么令人感到激情。所以，信息很容易就枯燥甚至千篇一律。这里需要有一种“炒作”的意识（这个待会我会举例子）。

⑥六要就是——格式要对。细节决定成败，视觉上的舒服，从一开始一定要规范，政府网近期也在如此。这不仅仅是工作，新闻的经常说，文字决定人品。咱可以不求多撒，但一定注意格式。字体大小，行间距，包括开头空两格，标点符号的正确使用……一定要对。

⑦图片要精——拍照本身要好，文图搭配要妙，图片说明必不可少，现在读图时代，一张考究的图比十篇文章更有说服力。如果领导照片，务必注意形象。有一些特殊情况的，最好跟领导沟通，请他直接把关。比如，领导头发稀少，不爱抬头，不爱笑……还有经常看到图片不知所以然。因为没有图片说明，你说图都拍了，干嘛不多写两句？（举例子）

⑧形式要新——-虽说是公务信息，但可以不拘一格——不要拘泥于冷冰冰的形式，可想方设法创新，画个图表、添个照片甚至添个链接。

下面，我们回顾一下这八要——把关要严、内容要实、要素要全、定位要准、立意要巧、格式要对、图片要精、形式要新。

除了这八要，还有八忌，我简单说一下—— 一忌面面俱到。不要总担心说得不够全面，把摊子铺得太大，在大问题套小问题，小问题里还套小问题，十分繁琐。

二忌形容词太多，语言不够精练。

三忌穿鞋带帽，入题太慢。比如“为了迎接……，为了……”（找个典型的例子）四忌缺乏必要的背景交代。有些信息需要交代背景，否则，有时会使读者搞不清楚信息的实际价值。

五忌结构不合理。一般情况下，信息是把主要事实放在前边写，然后再写过程或原因、提出建议等，以适应领导工作的需要。否则，把原因和结果混在一起写，原因中有结果，结果中由有原因，就会使人读后理不出头绪，不知所云。

六忌详简不当。空话一定要少而又少，比如经常说，“加强领导”，“组织到位”，……设计这样的话语内容，少点吧。

七忌使用语言和标点符号不准确。

八忌技术规格不够规范。在编写信息时，引用人名、地名等名称时不要随意简化；所用字体、统计数字、计量单位等也要规范。

第二个疑问：信息如何有魅力？

信息的处理绝不仅仅只是这“八要八不要”能说得清的。特别是，我们现在处在一个信息量爆炸、民智不断开启、百姓仇富仇官、中央在竭力修补民望的时代，在这样一个很特别、很艰巨、很难缠的时期，做政务信息工作，必须要有创新性的思维，甚至可以说，如果再要“不求有功但求无过”，可能不一定能高枕无忧。

我们经常在浩如烟海的政务信息当中疲惫、迷失甚至崩溃，为什么？因为很多信息没有价值，还有很多信息只有价值，但缺少魅力。魅力在当下很关键，彭丽媛的魅力，给中央增色不少，这是有目共睹的。她以第一夫人的首次亮相，使得当晚新闻联播的收视率破了纪录。

价值和魅力到底有多大的距离呢？其实就是一个转身的问题，就是角度的问题，很近，如果不转过身来，不把这个逻辑屡顺，你的价值不能转化为吸引人，感染力，引导人真正有影响力的魅力。

举个例子，魅力和价值之间的区别。十几年以前，美国导弹者航空飞机升天发生爆炸，在场所有相机的镜头转向爆炸的飞机，只有美联社的记者，把镜头对准了看台上一张一张惊愕的，茫然的，痛苦的脸庞。这一组获得国际新闻摄影最高奖。为什么这组照片，被视为是最有价值，最有魅力的一组照片呢？因为所有拍航天飞机爆炸的照片，最多只是对重要事件的记录而已，而这组照片是把一个重要事件在人们心里，人们情感，人们生存状态当中所撞击出来的巨大的痛苦的反映，用一种生动的淋漓尽致的方式呈现出来，这就是把一个事件放之于人的感受，人的生活，人的灵魂和人的关系关联的那当中去加以呈现。这是一种魅力产生的原由。

换句话说，政务信息之所以有价值而没有魅力，是因为在我们表达当中只有一件事情，只有一项政策，只有一个做法，没有把这个政策，这个做法，跟老百姓的感受关联在一起，没有从老百姓的感受的角度，去呈现，去解读这样的事件。因此让人们觉得是以物为本的呈现方式，而不是以人为本的呈现方式。

马克思在一百多年以前就讲过人的全部本质在于全部社会关系的总和，这句话对我们来说至今有它的经典意义，就是要想表现对人的价值，对人的影响力，必须呈现在人的联系当中，以人为中心去呈现我们这项政策，我们的这个做法，我们的口号，这就是关键之所在，要目中有人，这样我们写出来的东西才是有影响力，有魅力的。

为了能让我们的信息，有魅力，我也总结了四个意识——分别是“百姓意识”、“导语意识”、“淘宝意识”、“政治意识”。如果干说，可能会比较空洞，我尝试多举一些例子。

首先来说说“百姓意识”。我们一提到政务信息，常常引用一个概念叫讲政治。对于我们的工作来说，讲政治最为重要。但是讲政治意味着什么？我们可能有很多的理解，但是我可以引用毛泽东在50多年以前的一次讲话当中所提到，他说什么叫政治，政治就是把尽可能多的人拉到自己的身边来，这就叫政治。什么叫政治上正确，政治上正确永远跟大多数人站在一起，这就是政治上的正确。

只有站在一起，你说的话才有一种同舟共济患难与共的感觉，这种立场，情感的一致性，信息的真正影响才能彰显。所以，我们要有“百姓意识”。

今天我们的民望到了历史上比较低的低点上，要想恢复，首先一点要跟老百姓站在一起，在政治上表现自己的正确上，你说的道理才被人们某种程度上接受，这是特别重要的问题。

特别是体育界，实际上在承担着社会“出气筒”的责任。小到球迷到赛场呐喊释放甚至说脏话，大到一次奥运会上不知原因的摔倒、一场名师高徒之间的矛盾能引发百姓波澜壮阔的口水袭击。可以说，体育很可怜，他很特别，虽然不那么直接关系国计民生，但却是社会的敏感点。所以，我们很被催，没准一条信息不妥当，引来了骂声连连。比如说，各别省份在报送的信息中，说我们目标全运会多少金，我们给冠军奖什么样的奖品、宝贝……哪壶不开提哪壶。

所以，要有“百姓意识”。这一点看起来很虚，很不好把握，其实这就是一个原则的问题，要时刻绷在心里。具体怎么做，首先，缓和话语方式。

今天的时代，必须要有所改造。新的社会格局，尤其是数字化媒介，使整个社会日益碎片化，社会群落日益丰富，这种挑战，对体育部门的挑战，对信息工作的挑战，不仅仅是中国，对世界来说也是同样的。所以我们看到，西方也在不停地改变，比如美国总统奥巴马PS了自己的照片，假发照，吸引了很多人关注，但没有人骂他。传播学有一句特别重要的话叫——人最关心的就是他自己。这句话听起来好像很自信，这确实是真理。

你在写信息的时候，能不能转换一下思路，与百姓产生关联。有一次，胡锦涛到人大与青年学子交流，散了场之后，很多学生打电话给亲朋好友，说，一定要看晚上的新闻联播。为什么要看？因为他们说，在台下黑压压的人群中，没准儿能看到我。所以，这样一条信息，因为与部分人产生了关联，而成为香饽饽。

我们的信息或许没有这么极端，但也应当有所注意。也不是说条条信息都能牵连到百姓，关键还是“百姓意识”，能有百姓有百姓，能切中百姓的关心点，如果实在联系不到百姓，那就用百姓能接受的话语来说，而不是官腔官调，开完会了，写出信息让读者跟着开会。

第二个意识是“导语意识”，我先来举一个最新的例子，这个例子既说明“百姓意识”，又说明“导语意识”。

看一看交通运输部今天早上发布的一条信息，标题是：我国第一列跨省轻轨列车空载试运行，听一听它的导语。

日前，我国第一列跨省轻轨列车空载试运行，从上海开出的红白相间的列车缓缓驶进江苏省昆山市花桥站，由于采用低噪声、低振动、环保型的材料，行驶噪声很小，仅相当于一辆小汽车发出的声音。列车正式运行后，乘坐轨道交通，从昆山花桥到上海西站只需40分钟。

这条信息，除了“日前”——这样一个时间要素表示不明确之外，其他都非常不错。特别是，用了比喻的方式说噪音小得和小汽车差不多，另外把运行时间40分钟说得清清楚楚，这都是老百姓所关心的，而且，这些要素在导语中体现出来，非常不错的导语。

导语很容易被写作者忽略，其实虽说这是一个新闻的概念，但是导语在我们政务信息当中，同样非常关键。首先，导语不能太长，刚才我举的例子，导语只有119个字，算是可以的，而且要素齐全。我们经常看到一些信息的导语，吼长吼长的。导语是什么，导语是引导读者往下看的文字，如果你上来就让人反感，谁还往下看？即便是大型的、综合类的信息，也同样应该有导语。再来举一个例子，这是2010年上海市政务信息一等奖的作品，标题是“尖峰时刻浦东彰显‘亮剑’精神”，说的是上海世博会期间，浦东区的城市运行能力受到肯定，这是一篇唱赞歌的信息，但没觉得空洞，听听它的导语——

上周六，世博园共接待103.27万人，创历史纪录。上周日，入园总人数达74.49万人。昨天，世博原入园人数已达62.27万人。连续三天的超大客流，不仅考验着世博园区本身的运营，也考验着作为三分之二场馆所在地——浦东的城市运行能力——新区领导坐镇核心区配套工作指挥部，浦东各部门第一时间启动应急预案、跨前服务，广大志愿者热情参与，沉着应对高难度考卷的背后，是浦东城市机器的高效运转和机器“操作手”们的能力提升。

这个文章很长，但是导语很明确。其实好的导语，把事儿说明白了，让读者看完导语，文章就成功了。将心比心想一想，现在没有太多人有耐心读很长的文章，看报纸，谁会每篇文章从头读到尾？所以，这就要求我们应该有强烈的“导语意识”。

第三个意识——“淘宝意识”。可能在座的各位都用过淘宝买东西，可能很多次消费，都是被卖家的宣传语、广告词所忽悠而产生的。对于我们的信息工作来说，这个“淘宝意识”，包含两方面内容，其一，我们得具备“淘得宝贝”的能力，其二，我们得像一个商贩一样，知道我们要写的信息的卖点何在，把我们的信息以及信息背后的目的和动机，推销给读者。

很多信息员抱怨说，平常工作四平八稳，没有什么亮点，上哪去写信息？在这里我想首先念一段顺口溜，是有人总结出的15条信息采集途径，通俗而又生动——

文件堆里挖信息；会议之中捕信息；参与活动追信息；

翻阅材料筛信息；联系上下摸信息；重大事件抢信息；讲话稿中捡信息；深入基层拾信息；关注新闻抓信息；领导口中理信息；掌握规律掏信息；情况反馈传信息；跟踪问效知信息；与外联系通信息；利用网络选信息。

这段总结尽管在一些方面不严谨，但实际上是说明了一个道理，就是：信息就在我们实际工作中。只要我们将信息工作与实际工作紧密结合，就会找到取之不尽、用之不竭的信息源泉。

我举三个例子，第一个，北京时间2012年8月7日晚，伦敦奥运会体操最后一天比赛，中国姑娘邓琳琳收获平衡木金牌——这是中国体育代表团在本届奥运会上的第33枚金牌。如此收获，创造了我国境外参加奥运会的历史最好成绩。很快，总局政府网站发出了这样一篇宏大的信息“以优异成绩书写中国竞技体育崭新的篇章——写在中国体育代表团取得境外参加奥运会的历史最好成绩之际”，这篇文章被转载无数，中国政府网也都放在了醒目位置转发。可是它听起来洋洋洒洒，其实，这篇文章非常简单，就是把中国健儿历届奥运的突破回顾了一下，用一种相对浩浩荡荡的笔法来写出，如此以来，一个新闻点，引出了一大篇信息文章。

没有新闻的时候，也可能出好信息。就在刚才说的这篇文章发出的同时，总局政府网又发出一篇信息——全国各地今天共迎第四个“全民健身日”。其实，我们一点一手的信息都没有，就是通过各地的情况介绍，总局的通知规定，权威媒体的报道，摘编出了一个归纳性的信息，也是被广为转发。

再举一个例子，上个月，广东肇庆，全国田径大奖赛第一站的第一天的中午，北京的小伙子张培萌以10秒04刷新全国男子百米纪录。当时，第一个发布信息的，也是咱们总局政府网站。咱们并没有去人，只是盯着赛事成绩的网站，出了成绩之后，马上联系了身在当地的朋友，确认没有异议，马上发布，瞬间就被转载。按说，这样的事儿，应该是报纸、电视、通讯社去抢的新闻，但他们却走在了政府网站的后面。

我举这三个例子，是想表达，其实我们体育圈，有丰富的素材，有老百姓喜闻乐见的东西，有中央也需要利用的东西，我们不愁没宝贝可淘。

但也有一个情况，在座的各位，或许大多数都是兼任信息员。可能会经常碰见别的业务部门发来的公文、通知之类的材料，让编发信息。如果很挠头的素材，真没什么内容，那也不要怕，时间地点人物事件等等，用最简约的方式套一下编出来即可。或者给他们一个有血有肉的好信息，让他们看看，也督促一下他们的工作。

这是“淘宝”的第一点，先淘素材。第二点，有了素材，怎么卖？首先，牢记这样一条，宣传工作有一句行话，叫作“紧跟上头，摸清下头，握紧拳头，快打快收”。信息工作与宣传工作有类似之处，吃透上情，摸清下情，是做好信息工作，更是搞好信息写作的前提和基础。作为信息写作人员就要把领导的意思作为第一信号、第一选择，深刻学习和领会上级部门重要文件和会议精神，熟知上级部门的工作安排以及上级部门刊发的各种信息载体和特点等等。了解上情的方式有很多。你可以打电话、从公文处理中查询上级发文、还可以看电视新闻、报刊杂志新闻等方式来了解上情等。得想到领导前面，在他不知所云时，你已经想好了各种语言，自然会受到肯定。

同时，写信息也要反映基层贯彻落实上级部门工作整体部署情况、反映基层呼声的过程等，如果不注意了解基层的情况，写信息时就会“手中无粮，心里发慌”，或“失之毫厘，差之千里。”我感觉，这一点相当重要。

在吃透两头的基础上，开掘出“卖点”。开掘“卖点”，得知己知彼，得经常看看人家的信息，好在什么地方。必须经常看。涉猎要广，跳出体育看体育，得能知道自己要说的事，和社会大众能有什么关联。可以看看别的部委的网站，新闻综合类网站，甚至国外一些政府的网站。

比如说，前些日子，奥体中心的“进京建设者”运动会，反响不错，它的卖点就在于“进京建设者”，虽然说这个名字有些不明确，但通过信息的引领，就给掰正了。

再比如，航管中心有纸飞机大赛，这就是很大的“卖点”，看起来简单至极，实际上蕴含着无穷的科技，对于青少年的身心健康，对于他们的科学启梦，都非常有帮助。

信息中的“卖点”，既要发现活动本身的卖点，有时候还能无中生有地“炒”出卖点，影响决策，当然是好的一面。特别是在如下的一些领域，公共体育建设、全民健身、运动员退役保障……这些话题，既有望成为热点，又能够给我们体育部门脸上争光，所以，不妨长期关注并挖掘。要与业务部门经常沟通，要主动向他们了解近一个时期的工作情况，共同探讨一些政策执行中容易出现的问题，从中发现搜集“卖点”，像公关公司一样协助他们做好信息公开。如果没有大块头的东西，可以一个点一个点来说，一个人一个人来写，写进读者的心坎儿。

不知大家发现没有，现在体育界还很欠缺真正的榜样，那些体坛明星，难逃各种负面新闻，成不了榜样。但实际上，体育界里好多榜样，关键看有没有发现。我们曾经刊发过好几例好人好事，比如运动员下水救人，运动员拔腿把小偷追得俯首称臣的……这样的好人好事，其实就是很不错的信息。

第四个意识，想说说“政治意识”。在中国这样一个国度，我们从事与政府相关的工作，必须通过各种方式了解国事、了解政治。中央的各项新政策、新讲话，也许在很多人眼中，可能是官话甚至套话，但实际上，吃透了它们，其实会影响到我们的决策。对于信息员来讲，我们务必要成为“小灵通”，日常加强研究。

比如说，最近持续关注的“中国梦”、“青年梦”，我们体育人能做哪些文章？再比如说，最近日本很猖狂，咱们体育界涉及到日本的话题是不是应当有所注意？

既然选择这条路，讲政治是责无旁贷的，不妨以人民日报为准绳。他们现在也在变，可以是我们的一个准绳。

刚才提到了这样的四个意识，“百姓意识”、“导语意识”、“淘宝意识”、“政治意识”，希望能给大家带来一些思考。

接下来，我想说的——

第三个疑问：信息怎么利用？

这里包括两方面，首先，用信息推动决策；其次，用信息助力自身的成长。

推动决策，这块内容或许有点大，但实际上，历史上曾有无数这样的例子。比如，当年二战期间，好多德国的对手国，请占卜师，也就是风水先生，散发希特勒要死的预言，给希特勒的心理造成了很大的阴影。这个有点像是戏说，但实际上，可以彰显出，信息的威力。

信息工作，不是简单的写条信息再发布，信息化实际上外延很大，日后如果能建立起有效的反馈机制，那么信息推动决策，通过信息，让民众参与决策，都是有可能的。

所以说，在做信息工作的时候，要加强策划，打好主动仗。这块就不展开说了。（举例子？）

刚才说了信息推动决策，我们要从心底里明白，其实信息这块内容，不是我们日常工作的配角，而应当是主角。比如最近火热的明星跳水秀节目，从策划之日起，就伴随着强大的宣传攻势，没有宣传，这个节目不可能是今天这个样子。

所以，这又就涉及到另一个话题，那便是，通过信息工作，来助力我们自身的成长。可能我说这句话，很不妥，因为我和在座各位老师相比，我资历很浅。但是我在日常生活中，切身感受到，信息，或者说我们手中的笔，其力量足够大，引导力也十足，如果做好了，对我们自身的进步是极有帮助的。我们不要错过我们唾手可得的一些机会。

我举个例子——鲁光先生，已经70多岁的老记者、书画家，曾经是中国体育报社社长，担任过体委宣传司的负责人。可能不少人读过他的代表作——报告文学《中国姑娘》，写出了袁伟民带领的中国女排之崛起，当时引起了轰动。而他在写这个作品的时候，他是宣传司的官员，纯粹是利用业余时间写出来的，成了他一生的一件大事，在新中国体育史上也留下了浓重的一笔。

我在想，我们是不是也可以有这样的追求？如果有兴趣的话，不妨利用我们的职务之便，留下一些东西。当然，这只是一个建议，笔杆子是有威力的，信息员一定不是信息的搬运工而已，这一点毫无疑问，练好这个本事，一定会对人生的很多方面有所帮助。

刚才我们也提到了，现在是一个仇官仇富仇名人的时代，任何一个小小的导火索，都有可能被民众点燃，而体育，是靶子之一。特别是它不涉及国计民生，真若是举国不搞体育，老百姓的日子不会有什么变化，所以体育很容易受伤。现在网络给每个人社会表达安装了一个麦克风，因此它对人们嘴巴的解放，导致了人人都可发言，人人都能成为传播者的新的社会格局，在这种格局之下，我们的信息工作怎么应对？

特别是今年，今天距离全运会还有115天，这个周末，竞走比赛就将率先拉开序幕。运动员紧张，体育部门更紧张，因为每到全运年，各类负面的东西会蜂拥而来。

所以接下来我要说的这第四个疑问，便是，危机怎么消除？

第四个疑问：危机怎么消除？

面对突发公共事件，怎么发布信息？有学者曾经总结出，面对危机，有的政府像鸵鸟，把头埋进沙子里，用很滑稽的方式逃避危机，但却事与愿违；有的政府像泥鳅，滑溜溜地让人捉摸不透；有的政府像袋鼠，把孩子塞肚兜里赶紧跳走；有的政府像壁虎，断一个尾巴，解决不了问题……

这些都不行，都只会火上浇油。正是因为曾经的能瞒就瞒，能骗就骗，能推诿就推诿，造成了社会信任的丧失，导致了今天在中国社会，在网上造谣的越来越低，辟谣的成本却越来越高。

那么一旦出现危机，我们应该怎么办呢？首先应当真诚面对，不要把任何人视为自己的对立面，特别是人民。然后做到这如下的十二个字——早说事实，慎说原因，细说道理。

早说事实，就是不管事态怎么恶劣，现在纸包不住火，先把情况客观说明，不然早晚会被人戳穿；

慎说原因，不是说不解释原因，而是情况危机，不要妄自作出判断和结论，更不要把这些早早说出去；

细说道理，就是仔仔细细把其中的道理说明确，利害关系等等。

不要怕，特别是谣言生成之时，更加应该记住，不要紧张。切记一点，在民意不能自动生成权力的时代，再人山人海的围攻，也只能实现效应而不是效益，或者说很难实现效益。

比如地震后的红十字会，虽然被人骂得一头狗屎，可是调查显示，它的捐款额还是基本没什么变化，这说明，网络上的舆情，特别是微博的舆情，未必就是真正的民意。

发生了危机再防控，治标不治本。为了做到防患于未然，我们平日里就要加强信息的工作——

第一，及时而又积极地推动政务信息公开；

第二，团结意见领袖，甚至于，我们自身有条件的可以踊跃到微博群中去发言；第三，建立预警常态化的机制，我们必须要绷紧弦。

而且，在日常的信息工作中，我们还必须得有些底线永远坚守，有些红线永远不能跨越。有些真话，我们不一定能够全部都说，但是底线是永远不说假话。这是我们的信息工作乃至政务工作的生命线。

文字、数据的信息图形化处理篇6

引言

信息图形设计是以信息的眼光看待设计.出现的所有图形都不是以装饰为目的.而是围绕着信息传播的，它以信息传播为出发点以图形为媒介发挥图形优势。由于生活节奏的加快，现代人进入了这样一个所谓的“读图时代”：人们更习惯通过浏览，而不是通过阅读来获取信息和感知世界。图形能不断刺激眼球，激发人们的兴趣和求知欲，这使得图的形态越趋于明显的多元化；

下面就从互联网页面中文字、数据这两个大的要素进行分析探讨。

文字信息的图形化应用

1.图标

图标是具有具有高度浓缩并快捷传达信息、便于记忆的特性，开始广泛地出现在网页设计当中。图标在软件界面的应用更为广泛，多数工具软件都会充分利用图标识别来引导用户如何操作。特别是针对一些常用的功能，用户看到图标后的反映速度往往比文字要快。网页设计中适当使用图形化的符号来表示各个信息模块链接，能以直观、快捷、易懂的认知感受，完成信息的传达。INTERNET之所以叫做“互联网”，在于各个网站之间可以联接。要让其他人走入你的网站，必须提供一个让其进入的门户。而LOGO图形化的形式，比文字形式的链接更能吸引人的注意。在如今争夺眼球的时代，这一点是至关重要的。一个好的图标往往会包含用户所需的基本信息，特别是对一个商业网站来话，我们可以从中基本了解到这个网站的类型，或者内容。

2.文章标题的图形化处理

研究发现随着生活节奏的加快人们会花极少的时间来阅读大段的文字，一般情况下，用户都是通过浏览的方式寻找能够吸引自己的标题文字，我们知道图形对于人的吸引力远远大于文字，那么把标题性的文字与图形元素结合起来，将对大大增强其吸引力，同时也会加深用户的记忆，增加趣味性。文章标题的图形化处理可以理解为把记忆性的文字表现成图形元素或者与图形元素结合，同时又强化了它的表达功能。

3.大段的文字运用图形进行结构化处理

在我们成功将用户的注意力吸引到这篇文章之后，那么怎么才能让读者耐心的阅读下去？怎么才能让读者更好地理解文中所说的意思？怎样让读者用更少的精力理解更多的意思又成了我们需要解决的问题。此时，如果我们能把大段的文字也整合成图形与文字结合的形式那毫无疑问将会很好的解决这一问题。

将文字以图形对待，能极大激起读者的兴趣。在每一段中插入相对应的图片，广告要素：图片、文字、色彩，都包括进去。把文章要表达的意思用图片进行分解。是读者清楚的看到每一部分的含义，同时生动的图形，绚丽的色彩以及合理的构图会给读者一种美的享受，摆脱阅读大量文字的枯燥。

在我们的感受上，当我看到一大堆文字的时候，就会感觉的“烦”；在一大片文字中不容易找到所需要的信息；同时文字长容易跳行读，产生错误。相反如果文字配图片，并适当的将文字图片化就会简单易懂，容易找到信息，同时极大的增强了趣味性；小段文字间距段，使读者阅读起来非常的方便。

数据信息的图形化应用

针对某些调查性的文章，文章里面涉及到大量的数据信息。当用户要从文字或数字表示的数据中找到所需要的信息时，需要对全篇幅的文章的全部数据进行搜索，繁杂的数据以及错综复杂的分布，往往会让我们大伤脑筋，稍不留神就会对文章的意思产生曲解。虽然某些电脑软件具有搜集数据的作用，但功用性还是差强人意。如果将各种数据转化成人们最容易理解和最直观的方式进行表达，将大大提高人们的浏览效率。数据图形化就能够很好的实现这一目的。所以说设计师根据用户的心理诉求、思维方式和视觉习惯等，充分发挥创造性思维，将凌乱的数据转化为可视的、直观的图形是非常好的一种解决途径。

总结

在当今社会，信息传递已经有了新的意义。信息量对于用户和企业主来说无一不是至关重要的数据。因此，如何能够快速的获取信息将变得至关重要。把繁琐且令人头疼的大段文字，凌乱的数字转化成有意思的可视化信息，加快用户获取信息的效率，是信息图形化价值的一大体现。如今的社会仍在以前所未有的速度发展着，信息流动的速度也会越来越快，信息图形化势必会成为未来信息传播的一大捷径。

（作者单位：湖南工业大学包装设计艺术学院）

基于故障信息网的信息分析处理篇7

1.1 正常运行状态下的信息

正常运行状态下的信息包括：各个继电保护装置的运行状态、当前所执行的定值、装置的当前采样值、开关量状态、装置异常时的告警信息等。

1.2 事故后的动作信息

事故后的动作信息包括：保护装置的动作报告、故障时的采样值、故障录波器的全过程录波报告等，对模拟式保护的动作信息则只取表示其出口继电器动作状态的开关量。

1.3 静态的继电保护信息

静态的继电保护信息包括许多内容，如继电保护的人员情况、保护的配置情况、保护装置的定检工作档案和运行记录、故障档案、更新改造计划、继电保护发展规划、专业培训计划、各种历史档案的记录和管理、继电保护整定方案、有关图纸资料等属于继电保护运行管理方面的信息。

2 保护动作分析方法

保护动作分析的数据源是故障录波数据，故障录波数据由头文件、配置文件和数据文件按一定的格式组成，如果录波文件与标准格式存在差异时需进行格式转换。选取与保护配置(如过流保护、距离保护等类型)相应的滤波算法(如全、半周傅氏算法、半周积分算法等)对录波数据进行滤波。录波数据经滤波等预处理后，可根据保护的构成原理进行相关电气量参数的计算。

2.1 相量突变量算法

故障时刻的检测采用突变量检测算法。以电流i为例，当采样值连续

时表示故障检出:

式中，N为每工频周期的采样点数;kf为突变量定值调节系数;Idz为突变量启动定值。通常情况下kf=1，当检测到系统发生振荡后kf值自动上调，以防止振荡过程中引起突变量算法误启动。

2.2 基频分量算法

采用的算法是全周傅氏算法，以正弦-余弦函数为样品函数，根据正弦、余弦函数的正交特性，经过

推导可得到离散化形式的计算式，i次电压谐波分量的实部值URi、虚部值U分UIi别为(3)和(4)：式中，△t为采样时间间隔。该算法的优点是当输入信号中除基频分量外只包含恒定直流分量和整次谐波分量时计算精度很高，并且对其它分次谐波分量也有良好的抑制效果。

2.3 故障类型与相别判断

软件中采用如下算法进行故障选相：

1）接地与否判别

通常采用稳态量与故障突变量相结合的方式判别接地故障，即：

式中ε1、ε2、ε3为设置的定值;I0为零序电流;△I0为零序电流的突变量;Uo为零序电压。加入零序电压作为判断条件可防止发生相间短路时由于电流互感器暂态过程的不平衡造成短时出现I0而引起误判断。

2）单相接地判别

单相故障一般采用相电流差突变量选相方法，实用化的单相接地故障选相判据如下：

A相接地判据为

B相接地判据为

C相接地判据为

式中△I.a、△I.b、△I.c为三相电流突变量;m为调节系数, 在大多数电力系统结构下可按取值。

3）两相接地短路相别判别

当已判别为接地短路但三个单相接地判据都不满足时即可判别为两相接地短路。软件中通过对零序电压和相电压进行相位比较来实现故障选相。

4）三相短路判别

当不是接地短路时可先判断是否为三相短路，采用短数据窗计算△I.a、△I.b、△I.c，当三者都大于整定值时即可判断为三相短路。

5）两相短路相别判别

当不是接地短路且判别不是三相短路时即可判别为两相短路;两相不接地短路的突出特点是健全相电流故障分量远小于故障相电流的故障分量，根据这一特征可确定故障相别。

3 结语

电网故障信息根据信息记录的对象可分为开关动作、保护动作、故障录波3类信息。开关动作信息记录断路器的动作情况和时间，断路器动作只有开、合2个状态;保护动作信息记录保护装置中各个保护模块的动作情况和时间，保护动作信息包含1个事件ID，通常要根据保护装置的型号查询保护事件对照表得到动作的含义和说明;故障录波信息记录元件故障时的相关电流和电压模拟量及数字量的实时值，通常故障录波信息是以COMTRADE标准格式传输和存储的。

摘要：随着电力系统自动化水平的提高, 投入电网的各种保护、自动装置、故障录波器等设备越来越多, 当电网发生故障时, 会有大量丰富的故障信息送入调度中心, 这为以快速定位故障区域、识别故障元件为目的的故障诊断提供了前提条件。为了提高故障诊断的准确性和快速性, 国内外学者已提出了多种电网故障诊断方法, 如专家系统、模糊理论、人工神经网络、petri网、优化理论、信息理论等。这些方法各有特点, 也得到了一定的应用, 但在故障信息具有保护、断路器拒动、误动或通信线路传输错误等不确定因素时难以保证容错性。

关键词：故障,信息网,诊断

参考文献

[1]陈德树.计算机继电保护原理与技术[M].北京:中国电力出版社, 1998.

信息预处理篇8

一、系统分析信息共享系统的体系结构

根据系统论的观点, 信息共享系统的任何一方面出现漏洞, 都会导致信息共享系统中信息的破坏、更改、泄露。为此, 必须了解信息共享系统的体系结构, 以期为采取针对性措施提供依据。信息共享系统是个有着多层结构的信息管理系统, 系统的参考模型由四层构成, 即物理层、系统层、网络层、应用层。物理层是指为信息共享系统提供基本的底层支撑和保障的外界环境、基础设施、运行设备、介质等方面。物理层是信息共享系统的硬件基础, 保障着信息共享系统正常运行和隐私信息安全共享的硬件环境。系统层是指信息共享系统中的服务器、客户机等计算机设备上运行的操作系统和数据库等系统软件。系统层是在物理层基础上的扩展, 是信息共享系统的软件基础, 管理着计算机的各种硬件、软件、信息资源, 并充分发挥各种资源的性能。网络层是为信息共享系统在开放网络环境中运行提供有效服务的。一方面, 确保信息共享系统安全运行, 提供有效的共享服务;另一方面, 确保在网络上传输的隐私信息的保密性、完整性和可用性。应用层是信息共享系统的最高层, 直接为用户提供应用服务。

二、妥善应对信息共享中信息隐私的安全威胁

1. 物理层的安全威胁。

主要包括整个信息共享系统的环境设施、设备和介质由于威胁而引起的泄密、不完整、不可用。信息共享系统机房的选址和信息共享系统运行的环境设施设备是信息共享系统和隐私信息赖以存在的物理实体, 对隐私信息共享的影响非常大, 威胁主要有地震、水灾和火灾的危害, 雷电、静电和电力供应的危害, 鼠患、灰尘和温湿度的影响。这些因素从不同角度影响着信息共享系统的正常运转, 进而影响隐私信息共享的安全。信息共享系统的存取介质包括寄存器、存储器、硬盘、U盘、移动硬盘、光盘等, 传输介质包括双绞线、同轴电缆、光纤、空气等。威胁主要有存取介质的非法复制和重用;传输介质的非法窃听和干扰;介质的非法盗窃和破坏;介质的老化和自然损坏。

2. 系统层的安全威胁。

主要包括运行操作系统的安全威胁和数据库系统的安全威胁。操作系统的安全威胁表现在三个方面:一是操作系统本身设计的缺陷和实现的漏洞带来的不安全因素, 主要包括身份认证、访问控制、系统漏洞等;二是管理人员和使用人员对操作系统的安全配置问题, 在通常的参数、服务配置中以及开放的端口、服务、共享中, 都存在很大的安全隐患和风险;三是病毒对操作系统的威胁, 病毒大多利用操作系统本身的漏洞, 通过网络迅速传播。数据库系统的安全威胁表现在三个方面:一是非授权的隐私信息泄露, 未获授权的用户有意或无意得到隐私信息;二是非授权的隐私数据修改, 包括所有通过数据处理和修改而违反隐私信息完整性的行为;三是拒绝服务, 包括会影响授权用户正常访问隐私信息或使用资源的行为。

3. 网络层的安全威胁。

由于计算机网络是开放的、多样的、隐蔽的, 网络层的很多方面如身份认证、访问控制、域名系统、路由系统、远程接入等都很脆弱, 所面临的安全威胁也最多。网络层的安全威胁主要有:隐私信息在网络中传输时的威胁、网络边界上的各种威胁、黑客攻击的威胁、计算机病毒的威胁等。隐私信息在传输过程中, 线路搭载、链路窃听可能造成隐私信息被截获、窃听、篡改和破坏, 隐私信息的保密性、完整性无法保证。

4. 应用层的安全威胁。

随着网络技术的发展和互联网的普及, 应用层安全威胁正逐步成为信息共享系统的最大安全威胁, 具有发作时间快、影响范围广、危害大等特点。应用层上运行的各种工具软件和应用服务程序都或多或少存在一定的设计缺陷和实现漏洞, 而且在设计实现的时候并没有充分考虑网络上的各种安全威胁, 信息共享系统在运行过程中不可避免地会受到来自网络的威胁和攻击、病毒的破坏, 从而造成隐私信息的泄密。

三、切实做好信息共享中的信息隐私保护工作

信息共享和信息隐私保护两者有着辩证统一的关系, 既相互对立、相互矛盾, 又相互统一、相互促进。一方面, 信息共享要求信息资源大规模地开放并无偿或低成本使用, 限制信息专有, 反对信息垄断;信息隐私保护则要求敏感信息保密而不泄露, 不允许无条件地公开及非法访问, 强调信息的专用性、垄断排他性。另一方面, 隐私信息属于个人的私密信息, 同时又是具有价值的信息资源, 信息隐私保护可让隐私信息实现安全可靠地共享, 不会遭到非法用户的访问、破坏、更改, 信息共享系统因此便能赢得隐私信息所有者的信任, 从而有利于获得更多的隐私信息, 以促进更大规模的信息共享, 创造更多的社会财富。信息共享中信息隐私的保护是一项系统工程, 所做的保护复杂而庞大, 保护所要达到的目标主要有保密、完整、可用。保密是信息隐私保护的基本目标, 它是隐私信息与生俱来的特性。在信息资源共享过程中, 首先, 要保护好信息共享系统的软硬件, 使隐私信息不被非法窃取;其次, 要对信息共享系统中隐私信息进行加密保护, 这样非法窃取者即使获得隐私信息也不能了解其真实含义。完整是信息隐私保护的重要目标, 在保护信息共享系统的软硬件完整的基础上, 保持信息共享系统中隐私信息的始终一致, 既要阻止非法用户蓄意的破坏, 还要阻止合法用户无意的破坏。可用是信息隐私保护的不可或缺的目标, 在合法用户正常共享隐私信息时不会延迟响应, 更不会被不正当地拒绝。

参考文献

[1].张楠.信息资源共享中的隐私保护[J].西南民族大学学报, 2009.2

论教育信息处理中的信息熵方法篇9

熵这一名称并不是香农首先提出的。最先提出熵这一名称的是物理学家R.Clausius, 他提出的熵现在称其为热熵, 它是热力学系统的一个状态函数, 即

S=∫undefined

其中Q是热量, T是绝对温度。以后不久, 波耳兹曼给出了热熵S与热力学Ω的关系:

s∝1nΩ

其中Ω是指一个无论系统所处宏观状态所对应的微观状态数。1900年, 普朗克引进波耳兹曼常数k后, 得到波耳兹曼关系式

s=k1nΩ

热熵是物理系统无序性的量度。Ω越大, 表明物理系统可能的微观状态数就越多, 从微观上, 系统就越变化多端, 越没有秩序。

对于随机变量而言, 其取值是不确定的。在做随机试验之前, 我们只了解各取值的概率分布, 而做完随机试验后, 我们就确切地知道了取值, 不确定性完全消除。

香农在研究随机变量不确定性量度时所得到的式子在数学模型层次上与热熵完全相同, 所以把随机变量不确定性的量度也成为熵, 现在一般称之为信息熵或香农熵。这样, 通过随机试验我们获得了信息, 且该信息的数量恰好等于随机变量的熵。从这个意义上, 我们可以把熵作为信息的量度。

信息熵函数为:

undefined

当有多个随机变量时, 为区别不同随机变量的熵, 可将熵写成H (X) 、 H (Y) , 以分别表示X或Y的熵。

熵具有一系列有用的性质, 其基本的几条为:

(1) H (p1, p2, ……, px) ≦logn

其中等号成立, 当且仅当pi=logi≠ (1, 2, …, 3) , 这表明在基本事件 (状态) 数相同的情况下, 等概场的熵最大。

(2) H (p1, p2, ……, px) ≧0

其中等号成立, 当且仅当X 为退化分布, 这表明确定场 (非随机场) 的熵最小。

设Y 为另一离散型随机变量, 称H (X , Y ) 为X 与Y 的联合熵, 称H (X∣Y ) 为在Y 已知的条件下, X 的条件熵, 则有

(3) H (X, Y ) ≦H (X ) + H (Y )

(4) H (X∣Y ) ≦ H (X )

(5) H (X∣Y ) ≦ H (Y )

2 信息熵方法在信息化教育中的应用

虚拟学习社区是以建构主义学习理论为理论基础, 基于计算机信息处理技术、计算机网络资源共享技术和多媒体信息展示技术的新型远程教育网络教学支撑平台;同时虚拟学习社区也是一种新型的学习组织, 因此它不仅具有社会学属性, 也同时具有人机系统的基本属性特征;虚拟学习社区是是当代社会需求和科学技术及其学与教理论相结合的产物。

这里以中国教育技术学论坛作为我们此次研究虚拟学习社区的个案, 之所以选择它, 是因为 “中国教育技术学论坛”是民间志愿者自发组织和构建的我国最大的教育技术学专业网站中的专业论坛。目前 (截至2006年) , 中国教育技术学网站共收录文章近四千篇 (总字数已超过千万) , 是名符其实的教育技术知识库和资源库;会员数目前已经超过7千, 网站平均每天的访问量已接近500人次/天, 是目前我国互联网上最大的教育技术学习社区。

在长期参与观察的基础上, 笔者选取了2006年3月份 (这一期间是学生步入学习生活正轨的时间, 也是该论坛开始活跃的一段时间) “中国教育技术学论坛”教育技术版块的参与者作为分析单元, 在这期间该论坛共发布了22个主题帖, 有22名论坛成员参与讨论。本文针对由他们两两之间的关系用矩阵来表示, 如图1所示。

在此矩阵中, 行和列分别表示从1到22的参与者, i行与j列交叉处的格值Zij表示对应两点之间的连接关系, 等于1 表示有直接联系, 即Zi对Zj 的帖子进行了回复, 等于0 则表示没有直接联系, 即成员Zi对Zj 没有回复, 这样就得出了如图1所示的矩阵。

1) 对上述矩阵进行转换 (见表1) :

2) 将上表转换为“概率”矩阵:

undefined

3) 第i个评估指标的信息熵定义如下:

undefined

运用公式 (1) 对概率矩阵进行计算得到:

Hi={0.80979, 0.67155}

4) 第i项指标的权系数的计算公式为:

undefined

运用公式 (2) 对各指标的权重计算如下:

l= (0.36673, 0.63327)

5) 结果分析

从上述指标体系的权重排名来看, 被回复数的权重排名第一, 而回复数的权重排名为第二, 这种结果是合理的, 因为在一个专业论坛虚拟学习社区里, 发出的声音有多大并不重要, 但收到的响应如何却是至关重要的。

3 结束语

本文运用了信息熵值赋权法, 通过专业论坛虚拟学习社区参与者在帖子上的回复数和被回复数原始数据的处理, 得出了两者的权重排名, 从而得出在专业论坛虚拟学习社区中如果要达到自己观点的强影响力, 应该注意引起别人的回复。

摘要：信息熵方法已经成为描述或者解决社会工程技术、经济领域中不确定性现象的有效方法。文章在分析信息熵内涵及其基本性质的基础上, 对其在教育领域中已有的研究进行了文献综述, 并运用信息熵方法对信息化教育中的应用进行了研究。

关键词：信息熵,信息熵方法,教育信息处理

参考文献

[1]田振清, 周越.信息熵基本性质的研究[J].内蒙古师范大学学报:自然科学汉文版, 2002, 31 (4) :347-350.

[2]王陆.虚拟学习社区的原理与应用[J].中国远程教育, 2005 (20) .

[3]张少艳.信息熵在教学质量分析中的应用[J].红河学院学报, 2007, 5 (2) :77-79.

[4]谭建辉.用信息熵评价计算机课[J].锦州医学院学报 (社会科学版) , 2005, 3 (3) :56-59.

中文信息处理60年篇10

顾名思义,“中文”就是中国的语言文字。从广义上理解,她可以是中国各民族使用的所有语言文字的总称。但是,由于汉族在人口数量和地域分布上都占有绝对优势,而且长期以来,中国境外(如新加坡、马来西亚等)华人使用的汉语文字被称为华文或中文,因此,在不引起混淆的情况下,我们认为“中文”与“汉语”指同一概念。根据国家标准GB12200.1-90“汉语信息处理词汇01部分:基本术语”的解释,“中文(Chinese)”特指汉语。本文不涉及民族语言文字信息处理的内容。

中文信息处理是自然语言处理领域的一枝奇葩,几十年来不断放射出奇光异彩,吸引着众多语言学家、计算语言学家和从事自然语言处理技术研究、开发的工程人员为之奋斗,取得了累累硕果。尤其近20年来,随着计算机网络和手机等现代通讯技术的迅速发展与普及,自然语言处理成为计算机科学与语言学交叉领域研究的热点。伴随我国经济实力和国力的不断增强,汉语在世界范围内逐渐成为一种继英语之后的强势语言,世界华人和中国市场对自然语言处理技术的巨大需求,吸引着众多科学家和企业界的目光。因此,不管是发达国家还是落后国家,没有人敢忽视或藐视汉语。中文信息处理技术已经不再是中国人自己关注的问题,而成为整个国际自然语言处理领域共同关注的焦点。

本文首先简要回顾中国语文现代化所走过的主要历程、取得的重要成果及其对中文信息处理的影响,然后重点对汉字信息处理和汉语信息处理的方方面面予以归纳阐述,并对这一领域的学术活动和国际交流情况做简要介绍,最后对中文信息处理目前所面临的挑战和未来发展的目标给予粗略的展望。

二早期语文现代化工作回顾

语言文字的信息化或者说语言文字信息处理技术的发展水平是关乎国家现代化、社会信息化的大事。中国语文现代化的早期工作及其成果对后来汉字信息处理技术的发展起到了奠基性的作用[1]。

中国语文现代化的开始可以追溯到中华人民共和国建国前后。1949年8月7日,吴玉章等发起组织了中国文字改革协进会,同年10月10日,新中国的第一个全国性文字改革组织——中国文字改革协会宣告成立。1952年2月5日,新中国第一个主管文字改革工作的国家机构——中国文字改革研究委员会成立。整理和简化汉字成为中国文字改革研究委员会的既定工作任务之一。1956年1月,国务院通过了《关于公布〈汉字简化方案〉的决议》,并首次正式公布《汉字简化方案》。1986年10月,经国务院批准决定,国家语委重新发表了《简化字总表》,共收2235字,对原《简化字总表》中的个别字做了调整。1988年国家语委、国家教委发布《现代汉语常用字表》,1997年国家语委、新闻出版署发布《现代汉语通用字笔顺规范》[2]。

如果说汉字简化与规范化对汉字信息处理有重要影响,其重要意义更多地体现在有利于汉字教学和应用、提高国民文化水平,那么,与其并称为文字改革三大核心任务的制定推行汉语拼音方案和推广普通话则是汉字信息化进程中不可或缺的关键环节。从1958年2月11日全国人大一届五次会议通过决议,正式批准《汉语拼音方案》,到1982年汉语拼音被国际标准化组织(ISO)接纳,成为拼写汉语的国际标准,以及1984年10月中国文字改革委员会发表《汉语拼音正词法基本规则(试用稿)》,1996年正式颁布国家标准(GB/T 16159-1996)《汉语拼音正词法基本规则》,汉语拼音的推广使用对于普及汉字和汉语教学、促进国际交流起到了非常重要的作用,对中国社会生活的各个方面都产生了极其深远的影响[3,4]。尤其值得指出的是,汉语拼音对于计算机汉字输入和中文电脑普及起到了至关重要的作用。50多年的实践证明,汉语拼音方案是既能体现拉丁化优点、又符合汉语汉字本身特点的最优方案[5]。

纵观几十年来中国语文现代化的历史,老一代专家学者高瞻远瞩的战略思想和一系列英明举措对汉字信息处理技术的发展起到了重要的奠基作用。毋庸置疑,语文现代化与社会信息化、知识经济化有着密切关系。或许可以说,语文现代化是对我国工业现代化、农业现代化、国防现代化和科学技术现代化的重要补充,其历史意义和现实意义不容低估。

三汉字信息处理概要

我们知道,语言和文字既是信息、知识、文化的载体,也是文化的组成部分[6]。汉字作为中华民族璀璨文化中独具特色的一项发明,在数千年一脉相传、源远流长的历史中,为记载、继承和传播中华文化建立了不朽的功勋。然而,当20世纪40年代电子计算机问世,并迅速引发席卷全球的信息技术革命,如何对汉字进行编码、存储、输入和输出等一系列关于汉字处理的难题,曾一度成为电脑在中国普及和推广的“拦路虎”。因此,从20世纪70年代中期到80年代末期,汉字信息处理技术成为当时的研究热潮。

汉字信息处理主要指以汉字为处理对象的相关技术,包括汉字字符集的确定、编码、字形描述与生成、存储、输入、输出、编辑、排版以及字频统计和汉字属性库构造等等[6]。一般而言,汉字信息处理关注的是文字(一种特殊的图形)本身,而不是其承载的语义或相互之间的语言学关系,因此,本文将其分离出来单独介绍,而后面将要重点介绍的“汉语信息处理”部分则是指对传递信息、表达概念和知识的词、短语、句子、篇章乃至语料库和网页等各类语言单位及其不同表达形式的处理技术。

在汉字信息处理中,有两个问题最引人注目,一是汉字的输入问题,二是汉字的排版、印刷问题。汉字输入问题又分为键盘输入和非键盘输入两种。所谓键盘输入是指通过对汉字进行“编码”,即利用普通计算机键盘上的英语字母键之间的组合,建立与汉字之间的对应关系,并将这种对应关系以编码对照表的形式存储在计算机内部,最终利用转换软件将键入的字符串转换为对应的汉字。最早的计算机汉字编码输入始于20世纪50年代的俄汉机器翻译研究,当时只能用电报码和四角号码做汉字编码。60年代完成了“见字识码”的方案设计和码本。1978年5月,上海推出了一台汉字信息处理实验样机。80年代,在联想汉卡、四通中文电脑打字机之后,中国的汉字编码出现了“万马奔腾”的局面,从五笔字型,到自然码、郑码、拼音输入法、智能ABC、智能狂拼等,较规范、易学易用的输入法层出不穷。国家七五、八五重点科技攻关项目“PJS普及型中文输入系统”“规范码汉字输入系统”和“认知码”等都对汉字编码输入方法进行了深入研究,并取得了一批研究成果[7]。尤其值得提及的是,速记专家唐亚伟先生发明的亚伟中文速录机,实现了由手写速记跨越到机械速记的历史性突破,这一成果被迅速推广应用,催生出了速录行业和速记师职业。2005年,92岁高龄的唐亚伟获得我国中文信息处理领域的最高科学技术奖——钱伟长中文信息处理科学技术奖一等奖。

非键盘输入是指不借助键盘直接将汉字或数字等字符输入计算机的技术,常用的方法包括文字识别、语音识别等。汉王文字识别技术是一个成功的代表。

以北京大学王选院士为代表的从事汉字照排和印刷技术研究的老一代专家,在解决巨量汉字字形信息存储和输出等问题中做出了卓越贡献。1981年,第一台汉字激光照排系统“原理性样机”通过鉴定,1985年,激光照排系统在新华社正式运行。1987年,《经济日报》采用激光照排系统出版了世界上第一张采用计算机屏幕组版、整版输出的中文报纸,成为国内第一家全部废除铅字排版的报纸。此后,国产激光照排系统迅速推广应用,在中国掀起了“告别铅与火,迎来光与电”的印刷技术革命[7]。

另外,20世纪80年代完成的《汉字频度表》《现代汉语频度词典》、GB2313-80、6763汉字属性信息库等一系列基础性工作,都为后来的汉语信息处理研究奠定了很好的基础。

四汉语信息处理技术成果与应用

本部分重点关注在汉语词、短语、句子、篇章乃至语料库等各类语言单位处理方面所取得的研究成果及应用情况。为了便于描述,我们将其分为基础资源建设、理论方法研究和应用技术开发三个方面。

1.基础资源建设

语言资源库(包括语料库、词汇知识库、语法语义词典等)在不同层面构成了自然语言处理各种方法赖以实现的基础,有时甚至是建立或改进一个自然语言处理系统的“瓶颈”。因此,世界各国对语言资源库的开发建设都给予了极大的关注。自1979年以来,中国开始进行机读语料库建设,并先后建成汉语现代文学作品语料库(1979年,武汉大学,527万字)、现代汉语语料库(1983年,北京航空航天大学,2000万字)、中学语文教材语料库(1983年,北京师范大学,106万字)和现代汉语词频统计语料库(1983年,北京语言学院,182万字)[8]。近20多年来,北京大学、清华大学、教育部语言文字应用研究所、山西大学、哈尔滨工业大学、北京语言大学、东北大学、中科院自动化所、科技部中信所、中国传媒大学、台湾中央研究院和香港城市大学等相当一批大学和研究机构都对汉语资源库建设做了大量工作。其中,北京大学计算语言学研究所开发的“综合型语言知识库”、董振东等开发的“知网”(HowNet)是两项有代表性的成果,而中文语言资源联盟(Chinese Language Data Consortium,缩写:Chinese LDC)则是为推动我国语言资源共享所建立的第一个联盟性学术组织。

(1)综合型语言知识库

北京大学计算语言学研究所的语言资源建设工作始于1986年,从研制《现代汉语语法信息词典》[9]起步。该词典曾获1998年度教育部科技进步奖二等奖。在此成果的基础上,于1995年提出建立综合型语言知识库的规划,经过十多年的努力,综合型语言知识库取得了阶段性成果,并于2007年获教育部科技进步奖一等奖。

申报奖励之前,综合型语言知识库通过了教育部组织的技术鉴定:“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平。”该项成果为推动以汉语为核心的多语言信息处理技术的发展做出了重要的贡献,并取得了显著的经济效益。作为单项技术成果,在北京大学创下了转让次数最多的纪录。

综合型语言知识库[10]在汉语计算语言学理论、汉语语言知识形式化描述、语言知识库构建技术以及多语言知识融合技术等方面都有所创新。目前它包含的语言资源包括现代汉语语法信息词典、现代汉语语义词典、中英文概念词典、汉语短语结构知识库、现代汉语大规模基本标注语料库、汉英双语对齐语料库以及多个专业领域的术语库。

综合型语言知识库仍在继续发展。研制中的综合型语言知识库系统不仅把现有的语言知识资源集成为一个有机的整体,各个成员知识库可以相互参照,互相印证,而且进一步挖掘深层的语言知识,发展概率型汉语词汇知识库,让语言知识库建设更上一层楼,同时,将有新成员不断加入综合型语言知识库的大家庭。

(2)知网

知网(HowNet)是董振东教授提出并创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

知网作为一个构思严密的知识系统,是一个名副其实的意义网络,它着力要反映的是概念的共性和个性。在知网中,义原是一个很重要的概念,指最基本的、不易于再分割的意义的最小单位。知网体系的基本设想是,所有的概念都可以分解成各种各样的义原,同时,也存在一个有限的义原集合,其中的义原组合成一个无限的概念集合。董振东教授认为,中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。因此,知网从大约6000个汉字中提取出了这个有限的义原集合[11,12]。知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的,修改和增删都很方便,因此,它的规模是动态的。目前知网已作为中文信息处理技术研究和系统开发重要的基础资源,被广泛地应用于词汇语义相似性计算、词义消歧、名词实体识别和文本分类等许多方面。

(3)中文语言资源联盟

在国家重点基础研究发展规划项目(973项目)“图像、语音、自然语言理解与知识挖掘”(资助号:G19980305)的支持下,由中科院自动化所、清华大学、教育部语用所和中科院计算所发起,于2003年成立了中文语言数据联盟。该联盟挂靠在中国中文信息学会,目标是建成达到国际水平的,具有完整性、系统性、规范性和权威性的通用中文语言资源库及中文信息处理的评测体制,为汉语语言信息处理的基础研究和应用开发提供支持,促进汉语语言信息处理技术的不断进步[13]。目前该联盟已拥有会员单位70多个、各类语言资源80余种,包括8~10万词的《汉语通用词表》、25000~30000词的《汉语语法信息词典(高频词)》、500万字的《分词词性标注语料库》、100万字的《汉语语法树库》、20万句对的《中英双语语料库》等。其中30%数据资源对会员免费,从而在全世界范围内实现中文语言数据资源的共享。Chinese LDC于2006年运营以来,平均每天都有数十人次的网站访问和电话咨询。到目前为止,该组织已共享资源200多套,授权使用单位40多个,包括美国、加拿大、德国、日本、澳大利亚等国内外著名科研机构和公司若干单位已经通过该平台获取了中文信息处理科研工作所需的基础资源[14,15]。

2.理论方法研究

我国最早利用计算机进行自然语言处理研究的项目是机器翻译。1956年国家把机器翻译研究列入科学工作发展规划并设立课题,1957年中科院语言所和计算所合作开展了俄汉机器翻译研究。机器翻译是一个高度综合性的研究课题,涉及词法分析、句法分析、语义分析和语言生成等各个层面,因此,伴随机器翻译研究,中文信息处理相关的各种理论方法研究随之展开。在过去50多年的曲折历程中,中文信息处理理论研究的脚步从来都没有停止过。

1958年刘涌泉、刘倬等提出的“中介成分理论”曾在早期的中国机器翻译研究中发挥了重要的作用。70年代末期冯志伟最先开展了对汉字信息熵的研究,经过几年的语料收集和手工统计,在当时艰苦的条件下测定了汉字的信息熵为9.65比特(bit),这与80年代末期北京航空学院刘源等通过计算机对大规模语料统计得到了汉字信息熵为9.71比特的结论相当接近。

进入20世纪80年代以后,汉语分词与词性标注方法研究得到了快速发展。全切分分词方法、最短路径分词方法、N-最短路径分词方法、基于隐马尔可夫模型(HMM)或n元语法(n-gram)的分词方法等一系列分词方法相继提出。1992年,《信息处理用现代汉语分词规范》被国家技术监督局批准(GB13715),并于1993年5月1日在全国正式实行[16]。

20世纪90年代,面向机器翻译提出的SC文法[17],从某种意义上拓展了复杂特征集理论和合一文法,而《现代汉语语法信息词典》和“知网”是我国学者结合汉语特点和规律对词汇主义思想的进一步发展和应用。

另外,概念层次网络理论的提出也是中文信息处理研究中一个有益的探索。

3.应用技术开发

相对于理论方法研究而言,中文信息处理应用技术开发和产业化进程中的成果可谓琳琅满目。除了前面提到的汉字存储、显示、输入、激光照排等实用技术以外,机器翻译、搜索引擎、文语转换等应用系统也如雨后春笋不断涌现。

20世纪80年代中期到90年代初期,我国的机器翻译研究开始走向繁荣。军事科学院研制的“KY-1”英汉机器翻译系统获得了国家科技进步二等奖,后来发展为“译星”,成为中国第一个商品化机器翻译系统。中科院计算所研制的“IMT/EC863”英汉机器翻译系统于1995年荣获国家科技进步一等奖,获得了可观的经济效益。

进入21世纪以后,基于大规模语料库的统计方法在自然语言处理中得到快速发展,以语料库为研究对象和基础的语料库语言学迅速崛起,并进一步推动了自然语言处理相关技术的快速发展,统计机器翻译逐渐成为国际机器翻译研究的主流。中科院计算所、自动化所、哈尔滨工业大学、厦门大学和中科院软件所等在统计机器翻译研究中进行了富有成效的探索和实践。中科院自动化所还在语音翻译研究方面做了大量开创性的工作,先后实现了基于个人电脑、PDA和普通手机的汉英、汉日双向语音翻译系统。

近几年来,以机器翻译技术为支柱发展起来的中科院华建集团公司和沈阳格微软件有限公司在机器翻译应用方面取得了十分可喜的成就。

与此同时,在语音识别、语音合成和人机对话系统等方面,中科院自动化所、声学所、中国科大、清华大学、北京交通大学、哈尔滨工业大学等都做了大量研究和开发工作。语音识别、语音合成系统已在实际应用中取得了丰硕的成果。

近10年来,随着国际互联网技术的迅速发展和普及,国内一批面向计算机网络的信息搜索系统脱颖而出,TRS、百度和中搜等一批优秀企业成为当前信息领域十分耀眼的明星。

值得提及的是,由国家语言文字工作委员会组织编纂发布的《中国语言生活绿皮书》[18]。《中国语言生活绿皮书》既是中文信息处理研究成果的具体体现,也是中文信息处理研究的重要参考。

五学术活动与国际交流

随着中文信息处理研究的逐步深入和人才队伍的迅速壮大,由钱伟长、甄健民、安其春等老一代专家发起的中国中文信息学会于1981年6月宣告成立,成为具有独立社团法人资格的国家一级学会。在学会的引导和支持下,中文信息处理学术活动与交流蓬勃兴起。

每两年一次的全国计算语言学学术会议(CNCCL)(2007年前的名称为“全国计算语言学联合学术会议(JSCL)”)到2009年为止已经举办了十届,是中国中文信息处理领域最具影响力的全国性学术会议。自2002年开始的全国学生计算语言学研讨会(SWCL)到2008年为止举办了四届,是面向中文信息处理领域学生的全国性学术会议,整个会议由学生组织,深受同学们的喜爱。中日自然语言专家研讨会(CJNLP)自2001年起每年召开一次,奇数年在日本召开,偶数年在中国召开,旨在推动中日两国自然语言处理研究的学术交流与合作。自2004年起每年召开一次的自然语言处理青年学者研讨会则着眼于促进青年学者之间的学术交流,加强与国际学术界和企业界的联系。另外,中国中文信息学会下属各专业委员会的学术活动也呈百花齐放之势:每两年一次的人机语音通讯学术会议到2009年已经举办了十届;每两年一次的中国少数民族语言文字信息处理学术研讨会2009年为第十二届;每年一次的全国机器翻译研讨会和全国信息检索学术会议到2009年均已举办了五届。

值得一提的是,评测对于促进中文信息处理技术的发展起到了非常重要的作用。20世纪90年代初期,我国“863”计划中文与接口技术评测组就多次组织汉语分词与词性标注、机器翻译等技术评测。基于测试集与测试点的机器翻译评测系统MTE最早实现了译文质量的自动评测[19]。进入本世纪以来,汉语自动分词、词性标注、句法分析、机器翻译、信息检索、文本分类、语音识别、语音合成等针对不同技术和系统的评测如雨后春笋般迅速成长。2003年国际计算语言学学会汉语兴趣小组(SIGHAN)举办了首届汉语分词技术国际评测(Chinese word segmentation bakeoff),至今已经举办了四次。这些评测对于促进同行专家之间的互相交流、互相学习、共同提高,起到了不可替代的作用,同时,评测技术也在不断研究和实践中得到了改进和提高。

令人鼓舞的是,第23届国际计算语言学大会(COLING)将于2010年8月在北京举办。COLING是由国际计算语言学学会(ICCL)直接领导组织的学术大会,是国际计算语言学领域参加人数最多、涉及学科范围最广、历史最悠久的国际盛会之一,在40多年的风风雨雨中经久不衰,能够获得COLING大会的主办权是各国计算语言学专家追求的梦想。几十年来,我国几代计算语言学专家为了实现这一梦想付出了不懈的努力。我们相信,这一盛会在北京的成功举办必将为推动中文信息处理研究的发展产生积极而深远的影响。

伴随中国改革开放的步伐,中文信息处理国际交流与合作活动日益增多。早在20世纪80年代,中国参加了由日本发起,印度尼西亚、泰国和马来西亚共同参与的五国多语言机器翻译合作项目,对当时中国机器翻译研究的人才培养、技术传播和资源积累等都产生了重要影响。进入90年代以后,尤其是进入21世纪以来,包括IBM、微软、Google、Yahoo、Sohu、富士通、东芝、Nokia、法国电信等在内的一大批国际著名企业纷纷落户中国,在中国设立研究机构,其研究兴趣无不包含中文信息处理,这从另一个侧面为中国大学和研究院所直接与国际企业合作打开了方便之门。

在语音翻译研究中,中科院自动化所自90年代中期开始与美国CMU、日本ATR、法国GETA等开展国际合作,2001年以核心成员的身份加盟国际语音翻译先进研究联盟(Consortium for Speech-to-speech Translation Advanced Research International, C-STAR),近10年来,参与发起、组织和实施了一系列有关口语翻译的国际学术活动和联合实验。

近年来,随着国际交流的全面展开,一方面一批国际著名的自然语言处理专家频繁来访中国,他们的学术讲座、报告为中国学者开阔了眼界;另一方面,每年都有一大批中国学者走出国门参加包括讲学在内的各种学术交流与合作。在这种互惠互利的国际交往中,中文信息处理技术得到了长足的进步。

六挑战与未来

中文信息处理60年的辉煌历史产生了一大批令人鼓舞的成果,这些成果概括起来可以归纳为如下几个方面:

(1)语文现代化取得丰硕成果,有关规范化汉字、汉语拼音和普通话的一系列的国家法规、标准及规范已经形成;

(2)汉字信息处理技术已达到实用化水平,并在实际应用中日趋成熟;

(3)已建设完成一批颇具影响的汉语信息处理用语言资源库,部分汉语信息处理技术已在实际应用中发挥作用;

(4)中文信息处理的国内外学术交流与合作环境已经建立,中文信息处理正在世界范围内迎来空前繁荣时期。

然而,在看到这些成果的同时,我们不能忘记中文信息处理毕竟是认知科学、语言学和计算机科学等多学科交叉的复杂问题,最终要达到汉语理解的目的,目前仍面临若干尚未解决的难题。首先,语义理解与计算问题成为当前中文信息处理面临的最大挑战。自然语言的语义如何表示?语义是否可计算?如何计算?这些问题仍没有答案。从目前情况来看,仅歧义消解这一个难题就已经让自然语言处理研究者左支右绌,力不从心,更何况人类运用语言还有多种多样的表现手法,诸如隐喻、幽默、夸张、双关、影射等,它们对自然语言理解研究都有深刻的影响。目前对有些问题刚开始研究,有的甚至尚未触及。显然,离自然语言理解这个目标尚有遥远的路要走。要实现机器对语言的理解,必须首先解开人类理解语言机制的秘密,这是有关人类认知机理、智能本质的科学难题[20]。

随着计算机网络和各种通讯技术的迅速发展,许多新的应用需求对自然语言处理技术提出了更高的要求。例如,网络内容管理、信息监控、有害信息过滤和概念搜索等,这些任务不仅与自然语言处理技术有关,而且涉及图像理解、情感计算和网络技术等多种相关技术。而语音自动翻译则是涉及语音识别、机器翻译、语音合成、表情识别与理解以及通讯等多种技术的综合集成技术。面对这些新的任务,研究才刚刚开始,离问题解决的最终目标仍很遥远。

在语言资源库建设方面,至今仍缺乏基本的国家规范和标准,语料库和知识库开发仍呈现“百家争鸣”的局面,许多成果难以共享和整合。而在理论模型和方法研究方面仍处于探索阶段,尽管许多理论模型和方法已经得到实际应用,如上下无关文法、HMM、噪声信道模型等,但是,许多重要的问题仍未得到彻底、有效的解决,包括汉语自动分词、命名实体识别等经典问题。综观整个自然语言处理领域,尚未建立起一套完整、系统的理论框架体系,许多理论研究甚至处于盲目的摸索阶段,如尝试一些新的机器学习方法或未曾使用的数学模型,这些尝试和实验带有很强的主观性和盲目性。在技术实现上,许多改进往往仅限于对一些边角问题的修修补补,或者只是针对特定条件下一些具体问题的处理,未能从根本上建立一套广泛适用的、鲁棒的处理策略。如何针对汉语自身的特点和规律,建立真正适合中文信息处理的一整套理论体系和实现方法,将是中文信息处理研究者长期面临的严峻挑战。

值得庆幸的是,“中文信息处理”已经被列入《国家中长期科学和技术发展规划纲要》,这不仅意味着中文信息处理已毫无异议地被公认为当今科学发展的前沿学科,而且开展中文信息处理研究符合我国的战略需求,这项研究将作为我国科学技术发展中的战略性研究方向得到国家的支持和保护,形成具有鲜明中国特色的自主知识产权。无论如何,我们相信中文信息处理像其他学科一样,需要经过众多学者长久的、坚持不懈的探索和实践。我们期待着语言学(包括计算语言学)、脑科学、认知科学、智能科学、哲学、数学等各个领域的专家密切合作,在中文信息处理中实现“规则与统计共舞,语言随计算齐飞”。

[附注]

基于标准的评价信息处理与报告篇11

[关键词] 课程标准基于标准的评价标准化测验与报告项目

数据本身不会说话，数据之所以能告诉人们他们能明白的和需要的证据，就在于人们对数据的分析。我国实施的基于课程标准的学业成就测验很多是终结性的测验，按照我们的习惯思维，那最后的结果就是每个学生得到多少分，平均分是多少，然后是扩大到学校、学区、县、省等层面。这样的信息处理和交流不但不能告诉我们关于测验的有效信息，而且还会造成人们的不正确印象——测验就是看看学生分数的高低名次，判断教育质量的高低也是如此。根据对基于课程标准的学业成就测验特征的分析以及命题的规范分析，我们认为，基于标准的评价信息处理与报告要告诉大家测验分数背后代表的东西——达到了课程标准的要求了吗？哪些达到了，哪些没有？达到要求的程度怎样？然而，在国内这方面的实践比较欠缺，缺少直观的案例，美国加州标准化测验与报告项目（Standardized Testing and Reporting Program，STAR）可以为我们提供相应的参照与借鉴。

一、STAR项目的信息处理框架

STAR项目是美国加州州教育部在2007年以网络版的形式开发的，对全州、学区和学校报告学生在加州基于课程标准的学业成就。它以加州标准测验（California Standards Tests，CSTs）和加州替代性表现评价（California Alternate Performance Assessment，CAPA）这两种以州课程内容标准为基础的测验为主体；同时，为确保教育的公平，还辅之以加州成就测验（常模参照测验）和以西班牙语印刷的基于标准的测验。①(注:STAR项目介绍可以参看美国加州州教育部网址：http://star.cde.ca.gov)STAR项目首先总体规划各种学业成就测验的内容安排和年级安排，然后制订出各个年级的成绩水平分数线等，详见表1、2和3。

二、STAR项目测验信息的报告和利用

1. STAR项目测验信息的报告

加州学业成就测验结果的报告，有一个事先制订的严格而又明确的时间表（见表4）。按照学生所得的分数以及标准当中规定的成就水平，沿着既定的时间表，采用新闻发布、网上公布等方式向公众、学校和学生报告测验结果。某一个学生或者总的一项测验的结果报告是以州教育董事会认证的成绩水平来划分的，即按照优异、良好、合格、接近合格和远低于合格五个水平汇总，在具体的应用中也会用150~600之间的分数来说明测验结果（见表3）。就理想而言，加州希望所有的学生都能达到良好以上的水平。

2. 对学业成就测验结果的利用

最主要的运用场合是对学校的评价和问责，结合STAR的分数表现、辍学率、出席率等计算学校的年度表现，将学校和学区加以分类。就学校和学区而言，其结果分为模范、受认可、成就可接受和成就不被接受四个层次。同时，测验的结果也是学校绩效责任报告卡的重要内容。学校绩效责任报告卡包括学区任务与宗旨、学生成就资料、学生出席率、教师评价等15个方面的信息。看似很庞杂，但是版面设计和内容陈述都很简洁，易于大家理解和接受，从而能够接受这些信息对学校教育做出改进②(注:The California Department of Education，Explaining 2007 STAR Internet Reports to the Public. August 2007:5)。就问责而言，除了对达到较高水平的学校、教师和学生进行奖励，如增加办学经费、提供带薪学术休假、各种荣誉称号等之外，对成绩不达标的学校施以警告，对连续三年不合格的学校，州教育部甚至可以将学校解散重组。

另外，STAR主要报告的是学生在特定年级和州内容标准上的表现，随着总结性结果的上传，随之而来会有各种研究报告——主要是根据参加的具体年级和水平的考试人数、平均分数、在各个表现水平上的学生人数、学生的经济背景和语言程度，对学生的测验结果做出分析，尤其是体现在学生个人的成绩报告卡上，其报告形式的一部分参见表5，人们可以一目了然地了解学生的具体情况。

三、评论

1. 评价信息处理的根本目的在于促进学习

在教育领域中，学业成就测验一直受到心理测量学范式的影响，主张学生接受的测验应该是不受教学影响的，追求绝对客观、科学化的结论。测验与教育教学没什么关系。然而，在教育中，学业成就的评价核心就是判断学生经过特定的教育和教学经历后所达到的状态，我们更希望的是能够将考试和测验结果与教育实践结合起来，为教和学提供帮助。如同查普斯（Stephen Chappuis）等人指出的：“自20世纪中叶开始，美国的教育界就标准化测验的作用及效果一直没有达成共识。具体地说，在评价什么、为何评价、怎样评价及如何使用评价结果来支持学习这些问题上，我们并没有达成一致的看法。截至2005年，几乎没有证据表明这60多年来所使用的标准化测验对教育体系有什么重大的改进作用，这说明我们在处理评价与教学改进的关系上是失败的。”(注:① Stephen Chappuis，Richard Stiggins，Juth Arter & Jan Chappuis（2005）. Assessment for Learning：An Action Guide for School Leaders. Asseisment Training Institute, OR:27) 加州采取的基于课程标准的学生测验体系对评价信息进行了相应的基于标准的处理。这种行动，特别是伴随惩罚和奖励的问责制的产生，再次表明美国社会对评价抱有的信仰——学习评价更应该是改善教学的工具。

2. 评价信息处理是一个收集关于学生学习信息以便做出教学决策的过程

为使评价有效地运行，当地的评价体系必须获得准确的证据，并及时地以可理解的方式传达给所有教学决策者。这样，教学决策者就可以运用这些证据来支持学生的学习。实质上，在课程标准的驱动下，加州STAR项目对学业成就测验的定位除了一般测验意义上的排名、选拔、等级的评定等用处外，体现的是一种评价范式的转变——评价是为了学生的学习（assessment for learning），而不仅仅是对学习进行评价(assessment of learning)。

3. 评价信息处理需要满足不同使用者的需求

要了解如何利用评价来支持学生的学习，我们必须从大处着眼，评价或测验结果的使用者是不同身份的人，他们的目的各不相同，要解决的问题各不相同，所需要的信息也各不相同。如果评价是有利于教学决策而进行的信息收集过程的话，那么这里就存在一个问题：这些决策是什么？谁做出决策？每次评价的建立和执行都是为了改善学习。只有当我们明确谁需要帮助时，提供的信息才有用。加州STAR项目提供的信息日程、类型和用途就十分明确，对不同的使用者来说都是比较便利的。

（作者单位：浙江师范大学发展规划处）

口译中模糊信息的处理篇12

1965年, 美国数学家逻辑家查德 (L.A.Zadeh) 提出了著名的模糊集合论 (Fuzzy Sets) 。模糊信息的存在及应用不仅限于数学和自然科学领域, 在社会科学中也是广为存在的。模糊语言学 (Fuzzy Linguistics) 就是模糊理论在社会科学中运用的一个典型的例子。模糊理论向我们揭示了客观事物类别之间经常没有精确规定的界限这一事实。耶格尔汀曾给模糊性下了一个直观的定义:模糊性就是指一个命题与其否定命题之间缺乏明确的区别。具体地说, 一个概念离它的否定面愈远, 它就愈不模糊, 相反, 如果一个概念离它的否定面愈近, 这个概念就愈模糊”。我国的语言学家对模糊语也作了很多的研究。赵元任曾指出:“一个符号, 如果它运用于边缘的场合比运用于清晰的场合还突出, 它就是模糊的。”张乔明确指出:“模糊是指表达本身的意思有多于一种的含义, 而且这些含义在语义上是相关的。”

2. 语言的模糊性

在语言学中, 语言的模糊性已被认为是人类自然语言的种基本属性, 是复杂的语言体系中客观存在且难以避免的。其具体体现在具有模糊性的语言单位———模糊词及模糊结构———那些外延难以明确确定或精确确定的词和由这些词构成的词组。如英语中的修饰词very, more or less, about, sort of, approximately都属于模糊限制语。而一些量词few, severa1, lots of, plenty of, hundreds of也并没有表明明确的数目。在汉语中。模糊语言也是广泛存在的。如表示时间的“过去”、“现在”、“尽早”。表示性质状态的“完善”、“满意”。特殊的限制词“基本上”、“几乎”、“相对地”、“严格地”、“适当的”、“必要的”、“正当的”、“合理的”。情态动词“可以”、“应该”、“必须”等在语义上都具有模糊性。客观事物从一种状态到另一种状态往往很难划出一个明确的界限。反映在人类语言中, 许多词语所表达的概念就是没有明确外延的概念。

3. 模糊语言的可译性限度

在人类语言中也存在不少模糊现象, 诸如词义朦胧而含混、结构松散而依稀、寓意深邃而委婉等。尽管模糊语言为人类社会所共有, 但由于任何一种语言本身所具有的历史性、民族性、地域性、独特文化的继承性, 因而又表现为差异性, 即语言模糊性的个性。这种个性使得模糊语言自然难以理解, 而要从语义到语体, 在译语中用最切近而自然的对等语再现源语信息———翻译, 难度之大可想而知。就英汉翻译而言, 由于缺乏内涵和外延的等值关系, 英汉两种文字之间无法实现内容和形式在字面和功能上的相互转换。更有两个民族意念感受的差别、修辞表达的互异、文化体验的相悖、心理联想的不同、时间地域的距离及事物称谓的空缺等, 因而造成双语翻译中不可避免的失落、错讹与无奈。所有这一切归咎到一点, 就是模糊语言的可译性存在这样或那样的限度。

4. 口译中模糊信息的处理

既然语言的模糊性是人类自然语言的一种基本属性。模糊表达在口语中普遍存在, 而且在英汉语中的模糊信息存在着不对称性, 那么在口译中对模糊信息的正确处理就极为重要了。根据表达者所要表达的意思, 译者可以根据具体情况灵活处理。具体说来, 可以有几种处理方法。

4.1 直译

即用一种语言的模糊语去翻译另一种语言中的模糊语, 从而保留模糊信息。

The approximate number of demonstrators in front of the mu nicipal office building was 900.在市政办公大楼前示威的人数约有九百人。

当英语中的模糊信息存在不对称性时, 就需要用另一种语言中的非对等词来表达语义相同的模糊信息。

I could give you a hundred and one reasons for not going.我可以给你说出许多不去的理由。

4.2 意译

对于一些模糊表达, 可以不必拘泥于其字面上表达的意思。而是将其蕴涵的意思进行具体的延伸, 便于接受者理解。

Every life has its roses and thorns.每个人的生活都有甜有苦。本句中的“roses and thorns”如果直译的话为“玫瑰和荆棘”, 但这里译为“有甜有苦”, 更恰当地表达了句中的含义。

4.3 省略

对于在一些在口语表达中并不具有具体的实际意义的模糊信息, 在翻译中可以省略。

True greatness has little, if anything, to do with rank or pow-er.真正的伟大是几乎与地位和权力无关的。

在经贸谈判中, 有些模糊信息的运用仅仅是为了不留下漏洞, 起到防患于未然的作用。这种情况下, 译者可以在不扭曲原文的情况下, 进行适当的省略, 避免句子显得过于冗长繁杂。

The parties undertake to act in good faith with respect to each other’s rights under this contract and to adapt all reasonable measures to ensure the realization of the objectives of this contract.双方将公平地对待相互所享有的合同赋予的权利, 并采取一切合理的措施保证本合同的实施。

4.4 补充

英语中的某些模糊表达在译成中文时, 需要译者进行适当的添加。使之通顺, 更易于理解。

The education of the young is seen to be of primary impor-tance.人们认识到, 青年的教育占头等重要的地位。

在本句中, 原文的“is seen to”仅仅是“被看作”的意思, 并未说明是“在谁看来”, 但根据英语的约定俗成性, 译者知道其指的是“人们认识到”, 因此翻译时补充一下, 接受者就容易理解了。

We’d like to quote our new customers the most reasonable price to start our business relationship for the future, even at the cost of a substantial loss on our part.为了推动我们将来业务关系的发展, 我们愿意给新客户以最公道的价格, 即使这样做会令我方蒙受相当大的损失, 我们也在所不惜。

本句中出现了相当多的模糊信息, 译者逐一对应进行了翻译。并且注意到“the most reasonable price”, “a substantia loss”这些信息都是买方在强调他们提供的条件之优惠, 因此在翻译even时除了“即使……”, 补充了一句“我们也在所不惜”, 更进一步强调了其优惠的程度。

4.5 汉语化

作为不同的语言体系, 英汉两国语言在遣词造句、句法结构上都存在着差异性。这就需要译者根据汉语的语言习惯进行适当的调整, 使译文既保留了原意, 又听来通顺, 达到“通达”的标准。

A book may be compared to your neighbor, if it be good, i cannot last too long, if bad, you cannot get rid of it too early.一本书可以比作邻居。如果是好的.结识愈久愈好;如果是坏的.分手愈早愈好。

本句中“can not last too long”, “cannot get rid of it too early”如果译为“维持再长时间都不算多, 摆脱得再早也不算过分”则在中国人听来感觉别扭, 而适当地调整一下, 效果就好多了。

5. 结语

【信息预处理】推荐阅读：

财务信息处理10-17

数据信息处理05-21

信息查询处理06-17

移动信息处理06-22

信息处理方式08-19

遥感信息处理09-12

光电信息处理10-04

信息与信息处理教学设计10-25

不完备信息处理10-14